1.一种确定商品的推荐税收分类编码的系统,其特征在于,所述系统包括:发票数据采集单元,其用于采集纳税人信息和增值税发票数据;发票数据清洗单元,其用于将发票数据采集单元采集的增值税发票数据进行预处理,清洗所述发票数据中没有利用价值的冗余数据;发票数据分析单元,其用于针对发票数据中的每一种商品,计算所述商品曾经开出的每一种分类编码的使用率,其计算公式为:其中,P i 是每种商品第i种分类编码的使用率,A i 是每种商品第i种分类编码的全部纳税人的开票总次数,B是每种商品的全部分类编码的全部纳税人的开票次数的总和,1≤i≤n,n是自然数;发票模型建立单元,其用于根据纳税人在每种商品的分类编码的使用率上的权重值大小对每种商品的分类编码的使用率进行校正,并对校正后的分类编码使用率进行归一化以建立数学模型,其中,当商品所属行业和纳税人经营范围都与商品相符时,设置使用率的权重值为α,当商品所属行业和纳税人经营范围中有一个与商品相符时,设置使用率的权重值为β,当商品所属行业和纳税人经营范围与商品都不相符时,设置使用率的权重值为γ,则对每种商品的分类编码的使用率进行校正的公式和数学模型的公式分别为:其中,P i ′是进行校正后的每种商品第i种分类编码的使用率,X i 是每种商品第i种分类编码中权重值为α的纳税人的开票总次数,Y i 是每种商品第i种分类编码中权重值为β的纳税人的开票总次数,Z i 是每种商品第i种分类编码中权重值为γ的纳税人的开票总次数,B是每种商品的全部分类编码的全部纳税人的开票次数的总和,P i "是每种商品第i种分类编码进行归一化后的使用率, 是每种商品的每种分类编码进行校正后的使用率的和,1≤i≤n,n是自然数;测试单元,其用于将商品分类编码已知的发票数据导入建立的发票模型并设置不同的α、β和γ后进行测试,求解发票模型中的商品所述行业和经营范围对使用率的权重值α、β和γ的最优值,并基于确定的权重值的最优值计算每种商品的每种税收分类编码的使用率以确定每种商品的推荐分类编码。
2.根据权利要求1所述的系统,其特征在于,所述发票数据采集单元采集的数据包括金税三期、开票软件和发票平台的纳税人信息和增值税发票数据。
3.根据权利要求1所述的系统,其特征在于,所述发票数据清洗单元的预处理是将发票数据采集单元采集的发票数据导入Hadoop数据平台,使用Spark程序清洗发票数据中的冗余数据。
4.根据权利要求1所述的系统,其特征在于,所述系统还包括商品税收分类编码推荐单元,其用于对每种商品的不同分类编码进行归一化后的使用率排序,并将最大值对应的税收分类编码作为推荐税收分类编码反馈至开票人客户端。
5.根据权利要求1所述的系统,其特征在于,发票模型建立单元的α的值是1,β值是0.5,γ值是0.2。
6.一种确定商品的推荐税收分类编码的方法,其特征在于,所述方法包括:采集纳税人信息和增值税发票数据;对采集的增值税发票数据进行预处理,清洗所述发票数据中没有利用价值的冗余数据;针对清除冗余数据后的发票数据中的每一种商品,计算所述商品曾经开出的每一种分类编码的使用率,其计算公式为:其中,P i 是每种商品第i种分类编码的使用率,A i 是每种商品第i种分类编码的全部纳税人的开票总次数,B是每种商品的全部分类编码的全部纳税人的开票次数的总和,1≤i≤n,n是自然数;根据纳税人在每种商品的分类编码的使用率上的权重值大小对每种商品的分类编码的使用率进行校正,并对校正后的分类编码使用率进行归一化以建立数学模型,其中,当商品所属行业和纳税人经营范围都与商品相符时,设置使用率的权重值为α,当商品所属行业和纳税人经营范围中有一个与商品相符时,设置使用率的权重值为β,当商品所属行业和纳税人经营范围与商品都不相符时,设置使用率的权重值为γ,则对每种商品的分类编码的使用率进行校正的公式和数学模型的公式分别为:其中,P i ′是进行校正后的每种商品第i种分类编码的使用率,X i 是每种商品第i种分类编码中权重值为α的纳税人的开票总次数,Y i 是每种商品第i种分类编码中权重值为β的纳税人的开票总次数,Z i 是每种商品第i种分类编码中权重值为γ的纳税人的开票总次数,B是每种商品的全部分类编码的全部纳税人的开票次数的总和,P i "是每种商品第i种分类编码进行归一化后的使用率, 是每种商品的每种分类编码进行校正后的使用率的和,1≤i≤n,n是自然数;将商品分类编码已知的发票数据导入建立的发票模型并设置不同的α、β和γ后进行测试,求解发票模型中的商品所述行业和经营范围对使用率的权重值α、β和γ的最优值,并基于确定的权重值的最优值计算每种商品的每种税收分类编码的使用率以确定每种商品的推荐分类编码。
7.根据权利要求6所述的方法,其特征在于,对采集的增值税发票数据进行预处理是将发票数据采集单元采集的发票数据导入Hadoop数据平台,使用Spark程序清洗发票数据中的冗余数据。
8.根据权利要求6所述的方法,其特征在于,对每种商品的不同分类编码进行归一化后的使用率进行排序,其中,最大值对应的税收分类编码是所述商品的推荐税收分类编码。
9.根据权利要求6所述的方法,其特征在于,α的值是1,β值是0.5,γ值是0.2。