首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 一种基于PU learning的跨区域企业偷漏税识别方法

一种基于PU learning的跨区域企业偷漏税识别方法

阅读:856发布:2020-05-15

专利汇可以提供一种基于PU learning的跨区域企业偷漏税识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于PU learning的跨区域企业偷漏税识别方法,包括:首先,基于PU learning,利用源域少量带标签的正样本生成源域中无标签样本的标签;其次,通过最大化分类器差异的域适应方法构建跨区域企业偷漏税识别模型;最后,利用训练好的偷漏税识别模型对目标域的纳税数据进行偷漏税识别。本发明在源域纳税数据只有正样本和大量无标记样本的情况下,实现给纳税数据没有标签的目标域建立偷漏税识别模型的目的。,下面是一种基于PU learning的跨区域企业偷漏税识别方法专利的具体信息内容。

1.一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,首先,基于PU learning,利用源域少量带标签的正样本生成源域中无标签样本的标签;其次,通过最大化分类器差异的域适应方法构建跨区域企业偷漏税识别模型;最后,利用训练好的偷漏税识别模型对目标域的纳税数据进行偷漏税识别。
2.根据权利要求1所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,跨区域企业偷漏税识别模型的构建分为源域标签生成和通过最大化分类器差异的域适应方法实现跨区域偷漏税识别两部分。
3.根据权利要求2所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,源域标签生成的具体步骤包括:
Step1:源域纳税数据划分
1.将源域纳税数据分为正样本集 和无标注样本集
2.在无标注样本集 中抽取K个样本作为实验用的无标注样本集
3.抽样后剩余的样本作为待使用样本集,记为 x为 的一个样本,其中
Step2:利用抽样的未标记样本和正样本训练模型
将Step1中划分的抽样的无标注样本集 作为负样本,利用正样本 和负样本 训练一个分类器ft(x),然后利用分类器ft(x)对抽样剩余无标注样本集 进行概率预测;再利用抽样可放回的方法划分数据集,进行T轮训练,并且记录剩余的未标记样本集 中每个样本x被分类器ft(x)预测的次数n(x),不断地更新最终的分类器f(x)和预测次数n(x):
f(x)←f(x)+ft(x)
n(x)←n(x)+1
Step3:生成源域剩余标签
最终用f(x)/n(x)表示剩余无标签样本的标签概率,如果f(x)/n(x)>0.5,则标记为正样本;如果f(x)/n(x)<0.5,则标记为负样本,最终得到未标注样本集 中的所有样本标签。
4.根据权利要求3所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,最大化分类器差异的域适应方法实现跨区域偷漏税识别,具体如下:
基于PU learning的跨区域企业偷漏税识别模型由两部分组成:一个特征生成器和两个偷漏税识别分类器;特征生成器先以基于PU learning生成的带标签的源域数据作为输入,生成源域纳税数据的特征边界,再以目标域的纳税数据作为输入,从而检测出源域特征边界之外的目标域样本,最后将源域和目标域纳税数据进行域适应;两个偷漏税识别分类器均以特征生成器的输出作为输入,用于识别纳税数据对应的企业是否存在偷漏税行为。
5.根据权利要求4所述的一种基于PU learning的跨区域企业偷漏税识别方法,其特征在于,特征生成器和偷漏税识别分类器均采用深度神经网络,具体的构建步骤为:
(1)构建特征生成器
特征生成器通过与偷漏税识别分类器对抗的方式,使得提取出的目标域特征在源域特征边界附近,以此来实现域适应;特征生成器是一种神经网络结构的模型,构建特征生成器的步骤包括:
1.确定特征生成器的输入层,输入层神经元数等于纳税数据的维度;
2.确定特征生成器的输出层,输出层神经元数可根据实验效果进行调整;
3.确定特征生成器隐层,隐层采用全连接网络;
记特征生成器为G,G(x)表示特征生成器的输出,x是源域和目标域纳税数据,xs表示源域的纳税数据,xt表示目标域的纳税数据;特征生成器是标准的前馈神经网络,采用BP算法更新参数;
(2)构建偷漏税识别分类器
两个偷漏税识别分类器均为神经网络结构的模型,构建步骤相同,构建偷漏税识别分类器的步骤包括:
1.确定偷漏税识别分类器的输入层,输入层神经元数等于特征生成器输出层的神经元数;
2.确定偷漏税识别分类器的输出层,因为偷漏税识别属于二分类问题,所以输出层神经元数为两个,输出层激活函数采用softmax;
3.确定偷漏税识别分类器的隐层,隐层采用全连接网络;
记F1和F2分别为两个偷漏税识别分类器,F1的输出结果为向量(p11,p12),F2的输出结果为向量(p21,p22),其中,pij(i,j=1,2)是一个[0,1]的概率值,F1和F2各自的输出神经元概率之和均为1.0,输出结果p11+p21>p12+p22表示存在偷漏税行为,输出结果p11+p21<p12+p22表示不存在偷漏税行为;当模型训练完成时,企业是否偷漏税由两个偷漏税识别分类器的结果共同决定;为了方便起见,p1(y|x)和p2(y|x)分别表示F1和F2获得输入x后的输出;用d(p1(y|xt),p2(y|xt))来衡量目标域纳税数据的差异,其中d表示衡量两个概率输出之间的偏差的函数,采用L1距离:
(3)偷漏税识别模型的训练
Step1:初始化神经网络参数
神经网络参数的初始化,在网络层数很深的情况下变得尤为重要;参数初始化满足以下两个条件:各层激活值不会出现饱和现象以及各层激活值不为0;Xavier初始化那个帮助减少梯度弥散问题,使得信号在神经网络中那个传递得更深,所以网络参数初始化采用Xavier初始化,具体形式表示为:
其中,nin是参数所在层的输入维度,nout是参数所在层的输出维度,Wi,j是各个神经元之间的权重;
Step2:获取特定任务判别特征
为了使分类器和生成器获得特定于任务的判别特征,需要训练分类器和生成器以正确分类源域纳税数据,分类器的分类效果由损失函数表示,损失函数越小代表分类器和生成器学习到的任务特征越多,分类效果越好;偷漏税识别分类器的输出层采用softmax激活函数,训练网络以最小化交叉熵函数,优化目标见下:
其中,Xs表示源域纳税数据样本集,Ys表示源域纳税数据标签集,xs表示一个源域纳税数据样本,ys表示一个源域纳税数据标签,K表示类别数量;
使用BP算法调整模型的网络参数,学习过程由信号的正向传播与误差反向传播组成,过程包括:
1.正向传播时,输入纳税数据从特征生成器的输入层传入,经过各隐层逐层处理后,传向两个偷漏税识别分类器的输出层;若偷漏税识别分类器的输出层的实际输出与对应标签值不相同,则转入误差的反向传播阶段;
2.误差反向传播是将偷漏税识别分类器的输出误差以某种形式通过隐层向特征生成器的输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号作为修正单元权值的依据;
3.信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整的过程,也就是网络学习训练的过程,此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止;
Step3:最大化目标差异
在该步骤中,不更新特征生成器G的参数,通过训练两个偷漏税识别分类器F1和F2以增加差异,从而检测出在源域特征边界外的目标域纳税数据;两个分类器的差异越大,说明有越多的目标域纳税数据在源域特征边界之外,将目标域纳税数据输入到模型中进行训练并更新偷漏税识别分类器的参数;原目标是最大化两个分类器的目标差异,这里通过对目标函数进行取反,最终将最大化目标函数转化为最小化损失函数,损失函数见下:
其中,Xt表示未标记的目标域纳税数据样本集,xt表示一个目标域纳税数据样本;
使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从偷漏税识别分类器的输出层开始到偷漏税识别分类器输入层截至向前调整的,此时改变的是偷漏税识别分类器中的网络参数,特征生成器的网络参数不进行改变;
Step4:最小化目标差异
在Step3的基础上,固定两个偷漏税识别分类器的参数,通过训练特征生成器来最小化目标域纳税数据的差异,通过特征生成器与两个偷漏税识别分类器进行对抗学习,使得目标域的纳税数据尽可能在源域特征边界内,这个训练过程会进行n次,n是一个超参数,代表特征生成器与偷漏税识别分类器之间的权衡;以最小化偷漏税识别网络的损失函数为目标,优化目标见下:
使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从特征生成器的输出层开始到特征生成器输入层截至向前调整的,此时改变的是特征生成器中的网络参数,两个偷漏税识别分类器的网络参数不进行改变;
(4)企业偷漏税识别
将要识别的纳税数据输入到特征生成器中,然后综合两个偷漏税识别分类器的输出结果判断企业是否存在偷漏税行为。

说明书全文

一种基于PU learning的跨区域企业偷漏税识别方法

技术领域

[0001] 本发明属于税务稽查技术领域,具体涉及一种基于PU learning的跨区域企业偷漏税识别方法。

背景技术

[0002] 近年来,随着计算机科学和互联网技术的迅速发展,国内税务征收管理和信息技术的结合成为了大数据时代下的发展趋势。其中,随着“金税三期”和“互联网+税务”的开展,国内税务部积累了海量的涉税数据。如何充分有效地利用这些涉税数据来实施税务稽查成为了新的挑战。
[0003] 由于人和时间的限制,税务稽查部门无法对每一个纳税人进行稽查,一般先通过稽查选案抽样出具有偷漏税嫌疑的纳税人,并针对这部分纳税人进行稽查。目前稽查选案方法包括:传统人工选案方法和基于大数据挖掘的选案方法。随着税务数据急剧增加,基于大数据挖掘的选案方法以其自动化、高效、覆盖面广的优势逐渐代替了人工选案。但是在税务领域中,基于数据挖掘的选案方法仍面临以下问题:由于各省市之间经济发展不均衡,导致税务数据的规模和特征都存在很大的差异;有些地区(源域)数据处理地规范,标记的数据充足,但是有些地区(目标域)缺乏甚至没有标记好的数据;由于税务稽查受限于有限的人力物力,即便在发达地区也不能对全部企业进行稽查,实际中往往采用抽样稽查方法,使得标记数据充足的地区(源域)也仅有少量标记好的正标签,因此无法建立统一的偷漏税识别模型。
[0004] 针对面临的难题,以下文献提供了可参考的基于数据挖掘技术通过计算机自动地进行企业偷漏税识别的相关方法:
[0005] 文献1.基于支持向量机和领域知识的纳税评估预警模型[J].数学的实践与认识,2014,44(1):72-77;
[0006] 文献2.一种基于深度对抗迁移学习的企业偷漏税识别方法(2019100650958)。
[0007] 文献1提出了一种基于支持向量机和领域知识的纳税评估预警模型。首先利用SVM筛选出有涉税疑点的企业,然后在领域知识的指导下结合统计分析方法,进一步找出可疑对象偏离正常统计值的指标。通过实验分析表明该方法具有可行性。
[0008] 文献2提出了一种基于深度对抗迁移学习的企业偷漏税识别方法,通过利用源域的纳税数据,构建适用于目标域的偷漏税识别模型,解决了因目标域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题。
[0009] 以上文献所述方法主要存在以下问题:文献1的识别模型要求纳税数据的特征独立同分布且需要依赖一定的专家知识,不能解决不同地区纳税数据特征分布不同而无法有效地进行跨区域偷漏税识别这一问题。文献2的方法需要源域纳税数据有全部标签,但实际的税务场景中源域纳税数据往往只有正样本和大量无标记样本,该方法的前提假设与实际的税务场景不符,源域纳税数据的标记需要花费大量的时间和成本,使得模型的可行性很低。

发明内容

[0010] 本发明的目的在于针对上述文献中存在的不足,为了解决不同地区纳税数据特征分布不同,并且实际的税务场景中源域纳税数据只有正样本和大量无标记样本这两个税务领域的核心问题,提供了一种基于PU learning的跨区域企业偷漏税识别方法,该方法引入了基于PU learning的跨区域企业偷漏税识别模型,该模型先利用PU learning为源域的未标记样本生成标签,然后通过最大化分类器差异的域适应方法实现跨区域偷漏税识别。本发明在源域纳税数据只有正样本和大量无标记样本的情况下,实现给纳税数据没有标签的目标域建立偷漏税识别模型的目的。
[0011] 本发明采用如下技术方案来实现的:
[0012] 一种基于PU learning的跨区域企业偷漏税识别方法,首先,基于PU learning,利用源域少量带标签的正样本生成源域中无标签样本的标签;其次,通过最大化分类器差异的域适应方法构建跨区域企业偷漏税识别模型;最后,利用训练好的偷漏税识别模型对目标域的纳税数据进行偷漏税识别。
[0013] 本发明进一步的改进在于,跨区域企业偷漏税识别模型的构建分为源域标签生成和通过最大化分类器差异的域适应方法实现跨区域偷漏税识别两部分。
[0014] 本发明进一步的改进在于,源域标签生成的具体步骤包括:
[0015] Step1:源域纳税数据划分
[0016] 1.将源域纳税数据分为正样本集 和无标注样本集
[0017] 2.在无标注样本集 中抽取K个样本作为实验用的无标注样本集
[0018] 3.抽样后剩余的样本作为待使用样本集,记为 x为 的一个样本,其中[0019] Step2:利用抽样的未标记样本和正样本训练模型
[0020] 将Step1中划分的抽样的无标注样本集 作为负样本,利用正样本 和负样本训练一个分类器ft(x),然后利用分类器ft(x)对抽样剩余无标注样本集 进行概率预测;再利用抽样可放回的方法划分数据集,进行T轮训练,并且记录剩余的未标记样本集 中每个样本x被分类器ft(x)预测的次数n(x),不断地更新最终的分类器f(x)和预测次数n(x):
[0021] f(x)←f(x)+ft(x)
[0022] n(x)←n(x)+1
[0023] Step3:生成源域剩余标签
[0024] 最终用f(x)/n(x)表示剩余无标签样本的标签概率,如果f(x)/n(x)>0.5,则标记为正样本;如果f(x)/n(x)<0.5,则标记为负样本,最终得到未标注样本集 中的所有样本标签。
[0025] 本发明进一步的改进在于,最大化分类器差异的域适应方法实现跨区域偷漏税识别,具体如下:
[0026] 基于PU learning的跨区域企业偷漏税识别模型由两部分组成:一个特征生成器和两个偷漏税识别分类器;特征生成器先以基于PU learning生成的带标签的源域数据作为输入,生成源域纳税数据的特征边界,再以目标域的纳税数据作为输入,从而检测出源域特征边界之外的目标域样本,最后将源域和目标域纳税数据进行域适应;两个偷漏税识别分类器均以特征生成器的输出作为输入,用于识别纳税数据对应的企业是否存在偷漏税行为。
[0027] 本发明进一步的改进在于,特征生成器和偷漏税识别分类器均采用深度神经网络,具体的构建步骤为:
[0028] (1)构建特征生成器
[0029] 特征生成器通过与偷漏税识别分类器对抗的方式,使得提取出的目标域特征在源域特征边界附近,以此来实现域适应;特征生成器是一种神经网络结构的模型,构建特征生成器的步骤包括:
[0030] 1.确定特征生成器的输入层,输入层神经元数等于纳税数据的维度;
[0031] 2.确定特征生成器的输出层,输出层神经元数可根据实验效果进行调整;
[0032] 3.确定特征生成器隐层,隐层采用全连接网络;
[0033] 记特征生成器为G,G(x)表示特征生成器的输出,x是源域和目标域纳税数据,xs表示源域的纳税数据,xt表示目标域的纳税数据;特征生成器是标准的前馈神经网络,采用BP算法更新参数;
[0034] (2)构建偷漏税识别分类器
[0035] 两个偷漏税识别分类器均为神经网络结构的模型,构建步骤相同,构建偷漏税识别分类器的步骤包括:
[0036] 1.确定偷漏税识别分类器的输入层,输入层神经元数等于特征生成器输出层的神经元数;
[0037] 2.确定偷漏税识别分类器的输出层,因为偷漏税识别属于二分类问题,所以输出层神经元数为两个,输出层激活函数采用softmax;
[0038] 3.确定偷漏税识别分类器的隐层,隐层采用全连接网络;
[0039] 记F1和F2分别为两个偷漏税识别分类器,F1的输出结果为向量(p11,p12),F2的输出结果为向量(p21,p22),其中,pij(i,j=1,2)是一个[0,1]的概率值,F1和F2各自的输出神经元概率之和均为1.0,输出结果p11+p21>p12+p22表示存在偷漏税行为,输出结果p11+p21<p12+p22表示不存在偷漏税行为;当模型训练完成时,企业是否偷漏税由两个偷漏税识别分类器的结果共同决定;为了方便起见,p1(y|x)和p2(y|x)分别表示F1和F2获得输入x后的输出;用d(p1(y|xt),p2(y|xt))来衡量目标域纳税数据的差异,其中d表示衡量两个概率输出之间的偏差的函数,采用L1距离:
[0040]
[0041] (3)偷漏税识别模型的训练
[0042] Step1:初始化神经网络参数
[0043] 神经网络参数的初始化,在网络层数很深的情况下变得尤为重要;参数初始化满足以下两个条件:各层激活值不会出现饱和现象以及各层激活值不为0;Xavier初始化那个帮助减少梯度弥散问题,使得信号在神经网络中那个传递得更深,所以网络参数初始化采用Xavier初始化,具体形式表示为:
[0044]
[0045] 其中,nin是参数所在层的输入维度,nout是参数所在层的输出维度,Wi,j是各个神经元之间的权重;
[0046] Step2:获取特定任务判别特征
[0047] 为了使分类器和生成器获得特定于任务的判别特征,需要训练分类器和生成器以正确分类源域纳税数据,分类器的分类效果由损失函数表示,损失函数越小代表分类器和生成器学习到的任务特征越多,分类效果越好;偷漏税识别分类器的输出层采用softmax激活函数,训练网络以最小化交叉熵函数,优化目标见下:
[0048]
[0049]
[0050] 其中,Xs表示源域纳税数据样本集,Ys表示源域纳税数据标签集,xs表示一个源域纳税数据样本,ys表示一个源域纳税数据标签,K表示类别数量;
[0051] 使用BP算法调整模型的网络参数,学习过程由信号的正向传播与误差反向传播组成,过程包括:
[0052] 1.正向传播时,输入纳税数据从特征生成器的输入层传入,经过各隐层逐层处理后,传向两个偷漏税识别分类器的输出层;若偷漏税识别分类器的输出层的实际输出与对应标签值不相同,则转入误差的反向传播阶段;
[0053] 2.误差反向传播是将偷漏税识别分类器的输出误差以某种形式通过隐层向特征生成器的输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号作为修正单元权值的依据;
[0054] 3.信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整的过程,也就是网络学习训练的过程,此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止;
[0055] Step3:最大化目标差异
[0056] 在该步骤中,不更新特征生成器G的参数,通过训练两个偷漏税识别分类器F1和F2以增加差异,从而检测出在源域特征边界外的目标域纳税数据;两个分类器的差异越大,说明有越多的目标域纳税数据在源域特征边界之外,将目标域纳税数据输入到模型中进行训练并更新偷漏税识别分类器的参数;原目标是最大化两个分类器的目标差异,这里通过对目标函数进行取反,最终将最大化目标函数转化为最小化损失函数,损失函数见下:
[0057]
[0058]
[0059] 其中,Xt表示未标记的目标域纳税数据样本集,xt表示一个目标域纳税数据样本;
[0060] 使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从偷漏税识别分类器的输出层开始到偷漏税识别分类器输入层截至向前调整的,此时改变的是偷漏税识别分类器中的网络参数,特征生成器的网络参数不进行改变;
[0061] Step4:最小化目标差异
[0062] 在Step3的基础上,固定两个偷漏税识别分类器的参数,通过训练特征生成器来最小化目标域纳税数据的差异,通过特征生成器与两个偷漏税识别分类器进行对抗学习,使得目标域的纳税数据尽可能在源域特征边界内,这个训练过程会进行n次,n是一个超参数,代表特征生成器与偷漏税识别分类器之间的权衡;以最小化偷漏税识别网络的损失函数为目标,优化目标见下:
[0063]
[0064] 使用BP算法调整模型的网络参数,该步骤中BP算法参数调整是从特征生成器的输出层开始到特征生成器输入层截至向前调整的,此时改变的是特征生成器中的网络参数,两个偷漏税识别分类器的网络参数不进行改变;
[0065] (4)企业偷漏税识别
[0066] 将要识别的纳税数据输入到特征生成器中,然后综合两个偷漏税识别分类器的输出结果判断企业是否存在偷漏税行为。
[0067] 本发明至少具有如下有益的技术效果:
[0068] 本发明提供的一种基于PU learning的跨区域企业偷漏税识别方法,用于解决税务稽查领域中源域的纳税数据有正样本和无标记样本,目标域的纳税数据缺乏标记样本而无法有效地识别企业是否存在偷漏税行为这一难题,与现有的技术相比,本发明方法具有以下优势:1.通过机器学习方法对偷漏税识别模型进行训练,无需对目标域的纳税数据进行标注,节省了人力的投入;2.基于最大化分类器差异的域适应这一迁移学习方法,只需将源域与目标域的纳税数据进行模型的训练便可在目标域进行偷漏税识别,可以将模型推广到任意区域;3.本发明提出的模型可在实际的税务稽查场景中使用。
[0069] 综上所述,本发明通过利用正样本和大量无标记样本的源域纳税数据,构建适用于目标域的偷漏税识别模型,解决了实际税务稽查场景中因源域纳税数据仅有少量正样本以及不同地区纳税数据特征分布不同而无法建立有效的跨区域偷漏税识别模型的问题。附图说明
[0070] 图1为本发明整体框架流程图
[0071] 图2为生成源域剩余标签示意图;
[0072] 图3为跨区域企业偷漏税识别模型网络结构示意图;
[0073] 图4为特征生成器网络结构示意图;
[0074] 图5为偷漏税识别分类器网络结构示意图;
[0075] 图6为偷漏税识别模型网络参数确定示意图;
[0076] 图7为利用纳税数据调整生成器和分类器网络参数示意图。

具体实施方式

[0077] 为了更清楚地说明本发明的技术方案,下面结合附图和具体实施例对本发明一种基于PU learning的跨区域企业偷漏税识别方法进行详细描述。
[0078] 本实施例中源域为广东省,目标域为陕西省,使用由正样本和无标记样本组成的广东省纳税数据和完全无标签的陕西省纳税数据建立陕西省企业偷漏税识别模型。如图1所示,本发明主要包括以下步骤:
[0079] 步骤1.生成源域纳税数据标签
[0080] 由于广东省纳税数据中,被标记为正样本(偷漏税企业)的纳税数据只占广东省样本数量的一小部分,广东省绝大多数的纳税数据均无标签。未被标记的纳税数据中同时存在着偷漏税企业与未偷漏税企业,图2是通过PU learning得到广东省纳税数据所有标签的流程图。广东省纳税数据标签生成的具体步骤为:
[0081] S201.广东省纳税数据划分
[0082] 广东省纳税数据中有少量正样本和大量无标记样本,记 为广东省正样本集,记为广东省未标记样本集;从未标记样本集 中抽样取K个样本,记为 剩余的广东省无标记样本集记为 x为一个广东省无标记样本。
[0083] S202.利用抽样的未标记样本和正样本训练模型
[0084] 利用S201中划分的抽样的无标记样本集 作为负样本,利用正样本集 和负样本集 训练一个分类器ft(x),然后利用分类器ft(x)对抽样剩余无标签样本集 进行概率预测。再利用抽样可放回的方法划分数据集,进行T轮训练,并且记录剩余的未标记样本集中每个样本x被分类器ft(x)预测的次数n(x),不断地更新分类器f(x)和预测次数n(x):
[0085] f(x)←f(x)+ft(x)
[0086] n(x)←n(x)+1
[0087] S203.生成广东省纳税数据的标签
[0088] 最终用f(x)/n(x)表示广东省剩余无标签样本的标签概率,如果f(x)/n(x)>0.5,则标记为正样本;如果f(x)/n(x)<0.5,则标记为负样本。最终得到未标注样本集 中的所有样本标签。
[0089] 步骤2.构建跨区域企业偷漏税识别模型
[0090] 使用根据步骤1得到的广东省纳税数据和陕西省纳税数据作为模型的输入,预测纳税企业是否存在偷漏税行为。图3是跨区域企业偷漏税识别模型的网络结构示意图,该网络结构由两部分组成:一个特征生成器G和两个偷漏税识别分类器F1与F2。特征生成器将带标签的广东省纳税数据和无标签的陕西省纳税数据作为输入,通过与偷漏税识别分类器相对抗的方式,提取出样本的判别特征,并对齐广东省和陕西省特征。两个偷漏税识别分类器均以特征生成器的输出作为输入,在与特征生成器对抗的过程中,不断优化其对陕西省纳税数据的检测能力,用于识别纳税数据是否存在偷漏税行为。
[0091] 构建跨区域企业偷漏税识别模型框架的详细构建步骤为:
[0092] (1)特征生成器的结构设计
[0093] 特征生成器通过与偷漏税识别分类器相对抗的方式,提取出样本的判别特征,最终使得偷漏税识别分类器能够检测不同区域的偷漏税。本发明中特征生成器是一个四层的神经网络结构如图4所示,根据输入的纳税数据特征维数确定特征生成器的输入神经元个数L1,本实施例中L1为23,第二层和第三层是隐层,隐层网络的神经元个数分别为L2和L3,本实施例中L2和L3分别为20和16,第四层的神经元个数为L4,本实施例中L4为12。
[0094] (2)偷漏税识别分类器的结构设计
[0095] 两个偷漏税识别分类器均利用特征生成器提取的特征对纳税数据进行偷漏税检测,本实施例中两个偷漏税识别分类器网络结构相同但参数不同,均为三层的神经网络如图5所示,以特征生成器的输出作为输入,因此输入层的神经元数量L5等于特征生成器输出层的神经元数量L4,本实施例中L4=L5=12。第二层是隐层网络,神经元个数为L6,本实施例中L6为6。第三层为输出层,该任务是二分类问题,所以输出层的神经元个数L7=2,F1的输出结果为向量(p11,p12),F2的输出结果为向量(p21,p22),其中,pij是一个区间[0,1]的概率值,F1和F2各自的输出神经元之和均为1.0,输出结果p11+p21>p12+p22表示存在偷漏税行为,输出结果p11+p21<p12+p22表示不存在偷漏税行为。
[0096] 步骤3.训练企业偷漏税识别模型以调整网络参数
[0097] 企业偷漏税识别模型网络参数确定的详细步骤如图6所示:
[0098] S601.初始化神经网络参数
[0099] 经过步骤2确定网络结构后,需要确定网络参数。本实施例中的所有神经网络都是全连接网络,隐层的激活函数均采用线性整流函数(ReLU),形式化表示为:
[0100] f(x)=max(0,x)
[0101] 其中x为神经元的输入。
[0102] 两个偷漏税识别分类器的输出层均采用softmax激活函数,形式化表示为:
[0103]
[0104] 其中Vi是分类器前级输出单元的输出,i表示类别索引,总的类别个数为C,Si表示的是当前元素的指数与所有元素指数和的比值。
[0105] 神经网络参数的初始化对网络的训练很重要,好的初始化参数能加速收敛。本实施例采用Xavier初始化参数,Xavier初始化可以帮助减少梯度弥散问题,使得信号在神经网络中可以传递得更深,具体形式为:
[0106]
[0107] 其中,nin是参数所在层的输入维度,nout是参数所在层的输出维度,Wi,j是各个神经元之间的权重。
[0108] S602.利用广东省纳税数据调整生成器和分类器网络参数
[0109] 利用广东省纳税数据训练分类器和生成器如图7所示,分类器的分类效果由损失函数表示,损失函数越小代表分类器和生成器学习到的任务特征越多,分类效果越好。偷漏税识别分类器的输出层采用softmax激活函数,训练网络以最小化交叉熵函数,优化目标见下:
[0110]
[0111] 其中,Xs表示源域纳税数据样本集,本实施例中Xs为广东省纳税数据;Ys表示源域纳税数据标签集,本实施例中Ys为广东省纳税数据标签;xs表示一个广东省纳税数据样本;ys表示一个广东省纳税数据标签;K表示类别个数,本实施例为二分类问题,所以K=2。
[0112] 使用BP算法调整模型的网络参数,BP算法参数调整是从网络的输出层开始从后向前调整,模型参数调整的过程先调整两个偷漏税识别分类器网络参数,然后调整特征生成器网络参数。
[0113] S603.利用陕西省纳税数据调整偷漏税识别分类器网络参数
[0114] 该步骤通过最大化目标特征的差异,可以针对不同的分类器学习到不同的特征表示,使得分类器能够检测出广东省纳税数据特征边界之外的陕西省纳税数据样本。如图7所示,输入陕西省纳税数据,固定特征生成器G,训练两个不同的偷漏税识别分类器F1和F2,使得它们的差异最大,两个分类器的差异用最简单的L1损失来衡量,F1和F2的差异损失记为-d(p1(y|xt),p2(y|xt))。由于该步骤需要最大化目标差异,可以通过对该优化目标进行取反,变成通过最小化优化目标来实现最大化目标差异。优化目标为:
[0115]
[0116]
[0117] 其中,Xt表示目标域样本集合,本实施例中Xt为陕西省纳税数据样本集;xt表示一个陕西省纳税数据样本。
[0118] 使用BP算法调整模型的网络参数,BP算法参数调整是从偷漏税识别分类器的输出层开始从后向前调整至分类器的输入层。
[0119] S604.利用陕西省纳税数据调整特征生成器网络参数
[0120] 该步骤通过最小化目标特征的差异,提取出更好的特征来减少两个分类器的分歧。如图7所示,输入陕西省纳税数据,固定两个偷漏税识别分类器F1和F2,优化特征生成器G,使得特征对两个分类器效果尽可能一样,使得分类器F1和F2的差异损失要尽可能小,记F1和F2的差异损失为d(p1(y|xt),p2(y|xt))。优化目标为:
[0121]
[0122] 使用BP算法调整模型的网络参数,BP算法参数调整是从特征生成器的输出层开始从后向前调整至生成器的输入层。
[0123] n表示该步骤进行的次数,是一个超参数,表示特征生成器与偷漏税识别分类器之间的权衡。通过调整该步骤进行的次数n使得决策边界具有鲁棒性,增强模型的性能。
[0124] 步骤4.跨区域企业偷漏税识别
[0125] 根据步骤3得到的模型对陕西省的纳税数据进行偷漏税识别。将陕西省纳税数据输入到特征生成器中,两个偷漏税识别分类器的输出共同决定偷漏税识别结果,将有偷漏税行为的数据进行标记。在广东省纳税数据有少量正样本和大量无标记样本,陕西省纳税数据无标签的情况下,该方法为跨区域企业偷漏税识别提供了可解决的方案。
[0126] 本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈