首页 / 专利库 / 图形技术 / HSL色彩模式 / 饱和度 / 对信息饱和度不均衡数据的处理方法

对信息饱和度不均衡数据的处理方法

阅读:51发布:2020-05-08

专利汇可以提供对信息饱和度不均衡数据的处理方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及对信息 饱和度 不均衡数据的处理方法,包括:A.导入样本;B.对连续型变量采用卡方检验的分箱处理;每一个离散型变量的实例是一个分箱;C.计算变量的信息价值指标和信息熵;D.计算样本的加权信息熵;E.构建模型集合;F.对信息饱和度不同的样本进行分组,并对样本进行最优模型匹配;G.对分组后的样本进行 迭代 拆分,得到每次迭代拆分后得到新划分组的最优模型匹配结果,如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,输出本次样本分组的结果和模型匹配结果。本发明能够根据不同的信息饱和度,对不同类型的样本分别进行建模,有效提高了对信息不饱和样本的区分度。,下面是对信息饱和度不均衡数据的处理方法专利的具体信息内容。

1.对信息饱和度不均衡数据的处理方法,其特征包括:
阶段一:样本加权信息熵计算:
A.将需要建模的样本导入处理设备的存储器和内存中保存;
B.通过处理器提取存储器和内存中保存的变量并进行处理,对连续型的变量采用卡方检验的分箱处理,并得到相应的分组;对离散型的变量,每一个离散型的变量的实例是一个分箱,同时,每一个离散型的变量的实例为一个分组;
C.根据分箱结果,通过处理器计算变量的信息价值指标;根据每一个变量中的实例在该变量中出现的概率Pij,通过处理器计算该变量的信息熵;
D.通过处理器对每个样本在各个变量上根据所述信息价值指标的加权求和,计算得到样本的加权信息熵;
阶段二:样本分层最优模型匹配:
E.将多个常用的机器学习算法模型分别作为备选模型,形成模型集合保存在处理设备的存储器中,用于样本分层模型进行匹配选择;
F.处理设备中的处理器从存储器中提取并根据得到的加权信息熵和所述的模型集合,对信息饱和度不同的样本进行分组,并对分组完成的样本进行最优模型匹配;
G.所述处理器对分组后的样本通过计数器进行迭代拆分,每完成一次迭代拆分后得到新划分组的最优模型匹配结果,如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,处理器输出本次样本分组的结果和模型匹配结果,并在存储器中保存。
2.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤B中对连续型的变量进行分箱处理包括:
B1.通过输入设备输入卡方阈值X,并将卡方阈值X保存在存储器和内存中;
B2.处理器对连续型的变量进行排序,每一个变量值为一个分箱区间;
B3.通过处理器计算各相邻分箱区间的卡方值 其中,Aij为第i个分
箱区间中第j类实例的个数,Eij为Aij的期望评率, 其中,N为总样本数,Ni为第i个分箱区间的样本数,Cj为第j类样本在全样本中的比例;
B4.将得到的所有卡方值中最小的两个相邻分箱区间进行合并;
B5.重复步骤B1至B4,直到任意两个相邻分箱的卡方值大于卡方阈值X。
3.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤C中,处理器计算变量的信息价值指标包括:先计算用于衡量正样本和负样本分布差异的证据权重woe: 其中,yi是第i个变量第j个在步骤B所述的分组中的正样本数量;ni为第i个变量第j个在步骤B所述的分组中的负样本数量;yT为第i个变量的所有正样本数;nT为第i个变量的所有负样本数量;pyi为正样本占比,pni为负样本占比;然后处理器再根据得到的各证据权重woei计算变量的信息价值指标 其中,woei为第i个分
组的证据权重woe值。
4.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤C中,通过计算每一个变量中的实例在该变量中出现的概率Pij,其中,Dij为第i个变量的第j类实例的个数;Ni为第i个变量的实例总个数。
5.如权利要求4所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤C中,处理器通过 计算该变量的信息熵,其中,H(Xi)为第i个变量的信息熵,j
为第i个变量的第j类实例,n为第i个变量总共有n类分箱实例。
6.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤D中,通过计算得到样本的加权信息熵,其中,Hweight(Xk)为样本的加权
信息熵,H(Xk)为第k个变量的信息熵,m为变量个数。
7.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤F包括:
F1.处理器随机选择一个样本,将信息熵大于该样本信息熵的其他样本作为一组,将信息熵小于该样本信息熵的其他样本作为另一组;
F2.检查样本个数是否满足建模要求:对步骤F1得到的分组,如果有其中一组的样本个数小于所有特征变量个数的50倍,则处理器重新随机选择样本进行分组,直到两个组的样本个数均大于所有特征变量个数的50倍;
F3.对分组完成的样本进行优化模型匹配。
8.如权利要求7所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤F3包括:
F31.处理器从存储器中提取出步骤E所述的模型集合,并从模型集合中选取一个机器学习算法模型,根据预设的参数范围和步长通过所述机器学习算法模型进行参数空间搜索,通过所述的参数空间搜索,遍历每种可能的参数组合,并将所述参数组合保存在存储器中;
F32.记录每种参数组合下步骤F31中选中的机器学习算法模型在样本上的表现,以F1值作为衡量指标: 其中,precision为机器学习算法模型的精度指标,
recall为机器学习算法模型的召回率指标;
F33.选择F1值最大的机器学习算法模型作为该组样本在本次分组下的最优匹配模型;
F34.通过计数器迭代步骤F31至步骤F33,最终使步骤F1所述的两个组分别对应一个最优匹配模型;
F35.计算全局模型值: 其中,n为本次迭代的样本
分组个数,F1_scorei为第i组样本对应机器学习算法模型的F1值。
9.如权利要求1所述的对信息饱和度不均衡数据的处理方法,其特征为:步骤G中,当处理器对分组后的样本通过计数器进行迭代拆分时,如果第i次分组的第j组的样本数量大于所有样本特征变量个数的50倍,则对第i次分组的第j组的样本进行拆分,否者停止该组样本的拆分,转入对下一组样本的拆分判断,直到有样本组满足拆分条件;如果没有一组样本满足才分条件,则结束分组,输出步骤F的匹配结果。

说明书全文

对信息饱和度不均衡数据的处理方法

技术领域

[0001] 本发明涉及数据处理的方法,具体讲是对信息饱和度不均衡数据的处理方法。

背景技术

[0002] 在数据挖掘、以及机器学习领域,样本的收集以及处理是影响数据模型好坏的一个十分重要的环节。在实际建模过程中经常会遇到样本数据存在信息饱和度不均衡的问题。这里的信息饱和度定义为在机器学习中,样本特征变量包含的对目标变量解释信息的含量,信息含量越多,该样本就越可能被正确的预测。信息饱和度不均衡是指同样的变量,在不同样本上表现出来的信息含量是不同的。这主要有两个方面的原因造成:第一,数据缺失率较高,通常在非标准化的数据采集过程中,由于人为原因会存在数据遗漏的问题;另外数据本身的缺失,例如在金融领域中,用户的征信数据户由于用户本身没有这方面的金融属性而造成缺失;第二,噪声信息,从数据采集到数据加工成可模型使用的过程中,或多或少会产生噪声信息到部分样本中。这些信息会对预测的目标结果产生干扰。因此,在信息饱和度不均衡的情况下建模,与常规建模方式不同,需要设计一个更加合理的建模方案才能最大程度的挖掘数据信息价值,得到最优的预测模型
[0003] 目前,常规的数据建模是将所有样本做同等对待,用一个或不同的模型去学习样本的特征,然后对学习结果进行投票或者平均。但无论是单模型是多模型的方式,其建模的对象都是所有样本,这种方式导致的问题是模型最终倾向于学习信息含量比较充足样本的特征,而对信息含量相对较低、样本的学习权重较低的样本,导致模型没有充分抓取这些样本的特征属性,使得该类样本的预测效果不够理想。
[0004] 从相关资料来看,尚没有专的处理信息饱和度不平衡数据的技术方案,而在提高模型整体预测效果方面,目前主要有以下采取的途径有:
[0005] 1、增加模型的复杂度,例如采用深度学习或者强化学习的方式,增强模型的分线性拟合能。但增加模型复杂度的同时要求有更多的样本,深度学习模型通常需要万级别以上的样本量才能训练一个相对稳定的模型。
[0006] 2、采用模型集成,目前常用的bagging和stacking模型集成方式仍然还是将关注点放在模型本身,没有从样本本身的特点出发来设计更合理的优化训练方式。

发明内容

[0007] 本发明提供了一种对信息饱和度不均衡数据的处理方法,以解决目前对信息饱和度不平衡导致样本训练预测效果不好的问题。
[0008] 本发明对信息饱和度不均衡数据的处理方法,包括:
[0009] 阶段一:样本加权信息熵计算:
[0010] A.将需要建模的样本导入处理设备的存储器和内存中保存;
[0011] B.通过处理器提取存储器和内存中保存的变量并进行处理,对连续型的变量采用卡方检验的分箱处理,并得到相应的分组;对离散型的变量,每一个离散型的变量的实例是一个分箱,同时,每一个离散型的变量的实例为一个分组;通过卡方检验来统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
[0012] C.根据分箱结果,通过处理器计算变量的信息价值指标(IV);根据每一个变量中的实例在该变量中出现的概率Pij,通过处理器计算该变量的信息熵;
[0013] D.通过处理器对每个样本在各个变量上根据所述信息价值指标的加权求和,计算得到样本的加权信息熵;
[0014] 阶段二:样本分层最优模型匹配:
[0015] E.将多个常用的机器学习算法模型分别作为备选模型,包括XGBoost模型、SVM模型、决策树模型、随机森林模型、多层感知机模型等,形成模型集合保存在处理设备的存储器中,用于样本分层模型进行匹配选择;
[0016] F.处理设备中的处理器从存储器中提取并根据得到的加权信息熵和所述的模型集合,对信息饱和度不同的样本进行分组,并对分组完成的样本进行最优模型匹配;
[0017] G.所述处理器对分组后的样本通过计数器进行迭代拆分,每完成一次迭代拆分后得到新划分组的最优模型匹配结果,如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,处理器输出本次样本分组的结果和模型匹配结果,并在存储器中保存。
[0018] 进一步的,步骤B中对连续型的变量进行分箱处理包括:
[0019] B1.通过输入设备输入卡方阈值X,并将卡方阈值X保存在存储器和内存中;
[0020] B2.处理器对连续型的变量进行排序,每一个变量值为一个分箱区间;
[0021] B3.通过处理器计算各相邻分箱区间的卡方值 其中,Aij为第i个分箱区间中第j类实例的个数,Eij为Aij的期望评率, 其中,N为总样本数,Ni为第i个分箱区间的样本数,Cj为第j类样本在全样本中的比例;
[0022] B4.将得到的所有卡方值中最小的两个相邻分箱区间进行合并;
[0023] B5.重复步骤B1至B4,直到任意两个相邻分箱的卡方值大于卡方阈值X。
[0024] 进一步的,步骤C中,处理器计算变量的信息价值指标包括:先计算用于衡量正样本和负样本分布差异的证据权重woe: 其中,yi是第i个变量第j个在步骤B所述的分组中的正样本数量;ni为第i个变量第j个在步骤B所述的分组中的负样本数量;yT为第i个变量的所有正样本数;nT为第i个变量的所有负样本数量;pyi为正样本占比,pni为负样本占比;然后处理器再根据得到的各证据权重woei计算变量的信息价值指标 其
中,woei为第i个分组的证据权重woe值。
[0025] 进一步的,步骤C中,通过 计算每一个变量中的实例在该变量中出现的概率Pij,其中,Dij为第i个变量的第j类实例的个数;Ni为第i个变量的实例总个数。
[0026] 具体的,步骤C中,处理器通过 计算该变量的信息熵,其中,H(Xi)为第i个变量的信息熵,j为第i个变量的第j类实例,n为第i个变量总共有n类分箱实例。
[0027] 进一步的,步骤D中,通过 计算得到样本的加权信息熵,其中,Hweight(Xk)为样本的加权信息熵,H(Xk)为第k个变量的信息熵,m为变量个数。
[0028] 进一步的,步骤F包括:
[0029] F1.处理器随机选择一个样本,将信息熵大于该样本信息熵的其他样本作为一组,将信息熵小于该样本信息熵的其他样本作为另一组;
[0030] F2.检查样本个数是否满足建模要求:对步骤F1得到的分组,如果有其中一组的样本个数小于所有特征变量个数的50倍,则处理器重新随机选择样本进行分组,直到两个组的样本个数均大于所有特征变量个数的50倍;
[0031] F3.对分组完成的样本进行优化模型匹配。
[0032] 具体的,步骤F3包括:
[0033] F31.处理器从存储器中提取出步骤E所述的模型集合,并从模型集合中选取一个机器学习算法模型,根据预设的参数范围和步长通过所述机器学习算法模型进行参数空间搜索,通过所述的参数空间搜索,遍历每种可能的参数组合,并将所述参数组合保存在存储器中;
[0034] F32.记录每种参数组合下步骤F31中选中的机器学习算法模型在样本上的表现,以F1值作为衡量指标: 其中,precision为机器学习算法模型的精度指标,recall为机器学习算法模型的召回率指标;
[0035] F33.选择F1值最大的机器学习算法模型作为该组样本在本次分组下的最优匹配模型;
[0036] F34.通过计数器迭代步骤F31至步骤F33,最终使步骤F1所述的两个组分别对应一个最优匹配模型;
[0037] F35.计算全局模型值: 其中,n为本次迭代的样本分组个数,F1_scorei为第i组样本对应机器学习算法模型的F1值。
[0038] 进一步的,步骤G中,当处理器对分组后的样本通过计数器进行迭代拆分时,如果第i次分组的第j组的样本数量大于所有样本特征变量个数的50倍,则对第i次分组的第j组的样本进行拆分,否者停止该组样本的拆分,转入对下一组样本的拆分判断,直到有样本组满足拆分条件;如果没有一组样本满足才分条件,则结束分组,输出步骤F的匹配结果。
[0039] 本发明对信息饱和度不均衡数据的处理方法,能够根据不同的信息饱和度,对不同类型的样本分别进行建模,有效提高了对信息不饱和样本的区分度,并且本发明的处理方法是一种通用类型的模型训练方法,对具体的模型没有要求,具有普遍适用性。
[0040] 以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
[0041] 图1为本发明对信息饱和度不均衡数据的处理方法的流程图

具体实施方式

[0042] 如图1所示本发明对信息饱和度不均衡数据的处理方法,包括:
[0043] 阶段一:样本加权信息熵计算:
[0044] A.将需要建模的样本导入处理设备的存储器和内存中保存;
[0045] B.通过处理器提取存储器和内存中保存的变量并进行处理,对连续型的变量采用卡方检验的分箱处理,并得到相应的分组;对离散型的变量,每一个离散型的变量的实例是一个分箱,同时,每一个离散型的变量的实例为一个分组。其中对连续型的变量进行分箱处理包括:
[0046] B1.通过输入设备输入卡方阈值X,并将卡方阈值X保存在存储器和内存中;
[0047] B2.处理器对连续型的变量进行排序,每一个变量值为一个分箱区间;
[0048] B3.通过处理器计算各相邻分箱区间的卡方值 其中,Aij为第i个分箱区间中第j类实例的个数,Eij为Aij的期望评率, 其中,N为总样本数,Ni为第i个分箱区间的样本数,Cj为第j类样本在全样本中的比例;
[0049] B4.将得到的所有卡方值中最小的两个相邻分箱区间进行合并;
[0050] B5.重复步骤B1至B4,直到任意两个相邻分箱的卡方值大于卡方阈值X。
[0051] C.根据分箱结果,通过处理器计算变量的信息价值指标:先计算用于衡量正样本和负样本分布差异的证据权重woe: 其中,yi是第i个变量第j个在步骤B所述的分组中的正样本数量;ni为第i个变量第j个在步骤B所述的分组中的负样本数量;yT为第i个变量的所有正样本数;nT为第i个变量的所有负样本数量;pyi为正样本占比,pni为负样本占比;然后处理器再根据得到的各证据权重woei计算变量的信息价值指标
其中,woei为第i个分组的证据权重woe值。
[0052] 通过 计算每一个变量中的实例在该变量中出现的概率Pij,其中,Dij为第i个变量的第j类实例的个数;Ni为第i个变量的实例总个数。再根据所述概率Pi通过处理器计算该变量的信息熵 其中,H(Xi)为第i个变量的信息熵,j为第i个变量的第j类实例,n为第i个变量总共有n类分箱实例。
[0053] D.通过处理器对每个样本在各个变量上根据所述信息价值指标的加权求和,计算得到样本的加权信息熵: 计算得到样本的加权信息熵,其中,Hweight(Xk)为样本的加权信息熵,H(Xk)为第k个变量的信息熵,m为变量个数。
[0054] 阶段二:样本分层最优模型匹配:
[0055] E.将多个常用的机器学习算法模型分别作为备选模型,包括XGBoost模型、SVM模型、决策树模型(GBDT)、随机森林模型、多层感知机模型等,形成模型集合保存在处理设备的存储器中,用于样本分层模型进行匹配选择;
[0056] F.处理设备中的处理器从存储器中提取并根据得到的加权信息熵和所述的模型集合,对信息饱和度不同的样本进行分组,并对分组完成的样本进行最优模型匹配。具体步骤为:
[0057] F1.处理器随机选择一个样本,将信息熵大于该样本信息熵的其他样本作为一组,将信息熵小于该样本信息熵的其他样本作为另一组;
[0058] F2.检查样本个数是否满足建模要求:对步骤F1得到的分组,如果有其中一组的样本个数小于所有特征变量个数的50倍,则处理器重新随机选择样本进行分组,直到两个组的样本个数均大于所有特征变量个数的50倍;
[0059] F3.对分组完成的样本进行优化模型匹配:
[0060] F31.处理器从存储器中提取出步骤E所述的模型集合,并从模型集合中选取一个机器学习算法模型,根据预设的参数范围和步长通过所述机器学习算法模型进行参数空间搜索,通过所述的参数空间搜索,遍历每种可能的参数组合,并将所述参数组合保存在存储器中;
[0061] F32.记录每种参数组合下步骤F31中选中的机器学习算法模型在样本上的表现,以F1值作为衡量指标: 其中,precision为机器学习算法模型的精度指标,recall为机器学习算法模型的召回率指标;所述的precision和recall根据机器学习算法模型预测的混淆矩阵计算得到,如表1所示:
[0062] 表1:
[0063]
[0064] 其中, TP为真实值是positive时,机器学习算法模型认为是positive的数量;FN为真实值是positive时,机器学习算法模型认为是negative的数量;FP为真实值是negative时,机器学习算法模型认为是positive的数量;TN为真实值是negative时,机器学习算法模型认为是negative的数量。
[0065] 假设选取的机器学习算法模型有A、B两个参数需要优化,可能的取值组合以及在每一种组合下该机器学习算法模型在样本上的F1值,因此,参数空间搜索的示例如表2所示:
[0066] 表2:
[0067]参数组合 F1 参数组合 F1 参数组合 F1
(A:0.1,B:3) 0.72 (A:0.15,B:3) 0.73 (A:0.2,B:3) 0.71
(A:0.1,B:5) 0.74 (A:0.15,B:5) 0.75 (A:0.2,B:5) 0.72
(A:0.1,B:7) 0.75 (A:0.15,B:7) 0.78 (A:0.2,B:7) 0.74
(A:0.1,B:9) 0.71 (A:0.15,B:9) 0.72 (A:0.2,B:9) 0.7
[0068] 最终(A:0.15,B:7)的参数组合F1最大0.78,因此该轮迭代确定该机器学习算法模型的最好表现F1=0.78。
[0069] F33.选择F1值最大的机器学习算法模型作为该组样本在本次分组下的最优匹配模型;
[0070] F34.通过计数器迭代步骤F31至步骤F33,最终使步骤F1所述的两个组分别对应一个最优匹配模型,例如表3所示:
[0071] 表3:
[0072] 分组 样本数 平均加权信息熵 最优匹配模型 F1值Group1 Obs1 0.3 SVM 0.71
Group2 Obs2 0.7 GBDT 0.76
[0073] F35.计算全局模型值: 其中,n为本次迭代的样本分组个数,F1_scorei为第i组样本对应机器学习算法模型的F1值。
[0074] G.所述处理器对分组后的样本通过计数器进行迭代拆分,如果第i次分组的第j组的样本数量大于所有样本特征变量个数的50倍,则对第i次分组的第j组的样本进行拆分,否者停止该组样本的拆分,转入对下一组样本的拆分判断,直到有样本组满足拆分条件;如果没有一组样本满足才分条件,则结束分组,输出步骤F的匹配结果。
[0075] 每完成一次迭代拆分后得到新划分组的最优模型匹配结果,例如表4所示:
[0076] 表4:
[0077]分组 样本数 平均加权信息熵 最优匹配模型 F1值
Group1 Obs_1 0.3 GBDT 0.71
Group2 Obs_2 0.7 GBDT 0.76
… … … … …
Group n Obs_n 0.8 SVM 0.81
[0078] 如果本次得到的全局模型值>上次迭代得到的全局模型值,则继续进行迭代拆分,否则结束迭代拆分,处理器输出本次样本分组的结果和模型匹配结果,并在存储器中保存。
[0079] 对比采用本发明的处理方法和现有的传统方式(没有针对信息饱和度做样本分层)的建模差异,本发明的方法能够将模型整体的F1值从0.76提高到0.78,同时对信息饱和度较低的难分样本也有更好的区分度。表现如表5所示:
[0080] 表5:
[0081]信息饱和度区间 本发明F1值 传统方法F1值
(0,0.2] 0.7 0.68
(0.2,0.3] 0.72 0.7
(0.3,0.5] 0.74 0.71
(0.5,0.7] 0.77 0.78
(0.7,-] 0.8 0.79
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈