首页 / 专利库 / 人工智能 / 人工神经网络 / 一种快速建模的方法

一种快速建模的方法

阅读:741发布:2020-05-08

专利汇可以提供一种快速建模的方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种快速建模的方法,包括:读取配置文件参数并检查输入数据,进行数据类型转化;预处理:缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理;特征衍生:根据配置文件对输入原始变量进行衍生;特征选择:进行级联式特征过滤;对 算法 模型进行训练;模型估计;两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。本发明降低了不同算法人员经验和能 力 的差异导致的不良学习结果,大大降低了 机器学习 应用的 门 槛 ,并且该 框架 具有很高的可扩展性和可用性,各个功能都可以组合以灵活应对实际使用需求的变化。,下面是一种快速建模的方法专利的具体信息内容。

1.一种快速建模的方法,其特征在于,包括:
步骤1,读取配置文件参数并检查输入数据,进行数据类型转化;
步骤2,对数据进行预处理;所述预处理包括缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理;
步骤3,特征衍生:根据配置文件对输入原始变量进行衍生;所述原始变量包括用户的访问行为,次数,时间段以及用户标签,以及针对访问行为的基础统计字段;
步骤4,特征选择:根据方差过滤、卡方检验、IV值、互信息、最大信息数、聚类去相关性、逐步回归、树集成模型进行级联式特征过滤;
步骤5,对算法模型进行训练,所述算法模型包括随机森林,XGBoost,SVM,以及人工神经网络
步骤6,对步骤5模型进行估计,根据模型得出的结果以及模型的权重对预测样本打分;
步骤7,两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。

说明书全文

一种快速建模的方法

技术领域

[0001] 本发明属于数据挖掘技术领域,具体涉及一种快速建模的方法。

背景技术

[0002] 随着大数据机器学习领域的发展,越来越多公司从数据中挖掘有价值的信息,并通过机器学习在大数据中寻找规律,但是以往都需要专业的算法人员对数据进行清洗、特征生成、特征选择、分类器调优、选择合适的指标,整个过程都是手工一步步进行,并且由于不同业务的数据格式以及好的特征都不相同,导致算法人员需要针对实际情况进行调整,并且不同算法人员的自身经验也会影响最终的效果。具体包括如下技术缺陷
[0003] 1、现有算法人员市场上供应严重不足,算法人员能参差不齐,有经验的算法人员更是稀缺。
[0004] 2、由于机器学习过程中涉及处理步骤存在诸多共性,但是目前大多数算法人员依然是手工进行重复性处理。
[0005] 3、算法应用实际经验对于机器学习结果来说至关重要,但是这些优秀的实践经验通常都较难以获得。

发明内容

[0006] 本发明的目的是提供一种快速建模的方法,通过提炼出机器学习过程中的共性步骤、以配置文件的形式使用,进行标准化机器学习,以降低对算法人员的要求,快速得到给定数据集上的机器学习结果。
[0007] 本发明提供了一种快速建模的方法,其特征在于,包括:
[0008] 步骤1,读取配置文件参数并检查输入数据,进行数据类型转化;
[0009] 步骤2,对数据进行预处理;所述预处理包括缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理;
[0010] 步骤3,特征衍生:根据配置文件对输入原始变量进行衍生;所述原始变量包括用户的访问行为,次数,时间段以及用户标签,以及针对访问行为的基础统计字段;
[0011] 步骤4,特征选择:根据方差过滤、卡方检验、IV值、互信息、最大信息数、聚类去相关性、逐步回归、树集成模型进行级联式特征过滤;
[0012] 步骤5,对算法模型进行训练,所述算法模型包括随机森林,XGBoost,SVM,以及人工神经网络
[0013] 步骤6,对步骤5模型进行估计,根据模型得出的结果以及模型的权重对预测样本打分;
[0014] 步骤7,两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。
[0015] 与现有技术相比本发明的有益效果是:
[0016] 降低了不同算法人员经验和能力的差异导致的不良学习结果,大大降低了机器学习应用的槛,并且该框架具有很高的可扩展性和可用性,各个功能都可以组合以灵活应对实际使用需求的变化。附图说明
[0017] 图1是本发明两个数据集的分布图。

具体实施方式

[0018] 下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
[0019] 本实施例提供了一种快速建模的方法,包括:
[0020] 步骤1,读取配置文件参数并检查输入数据,进行数据类型转化。
[0021] 配置文件参数设置方法:根据回测的结果设置模型参数(例如,在某些模型上根据grid search得出的参数结果配置在此)。
[0022] 参数配置依据:根据每套参数在回测阶段的召回率,f1score进行评估进行选择。
[0023] 具体包括:和运行环境相关的参数,数据的读取限制(时间段,模型训练所需数据量),模型参数的设置(包括数据功能项开关,数据预处理参数,扩展降维参数,编码参数,衍生参数),一共50个参数。
[0024] 数据类型分为三类:数值型,字符型,时间型。数值型分为浮点和整型,分别会在代码内部进行转换,而当数值型转换失败时,会使用字符型进行转换,最后由于输入模型的数据本身应全部为数值型(或0-1型),故时间维度会转变为时间戳。
[0025] 步骤2,对数据进行预处理;所述预处理包括缺失值、异常值处理,类别变量编码,时间变量处理,数据失衡处理。
[0026] 重要字段缺失值直接剔除,非重要字段按照列均值或补0处理。
[0027] 6西格玛外异常值剔除。
[0028] 类别分为两,直接的文字编码,以及独热编码。
[0029] 时间变量上增加时间维度的权重。
[0030] 数据均衡上使用两种方法,过采样以及降采样,二队偏少的样本进行权重增加,举例来说,在样本均衡方法上,原样本正负样本比为0.025:1,经过降采样方法后正负样本比为0.8:1。
[0031] 步骤3,特征衍生:根据配置文件对输入原始变量进行衍生;所述原始变量包括用户的访问行为,次数,时间段以及用户标签,以及针对访问行为的基础统计字段(分时间段汇总)。
[0032] 衍生变量方法:针对用户访问行为的时间段构造时间权重,根据标签构造此用户在各个标签上的访问情况字段,最后通过sklearn上的polynomial kernel进行统计上字段扩容,扩充前的字段在120个左右,扩充后会达到1000个左右。
[0033] 步骤4,特征选择:根据方差过滤、卡方检验、IV值、互信息、最大信息数、聚类去相关性、逐步回归、树集成模型进行级联式特征过滤。
[0034] 首先根据sklearn的共线性模块去掉高度共线性的字段,其次根据每个字段的方差波动性进行过滤,如果没有波动性,则直接去除,根据回测结果,波动性的阈值设置在0.1左右较好。然后针对每个变量随机分为两部分数据进行卡方检验,如果Q-statistic统计结果不显著,则可认为变量可用,服从同分布,如果显著,则去除;接着使用IV值,即对数据先进行分箱,然后观察其预测力,如果每个箱内数据的对因变量的预测力普遍偏弱,则IV值低下,选择去除,紧接着对变量间的测量使用相互熵测量,去除最后相互熵分布上95分位数以上的变量,另外还用了聚类以及逐步回归的方法对自变量间进行筛选,去除高相关性变量。最后剩余的变量将会由模型部分的树类模型进行排名,排名权重较高的变量会进下一步的模型。
[0035] 其次使用决策树的CART5.0算法进行信息增益计算得出增益较大的字段,进行保留。
[0036] 步骤5,对算法模型进行训练,所述算法模型包括随机森林,XGBoost,SVM,以及人工神经网络。
[0037] 算法模块(模型)分为4个:随机森林,XGBoost,SVM,以及人工神经网络。
[0038] 训练时,将样本分为训练集,测试集,验证集,训练的步骤举例来说(随机森林),1500棵树,每次随机抽取样本(比率:alpha)以及字段(比率:beta)进行决策树训练,信息增益评判标准为基尼系数,最后的训练集中out of bag的样本数量进行回测,回测完之后使用验证集观察模型效果,如果不好,再修改树的树木,alpha,beta。最后,在验证机稳定的基础上(召回率和f1不再出现过大波动)进行测试集的验证。
[0039] 步骤6,对步骤5模型进行估计,根据模型得出的结果以及模型的权重对预测样本打分。
[0040] 使用auc,roc,f1值进行评估。评估流程为对数据集进行N次分组,每组作为一个全新样本集,分为训练,测试,验证,带入模型进行测试,最后根据N次评估结果,对模型进行打分(举例:假如随机森林N次f1的平均值在0.4,XGBoostN次f1的平均值在0.5,SVM的N次f1平均值在0.6,人工神经网络的N次f1平均值在0.7,则使用softmax对四个模型取模型权重)。最后根据模型得出的结果以及模型的权重对预测样本打分。
[0041] 步骤7,两数据集距离度量:针对模型训练集、测试集、预测集使用多种距离度量,以辅助建模,变量过滤,数据集之间的差异评估。
[0042] 两数据集指的是两两数据集,即训练vs测试,训练vs预测,测试vs预测。KL散度(也叫相对熵)可以理解为两个分布的相似度。如图1所示,这两个数据集的分布就比较不一样,使用KL散度得出的值就很大,说明两个分布不太一样,差异较大。变量过滤同步骤4。
[0043] 本发明技术效果包括:
[0044] 1、软件系统中的特征选择方法的组合方式以及默认参数的设置。
[0045] 不同模型的特征组合方式不一样,将所有特征组成特征池,随机森林中每一棵树的特征组成都不一样,而梯度树的特征选择也是随机的,SVM的话,使用全体特征,人工神经网络使用的是由输入的特征进行非线性组合得出的高级语义特征进行的预测。
[0046] 2、针对两数据距离比较,先对同一变量进行多种距离度量,然后对所有变量进行余弦距离度量从而得到两个数据集间的比较。
[0047] 举例来说,如果我们需要度量变量A在不同数据集中的分布的离散性,则使用KL离散度,欧式举例,交叉熵进行统计,观察统一变量在不同数据集中的分布的统一性。而变量与变量间的距离随着数据集的改变而改变的验证方法则为:假设变量A与变量B在数据集1中余弦距离和数据集2中余弦距离相差较大,则认定数据集切分不均匀,一般采取统计上95%significance level对距离进行判断。
[0048] 3、特征衍生部分提出分组衍生的概念,以降低组合爆炸提高有效组合。
[0049] 举例来说,针对随机森林,模型不仅会根据我们输入的维度进行随机选取组合生成树模型,我们在输入维度的时候会认为针对维度进行分组,比如说所有由用户端反馈的数据绑成一组,包括行为数据,行为发生时间,频率;而所有人为打上标签或者构造的维度再分为一组,包括时间权重,频率统计;而在一二组中的所有二分类维度全部提出另分为一组为factor组,包括所有类别组别,通过这些分组可以有效降低组与组之间的交互,以降低组合爆炸提高模型运算效率。
[0050] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈