首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 一种基于信用大数据的标签分类和定量分析方法

一种基于信用大数据的标签分类和定量分析方法

阅读:914发布:2020-05-11

专利汇可以提供一种基于信用大数据的标签分类和定量分析方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于信用 大数据 的标签分类和定量分析方法,涉及企业信用评价技术领域。该基于信用大数据的标签分类和定量分析方法,包括以下步骤:S1、获取和整合信用记录数据;S2、清洗数据;S3、筛选并区分身份类信用信息、能 力 类信用信息和意愿类信用信息;S4、根据信用数据类型,确定特征类型。本发明,使用到 决策树 等传统 机器学习 模型;jieba分词、word2vec模型等 自然语言处理 方法以及LSTM神经网络等 深度学习 模型;并加入信用研究成果、身份类信用信息、能力类信用信息和意愿类信用信息的分类方法,以形成一套完整建立社会信用标签的方法,从而使得企业信用评价指标无需依靠相关工作人员 指定 ,定义信用的标准一致。,下面是一种基于信用大数据的标签分类和定量分析方法专利的具体信息内容。

1.一种基于信用大数据的标签分类和定量分析方法,其特征在于:包括以下步骤:
S1、获取和整合信用记录数据;
S2、清洗数据;
S3、筛选并区分身份类信用信息、能类信用信息和意愿类信用信息;
S4、根据信用数据类型,确定特征类型;
S5、根据特征类型,使用特征提取和分箱工程处理信用数据;
S6、根据上一步结果,形成信用身份类标签、信用能力类标签和信用意愿类标签,最后,存入标签库以备后续分析使用。
2.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤1中获取和整合信用记录数据,具体内容如下:
1)设置一个时间段;
2)收集和整合该时间段内,信用主体的社会身份和行为记录数据。
3.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤2中清洗数据,具体内容如下:
1)将原始数据转化为结构化数据;
2)对特征变量缺失值单独建立类别。
4.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤3中筛选并区分身份类信用信息、能力类信用信息和意愿类信用信息,具体内容如下:
1)信用身份:指在企业成立时就具备的特征,且短期不会改变,如,行业,企业类型,公司注册地等;
2)信用能力:指企业在进入经济活动前,是否满足相关要求的信息,如,行业许可证,注册资金;贷款时,企业现金流量,资产负债等信息;
3)信用意愿:指企业在进入某经济活动后,是否履行相关义务的信息,如,是否按时还款,是否欠税,是否产品存在质量问题等。
5.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤4中根据信用数据类型,确定特征类型,具体内容如下:
1)表示类别名称的特征,为分类特征;
2)可以数数或是测量出来,并且可以进行加、减、乘、除运算的特征,为数值特征;
3)数据是一段文字内容,为文本型特征。
6.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤5中根据特征类型,使用特征提取,具体内容如下:
1)jieba中文分词:
精确模式:试图将句子最精确地切开;
搜索引擎模式:在精确模式的基础上,对长词再次切分;
2)通过停用词表,去停用词;
3)向量化:出现过该词的次数n,标记n;未出现,标记0;
4)使用word2vec训练模型,其中使用LSTM神经网络确定每个文本的向量值;
5)确定该文本所属的特征。
7.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤5中分箱工程处理信用数据,具体内容如下:
1)对于数值特征,使用等频分箱;
2)箱数选择,根据数据量,在业务和硬件允许的情况下,箱数选取最大;
3)之后可以使用卡方分箱或决策树等有监督分箱,实施进一步处理。
8.根据权利要求1所述的一种基于信用大数据的标签分类和定量分析方法,其特征在于:所述步骤6中将标签结果根据步骤3分别划到身份类标签、能力类标签和意愿类标签中,最后将上述三类标签规则存入标签库当中。

说明书全文

一种基于信用大数据的标签分类和定量分析方法

技术领域

[0001] 本发明涉及企业信用评价技术领域,具体为一种基于信用大数据的标签分类和定量分析方法。

背景技术

[0002] 企业信用管理是对企业的受信活动和授信决策进行的科学管理。广义上讲,企业信用管理是指企业为获得他人提供的信用或授予他人信用而进行的管理活动,是对企业信用交易活动的全过程和企业诚信经营行为的全方位管理,其主要目的是为企业发展信用交易和获取信用资源服务。
[0003] 目前,自我国倡导大发展建设社会信用体系以来,在跨部数据集成和网络数据采集获取信用信息的基础不断完善下,进行数据挖掘与信用模型研发,进而建立完善信用体系的需求也不断增加,而目前大量的研究针对企业信用模型的设计都是使用层次分析法,企业信用评价指标依靠相关工作人员指定,定义信用的标准不一致。

发明内容

[0004] (一)解决的技术问题
[0005] 针对现有技术的不足,本发明提供了一种基于信用大数据的标签分类和定量分析方法,解决了目前大量的研究针对企业信用模型的设计都是使用层次分析法,企业信用评价指标依靠相关工作人员指定,定义信用的标准不一致的问题。
[0006] (二)技术方案
[0007] 为实现以上目的,本发明通过以下技术方案予以实现:一种基于信用大数据的标签分类和定量分析方法,包括以下步骤:
[0008] S1、获取和整合信用记录数据;
[0009] S2、清洗数据;
[0010] S3、筛选并区分身份类信用信息、能力类信用信息和意愿类信用信息;
[0011] S4、根据信用数据类型,确定特征类型;
[0012] S5、根据特征类型,使用特征提取和分箱工程处理信用数据;
[0013] S6、根据上一步结果,形成信用身份类标签、信用能力类标签和信用意愿类标签,最后,存入标签库以备后续分析使用。
[0014] 优选的,所述步骤1中获取和整合信用记录数据,具体内容如下:
[0015] 1)设置一个时间段;
[0016] 2)收集和整合该时间段内,信用主体的社会身份和行为记录数据。
[0017] 优选的,所述步骤2中清洗数据,具体内容如下:
[0018] 1)将原始数据转化为结构化数据;
[0019] 2)对特征变量缺失值单独建立类别。
[0020] 优选的,所述步骤3中筛选并区分身份类信用信息、能力类信用信息和意愿类信用信息,具体内容如下:
[0021] 1)信用身份:指在企业成立时就具备的特征,且短期不会改变,如,行业,企业类型,公司注册地等;
[0022] 2)信用能力:指企业在进入经济活动前,是否满足相关要求的信息,如,行业许可证,注册资金;贷款时,企业现金流量,资产负债等信息;
[0023] 3)信用意愿:指企业在进入某经济活动后,是否履行相关义务的信息,如,是否按时还款,是否欠税,是否产品存在质量问题等。
[0024] 优选的,所述步骤4中根据信用数据类型,确定特征类型,具体内容如下:
[0025] 1)表示类别名称的特征,为分类特征;
[0026] 2)可以数数或是测量出来,并且可以进行加、减、乘、除运算的特征,为数值特征;
[0027] 3)数据是一段文字内容,为文本型特征。
[0028] 优选的,所述步骤5中根据特征类型,使用特征提取,具体内容如下:
[0029] 1)jieba中文分词:
[0030] 精确模式:试图将句子最精确地切开;
[0031] 搜索引擎模式:在精确模式的基础上,对长词再次切分;
[0032] 2)通过停用词表,去停用词;
[0033] 3)向量化:出现过该词的次数n,标记n;未出现,标记0;
[0034] 4)使用word2vec训练模型,其中使用LSTM神经网络确定每个文本的向量值;
[0035] 5)确定该文本所属的特征。
[0036] 优选的,所述步骤5中分箱工程处理信用数据,具体内容如下:
[0037] 1)对于数值特征,使用等频分箱;
[0038] 2)箱数选择,根据数据量,在业务和硬件允许的情况下,箱数选取最大;
[0039] 3)之后可以使用卡方分箱或决策树等有监督分箱,实施进一步处理。
[0040] 优选的,所述步骤6中将标签结果根据步骤3分别划到身份类标签、能力类标签和意愿类标签中,最后将上述三类标签规则存入标签库当中。
[0041] (三)有益效果
[0042] 本发明提供了一种基于信用大数据的标签分类和定量分析方法。具备以下有益效果:
[0043] 本发明,使用到决策树等传统机器学习模型;jieba分词、word2vec模型等自然语言处理方法以及LSTM神经网络等深度学习模型;并加入信用研究成果、身份类信用信息、能力类信用信息和意愿类信用信息的分类方法,以形成一套完整建立社会信用标签的方法,从而使得企业信用评价指标无需依靠相关工作人员指定,定义信用的标准一致。附图说明
[0044] 图1为本发明原理框图

具体实施方式

[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046] 实施例:
[0047] 如图1所示,本发明实施例提供一种基于信用大数据的标签分类和定量分析方法,包括以下步骤:
[0048] S1、获取和整合信用记录数据;
[0049] S2、清洗数据;
[0050] S3、筛选并区分身份类信用信息、能力类信用信息和意愿类信用信息;
[0051] S4、根据信用数据类型,确定特征类型;
[0052] S5、根据特征类型,使用特征提取和分箱工程处理信用数据;
[0053] S6、根据上一步结果,形成信用身份类标签、信用能力类标签和信用意愿类标签,最后,存入标签库以备后续分析使用。
[0054] 其中步骤1中获取和整合信用记录数据,具体内容如下:
[0055] 1)设置一个时间段;
[0056] 2)收集和整合该时间段内,信用主体(个人或法人)的社会身份和行为记录数据。
[0057] 其中步骤2中清洗数据,具体内容如下:
[0058] 1)将原始数据转化为结构化数据;
[0059] 2)对特征变量缺失值单独建立类别。
[0060] 其中步骤3中筛选并区分身份类信用信息、能力类信用信息和意愿类信用信息,具体内容如下:
[0061] 1)信用身份:指在企业成立时就具备的特征,且短期不会改变,如,行业,企业类型,公司注册地等;
[0062] 2)信用能力:指企业在进入经济活动前,是否满足相关要求的信息,如,行业许可证,注册资金;贷款时,企业现金流量,资产负债等信息;
[0063] 3)信用意愿:指企业在进入某经济活动后,是否履行相关义务的信息,如,是否按时还款,是否欠税,是否产品存在质量问题等。
[0064] 其中步骤4中根据信用数据类型,确定特征类型,具体内容如下:
[0065] 1)表示类别名称的特征,为分类特征;
[0066] 2)可以数数或是测量出来,并且可以进行加、减、乘、除运算的特征,为数值特征;
[0067] 3)数据是一段文字内容,为文本型特征。
[0068] 其中步骤5中根据特征类型,使用特征提取,具体内容如下:
[0069] 1)jieba中文分词:
[0070] 精确模式:试图将句子最精确地切开;
[0071] 搜索引擎模式:在精确模式的基础上,对长词再次切分;
[0072] 2)通过停用词表,去停用词;
[0073] 3)向量化:出现过该词的次数n,标记n;未出现,标记0;
[0074] 4)使用word2vec训练模型,其中使用LSTM神经网络(Long Short Term Mermory Networks)确定每个文本的向量值;
[0075] 5)确定该文本所属的特征。
[0076] 其中步骤5中分箱工程处理信用数据,具体内容如下:
[0077] 1)对于数值特征,使用等频分箱;
[0078] 2)箱数选择,根据数据量,在业务和硬件允许的情况下,箱数选取最大;
[0079] 3)之后可以使用卡方分箱或决策树等有监督分箱,实施进一步处理。
[0080] 其中步骤6中将标签结果根据步骤3分别划到身份类标签、能力类标签和意愿类标签中,最后将上述三类标签规则存入标签库当中。
[0081] 本发明,使用到决策树等传统机器学习模型;jieba分词、word2vec模型等自然语言处理方法以及LSTM神经网络等深度学习模型;并加入信用研究成果、身份类信用信息、能力类信用信息和意愿类信用信息的分类方法,以形成一套完整建立社会信用标签的方法,从而使得企业信用评价指标无需依靠相关工作人员指定,定义信用的标准一致。
[0082] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈