首页 / 专利库 / 电脑零配件 / 计算机系统 / 计算机网络 / 一种基于多模型集成的短文本分类方法和系统

一种基于多模型集成的短文本分类方法和系统

阅读:492发布:2020-05-08

专利汇可以提供一种基于多模型集成的短文本分类方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种基于多模型集成的短 文本分类 方法,包括:选取多个对短文本进行分类的分类模型;对训练样本进行 采样 ,生成与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。,下面是一种基于多模型集成的短文本分类方法和系统专利的具体信息内容。

1.一种基于多模型集成的短文本分类方法,其特征在于,包括:
选取多个对短文本进行分类的分类模型;
对训练样本进行采样,生成多个与该分类模型一一对应的训练集;
通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;
通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;
集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
2.如权利要求1所述的短文本分类方法,其特征在于,该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。
3.如权利要求1或2所述的短文本分类方法,其特征在于,该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。
4.如权利要求1所述的短文本分类方法,其特征在于,对该训练样本进行采样的过程包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。
5.一种基于多模型集成的短文本分类系统,其特征在于,包括:
分类模型选取模,用于选取多个对短文本进行分类的分类模型;
训练数据采集模块,用于对训练样本进行采样,生成多个与该分类模型一一对应的训练集;
分类模型训练模块,用于通过对应的训练集对该分类模型进行训练,以获得多个最终模型;
目标文本分类模块,用于通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;
分类结果集成模块,用于集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
6.如权利要求5所述的短文本分类系统,其特征在于,该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。
7.如权利要求5或6所述的短文本分类系统,其特征在于,该目标文本分类模块中,该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;
该分类结果集成模块中,对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。
8.如权利要求5所述的短文本分类系统,其特征在于,该训练数据采集模块包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。
9.一种计算机可读存储介质,存储有可执行指令,该可执行指令用于执行如权利要求1~4任一项所述的基于多模型集成的短文本分类方法。
10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,该数据处理装置的处理器调取并执行该可读存储介质中的可执行指令,以进行基于多模型集成的短文本分类。

说明书全文

一种基于多模型集成的短文本分类方法和系统

技术领域

[0001] 本发明涉及深度学习领域,特别是涉及一种通过多模型对中文短文本信息进行分类的方法和系统。

背景技术

[0002] 随着微博、微信等社交方式的快速发展,短文本成为生活中一种重要信息形式。对短文本信息进行正确的分类(即按照预先定义的主题类别,为每一条样本确定一个类别)具有广泛的应用,例如对特定种类信息的识别、对商品评价的多维度划分等等。
[0003] 中国国家发明“一种基于深度集成学习的投诉短文本分类方法”,公开号:CN109739986A,使用的是BTM主题模型和卷积神经网络先分别对文本进行特征提取,然后对特征进行组合再输入至集成的随机森林模型。,在集成时使用的是随机森林,而本专利集成的是不同类型和结构的子模型(Bert、Text RNN、Text CNN、SVM),子模型结构差异大,具有更丰富的多样性,能够从不同度对短文本数据样本的差异化特征提取和编码,从而使得提取的特征分布更加趋近于数据总体的特征分布。中国国家发明“一种Bagging_BSJ短文本分类方法”,公开号:CN107292348A,采用Bagging集成算法思想,对短文本进行语义特征扩展,并结合贝叶斯算法,支持向量机算法以及J48算法,对语义特征扩展后的短文本进行分类。
[0004] 采用深度学习模型对短文本信息进行分类是近年来普遍采用的方法。特别是2018年谷歌AI团队推出的Bert模型,这是一个采用深层双向Transformer搭建的一个体量巨大的模型,其中的参数个数超过3亿个,该模型在11个NLP任务上取得了当时的最好成绩,在NLP业内引起巨大反响。随后,OpenAI、FastAI等公司也相继推出自己的大体量模型,比较著名的包括GPT、GPT2、Elmo等等,NLP任务榜单被多次刷新。
[0005] 然而,以Bert为代表的大体量模型,在短文本分类的现实应用中,仍然存在一些问题需要解决。这里仅对其中一个问题进行分析:由于待训练的参数数量庞大,即使在预训练模型基础上进行微调,大体量模型也需要大量的训练数据,而现实应用中难以收集到数量上能够与模型体量相匹配的标注数据。由于大体量模型具有极强的拟合能,在数据不足的情况下,往往出现过拟合现象,导致泛化能力不足,即训练好的模型能够对训练数据做很好的分类,对于未知数据的分类效果急剧下降。
[0006] 目前,在提升Bert模型泛化能力方面,还未见相关的方法和方案。在传统的机器学习和深度学习应用中,通常采用扩充训练数据集中样本数量的方式来提升模型的泛化能力,通过补充训练样本,使得训练集中的样本分布能够更好的逼近数据的总体分布,使得训练生成的模型可以更加准确的拟合数据的总体分布,从而提升模型的泛化能力。但是,在现实应用中,收集足够数量的训练数据往往是困难的,需要付出高昂的时间成本和人力成本,以这种方式来提高Bert的泛化能力代价较大。

发明内容

[0007] 本发明针对现实应用中,由于训练数据的规模不足以匹配Bert模型的参数体量,而导致的应用Bert做短文本分类时泛化能力不足的问题,采用分别训练多个短文本的分类模型的方式,然后对多个分类模型的分类结果进行集成,得到最终的分类结果。
[0008] 具体来说,本发明的基于多模型集成的短文本分类方法包括:选取多个对短文本进行分类的分类模型;对训练样本进行采样,生成多个与该分类模型一一对应的训练集;通过对应的训练集对该分类模型进行训练,以获得对应的最终模型;通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
[0009] 本发明所述的短文本分类方法,其中该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。
[0010] 本发明所述的短文本分类方法,其中该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。
[0011] 本发明所述的短文本分类方法,其中对该训练样本进行采样的过程包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。
[0012] 本发明还提出一种基于多模型集成的短文本分类系统,包括:分类模型选取模,用于选取多个对短文本进行分类的分类模型;训练数据采集模块,用于对训练样本进行采样,生成多个与该分类模型一一对应的训练集;分类模型训练模块,用于通过对应的训练集对该分类模型进行训练,以获得多个最终模型;目标文本分类模块,用于通过所有该最终模型对目标文本进行分类,获取多个分类结果向量;分类结果集成模块,用于集成所有该分类结果向量以得到最终结果向量,以该最终结果向量中具有最大值的元素所代表的类别,作为该目标文本的类别。
[0013] 本发明所述的短文本分类系统,其中该分类模型包括:Bert模型、TextRnn模型、TextCNN模型和SVM模型。
[0014] 本发明所述的短文本分类系统,其中该目标文本分类模块中,该分类结果向量为二值向量,该分类结果向量的第一个值表示该目标文本属于第一类的概率值,该分类结果向量的第二个值表示该目标文本属于第二类的概率值;该分类结果集成模块中,对所有该分类结果向量进行加权平均以得到该最终结果向量,该最终结果向量为二值向量。
[0015] 本发明所述的短文本分类系统,其中该训练数据采集模块包括:以放回抽样的方式,从该训练样本中多次采样数据,以生成该训练集;其中,当该训练样本数量大于采样阈值时,生成的多个该训练集之间相互独立,当该训练样本数量小于或等于采样阈值时,生成的多个该训练集为相同。
[0016] 本发明还提出一种计算机可读存储介质,存储有可执行指令,该可执行指令用于执行如前所述的基于多模型集成的短文本分类方法。
[0017] 本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,该数据处理装置的处理器调取并执行该可读存储介质中的可执行指令,以进行基于多模型集成的短文本分类。
[0018] 本发明的短文本分类方法,通过多个训练集,分别训练多个短文本的分类模型,然后对多个分类模型的分类结果进行加权平均,得到最终的分类结果,从而能够对未知数据具有更好的分类效果,取得更好的泛化能力。附图说明
[0019] 图1是本发明的基于多模型集成的短文本分类方法流程图
[0020] 图2是本发明的短文本分类方法的训练样本采样流程图。
[0021] 图3是本发明的短文本分类方法的分类模型训练示意图。
[0022] 图4是本发明的多模型集成分类示意图。
[0023] 图5是本发明的数据处理装置示意图。

具体实施方式

[0024] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于多模型集成的短文本分类方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
[0025] 本发明是为了解决现实应用中,由于训练数据的规模不足以匹配模型的参数体量,而导致的Bert模型做短文本分类时泛化能力不足的问题,提出的一种多模型集成框架,通过对训练数据的多次采样,训练多个短文本分类模型,并对多个模型的分类结果进行融合,提高泛化能力,实现对未知数据更好的分类效果。
[0026] 本发明集成的是不同类型和结构的分类模型(Bert、Text RNN、Text CNN、SVM),各分类模型结构差异大,具有更丰富的多样性,能够从不同角度对短文本数据样本的差异化特征提取和编码,从而使得提取的特征分布更加趋近于数据总体的特征分布。本发明不仅在集成中考虑了传统的非深度网络结构的SVM模型,还加入了基于Transformer和注意力机制搭建的Bert模型以及基于RNN的TextRNN模型、基于CNN的TextCNN模型。选取不同类型的短文本分类模型,实现对文本特征的差异化的提取和编码,从而更好的拟合数据的总体分布。
[0027] 本发明提升短文本分类泛化能力的模型集成框架及系统的技术关键点主要包括选择多个短文本的分类模型、训练数据采样与模型训练、多模型分类结果融合等,主要的技术关键点包括:
[0028] 1、选择多个短文本分类模型。选择模型的关键点在于选取不同类型的短文本分类模型,实现对文本特征的差异化的提取和编码,从而更好的拟合数据的总体分布。由于Bert模型是基于Transformer和注意力机制搭建的深层模型,本方案中选择三种与Bert的实现机理不同的模型,分别是:基于RNN的TextRNN模型、基于CNN的TextCNN模型、非深度网络结构的SVM模型(上述三种模型均为开源模型),实现从不同角度对短文本数据样本的差异化特征提取和编码,而从使得提取的特征分布更加趋近于数据总体的特征分布。
[0029] 2、对给定训练集,采用放回抽样的方式,多次采样数据,生成多个数据集。相对本发明具体实施例的4种短文本分类模型,对于样本数据大于2万的数据集,生成的4个数据集每个包含1.5万条数据,对于样本数据小于2万的数据集,无需进行采样(即4个数据集是同一个数据集)。然后利用生成的4个数据集分别对上述选择的4个模型进行训练。此步操作的技术效果体现在:当训练数据不足时,通过对数据的划分,并分别训练3个小规模辅助模型,避免Bert模型对训练样本的数据特征的过拟合。
[0030] 3、多模型分类结果融合。对于待分类的短文本数据,使用上面所述的已经训练生成的4个模型,分别进行分类计算,每个模型会输出所属各类别的概率值向量,对这4各结果向量做加权平均,生成最终的结果向量。结果向量中,值最大的元素所代表的类别即为这条短文本数据的类别。由于选取的4个模型从不同的角度对输入数据的特征进行提取和编码,通过加权平均能够降低由于单一模型的过拟合而产生的高方差,从而提升文本分类的准确性。
[0031] 本发明是针对现实应用中,由于训练数据的规模不足以匹配Bert模型的参数体量,而导致的应用Bert做短文本分类时泛化能力不足的问题,设计的一种提升短文本分类泛化能力的多模型集成框架及系统,能够对未知数据具有更好的分类效果,取得更好的泛化能力。图1是本发明的基于多模型集成的短文本分类方法流程图。如图1所示,本发明以二分类为目标,具体实施方案如下:
[0032] 步骤S1:选择多个短文本分类模型。本发明以Bert模型作为基础模型,选择三种与Bert的实现机理不同的模型,分别是:基于RNN的TextRNN模型、基于CNN的TextCNN模型、非深度网络结构的SVM模型(上述三种模型均为开源模型),实现从不同角度对数据样本的差异化特征提取和编码,而从使得提取的特征分布更加趋近于数据总体的特征分布。
[0033] 步骤S2:训练样本采样,生成四个独立的训练集。图2是本发明的短文本分类方法的训练样本采样流程图;如图2所示,本发明采样的算法过程具体包括:
[0034] 步骤S21,读入所有的标注数据样本;
[0035] 步骤S22,判断标注数据样本的总量是否大于2万条,如果小于2万条,不需要采样,即4个分类模型都使用原始训练集进行训练,采样流程结束,如果大于2万条,继续执行下一步;
[0036] 步骤S23,从样本集合中随机采样一个样本放入第一个结果集中;
[0037] 步骤S24,重复执行步骤S23,直至第一个结果集中样本数量达到1.5万条,再继续生成第二、第三、第四个结果数据集,直至全部完成。
[0038] 至此,生成了四个独立的训练样本集合。
[0039] 步骤S3:分类模型训练。使用步骤S2生成的四个训练数据集分别训练Bert、TextRNN、TextCNN和SVM这四个文本分类模型,直至参数收敛,图3是本发明的短文本分类方法的分类模型训练示意图。如图3所示,本发明对于训练文本数据需要进行清洗处理,此过程包含将文本整理成满足输入的格式和去除特殊符号等,例如对文本识别无意义的星号(*)、井号(#)等。数据清洗之后,各个模型的训练过程还各有差异。其中对于SVM和TextRNN都需要分词,分词步骤加入了用户自定义的字典,以提高分词准确性。分词后的文本数据需要经过预先训练好的Word2Vec语言模型将其向量化后,再输入SVM和TextRNN模型进行训练。训练Word2Vec语言模型使用了近500w条领域内的语料数据,这将使得模型对于特定领域内的文本构成和分布等特征更加了解和敏感,以提高模型识别的准确性。而Bert和TextCNN是直接输入文本数据,不需要经过分词和向量化过程,其中Bert在训练(微调)之前还预先经过了“预训练”过程,也使用了近500条领域内的语料数据。
[0040] 步骤S4:多模型分类结果集成。做文本分类时,使用步骤S3生成的多个模型同时对输入文本(目标文本)进行分类,图4是本发明的多模型集成分类示意图。如图4所示,每个分类模型会得到一个分类结果,这个结果是一个二元向量,向量中的第一个值代表输入文本属于第一类的的概率值,向量中的第二个值代表输入文本属于第一类的的概率值;然后,对四个二值向量按位做加权平均,得到一个新的二值向量(最终结果向量),该最终结果向量中,值最大的元素所代表的类别即为这条短文本数据的类别。于本发明的实施例,还可以采用其他方式进行分类结果的集成,例如是求和方式,本发明并不以此为限。
[0041] 图5是本发明的数据处理装置示意图。如图5所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有可执行指令,可执行指令被数据处理装置的处理器执行时,实现上述基于多模型集成的短文本分类方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
[0042] 本发明可以应用于短文本分类场景中,比如短信、微博中特定类别数据的筛选、垃圾邮件的筛选、聊天机器人的问询划分等文本分类任务。本发明针对实际应用中,由于训练数据的规模不足以匹配Bert模型的参数体量,而导致的应用Bert做短文本分类时泛化能力不足的问题,设计了一种提升Bert泛化能力的多模型集成框架及系统,通过对训练数据的多次采样,生成多个训练样本集,分别训练多个短文本分类模型,然后对多个模型的分类结果进行加权平均,得到最终的分类结果。该集成系统在微博数据筛选应用中进行了大量的实践检验,验证结果表明虽然集成模型在训练过程中要耗费更多的时间,但是得到的综合模型能够对未知数据具有更好的分类效果和稳定性,取得更好的泛化性能。
[0043] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈