首页 / 专利库 / 人工智能 / 语言建模 / n元语法模型 / 词串 / 三嵌入卷积神经网络模型及其文本多分类方法

三嵌入卷积神经网络模型及其文本多分类方法

阅读:155发布:2020-05-14

专利汇可以提供三嵌入卷积神经网络模型及其文本多分类方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 文本分类 技术领域,涉及一种词、词性和词长三嵌入 卷积神经网络 模型及其文本多分类方法。词、词性和词长三嵌入卷积神经网络模型,包括依次相连的 输入层 、查找表、卷积层、特征 池化 层、特征连接层、特征选择层和分类 输出层 ,同时采用新词识别方法识别中文新词,从而提高了分词的精确度和文本分类的准确率。,下面是三嵌入卷积神经网络模型及其文本多分类方法专利的具体信息内容。

1.一种词、词性和词长三嵌入卷积神经网络模型,其特征在于,包括依次相连的输入层、查找表、卷积层、特征池化层、特征连接层、特征选择层和分类输出层,其中:
输入层:用于接收预处理后的文本,进行词向量编码,得到词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩阵;
查找表:用于存储词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩阵,包括词查找表、词性查找表和词长查找表;
卷积层:用于通过查找表获得需要处理的词矩阵、词性矩阵和词长矩阵,对获得的词矩阵、词性矩阵和词长矩阵进行卷积运算,得到词、词性和词长局部特征;
特征池化层:用于对词、词性和词长局部特征进行降维处理;
特征连接层:用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特征矩阵;在进行合并处理时对词、词性和词长局部特征赋予不同的预设权值进行融合;
特征选择层:用于对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类器输入矩阵;
分类输出层:用于将分类器输入矩阵作为输入,对特征进行分析,完成文本多分类;
其中,
确定所述预设权值的步骤包括:取多组不同的预设权值;利用由不同的预设权值形成的连接操作层构成的所述词、词性和词长三嵌入卷积神经网络模型进行文本分类的测试;
根据测试计算得到由不同的预设权值形成的连接操作层构成的所述词、词性和词长三嵌入卷积神经网络模型对应的分类准确度;取分类准确度最高的所述词、词性和词长三嵌入卷积神经网络模型对应的预设权值作为连接操作层的所述预设权值。
2.根据权利要求1所述的词、词性和词长三嵌入卷积神经网络模型,其特征在于,在用词、词性和词长三嵌入卷积神经网络模型模型进行训练时,其参数设置如下:卷积核窗口大小h,分别为3、4、5,最大词向量d为300;每种卷积核的数量为100;dropout概率为0.5;
chunk-max pooling采样中chunk为5。
3.根据权利要求1所述的文本多分类方法,其特征在于,特征池化层采用分内最大特征池化降维策略;分类输出层使用softmax作为分类器。
4.一种基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法,其特征在于,基于权利要求1-3中任一项所述的词、词性和词长三嵌入卷积神经网络模型实现,包括:
数据预处理,得到词、词性和词长三嵌入卷积神经网络模型的输入数据集;
词、词性和词长三嵌入卷积神经网络模型接收预处理后的输入数据集,进行词向量编码,得到词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩阵;
构建词查找表、词性查找表和词长查找表;
通过查找词查找表、词性查找表和词长查找表获得需要处理的词矩阵、词性矩阵和词长矩阵,对获得的词矩阵、词性矩阵和词长矩阵进行卷积运算,得到词、词性和词长局部特征;
对词、词性和词长局部特征进行降维处理;
用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特征矩阵;在进行合并处理时对词、词性和词长局部特征赋予不同的权值进行融合;
对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类器输入矩阵;
将分类器输入矩阵输入分类输出层,对特征进行分析,完成文本多分类。
5.根据权利要求4所述的文本多分类方法,其特征在于,数据预处理包括:采用新词识别方法,识别中文新词,扩充文本分词语料库后进行分词,得到词、词性和词长库。
6.根据权利要求5所述的文本多分类方法,其特征在于,新词识别方法以前后邻接词的凝固度、信息熵以及点互信息作为参考信息。
7.根据权利要求6所述的文本多分类方法,其特征在于,设Lav(ξ)表示词串ξ直接相邻的左边不同字的个数,Rav(ξ)表示词串ξ直接相邻的右边不同字的个数,用Lav(ξ)和Rav(ξ)表示词串ξ在不同的语义环境下成词的可能性,前后邻接词的凝固度计算公式如下:
Gav(ξ)=logAv(ξ)
其中,Av(ξ)=min{Lav(ξ),Rav(ξ)};
信息熵的计算公式如下:
其中,I(xi)表示xi的自信息,P(xi)表示为xi的概率分布;
点互信息的计算公式如下:
其中,x、y为语料库中的词或字,如果x、y是独立的,则P(x,y)=P(x)P(y);如果x、y二者越相关,则PMI的值越大。
8.根据权利要求4-7中任一项所述的文本多分类方法,其特征在于,得到词局部特征包括:
①输入拼接词向量xi:j:
d
式中,xi(xi∈R)为长度为n的句子的第i个词语的词向量,维度为d; 为拼接操作,xi:j为在长度为n的句子中第[i,j]个词语的词向量的拼接;
②设卷积核大小为h×d,则卷积运算后词语窗口的特征映射为:
Si=f(w×xi:i+h-1+b)
其中,xi:i+h-1表示词汇窗口;w是卷积核的权重矩阵;h为卷积核中输入的词语大小,b为偏置项,f为激活函数;
③对长度为n的句子中的拼接词向量x1:h、x2:h+1、…、xn+h-1:n进行卷积运算,得到词局部特征映射矩阵S:
S=[s1,s2,s3,...,sn-h+1]。
9.根据权利要求8所述的文本多分类方法,其特征在于,还包括步骤:采用梯度下降法Adam对词、词性和词长三嵌入卷积神经网络模型进行训练。
10.根据权利要求4-7、9中任一项所述的文本多分类方法,其特征在于,还包括步骤:文本多分类效果评价;设给定样本容量大小为N的样本集T,样本yi的标签和分类结果表示为ni和mi,文本多分类效果评价公式如下:
其中,|ni=mi|为真时取1,为假时取0。

说明书全文

三嵌入卷积神经网络模型及其文本多分类方法

技术领域

[0001] 本发明属于文本分类技术领域,涉及一种词、词性和词长三嵌入卷积神经网络模型及其 文本多分类方法。

背景技术

[0002] 文本分类是自然语言处理中的一项重要任务,能更好地帮助人们组织和管理海量的文本 信息,快速准确地获取所需信息,实现个性化的信息推荐。文本分类在网络搜索、信息过滤 处理、情感分析、文本索引、自动文摘、信息检索推送、数字图书馆以及问答系统等众多领 域中均有应用。
[0003] 文本分类处理流程包括特征提取、训练模型最后进行文本分类,其中特征提取是分类中 最为核心的任务,传统的文本特征提取方法大体采用基于规则的方法和基于统计学的方法。 前者是通过对专家规则的拓展利用知识工程建立专家系统,这些方法都是依靠对数据集和场 景制定规则来进行分类任务处理,但是在其他数据集应用中,这种规则化的分类方法不适合 推广。后者是从机器学习度通过统计学规律和浅层分类模型来进行文本特征提取,并且 取得了不错的效果,现有的方法主要有TF-IDF、信息增益方法(Information Gain)、互信息 (Mutual Information)、期望交叉熵(Expected Cross Entropy)、LDA模型、N-Gram算法等方 法。尽管如此,这些传统的文本特征提取方法往往会忽视文本的上下文的信息或是文字的顺 序,并且会使得最终产生的特征维度过大、过于稀疏,造成维度灾难等问题。
[0004] 近年来随着深度学习在图形图像处理方面取得的成功,越来越多的研究人员把深度学习 相关的技术应用到自然语言处理中来。词嵌入和深度学习方法为解决上述这种特征稀疏性问 题提供了新的思路。词嵌入(Word Embedding)是词的分布式表示,Bengio Y在2003年提出 的神经网络语言模型(NNLM,neural probabilistic language model)(参见文献:Bengio Y, Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of machine learning research,2003,3(Feb):1137-1155.)提出了文本的分布式处理思想。Tomas Mikolov等人在2013 年的文章中提出CBOW和Skip-Gram两个词嵌入的模型的结构(参见文献:Mikolov T, Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems.2013:3111-3119.),基 本类似于NNLM,不同的是模型去掉了非线性隐层,预测目标不同,CBOW是上下文词预测 当前词,Skip-Gram则相反。文本分类模型则是利用RNN/CNN等深度学习网络及其变体解 决自动特征提取(即特征表达)的问题。
[0005] 深度学习中常用的递归神经网络(RNN,Recurrent Neural Network),能够更好地表达 上下文信息,它可以在保持词序信息的基础上隐式地抽取句子来表示,并且可以在没有句子 边界的情况下分析整个文档的语义。Weninger F等人利用LSTM+RNN模型(参见文献: Weninger F,Bergmann J,Schuller B.Introducing currennt:The munich open-source cuda recurrent neural network toolkit[J].The Journal of Machine Learning Research,2015,16(1):547-551.),可 以避免RNN在文本分类中存在的梯度消失和梯度弥散问题,但是这个模型在处理文本时会认 为后面的单词比之前的单词更占优势。因此,当它用于捕获整个文档的语义时,可能会降低 其有效性,因为关键组件可能出现在文档中的任何地方而不是结尾。Kim在2014年提出的 textCNN文本分类模型(参见文献:Kim Y.Convolutional Neural Networks for Sentence Classification[C]//Proc of Empirical Methods in Natural Language Processing.2014:1746-1751.), 利用CNN模型与单词嵌入结合可以捕捉文本局部相关性,从而解决了词语之间关系缺失的问 题。尽管TextCNN能够在很多任务里面能有不错的表现,但CNN有个最大问题是固定 filter_size的视野,一方面无法建模更长的序列信息,另一方面filter_size的超参调节也很繁 琐。

发明内容

[0006] 针对现有技术的不足,本发明提供一种词、词性和词长三嵌入卷积神经网络模型,输入 层接收经过预处理后的文本,为方便查找加入查找表,为提高分类的准确度在池化层进行降 维处理,经过卷积和池化操作后提取文本的局部特征,将融合后的融合特征矩阵采用dropout 机制,随机删除部分特征,得到分类器输入矩阵加到分类器中。
[0007] 本发明还提供一种基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法。采 用新词识别方法,识别中文新词,扩充文本分词语料库后进行分词,得到词、词性和词长库, 提高分词的精确度。
[0008] 本发明词、词性和词长三嵌入的文本多分类卷积神经网络模型采用如下技术方案实现:
[0009] 一种词、词性和词长三嵌入卷积神经网络模型,包括依次相连的输入层、查找表、卷积 层、特征池化层、特征连接层、特征选择层和分类输出层,其中:
[0010] 输入层:用于接收预处理后的文本,进行词向量编码,得到词特征向量映射矩阵、词性 特征向量映射矩阵和词长特征向量映射矩阵;
[0011] 查找表:用于存储词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩 阵,包括词查找表、词性查找表和词长查找表;
[0012] 卷积层:用于通过查找表获得需要处理的词矩阵、词性矩阵和词长矩阵,对获得的词矩 阵、词性矩阵和词长矩阵进行卷积运算,得到词、词性和词长局部特征;
[0013] 特征池化层:用于对词、词性和词长局部特征进行降维处理;
[0014] 特征连接层:用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特 征矩阵;在进行合并处理时对词、词性和词长局部特征赋予不同的权值进行融合;
[0015] 特征选择层:用于对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类器输 入矩阵;
[0016] 分类输出层:用于将分类器输入矩阵作为输入,对特征进行分析,完成文本多分类;
[0017] 其中,
[0018] 确定所述预设权值的步骤包括:取多组不同的预设权值;利用由不同的预设权值形成的 连接操作层构成的所述词、词性和词长三嵌入卷积神经网络模型进行文本分类的测试;根据 测试计算得到由不同的预设权值形成的连接操作层构成的所述词、词性和词长三嵌入卷积神 经网络模型对应的分类准确度;取分类准确度最高的所述词、词性和词长三嵌入卷积神经网 络模型对应的预设权值作为连接操作层的所述预设权值。
[0019] 优选地,在用词、词性和词长三嵌入卷积神经网络模型模型进行训练时,其参数设置如 下:卷积核窗口大小h,分别为3、4、5,最大词向量d为300;每种卷积核的数量为100; dropout概率为0.5;chunk-max pooling采样中chunk为5。
[0020] 优选地,特征池化层采用分内最大特征池化降维策略;分类输出层使用softmax作为 分类器。
[0021] 本发明文本多分类方法采用如下技术方案实现:
[0022] 一种基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法,包括:
[0023] 数据预处理,得到词、词性和词长三嵌入卷积神经网络模型的输入数据集;
[0024] 词、词性和词长三嵌入卷积神经网络模型接收预处理后的输入数据集,进行词向量编码, 得到词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩阵;
[0025] 构建词查找表、词性查找表和词长查找表;
[0026] 通过查找词查找表、词性查找表和词长查找表获得需要处理的词矩阵、词性矩阵和词长 矩阵,对获得的词矩阵、词性矩阵和词长矩阵进行卷积运算,得到词、词性和词长局部特征;
[0027] 对词、词性和词长局部特征进行降维处理;
[0028] 用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特征矩阵;在进 行合并处理时对词、词性和词长局部特征赋予不同的权值进行融合;
[0029] 对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类器输入矩阵;
[0030] 将II输入分类输出层,对特征进行分析,完成文本多分类。
[0031] 进一步地,数据预处理包括:采用新词识别方法,识别中文新词,扩充文本分词语料库 后进行分词,得到词、词性和词长库。
[0032] 进一步地,新词识别方法以前后邻接词的凝固度、信息熵以及点互信息作为参考信息。
[0033] 设Lav(ξ)表示词串ξ直接相邻的左边不同字的个数,Rav(ξ)表示词串ξ直接相邻的右边 不同字的个数,用Lav(ξ)和Rav(ξ)表示词串ξ在不同的语义环境下成词的可能性,前后邻接 词的凝固度计算公式如下:
[0034] Gav(ξ)=logAv(ξ)
[0035] 其中,Av(ξ)=min{Lav(ξ),Rav(ξ)}。
[0036] 信息熵的计算公式如下:
[0037]
[0038] 其中,I(xi)表示xi的自信息,P(xi)表示为xi的概率分布。
[0039] 点互信息的计算公式如下:
[0040]
[0041] 其中,x、y为语料库中的词或字,如果x、y是独立的,则P(x,y)=P(x)P(y);如果x、 y二者越相关,则PMI的值越大。
[0042] 进一步地,得到词局部特征包括:
[0043] ①输入拼接词向量xi:j:
[0044]
[0045] 式中,xi(xi∈Rd)为长度为n的句子的第i个词语的词向量,维度为d; 为拼接操作, xi:j为在长度为n的句子中第[i,j]个词语的词向量的拼接;
[0046] ②设卷积核大小为h×d,则卷积运算后词语窗口的特征映射为:
[0047] Si=f(w×xi:i+h-1+b)
[0048] 其中,xi:i+h-1表示词汇窗口;w是卷积核的权重矩阵;h为卷积核中输入的词语大小,b 为偏置项,f为激活函数;
[0049] ③对长度为n的句子中的拼接词向量x1:h、x2:h+1、…、xn+h-1:n进行卷积运算,得到词局 部特征映射矩阵S:
[0050] S=[s1,s2,s3,...,sn-h+1]
[0051] 进一步地,还包括步骤:采用梯度下降法Adam对词、词性和词长三嵌入卷积神经网络 模型进行训练。
[0052] 优选地,还包括步骤:文本多分类效果评价;设给定样本容量大小为N的样本集T,样 本yi的标签和分类结果表示为ni和mi,文本多分类效果评价公式如下:
[0053]
[0054] 其中,|ni=mi|为真时取1,为假时取0。
[0055] 本发明与现有技术相比,具有以下有益效果:
[0056] (1)通过对样本集分析,采用新词识别方法识别中文新词,扩充文本分词语料库,能提 高分词的精确度。
[0057] (2)提供一种词、词性和词长三嵌入卷积神经网络模型,该模型通过词、词性和词长三 输入的方式在不改变卷积核数量的情况下能得到最优结果,提高文本语义的识别能。而且 通过同时考虑了词、词性和词长三种因素,能够使得卷积神经网络模型预测得到的分类结果 更为准确。
[0058] (3)增加分块内最大特征池化(chunk max pooling)降采样,使得特征提取更加准确, 保留更多的特征信息。
[0059] (4)采用dropout机制,随机删除部分特征,提高模型的泛化能力附图说明
[0060] 图1为本发明一个实施例中词、词性和词长三嵌入卷积神经网络模型结构图;
[0061] 图2为本发明一个实施例中文本多分类方法流程图

具体实施方式

[0062] 下面通过具体实施方式对本发明作进一步详细的描述,但本发明的实施方式并不限于此。
[0063] 卷积神经网络(CNN)是多层神经元组成的前馈神经网络模型,卷积神经网络特征抽取 器由卷积层和子采样层构成,可以把子采样看作一种特殊的卷积过程。卷积层中包含多个特 征平面,每个特征平面由输入矩阵的神经元组成,同一特征平面的神经元共享权值,通过共 享权值可以减少网络各层之间的连接,降低了过拟合的险。卷积层通过卷积运算抽取局部 特征,降采样层则通过计算来保留最优特征,对特征结构降维处理。
[0064] 一种词、词性和词长三嵌入卷积神经网络模型,如图1所示,包括依次相连的输入层、 查找表(Look-up tables)、卷积操作层、分块内最大特征池化操作层、连接操作层、特征选 择操作层和分类输出层,其中:
[0065] 输入层:用于接收预处理后的文本,进行词向量编码,得到词特征向量映射矩阵、词性 特征向量映射矩阵和词长特征向量映射矩阵。
[0066] 查找表:用于存储词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩 阵,包括词查找表、词性查找表和词长查找表。
[0067] 卷积层:用于通过查找表获得需要处理的词矩阵、词性矩阵和词长矩阵,对词矩阵、词 性矩阵和词长矩阵进行卷积运算,获得词、词性和词长局部特征。
[0068] 分块内最大特征池化操作层:用于对词、词性和词长局部特征进行降维处理。
[0069] 连接操作层:用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特 征矩阵。在进行合并处理时对词、词性和词长局部特征赋予不同的权值进行融合,例如在融 合时词、词性和词长局部特征的权值分别为K1、K2、K3,这样就可以使得不同的局部特征 根据其重要程度发挥其不同比例的作用,使得融合后的特征更能反映出文本的整体特性。其 中K1、K2、K3均为0至1之间的数,K1+K2+K3=1。在这里如何确定K1、K2、K3的大小 非常重要,其具体步骤为:为K1、K2、K3取多组不同的值,并且使之满足K1、K2、K3均 为0至1之间的数,K1+K2+K3=1,例如第一组值为K11、K21、K31,第二组值为K12、K22、 K32,第三组值为K13、K23、K33,然后利用由不同取值形成的连接操作层进行文本分类的 测试,并计算得到不同取值对应的分类准确度,取分类准确度最高的一组取值作为连接操作 层的取值。
[0070] 特征选择操作层:用于对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类 器输入矩阵。
[0071] 分类输出层:用于将分类器输入矩阵作为输入,对特征进行分析,完成文本多分类。
[0072] 进一步地,对分类输出层权值给予一个L2正则化的惩罚项,对参数进行约束。使用 softmax作为分类器,softmax loss作为分类器的损失函数。
[0073] 基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法,输入层接收经过预处 理后的文本,并且为提高分类的准确度在分块内最大特征池化操作层使用chunk-max pooling, 经过卷积和池化操作后自动提取文本的局部特征,将串接融合后融合特征矩阵采用dropout 机制,随机删除部分特征,得到分类器输入矩阵加到softmax分类器中,对分类输出层权值 给予一个L2正则化的惩罚项,梯度更新法选用Adam。
[0074] 本实例中,基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法的原理为: 在输入时,创建词、词性和词长的三输入,经过输入层处理后,得到词特征向量映射矩阵(Word Feature,WF)、词性特征向量映射矩阵(Vocabulary Feature,VF)和词长特征向量映射矩阵 (Length Feature,LF)。其中,词的特征向量映射矩阵:是通过jieba分词工具切分之后经过 word2vec计算后得到的词特征向量映射矩阵;词性特征向量映射矩阵(Vocabulary Feature, VF):是由jieba分词后经过提取计算得到的词性向量映射矩阵;词长特征向量映射矩阵(Length Feature,LF):是由jieba分词后经过提取计算得到的词长向量映射矩阵。把WF、VF和LF作 为词、词性和词长三嵌入卷积神经网络模型中卷积层的三层输入,经过卷积层和池化层的计 算后再把WF、VF和LF进行最后的特征融合得到词向量空间集合记为VT:
[0075] VT=WF×index(VF)×index(LF)
[0076] 其中,index()为索引函数。
[0077] 一种基于词、词性和词长三嵌入卷积神经网络模型的文本多分类方法,如图2所示,包 括:
[0078] S1、数据预处理,得到词、词性和词长三嵌入卷积神经网络模型的输入数据集。
[0079] 本实施例中,数据预处理流程如图2所示,通过样本集分析,采用新词识别方法,识别 中文新词,扩充文本分词语料库后进行分词,得到词、词性和词长库,作为词、词性和词长 三嵌入卷积神经网络模型的输入数据集。
[0080] 中文分词目前存在中文词库的更新速度慢,新词产生速度快的问题,在做文本分词时不 能准确的区分。本实施例中,新词识别方法把识别的中文新词和现有的词库相结合,得到扩 充后的文本分词语料库。新词识别所用的数据结构是字典树,树的根节点不包含字符,除了 根节点外每一个结点包含一个字符,从根节点到某一个结点路径上连接起来组成的字符串为 所构成的新词。使用字典树数据结构是因为字典树可以对字符的频率进行快速的计算统计, 可以快速的选择出成词可能性最大的词语作为输出结果。
[0081] 新词识别方法以前后邻接词的凝固度、信息熵以及点互信息作为参考信息。设Lav(ξ)表 示词串ξ直接相邻的左边不同字的个数,Rav(ξ)表示词串ξ直接相邻的右边不同字的个数, 那么可以用Lav(ξ)和Rav(ξ)来表示词串ξ在不同的语义环境下成词的可能性,前后邻接词的 凝固度计算公式如下:
[0082] Gav(ξ)=logAv(ξ)
[0083] 其中,Av(ξ)=min{Lav(ξ),Rav(ξ)}。
[0084] 信息熵是用来衡量两个碎片词成词的稳定性,通常信息熵值越大表示字、词碎片左右相 邻字符相互关系的不稳定性越高,那么就越有可能作为独立的个体成词;信息熵值越小,说 明词、字碎片与左右邻接词之间的关系越紧密,那么它们成词的可能性就越大。碎片字、词 的信息熵值的计算公式如下:
[0085]
[0086] 其中,I(xi)表示xi的自信息,P(xi)表示为xi的概率分布。设碎片字、词的左邻接词信息 熵为HL,其计算公式如下所示:
[0087]
[0088] 右邻接词的信息熵的公式如下所示:
[0089]
[0090] 在数据分析中点互信息(PMI)用来度量两个事物之间的相关性,在新词识别中利用PMI 来衡量N元词语共现的耦合性,其计算公式如下:
[0091]
[0092] 其中,x、y为语料库中的词或字,如果x、y是独立的,则P(x,y)=P(x)P(y);如果x、 y二者越相关,则PMI的值越大。在新词发现的过程中,两个独立的词之间点互信息值越大, 那么这两个词组合成一个词的可能性就会越大。
[0093] 与英文文本处理不同的是,英文中可以通过空格来区分单词,中文文本是连续的,需要 通过文本分词技术来提取词语。本实施例中,采用Python中文分词组件"Jieba",考虑到本实 施例中文本的含义是企业基本属性简介,例如:“交通行是中国最主要的金融服务供应商 之一,业务范围涵盖了商业银行、证劵、信托、金融租赁、基金管理、保险、离岸金融等综 合性金融服务。作为首家获批开展深化改革的国有大型商业银行,交通银行正向着‘走国际 化、综合化道路,建设以财富管理为特色的一流公众持股银行集团’的战略目标阔步迈进。” 这段话中可以看出根据文本信息通过“银行”,“证券”,“金融”等关键字可以判断出该 企业的类别,但是在有些行业专有名词的上,Jieba分词还不能很好地区分出来,开发者可以 指定自定义的词典,以便包含jieba词库中没有的词。虽然jieba有新词识别能力,但是自 行添加新词可以保证更高的正确率。
[0094] 本实施例中,文本数据集包含金融、互联网、重工业、能原材料、生物医疗、影音娱乐 和房地产业等10个行业的8000个企业的简介。在文本分词之前对这些企业一些专业名词进 行汇总以自定义词典的方式进行知识库扩充,使得分词结果更加准确。
[0095] 对扩充后文本分词语料库进行分词,去掉分词停用词后的文本数据格式如下:交通银行 /nt/4中国/n/2主要/b/2金融/n/2服务/vt/2供应商/n/3…。
[0096] S2、词、词性和词长三嵌入卷积神经网络模型接收预处理后的输入数据集,进行词向量 编码,得到词特征向量映射矩阵、词性特征向量映射矩阵和词长特征向量映射矩阵。
[0097] 为了将自然语言中的字词转为计算机可以理解的稠密词向量,基于Word2vec模型训练得 到词和词向量编码。由于Word2vec在进行词向量训练时使用唯一词向量计算,对中文的多义 词无法进行很好的表示和处理,因此在训练时分为词和词向量训练(词、词性和词长三层管 道嵌入),例如:交通银行/nt/4中国/n/2主要/b/2金融/n/2服务/vt/2供应商/n/3。需要说明的 是,在其他文本语料中可以把词性、词长管道嵌入改为词性、词长、词的拼音管道嵌入提高 文本语义的识别能力。
[0098] S3、构建词查找表、词性查找表和词长查找表。
[0099] 词查找表用于存储词特征向量映射矩阵,词性查找表用于存储词性特征向量映射矩阵, 词长查找表用于存储词性特征向量映射矩阵。
[0100] S4、通过查找词查找表、词性查找表和词长查找表获得需要处理的词矩阵、词性矩阵和 词长矩阵,对获得的词矩阵、词性矩阵和词长矩阵进行卷积运算,得到词、词性和词长局部 特征。
[0101] 本实施例中,利用大小为h×d的卷积核对词矩阵、词性矩阵和词长矩阵进行卷积运算。
[0102] 下面以得到词局部特征为例进行说明:设词向量的维度为d,句子的长度为h,那么句子 矩阵可以表示为:X∈Rd,句子矩阵维度为h×d。首先输入拼接词向量xi:j:
[0103]
[0104] 式中,xi(xi∈Rd)为长度为n的句子的第i个词语的词向量,维度为d。 为拼接操作, xi:j为在长度为n的句子中第[i,j]个词语的词向量的拼接。
[0105] 设卷积核大小为h×d,则每个词语窗口的特征映射为:
[0106] Si=f(w×xi:i+h-1+b)
[0107] 其中,xi:i+h-1表示词汇窗口;w是卷积核的权重矩阵;h为卷积核中输入的词语大小即卷 积核窗口大小,b为偏置项,f为激活函数。
[0108] 在神经网络模型中,常用的激活函数有多种,例如sigmod函数、tanh函数等。本实施例 中,选择收敛速度最快的线性激活函数Relu作为激活函数。
[0109] 对长度为n的句子中的拼接词向量x1:h、x2:h+1、…、xn+h-1:n进行卷积运算,得到词局部特 征映射矩阵S,其中:
[0110] S=[s1,s2,s3,...,sn-h+1]
[0111] S5、对词、词性和词长局部特征进行降维处理。
[0112] 对词、词性和词长局部特征进行降维处理,避免过拟合现象的发生,在分块内最大特征 池化操作层中采用分块内最大特征池化(chunk-Max Pooling)降采样策略。chunk-Max Pooling 的思想是:把某个特征抽取器(Filter)对应的卷积(Convolution)层的所有特征向量进行分 段,切割成若干段后,在每个分段里面各自取得前Top n个特征值。通过chunk-Max Pooling 降采样策略可以捕获多个相关的局部特征,去除冗余的特征。本实施例中,设卷积层词、词 性和词长向量分成m段,每段取前n个最大特征值记为Si(1≤i≤m),每段通过卷积运算后 得到特征矩阵 对特征矩阵 进行降采样后得到每段分类特征矩阵 计算公式下:
[0113]
[0114] 其中,fflatten()是降维操作,把多维特征矩阵压缩成一维,fsort()为排序函数。
[0115] S6、用于对降维处理后的词、词性和词长局部特征进行合并处理,得到融合特征矩阵。 在进行合并处理时对词、词性和词长局部特征赋予不同的权值进行融合,例如在融合时词、 词性和词长局部特征的权值分别为K1、K2、K3,这样就可以使得不同的局部特征根据其重 要程度发挥其不同比例的作用,使得融合后的特征更能反映出文本的整体特性。其中K1、 K2、K3均为0至1之间的数,K1+K2+K3=1。在这里如何确定K1、K2、K3的大小非常重 要,其具体步骤为:为K1、K2、K3取多组不同的值,并且使之满足K1、K2、K3均为0至 1之间的数,K1+K2+K3=1,例如第一组值为K11、K21、K31,第二组值为K12、K22、K32, 第三组值为K13、K23、K33,然后利用由不同取值形成的连接操作层进行文本分类的测试, 并计算得到不同取值对应的分类准确度,取分类准确度最高的一组取值作为连接操作层的取 值。
[0116] 把m段分类特征矩阵 进行融合,得到融合特征矩阵Vt,计算过程如下:
[0117]
[0118] S7、对融合特征矩阵采用dropout机制,随机删除部分特征,得到分类器输入矩阵。
[0119] 为了提高模型的泛化能力,对融合特征矩阵采用dropout机制,随机删除部分特征,得到 分类器输入矩阵。在实施例中,设置dropout值为0.5,即随机放弃一半参数。
[0120] S8、将II输入分类输出层,对特征进行分析,完成文本多分类。
[0121] 本实施例中,对分类输出层权值给予一个L2正则化的惩罚项,对参数进行约束。使用 softmax作为分类器,softmax loss作为分类器的损失函数。
[0122] S9、对词、词性和词长三嵌入卷积神经网络模型进行训练。
[0123] 本实施例中,词、词性和词长三嵌入卷积神经网络模型采用梯度下降法Adam对参数进 行训练,Adam算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针 对于每个参数的学习速率。Adam也是基于梯度下降的方法,但是每次迭代参数的学习步长 都有一个确定的范围,不会因为很大的梯度导致很大的学习步长,参数的值比较稳定。
[0124] 为了评估所得到的卷积神经网络模型的可靠性,在模型训练的阶段,将原始文本语料采 用k-fold cross validation,交叉验证。
[0125] S10、文本多分类效果评价。
[0126] 本实施例中,文本多分类效果评价主要从分类的准确度进行度量,设给定样本容量大小 为N的样本集T,样本yi的标签和分类结果表示为ni和mi,文本多分类效果评价公式如下:
[0127]
[0128] 其中,|ni=mi|为真时取1,为假时取0。
[0129] 具体参数设置:
[0130] 词、词性和词长向量参数设置:本实施例构建了基于拉勾网招聘网站中企业简介文本信 息的数据集,数据集包含8000条企业基本信息,分为10个类别,分别是金融、互联网、重 工业、能源材料、生物医疗、影音娱乐、房地产业、农产品、物流和家政服务10个行业。训 练词向量中使用Word2vec工具中的Skip-gram模型作为训练模型,对8000条企业简介的文 本信息进行词向量预训练。词向量的维度设置为256,并过滤掉频次低于3的词,最终训练 出词向量的词表size为8616。而对于词性向量使用随机的方式初始化,维度为64,词性表的size为96。词向量训练参数设置:选用Skip-gram模型,上下文滑动窗口为5,iter迭代次数 为40次。
[0131] 词、词性和词长三嵌入卷积神经网络模型训练参数设置:在用词、词性和词长三嵌入卷 积神经网络模型模型进行训练时,其参数设置如下:卷积核窗口大小h,分别为3、4、5,最 大词向量d为300;每种卷积核的数量为100;dropout概率为0.5;chunk-max pooling采样中 chunk为5。
[0132] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应 为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈