专利汇可以提供双阶段语义词向量生成方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了双阶段语义词向量生成方法,该方法包括5个步骤:文本矩阵化;特征提取器的构建;语义识别;神经语言模型的构建;义项词向量的生成。本发明使用多个神经网络为多义词的不同语义生成了对应的词向量,解决了传统词级嵌入式中多义词只对应一个词向量的 缺陷 ,且使用的语料库大小在可接受范围内;同时采用 卷积神经网络 (CNN)和 支持向量机 (SVM)结合的方式,一方面利用了卷积神经网络的特征提取能 力 ,一方面利用了SVM的泛化性以及鲁棒性,使得词义识别的效果更优,从而使得生成的语义词向量 质量 更高。,下面是双阶段语义词向量生成方法专利的具体信息内容。
1.一种双阶段语义词向量生成方法,其特征在于,该方法分为三个阶段,并由5个步骤组成,其中第一阶段是文本矩阵化;第二阶段包括特征提取器的构建、语义识别两个步骤;
第三阶段包括神经语言模型的构建、义项词向量的生成两个步骤:
步骤1:文本矩阵化
从获取的文本中挑选出含有多义词w的子句si,构成集合Dw={s1,s2,s3...},即含有歧义词的子句集合,将子句si与多义词w在该子句的义项类别ci组成一条训练样本(si,ci),将这样的训练样本集合称为数据集,i=1,2,...,n;
取所述集合Dw中出现频率最高的L个字符构成字汇表,为所述字汇表构建一个数据矩阵V,其大小记为L行M列,其中第r行对应字汇表中第r个字符的向量表示,即V中的每一行表示该行对应字符的初始化向量,矩阵V的值使用标准正态分布进行初始化,L是字汇表的大小;
对所述数据集中每个训练样本(si,ci)的子句si进行文本矩阵化,所述文本矩阵化就是将含有多义词w的子句si转换成一个q行M列的数据矩阵Di,其中q是子句si转化成的数据矩阵Di的行数,其大小不超过所述获取的文本中最长的子句具有的字符的个数,且q值由用户根据实际情况指定,q
基于卷积神经网络(CNN)构建一个特征提取器,该特征提取器的结构包含6层,分别是输入层、卷积层、池化层、全连接层1、全连接层2和输出层,其中,每一层的作用分别描述如下:
输入层:利用步骤1的文本矩阵化将所述数据集中每个训练样本(si,ci)中的si转换成对应的数据矩阵Di作为所述特征提取器的输入;
卷积层:利用多个卷积核与矩阵Di进行卷积运算抽取出每个训练样本中的子句si的局部特征,得到多个特征图,其中,为每个不同窗口大小的卷积共设置了256个卷积核,卷积的窗口值设置为[3,4,5];
池化层:使用最大池化,通过降采样的方法对卷积层得到的所述多个特征图进行压缩,得到池化后的特征图,然后将其拼接得到列向量Ei;
全连接层1:根据该层的权重参数矩阵将所述列向量Ei转化为列向量Fi,该列向量Fi的维度设置为128,Fi表示所述特征提取器提取到的si的特征向量;
全连接层2:通过全连接层1得到的si的特征向量Fi来计算si中多义词w被预测为每个义项的可能性,该可能性被表示为一个列向量,全连接层1和全连接层2之间使用dropout函数舍弃部分特征,防止所述特征提取器模型过拟合,提高所述特征提取器模型的泛化能力,所述全连接层2的维度与多义词w的义项数一致;
输出层:使用Softmax函数将全连接层2得到的所述列向量的长度转化为1,得到训练样本中子句si中w被预测为每个义项的概率值;
将由步骤1得到的文本矩阵化后的数据集按照8:2的比例分为训练集和验证集,然后使用交叉熵损失函数及反向调节算法对所述特征提取器的网络参数进行更新;当所述特征提取器的网络参数都收敛之后,保持所述特征提取器中各网络参数不变,即得到训练及验证完成的所述特征提取器;最后将含有多义词w的训练样本重新输入所述训练及验证完成的所述特征提取器,则全连接层1重新输出的Fi即为特征提取器提取到的子句si的特征向量;
所述训练集和所述验证集都是在训练过程中使用的,所述特征提取器一边训练一边验证;
步骤3:多义词语义识别
将多义词语义识别作为分类任务处理,采用分类器SVM进行多义词语义识别;对每条训练样本使用步骤2得到的特征向量Fi作为所述分类器SVM的输入,以下式作为目标函数,对所述分类器SVM进行训练:
s.t.yi(whyperφ(xi)+b)≥1-ξi,C>0,ξi≥0,i=1,2,...,n
所述分类器SVM的核心问题是寻求出在多维空间中能够区分正负类样本的最优分离超平面whyperx+b=0,其中whyper和b分别代表了该超平面的法向量与截距;C为惩罚系数;ξ为松弛变量;xi即Fi,为子句si的特征向量;yi即义项类别ci,为xi对应的类别标记;φ(x)为从低维空间到高维空间的非线性映射函数;
对于训练好的分类器SVM,将由步骤2得到的子句si的特征向量Fi作为输入,即可对样本子句si中多义词w的语义进行识别,得到其预测义项类别
步骤4:神经语言模型的构建
构建一个神经语言模型,所述神经语言模型的训练采用训练集D,首先,对于神经语言模型的训练集D,按照步骤1的方法构建含有多义词w的文本集合Dw={s1,s2,s3...},并构建集合Dr=D-Dw,然后对于Dw中每条文本si,使用步骤1的文本矩阵化方法将其转换成矩阵Di,使用步骤2构建好的特征提取器得到si的特征向量Fi,按照步骤3中多义词识别过程得到样本si中多义词w的预测义项类别 然后将文本si中多义词w替换为w′,其中 即将多义词w与其预测义项类别 进行字符串连接,最终得到新的文本集合D′w={s′1,s′2,s′3...},合并集合,得到新的训练集D′=D′w+Dr;
然后,对所述训练集D′中的训练样本进行分词、去停用词,然后统计每个词语的词频,按照词频降序排序,选取前l个词形成词汇表,并按照步骤1中的方式,为该词汇表构建一个数据矩阵V′,矩阵的大小为l行m列,根据词汇表中各词语的词频构建一棵哈夫曼树H;
最后,初始化所述神经语言模型,使用当前词语wt的上下文context(wt)={wt-1,wt+1,...,wt-k,wt+k},其中,k是预先选取的上下文窗口的大小,训练所述神经语言模型,预测当前词wt;所述神经语言模型的结构包含三层网络,其中每一层网络的作用如下:
输入层:从数据矩阵V′中获得当前词wt上下文的向量表示,各神经元的输入是一个m维的列向量, 代表当前词wt左侧第一个词语wt-1的词向量, 代表当前词wt右侧第一个词语wt+1的词向量,依次类推;
投影层:将输入层的词向量集合{wt-1,wt+1,...,wt-k,wt+k}映射成一个环境向量表示此处将输入层的各个词向量wt-1,wt+1,...,wt-k,wt+k相加取平均值得到
输出层:使用哈夫曼树结构构建输出层,加速所述神经语言模型的计算过程,使用层次Softmax(Hierarchical Softmax)算法完成输出层的正向传播和反向调节,即投影层到输出层的Softmax是沿着哈夫曼树一层一层的完成的,此处的哈夫曼树即H,哈夫曼树中的每个叶子节点类似神经网络输出Softmax层的神经元,除根节点外的内部节点类似于神经网络隐藏层的神经元,根节点存储由投影层获得的环境向量
步骤5:义项词向量的生成
义项词向量的生成,主要在于所述神经语言模型各层网络参数的更新,即层次Softmax算法的正向传播过程及反向调节过程,具体如下:
首先进行参数定义:
wt表示目标输出词语
表示根节点词向量
表示从根结点到wt所在叶子结点的路径上包含的结点总数
表示从根结点到wt所在叶子结点的路径上的第j个结点
表示结点 对应的哈夫曼编码{0,1},
表示结点 对应的模型参数向量,
Hierarchical Softmax算法正向传播过程的核心是找到所有合适的内部结点参数向量,使得训练样本达到最大似然,它每次训练使用一条训练样本,将正向传播过程中每一次二叉分支视作一次分类过程,将左分支即编码为0的分支,视为正类,将右分支即编码为1的分支视作负类,使用sigmoid函数预测分类的概率;
从根结点到wt所在叶子结点的路径中,经过哈夫曼树某个结点 的逻辑回归概率表达式如下式所示:
其中σ(x,θ)为sigmoid函数,公式如下:
则对于目标输出词wt,其最大似然函数为:
反向调节过程为Hierarchical Softmax算法用负的对数似然函数作为损失函数,使用梯度下降法,对参数 及生成根结点词向量 的相关向量,即context(wt)中词语的向量进行更新, 如以下几个公式所示,η代表所述神经语言模型的学习率:
每次更新要将数据矩阵V′中词语wi的词向量 进行更新,在下一次读取词语wi的词向量时,使用已经更新后的向量,迭代训练,直到所述神经语言模型收敛,最终数据矩阵V′中的各个行向量就是每个词语的义项词向量。
2.根据权利要求1所述的双阶段语义词向量生成方法,其特征在于,所述步骤4中选取的上下文窗口的大小k设置为3。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于事件的延迟搜索方法和系统 | 2020-05-08 | 140 |
一种互联网电视播放内容的校验方法、机顶盒和系统 | 2020-05-11 | 642 |
一种CTF在线竞赛平台动态Flag处理方法及装置 | 2020-05-11 | 770 |
一种符合数字电影规范的三维音频节目码流传输的方法 | 2020-05-11 | 172 |
一种基于大数据和深度学习的知识推介方法及系统 | 2020-05-11 | 29 |
一种用于就地化变电站的全景网络配置检测方法 | 2020-05-11 | 424 |
具有记录安全性的区块链架构 | 2020-05-08 | 603 |
一种面向泛在电力物联网的配线网络运维系统及方法 | 2020-05-08 | 1004 |
IP地址录入方法、装置、服务器及存储介质 | 2020-05-11 | 906 |
一种生成训练样本的方法以及装置 | 2020-05-11 | 858 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。