专利汇可以提供一种基于卷积神经网络的汉语句子词义消岐方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 卷积神经网络 (Convolutional Neural Network,CNN)的词义消岐方法。本发明首先对汉语语料进行处理,对包含歧义词汇的汉语句子进行分词、 词性标注 和语义标注处理,得到处理好的训练语料和测试语料;然后利用训练语料对模型进行训练,得到优化后的CNN模型;在优化后的CNN模型上,对测试语料进行消岐,得到歧义词汇在每个语义类别下的概率分布;具有最大概率的语义类别即为歧义词汇的语义类别。本发明对歧义词汇实现了很好的消岐,更准确地判断歧义词汇的真实含义。,下面是一种基于卷积神经网络的汉语句子词义消岐方法专利的具体信息内容。
1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:
步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;
步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;
步骤3:训练包括前向传播和反向传播两个过程;训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;
步骤4:测试过程为前向传播过程,即语义分类过程;在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。
2.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义类标注,提取消岐特征,具体步骤为:
步骤1-1 利用汉语分词工具对汉语句子进行词汇切分;
步骤1-2 利用汉语词性标注工具对已切分好的词汇进行词性标注;
步骤1-3 利用汉语语义标注工具对已切分好的词汇进行语义类标注;
利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。
3.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤2中,以哈尔滨工业大学人工语义标注语料为基础,统计消岐特征的出现频度,具体步骤为:
步骤2-1 提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类;
步骤2-2 统计消岐特征的出现频度;
步骤2-3 其频度经过二进制转化后,每个消岐特征对应于一组二进制数;
选取一小部分处理好的语料作为测试数据,其余的作为训练数据。
4.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤3中,对CNN模型进行训练,具体步骤为:
前向传播过程:
步骤3-1 把训练数据输入到初始化的CNN模型中;
步骤3-2 经过卷积层,提取更完整的消岐特征;
步骤3-3 经过池化层,提取最大的消岐特征;可以大大地缩小消岐特征的规模,从而减少参数个数,加快模型计算的速度,有效地防止过拟合;
步骤3-4 通过卷积和池化交替操作之后,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;.
步骤3-5 利用softmax层来计算歧义词汇m在每个语义类别si (i=1, 2, ... , n)下的预测概率,所述的softmax函数如下:
其中,ai表示softmax层的输入数据,P(si|m)表示歧义词汇m在语义类别si下的出现概率(i=1, 2, ... , n);
步骤3-6 从P(s1|m)、P(s2|m)、...、P(sn|m)中选取最大概率作为预测概率,具体计算如下:
其中,y_predictedj表示歧义词汇m的预测概率;
步骤3-7 将预测概率y_predictedj和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss,所述误差loss的计算过程如下所示:
其中,yj表示歧义词汇m属于语义类别si的真实概率;
反向传播过程:
根据误差loss反向传播,逐层更新参数,参数更新过程如下:
其中,θ表示参数集,θ'表示更新后的参数集,a为学习率;
不断迭代CNN模型,得到优化后的CNN模型。
5.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,在所述步骤4中,对歧义词汇m进行语义分类,具体过程为:
语义分类过程:
步骤4-1 把测试数据输入到优化后的CNN模型之中;
步骤4-2 经过卷积层设置卷积核,提取更完整的消岐特征;
步骤4-3 经过池化层,提取最大的消岐特征;
步骤4-4 通过卷积和池化交替操作之后,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;
步骤4-5 利用softmax层来计算歧义词汇m在每个语义类别下的概率分布,其中,具有最大概率的语义类别s'即为歧义词汇的语义类别,所述语义类别s'的确定过程如下:
其中,s'表示概率最大的语义类别,n表示语义类别数,P(s1|m), ..., P(si|m), ..., P(sn|m)表示歧义词汇m在语义类别下的概率分布序列。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于关联数据的自治数据湖构建系统及方法 | 2020-05-08 | 75 |
一种基于依存约束和知识的副词词义消歧方法和装置 | 2020-05-15 | 607 |
基于CRP聚类的词语多原型向量表示及词义消歧方法 | 2020-05-18 | 801 |
基于图像和文本语义相似度的图像语义消歧方法和装置 | 2020-05-20 | 53 |
一种信息处理的方法及服务器 | 2020-05-20 | 407 |
一种面向工程应用的领域语义网建模方法 | 2020-05-22 | 476 |
一种基于机器学习的中文商业文本预处理方法 | 2020-05-12 | 318 |
用于计算机学习和理解的体系结构和方法 | 2020-05-17 | 49 |
一种基于概念的语义识别方法及装置 | 2020-05-19 | 649 |
一种基于依存约束和知识的动词词义消歧方法和装置 | 2020-05-26 | 616 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。