专利汇可以提供一种基于远程监督的同义词提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于远程监督的同义词提取方法,属于 自然语言处理 技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及 配对 , 抽取 实体后得到同义词。本发明通过利用基于百科 知识库 词条特性、结合领域同义词的相应词汇-句法模式、通过远程 监督学习 和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低 精度 的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。,下面是一种基于远程监督的同义词提取方法专利的具体信息内容。
1.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:
建立领域中同义词的词汇句法模式模型;
构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;
基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词。
2.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述同义词的词汇句法模式包括:
X又称(also named as)Y;
X即(also called as)Y
X简称(abbreviated as)Y
X别名(also named as)Y
X俗称(commonly called as)Y
X原名(also called as)Y
X外文名(Y)。
3.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述神经网络学习模型包括6层结构,具体如下:
1-2层为词向量处理层,用于对输入的句子进行分词,构建领域同义词的候选实体的向量;
3-5层为LSTM层,用于对候选实体向量进行训练,得到每个实体属于某个模式的可能性;
6层为CRF层,用于实现句子序列的标注。
4.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述词向量处理层的处理过程如下:使用NLP分词和POS词性标注方法对输入的句子进行分词,将分词后的含有N个字的句子即实体序列记作x:
x=(x1,x2,...,xn)
以全部收集到的词汇集为词典,xi的数值表示第i个实体在字典中的id值,从而得到句子的one-hot向量,之后利用预训练或随机的embedding矩阵将句子中的值从one-hot向量映射到低维稠密的文字向量,从而得到一个低维度的embedding序列M。
5.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述LSTM层的处理过程如下:第三、四层采用双向循环LSTM层,将词向量处理层得到的候选实体向量序列作为双向LSTM各个时间的输入,得到了正向 与反向 的两
个序列;在对应位置进行拼接 得到完整的隐状态序列H;然后在第五层
LSTM输出层将隐状态序列进行映射转换,得到每个实体属于某种模式的可能性。
6.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述CRF层的处理过程如下:
首先设置词法、句法规则约束,然后在标注集k增加start和end两个值,再基于规则构建一个(k+2)*(k+2)的得分矩阵K,矩阵每一个值代表了标注结果转换的概率或者得分,整个序列的最终打分由LSTM层和CRF层共同组成,假设一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么对于句子x的标签序列为y的打分为:
最后根据得分,通过softmax方法或者直接对得分结果进行操作,得到最后的标注结果,从而确认同义词的候选实体组合。
7.根据权利要求3所述的基于远程监督的同义词提取方法,其特征在于,所述CRF层得到的句子序列标注集中标记及释义如下:
标记 释义
ENT 候选实体对
B_DT 同义词关系的起始
C_DT 同义词关系的中心词
E_DT 同义词关系的结束
O 不表达同义词关系的词。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于图像识别的商品信息分析方法、系统及存储介质 | 2020-05-14 | 600 |
通讯地址标准化的系统及其方法 | 2020-05-16 | 327 |
单点登录方法、系统、计算机设备和存储介质 | 2020-05-12 | 965 |
安全日志采集解析方法、装置、设备及介质 | 2020-05-16 | 8 |
程序打包方法、程序打包装置及计算机可读存储介质 | 2020-05-19 | 321 |
面向航天软件的在轨升级方法 | 2020-05-15 | 803 |
一种注塑机数据统一编码采集的方法 | 2020-05-13 | 593 |
数据库设计文档生成方法、装置及计算机可读存储介质 | 2020-05-18 | 744 |
一种网络广告数据高并发访问服务方法 | 2020-05-17 | 557 |
一种基于信息抽取的网络安全法案件智能研判方法 | 2020-05-17 | 625 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。