专利汇可以提供一种基于远程监督的同义词提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于远程监督的同义词提取方法,属于 自然语言处理 技术领域。该方法包括:建立领域中同义词的词汇句法模式模型;构建基于LSTM和CRF的远程监督神经网络学习模型,并使用领域词条进行训练,得到同义词发现的句子序列标注集;根据标注集,将语料库中的语句中的候选实体进行标注及 配对 , 抽取 实体后得到同义词。本发明通过利用基于百科 知识库 词条特性、结合领域同义词的相应词汇‑句法模式、通过远程 监督学习 和机器自主学习,获取领域同义词,该方法以机器处理为主,人工处理为辅,提高同义词获取的效率,在不降低 精度 的情况下,大幅降低人工成本。通过定期对在线百科的词条学习和对隐藏同义词的分析可以发现新词。,下面是一种基于远程监督的同义词提取方法专利的具体信息内容。
1.一种基于远程监督的同义词提取方法,其特征在于,包括以下步骤:
建立领域中同义词的词汇句法模式模型;
构建基于LSTM和CRF的远程监督神经网络学习模型,并使用收集的领域词条进行训练,得到同义词发现的句子序列标注集;
基于上述神经网络处理方法与得到的标注集,将待处理语料库中的语句中的候选实体进行标注及配对,抽取实体后得到同义词;
其中,所述神经网络学习模型包括6层结构,具体如下:
1-2层为词向量处理层,用于对输入的句子进行分词,构建领域同义词的候选实体的向量;
3-5层为LSTM层,用于对候选实体向量进行训练,得到每个实体属于某个模式的可能性;
6层为CRF层,用于实现句子序列的标注。
2.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述同义词的词汇句法模式包括:
X又称(also named as)Y
X即(also called as)Y
X简称(abbreviated as)Y
X别名(also named as)Y
X俗称(commonly called as)Y
X原名(also called as)Y
X外文名Y。
3.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述词向量处理层的处理过程如下:使用NLP分词和POS词性标注方法对输入的句子进行分词,将分词后的含有N个字的句子即实体序列记作x:
x=(x1,x2,...,xi,...,xN)
以全部收集到的词汇集为词典,xi的数值表示第i个实体在字典中的id值,从而得到句子的one-hot向量,之后利用预训练或随机的embedding矩阵将句子中的值从one-hot向量映射到低维稠密的文字向量,从而得到一个低维度的embedding序列M。
4.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述LSTM层的处理过程如下:第三、四层采用双向循环LSTM层,将词向量处理层得到的候选实体向量序列作为双向LSTM各个时间的输入,得到了正向 与反向 的两
个序列;在对应位置进行拼接 得到完整的隐状态序列H;然后在第五层
LSTM输出层将隐状态序列进行映射转换,得到每个实体属于某种模式的可能性。
5.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述CRF层的处理过程如下:
首先设置词法、句法规则约束,然后在标注集k增加start和end两个值,再基于规则构建一个(k+2)*(k+2)的得分矩阵K,矩阵每一个值代表了标注结果转换的概率或者得分,整个序列的最终打分由LSTM层和CRF层共同组成,假设一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么对于句子x的标签序列为y的打分为:
Pi为LSTM层的输出,最后根据得分,通过softmax方法或者直接对得分结果进行操作,得到最后的标注结果,从而确认同义词的候选实体组合。
6.根据权利要求1所述的基于远程监督的同义词提取方法,其特征在于,所述CRF层得到的句子序列标注集中标记及释义如下:
标记释义
ENT候选实体对
B_DT同义词关系的起始
C_DT同义词关系的中心词
E_DT同义词关系的结束
O不表达同义词关系的词。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
具有多设备消息传输的总线通信 | 2020-05-08 | 180 |
一种映射关系生成方法及装置 | 2020-05-17 | 899 |
基于数据共享平台实现对启动调度服务加载计划的优化处理的系统及其方法 | 2020-05-15 | 113 |
中文电子病历数据的临床表现信息抽取方法和设备 | 2020-05-16 | 399 |
一种基于图结构分析的IP别名解析方法 | 2020-05-20 | 204 |
单点登录方法、系统、计算机设备和存储介质 | 2020-05-12 | 965 |
通讯地址标准化的系统及其方法 | 2020-05-16 | 327 |
数据库设计文档生成方法、装置及计算机可读存储介质 | 2020-05-18 | 744 |
用于控制数据查询的方法和装置 | 2020-05-21 | 116 |
一种将不同商城的商品链接进行相互映射的方法及系统 | 2020-05-11 | 481 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。