专利汇可以提供依存关系对齐组件、依存关系对齐训练方法、设备及介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种依存关系对齐组件、依存关系对齐训练方法、设备及介质,所述的依存关系对齐组件包括:词对齐信息接收模 块 ,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。利用本发明 实施例 可获得双语句法对齐的高 质量 树库。,下面是依存关系对齐组件、依存关系对齐训练方法、设备及介质专利的具体信息内容。
1.一种依存关系对齐组件,其特征在于,其包括:
词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;
对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。
2.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
词对齐打分子模块,用于基于所述多个词对齐关系信息对所述多个翻译结果打分;
树对齐打分子模块,用于基于句法依存树的相似度对所述多个句法依存树打分。
3.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
词对齐相似度处理模块,用于基于所述多个词对齐关系信息得到针对所述多个翻译结果的双向翻译词对齐相似度。
4.根据权利要求3所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括树到树预测模块,
所述树到树预测模块用于基于所述双向翻译词对齐相似度以及所述第一语言语料对应的第一句法依存树,预测第二句法依存树;
所述树到树预测模块还用于基于所述双向翻译词对齐相似度以及所述第二语言语料对应的第二句法依存树,预测第一句法依存树。
5.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
句法到语义转换模块,用于将目标句法依存树转换为对应的三元组。
6.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息来自预设的机器翻译系统。
7.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料各自的多个句法依存树来自预设的依存句法分析组件。
8.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料为互译的双语语料。
9.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件基于神经网络实现。
10.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个翻译结果包括:
由将所述第一语言语料翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对;以及
由将所述第二语言语料翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对。
11.根据权利要求10所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵;以及
将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵。
12.根据权利要求11所述的依存关系对齐组件,其特征在于,所述词对齐打分子模块包括:
词对齐相似度计算单元,用于计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
词对齐相似度打分单元,用于对多个双向翻译词对齐相似度打分,相似度高者对应的得分高。
13.根据权利要求11所述的依存关系对齐组件,其特征在于,所述正向Nbest翻译词对齐概率矩阵采用神经网络机器翻译NMT中将所述第一语言语料翻译为第二语言过程中的多个注意力Attention矩阵;所述反向Nbest翻译词对齐概率矩阵采用NMT中将所述第二语言语料翻译为第一语言过程中的多个注意力Attention矩阵。
14.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:使用快速对齐fast align技术对所述第一语言语料和第二语言语料分别进行处理所获取的对齐信息。
15.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
依存树相似度处理子模块,用于基于第一语言语料对应的N个最佳Nbest第一句法依存树,以及第二语言语料对应的Nbest第二句法依存树,确定多个依存树相似度;
依存树对齐相似度打分单元,用于对多个依存树相似度打分,相似度高者对应的得分高。
16.根据权利要求15所述的依存关系对齐组件,其特征在于,所述依存树相似度处理子模块根据至少两个依存树的树形结构的关系来确定所述至少两个依存树的依存树相似度。
17.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构相同。
18.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构包含第二句法依存树的树形结构或者第二句法依存树的树形结构包含第一句法依存树的树形结构。
19.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构属于高频树形结构对。
20.一种多语言依存关系对齐训练方法,其特征在于,所述方法包括:
步骤一,基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
步骤二,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
步骤三,基于所述训练集,返回步骤一,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
21.根据权利要求20所述的方法,其特征在于,所述训练集包括符合所述筛选条件的所述翻译结果对应的双语句对和/或所述句法依存树对对应的双语树库。
22.根据权利要求20所述的方法,其特征在于,训练时,对所述多个双语句对执行以下迭代处理:
1a,通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
1b,通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树;
1c,使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对;
1d,返回1a处理下一个双语句对,直至满足迭代停止条件。
23.根据权利要求22所述的方法,其特征在于,1a中,所述通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息,包括;
通过所述机器翻译系统,分别对所述第一语言语料和所述第二语言语料进行翻译;
将所述第一语言语料被翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对,以及所述第二语言语料被翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对的总和,作为所述多个翻译结果。
24.根据权利要求22所述的方法,其特征在于,1b中,所述通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树,包括;
通过所述依存句法分析组件,分别对所述第一语言语料和所述第二语言语料进行依存关系分析处理;
对于所述第一语言语料,得到多个第一句法依存树;
对于所述第二语言语料,得到多个第二句法依存树;
将所述多个第一句法依存树以及所述多个第二句法依存树的总和作为所述多个句法依存树。
25.根据权利要求22所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,包括:
使用所述依存关系对齐组件,基于所述多个词对齐关系信息对所述多个翻译结果打分;
使用所述依存关系对齐组件,基于句法依存树的相似度对所述多个句法依存树打分。
26.根据权利要求23所述的方法,其特征在于,1a中,所述通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息,包括;
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵,以及将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵的总和,作为所述多个词对齐关系信息。
27.根据权利要求26所述的方法,其特征在于,1b中,所述通过所述依存句法分析组件获得所述第一语言语料和所述第二语言语料各自的多个句法依存树,包括;
通过所述依存句法分析组件,分别对所述第一语言语料和所述第二语言语料进行依存关系分析处理;
对于所述第一语言语料,得到N个最佳Nbest第一句法依存树;
对于所述第二语言语料,得到Nbest第二句法依存树;
将所述Nbest第一句法依存树以及所述Nbest第二句法依存树的总和作为所述多个句法依存树。
28.根据权利要求27所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,包括:
使用所述依存关系对齐组件,计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
对多个双向翻译词对齐相似度打分,相似度高者对应的得分高,得分最高的双向翻译词对齐相似度对应于得分最高的翻译结果。
29.根据权利要求28所述的方法,其特征在于,1c中,所述使用所述依存关系对齐组件选出得分最高的翻译结果和句法依存树对,还包括:
基于所述Nbest第一句法依存树以及所述Nbest第二句法依存树,确定多个依存树相似度;
对多个依存树相似度打分,相似度高者对应的得分高,得分最高的依存树相似度对应于得分最高的句法依存树对。
30.根据权利要求28所述的方法,其特征在于,所述筛选条件包括以下三者中的至少一者:
翻译结果的得分大于指定阈值;
第一句法依存树的结构与第二句法依存树的结构相同;
第一句法依存树的结构包含第二句法依存树的结构或者第二句法依存树的结构包含第一句法依存树的结构;
第一句法依存树的结构与第二句法依存树的结构属于高频树形结构对。
31.根据权利要求28所述的方法,其特征在于,所述方法还包括训练树到数预测组件,树到数预测组件的训练过程包括:
通过神经网络系统,基于所述双向翻译词对齐相似度以及第一语言语料对应的第一句法依存树,预测第三句法依存树;
基于所述双向翻译词对齐相似度以及第二语言语料对应的第二句法依存树,预测第四句法依存树;
获取所述第三句法依存树与所述第二句法依存树的树对齐相似度;
获取所述第四句法依存树与所述第一句法依存树的树对齐相似度;
基于得到的树对齐相似度,优化第三句法依存树的预测处理过程和/或第四句法依存树的预测处理过程,以使各自对应的树对齐相似度得到提高。
32.根据权利要求20所述的方法,其特征在于,所述方法还包括:对所述符合筛选条件的翻译结果和/或句法依存树对进行处理,获得对应的知识三元组。
33.根据权利要求20-32中任一所述的方法,其特征在于,所述依存关系对齐组件采用如权利要求1-19中任一所述的依存关系对齐组件。
34.一种多语言依存关系对齐训练装置,其特征在于,所述装置包括:
训练处理模块,用于基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,
所述依存关系对齐组件,用于得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
训练集处理模块,用于在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
迭代处理模块,用于基于所述训练集,触发所述模型训练模块,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。
35.一种多语言依存关系对齐训练设备,其特征在于,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求20至33中任一项所述的方法。
36.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求20至33中任一项所述的方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
针对头衔标准化的与语言无关的机器学习模型 | 2020-05-08 | 911 |
基于专利数据的半自动化翻译双语模板的构建方法及系统 | 2020-05-12 | 338 |
非自回归神经机器翻译方法、装置、计算机设备和介质 | 2020-05-11 | 878 |
一种适用于神经网络机器翻译的汉语分词方法及装置 | 2020-05-12 | 372 |
依存关系对齐组件、依存关系对齐训练方法、设备及介质 | 2020-05-11 | 903 |
一种机器翻译方法、装置及系统 | 2020-05-12 | 453 |
一种新词发现和词性预测及标注的方法 | 2020-05-12 | 319 |
机器翻译模型训练方法、装置及存储介质 | 2020-05-08 | 579 |
语音合成方法、装置、电子设备及存储介质 | 2020-05-13 | 222 |
机器翻译的方法和电子设备 | 2020-05-13 | 343 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。