专利汇可以提供目标语言单词变形的方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于双语语料库训练 目标语言 单词 变形 模型的方法及装置、目标语言单词变形方法及装置、以及将 源语言 文本翻译为目标语言译文的翻译方法及翻译系统。在该基于双语语料库训练目标语言单词变形模型的方法中,双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述方法包括:建立初始的目标语言单词变形模型;预处理上述双语语料库中的源语言语料和目标语言语料;基于上述预处理后的源语言语料和目标语言语料, 抽取 包含目标语言单词变形信息的模板;以及利用上述模板,训练上述目标语言单词变形模型。,下面是目标语言单词变形的方法及装置专利的具体信息内容。
1.一种基于双语语料库训练目标语言单词变形模型的方法,其中上 述双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述方 法包括:
建立初始的目标语言单词变形模型;
预处理上述双语语料库中的源语言语料和目标语言语料;
基于上述预处理后的源语言语料和目标语言语料,抽取包含目标语言 单词变形信息的模板;以及
利用上述模板,训练上述目标语言单词变形模型。
2.根据权利要求1所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述预处理上述双语语料库中的源语言语料和目标语言 语料的步骤包括:
对于上述多对进行了对齐的源语言语料和目标语言语料的每一对,
预处理上述源语言语料,以使预处理后的源语言语料中的源语言 单词为原形并标有词性;以及
预处理上述目标语言语料,以使预处理后的目标语言语料中的目 标语言单词为原形并标有词性。
3.根据权利要求1或2所述的基于双语语料库训练目标语言单词变 形模型的方法,其中,上述抽取包含目标语言单词变形信息的模板的步骤 包括:
对于上述预处理后的多对进行了对齐的源语言语料和目标语言语料的 每一对,
对齐上述预处理后的源语言语料和上述预处理后的目标语言语料 中的单词,以获得词对齐信息;
搜索在原始的上述目标语言语料和上述预处理后的目标语言语料 中不一致的目标语言单词;
根据上述词对齐信息,获得与上述不一致的目标语言单词对齐的 源语言单词;以及
根据上述不一致的目标语言单词、对齐的源语言单词以及对齐的 源语言单词在原始的上述源语言语料中的上下文信息,生成上述模板。
4.根据权利要求1至3任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形信息包括:源语言 单词的词性;作为条件的上述源语言单词的上下文信息的组合;以及作为 动作的与上述源语言单词对齐的目标语言单词的变形行为。
5.根据权利要求4所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述上下文信息的组合包括:前一个单词;前一个单词 与后一个单词;前面相隔一个单词;后面相隔一个单词。
6.根据权利要求1至5任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述源语言是汉语,上述目标语言是英语。
7.根据权利要求6所述的基于双语语料库训练目标语言单词变形模 型的方法,其中,上述预处理上述源语言语料的步骤包括:
将上述源语言语料切分为源语言单词序列;以及
对上述源语言单词序列中的每个源语言单词标明词性。
8.根据权利要求1至7任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述语料是句子、短语、段落中的至少一 个。
9.根据权利要求1至8任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形模型是概率模型。
10.根据权利要求1至8任意一项所述的基于双语语料库训练目标语 言单词变形模型的方法,其中,上述目标语言单词变形模型是模式识别模 型。
11.一种目标语言单词变形方法,其中,源语言文本被翻译为目标语 言译文,并且上述源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性,上述方法包括:
利用权利要求1至10任意一项所述的基于双语语料库训练目标语言单 词变形模型的方法,训练目标语言单词变形模型;以及
利用上述目标语言单词变形模型,对上述目标语言译文中的目标语言 单词进行变形。
12.根据权利要求11所述的目标语言单词变形方法,其中,上述对上 述目标语言译文中的目标语言单词进行变形的步骤包括:
根据每一个上述源语言单词的词性和上述目标语言单词变形模型,确 定是否存在对应的模板;以及
如果存在上述对应的模板,则
验证该源语言单词的上下文信息是否满足上述对应的模板中的条 件;
如果满足上述条件,则对上述目标语言译文中与该源语言单词对 齐的目标语言单词执行上述对应的模板中的动作。
13.根据权利要求12所述的目标语言单词变形方法,其中,在上述验 证步骤中的验证结果是该源语言单词满足多个上述对应的模板的条件时, 对与该源语言单词对齐的目标语言单词分别执行上述多个对应的模板中的 动作,以得到多个候选目标语言译文;
上述方法还包括:
对于上述多个候选目标语言译文的每一个,
根据目标语言的语言模型,计算该候选目标语言译文的流利度得 分;
根据上述目标语言单词变形模型,计算获得该候选目标语言译文 所使用的模板的得分;
获得上述流利度得分与上述模板的得分的组合的得分,作为该候 选目标语言译文的得分;
选择上述多个候选目标语言译文的得分中的最高得分所对应的候选目 标语言译文,作为最终的目标语言译文。
14.一种将源语言文本翻译为目标语言译文的翻译方法,包括:
预处理上述源语言文本,以获得上述源语言文本的源语言单词序列, 其中上述源语言单词序列中的源语言单词被还原为原形并标有词性;
利用基于语料库的翻译模型,将上述预处理后的源语言文本翻译为初 始目标语言译文;以及
利用权利要求11至13任意一项所述的目标语言单词变形方法,编辑 上述初始目标语言译文,以获得最终的目标语言译文。
15.一种基于双语语料库训练目标语言单词变形模型的装置,其中上 述双语语料库包括多对进行了对齐的源语言语料和目标语言语料,所述装 置包括:
初始模型建立单元,用于建立初始的目标语言单词变形模型;
语料预处理单元,用于预处理上述双语语料库中的源语言语料和目标 语言语料;
模板抽取单元,用于基于上述预处理后的源语言语料和目标语言语料, 抽取包含目标语言单词变形信息的模板;以及
训练单元,用于利用上述模板,训练上述目标语言单词变形模型。
16.根据权利要求15所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述语料预处理单元包括:
源语言语料预处理单元,用于预处理上述源语言语料,以使预处理后 的源语言语料中的源语言单词为原形并标有词性;以及
目标语言语料预处理单元,用于预处理上述目标语言语料,以使预处 理后的目标语言语料中的目标语言单词为原形并标有词性。
17.根据权利要求15或16所述的基于双语语料库训练目标语言单词变 形模型的装置,其中,上述模板抽取单元包括:
对齐单元,用于对于上述预处理后的多对进行了对齐的源语言语料和 目标语言语料的每一对,对齐上述预处理后的源语言语料和上述预处理后 的目标语言语料中的单词,以获得词对齐信息;
搜索单元,用于搜索在原始的上述目标语言语料和上述预处理后的目 标语言语料中不一致的目标语言单词;
获取单元,用于根据上述词对齐信息,获得与上述不一致的目标语言 单词对齐的源语言单词;以及
模板生成单元,用于根据上述不一致的目标语言单词、对齐的源语言 单词以及对齐的源语言单词在原始的上述源语言语料中的上下文信息,生 成上述模板。
18.根据权利要求15至17任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形信息包括:源语言 单词的词性;作为条件的上述源语言单词的上下文信息的组合;以及作为 动作的与上述源语言单词对齐的目标语言单词的变形行为。
19.根据权利要求18所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述上下文信息的组合包括:前一个源语言单词;前一 个源语言单词与后一个源语言单词;前面相隔一个源语言单词;后面相隔 一个源语言单词。
20.根据权利要求15至19任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述源语言是汉语,上述目标语言是英语。
21.根据权利要求20所述的基于双语语料库训练目标语言单词变形模 型的装置,其中,上述源语言语料预处理单元包括:
切分单元,用于将上述源语言语料切分为源语言单词序列;以及
词性标注单元,用于对上述源语言单词序列中的每个源语言单词标明 词性。
22.根据权利要求15至21任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述语料是句子、短语、段落中的至少一 个。
23.根据权利要求15至22任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形模型是概率模型。
24.根据权利要求15至22任意一项所述的基于双语语料库训练目标语 言单词变形模型的装置,其中,上述目标语言单词变形模型是模式识别模 型。
25.一种目标语言单词变形装置,其中,源语言文本被翻译为目标语 言译文,并且上述源语言文本被预处理为使得其所包含的源语言单词为原 形并标有词性,上述装置包括:
目标语言单词变形模型,其是利用权利要求15至24任意一项所述的 基于双语语料库训练目标语言单词变形模型的装置训练的;以及
单词变形单元,用于利用上述目标语言单词变形模型,对上述目标语 言译文中的目标语言单词进行变形。
26.根据权利要求25所述的目标语言单词变形装置,其中,上述单词 变形单元包括:
模板确定单元,用于根据每一个上述源语言单词的词性和上述目标语 言单词变形模型,确定是否存在对应的模板;以及
条件验证单元,用于在上述模板确定单元的结果是存在上述对应的模 板时,验证该源语言单词的上下文信息是否满足上述对应的模板中的条件; 以及
动作执行单元,用于在上述条件验证单元的验证结果是上述对应的模 板中的条件满足时,对与该源语言单词对齐的目标语言单词执行上述对应 的模板中的动作。
27.根据权利要求26所述的目标语言单词变形装置,其中,在上述条 件验证单元的验证结果是该源语言单词满足多个上述对应的模板的条件 时,上述动作执行单元对与该源语言单词对齐的目标语言单词分别执行上 述多个对应的模板中的动作,以得到多个候选目标语言译文;
上述装置还包括:
流利度计算单元,用于对于上述多个候选目标语言译文的每一个,根 据目标语言的语言模型,计算该候选目标语言译文的流利度得分;
模板得分计算单元,用于根据上述目标语言单词变形模型,计算获得 该候选目标语言译文所使用的模板的得分;
组合得分获得单元,用于获得上述流利度得分与上述模板的得分的组 合的得分,作为该候选目标语言译文的得分;
选择单元,用于选择上述多个候选目标语言译文的得分中的最高得分 所对应的候选目标语言译文,作为最终的目标语言译文。
28.一种将源语言文本翻译为目标语言译文的翻译系统,包括:
文本预处理装置,用于预处理上述源语言文本,以获得上述源语言文 本的源语言单词序列,其中上述源语言单词序列中的源语言单词被还原为 原形并标有词性;
基于语料库的翻译模型,用于将上述预处理后的源语言文本翻译为初 始目标语言译文;以及
权利要求25至27任意一项所述的目标语言单词变形装置,用于编辑 上述初始目标语言译文,以获得最终的目标语言译文。
本发明涉及基于语料库的自动机器翻译技术中的目标语言单词变形, 具体地,涉及基于双语语料库训练目标语言单词变形模型的方法及装置、 目标语言单词变形方法及装置、以及将源语言文本翻译为目标语言文本的 翻译方法及翻译系统。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种面向大数据的跨语言检索方法 | 2020-05-12 | 589 |
基于统计的机器翻译方法、装置及电子设备 | 2020-05-17 | 107 |
一种基于多特征的跨语言剽窃检测方法 | 2020-05-23 | 308 |
面向计算机辅助翻译的输入方法与装置 | 2020-05-25 | 657 |
一种固定搭配型短语优先的两段式机器翻译方法 | 2020-05-19 | 279 |
具有领域定制功能的术语译文挖掘系统及方法 | 2020-05-22 | 942 |
基于双语片段的交互式机器翻译方法 | 2020-05-23 | 270 |
一种机器翻译译文的翻译方法、装置及存储介质 | 2020-05-13 | 360 |
一种机器翻译方法、装置、服务器及存储介质 | 2020-05-16 | 384 |
用于机器翻译的完整句识别方法与系统 | 2020-05-19 | 787 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。