首页 / 专利库 / 人工智能 / 候选译文 / 计算句子相似度的方法和装置以及机器翻译的方法和装置

计算句子相似度的方法和装置以及机器翻译的方法和装置

阅读:1012发布:2020-06-04

专利汇可以提供计算句子相似度的方法和装置以及机器翻译的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种计算句子相似度的方法和装置以及 机器翻译 的方法和装置,其中计算句子相似度的方法包括:对第一句子和第二句子进行比较,确定差异词对;利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;利用差异词对中各差异词的打分结果,确定差异词对的打分;利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。通过本发明能够更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的 质量 。,下面是计算句子相似度的方法和装置以及机器翻译的方法和装置专利的具体信息内容。

1.一种计算句子相似度的方法,其特征在于,该方法包括:
A、对第一句子和第二句子进行比较,确定差异词对;
B、利用差异词对中差异词与其所在句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;
C、利用差异词对中各差异词的打分结果,确定差异词对的打分;
D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
2.根据权利要求1所述的方法,其特征在于,在所述步骤B中,按照如下公式为各差异词打分:
其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在
的第一句子或第二句子,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
3.根据权利要求1或2所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分:
或者,
其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;
所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离;
其中差异词的特征向量的确定方式具体为:
查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
5.根据权利要求4所述的方法,其特征在于,按照如下公式计算所述两差异词的相似距离:
其中, 为差异词w和 的相似距离,A为预
设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量,
为F(w)和 的夹余弦。
6.根据权利要求4或5所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分:
或者,
其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果, 为差异词w和 的相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。
7.一种机器翻译的方法,其特征在于,该机器翻译的方法包括:
S1、采用如权利要求1所述的方法计算待翻译句子和预设的例句库中句子的相似度;
S2、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;
S3、利用所述相似例句的译文得到所述待翻译句子的译文。
8.根据权利要求7所述的机器翻译的方法,其特征在于,所述步骤S1具体包括:
S11、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;
S12、采用如权利要求1所述的方法计算待翻译句子和所述步骤S11确定的句子之间的相似度。
9.根据权利要求7所述的机器翻译的方法,其特征在于,所述步骤S3具体包括:
S31、识别所述待翻译句子和所述相似例句之间的差异词;
S32、将所述待翻译句子中的差异词对应的译文作为候选译文片段
S33、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
10.根据权利要求7所述的机器翻译的方法,其特征在于,该机器翻译的方法还包括:在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
11.一种计算句子相似度的装置,其特征在于,该装置包括:
句子比较单元,用于对第一句子和第二句子进行比较,确定差异词对;
差异词打分单元,用于利用差异词对中差异词与其所在句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;
差异词对打分单元,用于利用差异词对中各差异词的打分结果,确定差异词对的打分;
相似度确定单元,用于利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
12.根据权利要求11所述的装置,其特征在于,所述差异词打分单元按照如下公式为各差异词打分:
其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在
的第一句子或第二句子,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
13.根据权利要求11或12所述的装置,其特征在于,所述差异词对打分单元按照如下公式为差异词对打分:
或者,
其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。
14.根据权利要求11所述的装置,其特征在于,该装置还包括:相似距离确定单元,用于确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;
所述差异词对打分单元在确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离;
其中所述相似距离确定单元在确定差异词的特征向量时,查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
15.根据权利要求14所述的装置,其特征在于,所述相似距离确定单元按照如下公式计算所述两差异词的相似距离:
其中, 为差异词w和 的相似距离,A为
预设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量,
为F(w)和 的夹角余弦。
16.根据权利要求14或15所述的装置,其特征在于,所述差异词对打分单元按照如下公式为差异词对打分:
或者,
其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果, 为差异词w和 的相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。
17.一种机器翻译的装置,其特征在于,该机器翻译的装置包括:
如权利要求11所述的计算句子相似度的装置,用于计算待翻译句子和预设的例句库中句子的相似度;
相似例句选择单元,用于选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;
译文形成单元,用于利用所述相似例句的译文得到所述待翻译句子的译文。
18.根据权利要求17所述的机器翻译的装置,其特征在于,该机器翻译的装置还包括:
初步选择单元,用于确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;
所述计算句子相似度的装置计算待翻译句子和所述初步选择单元确定的句子之间的相似度。
19.根据权利要求17所述的机器翻译的装置,其特征在于,所述译文形成单元具体包括:
差异词识别子单元,用于识别所述待翻译句子和所述相似例句之间的差异词;
片段构造子单元,用于将所述待翻译句子中的差异词对应的译文作为候选译文片段;
译文形成子单元,用于在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
20.根据权利要求17所述的机器翻译的装置,其特征在于,该机器翻译的装置还包括:
显示单元,用于在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。

说明书全文

计算句子相似度的方法和装置以及机器翻译的方法和装置

【技术领域】

[0001] 本发明涉及计算机技术领域,特别涉及一种计算句子相似度的方法和装置以及机器翻译的方法和装置。
【背景技术】
[0002] 句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间的相似状况是影响上述应用质量的关键。
[0003] 举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的相似例句来生成最终译文。具体地,包括以下步骤:
[0004] 1)在翻译实例库中搜索与待翻译句子匹配的相似例句。
[0005] 例如:待翻译句子为:This is a pencil。
[0006] 相似例句为:That is a pen。
[0007] 2)识别待翻译句子和相似例句之间的差异词
[0008] This和That是差异词,pencil和pen是差异词。
[0009] 3)将待翻译句子中的差异词对应的译文作为候选译文片段
[0010] 即“这”和“铅笔”作为候选译文片段。
[0011] 4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。
[0012] 相似例句的译文为:“那是一只笔”,用“这”替换“那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。
[0013] 由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因素。
[0014] 现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括:插入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式会存在一定缺陷
[0015] 例如,如果待翻译句子为:Can I take a picture of the painting?
[0016] 通过计算编辑距离方式选择的相似例句为:Can I take a picture of the car?
[0017] 利用该相似例句形成的译文为:我能为这辆油画拍张照片吗?
[0018] 如果将句子Can we take a photo of the painting作为待翻译句子的相似例句,则形成的译文为:我能为这幅油画拍张照片吗?
[0019] 可以看出,虽然句子Can we take a photo of the painting与待翻译句子的编辑距离大于句子Can I take a picture of the car与待翻译句子的编辑距离,但其与待
翻译句子的相似性要高于句子Can I take a picture of the car,从而形成的译文质量
也较高。
[0020] 上述的问题就是因为在计算句子之间相似度时,没有考虑两句子差异词之间的关系。虽然有人提出在相似度的计算中基于同义词词典来考虑差异词之间的相似程度,但在
很多应用下,诸如上述机器翻译应用中,差异词与上下文之间搭配关系相比较语义来说,在相似度计算中具有更加重要的意义,更能够准确地体现出两句子之间的匹配程度,对上述
应用的质量影响更大。
【发明内容】
[0021] 本发明提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,以便于更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质
量。
[0022] 具体技术方案如下:
[0023] 一种计算句子相似度的方法,该方法包括:
[0024] A、对第一句子和第二句子进行比较,确定差异词对;
[0025] B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率
模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;
[0026] C、利用差异词对中各差异词的打分结果,确定差异词对的打分;
[0027] D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
[0028] 具体地,在所述步骤B中,按照如下公式为各差异词打分:
[0029] 其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在的第一句子或第二句子,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
[0030] 在所述步骤C中,按照如下公式为差异词对打分:
[0031] 或者,
[0032] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。
[0033] 更进一步地,该方法还包括:确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;
[0034] 所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。
[0035] 其中,差异词的特征向量的确定方式具体为:
[0036] 查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
[0037] 具体地,按照如下公式计算所述两差异词的相似距离:
[0038] 其中, 为差异词w和 的相似距离,A为预设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量,
为F(w)和 的夹余弦。
[0039] 在所述步骤C中,按照如下公式为差异词对打分:
[0040] 或者,
[0041]
[0042] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果, 为差异
词w和 的相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。
[0043] 一种机器翻译的方法,该机器翻译的方法包括:
[0044] S1、采用上述计算句子相似度的方法计算待翻译句子和预设的例句库中句子的相似度;
[0045] S2、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;
[0046] S3、利用所述相似例句的译文得到所述待翻译句子的译文。
[0047] 其中,所述步骤S1具体包括:
[0048] S11、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;
[0049] S12、采用上述计算句子相似度的方法计算待翻译句子和所述步骤S11确定的句子之间的相似度。
[0050] 所述步骤S3具体包括:
[0051] S31、识别所述待翻译句子和所述相似例句之间的差异词;
[0052] S32、将所述待翻译句子中的差异词对应的译文作为候选译文片段;
[0053] S33、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
[0054] 优选地,该机器翻译的方法还包括:在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
[0055] 一种计算句子相似度的装置,该装置包括:
[0056] 句子比较单元,用于对第一句子和第二句子进行比较,确定差异词对;
[0057] 差异词打分单元,用于利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型
得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现
次数统计得到;
[0058] 差异词对打分单元,用于利用差异词对中各差异词的打分结果,确定差异词对的打分;
[0059] 相似度确定单元,用于利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
[0060] 具体地,所述差异词打分单元按照如下公式为各差异词打分:
[0061] 其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在的第一句子或第二句子,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
[0062] 此时,所述差异词对打分单元按照如下公式为差异词对打分:
[0063] 或者,
[0064] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。
[0065] 还有一种实施方式,该装置还包括:相似距离确定单元,用于确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;
[0066] 所述差异词对打分单元在确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。
[0067] 其中,所述相似距离确定单元查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
[0068] 所述相似距离确定单元按照如下公式计算所述两差异词的相似距离:
[0069] 其中, 为差异词w和 的相似距离,A为预设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量,
为F(w)和 的夹角余弦。
[0070] 此时,所述差异词对打分单元按照如下公式为差异词对打分:
[0071] 或者,
[0072]
[0073] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为第一句子E1中的差异词w的打分结果, 为第二句子E2中的差异词 的打分结果, 为差异
词w和 的相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。
[0074] 一种机器翻译的装置,该机器翻译的装置包括:
[0075] 上述计算句子相似度的装置,用于计算待翻译句子和预设的例句库中句子的相似度;
[0076] 相似例句选择单元,用于选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;
[0077] 译文形成单元,用于利用所述相似例句的译文得到所述待翻译句子的译文。
[0078] 更进一步地,该机器翻译的装置还包括:初步选择单元,用于确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;
[0079] 所述计算句子相似度的装置计算待翻译句子和所述初步选择单元确定的句子之间的相似度。
[0080] 其中,所述译文形成单元具体包括:
[0081] 差异词识别子单元,用于识别所述待翻译句子和所述相似例句之间的差异词;
[0082] 片段构造子单元,用于将所述待翻译句子中的差异词对应的译文作为候选译文片段;
[0083] 译文形成子单元,用于在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
[0084] 优选地,该机器翻译的装置还包括:显示单元,用于在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
[0085] 由以上技术方案可以看出,本发明提供的方法和装置将词语与词语的搭配概率融入句子相似度的计算,即基于差异词与其所在句子中其他词语的搭配概率为差异词对打
分,进而计算句子之间的差异度,相比较现有技术而言,更加准确地体现出句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。
附图说明】
[0086] 图1为本发明实施例一提供的计算句子相似度的方法流程图
[0087] 图2为本发明实施例二提供的计算句子相似度的方法流程图;
[0088] 图3为本发明实施例三提供的机器翻译的方法流程图;
[0089] 图4为本发明实施例三提供的译文显示实例图;
[0090] 图5为本发明实施例四提供的计算句子相似度的装置结构图;
[0091] 图6为本发明实施例五提供的机器翻译装置的结构图。【具体实施方式】
[0092] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0093] 下面通过实施例一和实施例二对本发明所提供的相似度计算方法进行描述。实施例一和实施例二用于计算句子E1和句子E2之间的相似度,句子E1和句子E2可以根据具体的
应用进行选取。例如:如果应用于问题检索,则句子E1可以为用户输入的query,句子E2可以为问题数据库中已有的问题;如果应用于机器翻译,则句子E1可以为待翻译句子,句子E2可以为翻译所使用的例句库中的句子,等等。
[0094] 实施例一、
[0095] 图1为本发明实施例一提供的计算句子相似度的方法流程图,如图1所示,该方法可以包括以下步骤:
[0096] 步骤101:对句子E1和句子E2进行比较,确定差异词对。
[0097] 本发明实施例基于对句子的基础文本处理,例如分词、对齐等处理,由于该部分内容为现有技术,在此不再赘述。
[0098] 将句子E1和句子E2中的词语进行比较,确定出不一样的词语构成差异词对,例如:
[0099] 句子E1为:Can I take a picture of the painting?
[0100] 句子E2为:Can we take a photo of the painting?
[0101] 则确定出差异词对为:I和we构成的差异词对,picture和photo构成的差异词对。
[0102] 步骤102:利用差异词对中差异词与其所在句子E1或句子E2中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,搭配概率模型中两词语之间的搭配概率由两词语在预设的语料库中的共现次数统计得到。
[0103] 预先通过对预设的语料库中词语与词语之间共现次数的统计,能够获得词语与词语的搭配概率,从而构成搭配概率模型。例如,当用于机器翻译时,该预设的语料库可以为机器翻译所使用的语料库,统计“take”和“picture”的共现次数可以得到“take”和
“picture”的搭配概率存入搭配概率模型,统计“take”和“photo”的共现次数可以得到“take”和“photo”的搭配概率存入搭配概率模型,诸如此类。词语之间的搭配概率越大,说明词语之间的依赖关系越强。
[0104] 由于句子中词语并不是孤立的个体,每个词语或多或少地与句子中的其他词语都存在一定的搭配关系,该搭配关系能够体现出该词语在句子中与上下文的依赖程度和编辑
险。在为各差异词进行打分时,可以分别获取差异词与其所在句子中其他词语的搭配概
率,将获取的搭配概率进行整合以得到差异词的打分结果,例如,对于差异词wi可以采用如下公式得到打分结果r(wi,E):
[0105]
[0106] E为差异词wi所在的句子,可以为上述的句子E1或句子E2,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,通过查询搭配概率模型得到,m为E包含的词语数目。
[0107] 以句子E1为例,可以获取差异词“picture”分别与“can”、“I”、“take”、“a”、“of”、“the”以及“painting”的搭配概率,m值为8,然后代入公式(1)计算就可以得到差异词“picture”的打分结果。
[0108] 步骤103:利用差异词对中各差异词的打分结果,确定差异词对的打分。
[0109] 在确定出句子E1和句子E2中各差异词的打分结果后,可以针对差异词对进行打分,打分方式可以通过整合差异词对中两差异词的打分结果得到,例如可以按照如下公式
(2)或公式(3)计算:
[0110]
[0111]
[0112] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为句子E1中的差异词w的打分结果, 为句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。通常可以设置α1、α2、β1和β2为-1和1之间的数,α1和α2通常同选取为正数或负数,β
1和β2通常同选取为正数或负数。
[0113] 例如,在计算“picture”和“photo”构成的差异词对的打分结果时,首先利用公式(1)计算出“picture”的打分结果,以及“photo”的打分结果,代入公式(2)或(3)得到“picture”和“photo”构成的差异词对的打分结果。
[0114] 步骤104:利用各差异词对的打分结果,确定句子E1和句子E2的相似度。
[0115] 在本步骤中,对句子E1和句子E2中所有差异词对的打分结果进行整合,例如将所有差异词对的打分结果求和,从而确定出句子E1和句子E2的相似度。通过实施例一中所述
方法得到的打分方式,最终各差异词的打分结果整合后值越高,说明两例句在搭配关系上
的相似度越高,匹配程度也越高。
[0116] 实施例二、
[0117] 图2为本发明实施例二提供的计算句子相似度的方法流程图,如图2所示,该方法可以包括以下步骤:
[0118] 步骤201同实施例一中步骤101。
[0119] 步骤202同实施例一中步骤102。
[0120] 步骤203:确定差异词对中两差异词的特征向量,利用两差异词的特征向量计算两差异词的相似距离。
[0121] 在实施例二中,可以进一步考虑差异词在特定的语料库中的相似程度,该相似程度通过差异词对中两差异词的特征向量的距离体现。
[0122] 差异词的特征向量可以由与该差异词存在较高搭配概率的词语构成,具体地,可以通过查询搭配概率模型,将与该差异词的搭配概率达到预设搭配概率阈值的词语构成该
差异词的特征向量。
[0123] 以差异词“picture”为例,通过查询搭配概率模型,确定“take”、“draw”、“of”、“gallery”等与“picture”的搭配概率达到预设的搭配概率阈值,则可以将“take”、“draw”、“of”、“gallery”等词语构成“picture”的特征向量。同样方法也可以确定出差异词“photo”的特征向量。
[0124] 在计算差异词对中两差异词的相似距离时,可以利用两差异词的特征向量的夹角余弦。例如可以采用如下公式计算:
[0125]
[0126] 其中, 为差异词w和 的相似距离,A为预设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量, 为F(w)和 的夹角余弦。
[0127] 其中夹角余弦的计算方式可以采用现有技术中的多种具体公式,以其中一种为例可以得到如下公式:
[0128]
[0129] 由于搭配概率模型中搭配词和搭配概率是在特定语料库上训练统计到的,因此,通过本步骤的方式可以有效地描述两差异词在特定语料库上的相似程度。
[0130] 步骤204:利用差异词对中各差异词的打分结果以及两差异词的相似距离,确定差异词对的打分。
[0131] 该实施例二与实施例一不同的是,在对差异词对进行打分时进一步考虑了差异词的相似距离,即同时考虑了差异词对中两差异词的相似距离和编辑风险。例如,可以采用如下公式(6)或(7)对差异词对打分:
[0132]
[0133]
[0134] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为句子E1中的差异词w的打分结果, 为句子E2中的差异词 的打分结果, 为差异词w和 的
相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。通常可以设置α1、α2、α3、β1、β2和β3为-
1和1之间的数,α1和α2通常同选取为正数或负数,β1和β2通常同选取为正数或负数。
[0135] 例如,在计算“picture”和“photo”构成的差异词对的打分结果时,首先利用公式(1)计算出“picture”的打分结果,以及“photo”的打分结果,代入公式(2)或(3)得到“picture”和“photo”构成的差异词对的打分结果。利用公式(5)计算“picture”和“photo”之间的相似距离,然后利用公式(6)或(7)得到“picture”和“photo”构成的差异词对的打分结果。
[0136] 步骤205同实施例一中步骤104。
[0137] 上述两个实施例以英文句子为例进行描述,但并不限于英文句子,同样可以应用于诸如中文句子等其他语言的句子相似度计算。
[0138] 通过上述两个实施例计算出的句子相似度可以用于诸如问题检索、双语例句检索、机器翻译、文档文摘等领域。下面通过实施例三对用于机器翻译时的情况进行描述。
[0139] 实施例三、
[0140] 图3为本发明实施例三提供的机器翻译的方法流程图,如图3所示,该方法可以包括以下步骤:
[0141] 步骤301:计算待翻译句子和预设的例句库中句子的相似度。
[0142] 在本步骤中可以采用实施例一或者实施例二中所述的方法计算待翻译句子和例句库中句子的相似度,从而为更进一步选择相似例句做准备。
[0143] 由于例句库中例句数量十分庞大,如果逐一采用实施例一或实施例二所示方式来计算例句库中各句子与待翻译句子的相似度,则效率会较低,为了提高效率,可以首先计算例句库中各例句与待翻译句子的编辑距离,确定例句库中与待翻译句子的编辑距离满足预
设要求的句子,然后计算确定的各句子与待翻译句子之间的相似度。例如,可以选择编辑距离小于预设阈值的句子,或者,选择编辑距离排在前M个的句子,M为预设的正整数。
[0144] 编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括:插入、删除或替换等,由于编辑距离的计算方式为现有技术,在此不再赘述。
[0145] 步骤302:选择相似度排在前N个的句子作为待翻译句子的相似例句,N为预设的正整数。
[0146] 通过实施例一或实施例二所述的相似度计算方式选择的相似例句,考虑了差异词与句子中其他词语的搭配关系,即考虑了差异词的编译风险,甚至在实施例二中进一步考
虑了差异词之间的相似距离,选择出匹配程度较高的句子作为相似例句用于生成译文,从
而提高译文质量。
[0147] 一种优选的实施方式,可以选择相似度最高的一个句子作为相似例句。
[0148] 对于待翻译句子:Can I take a picture of the painting而言,句子Can we take a photo ofthe painting相比较Can I take a picture ofthe car,差异词对“I”和“we”以及差异词对“picture”和“photo”中差异词的相似距离以及与句子中其他词的搭配概率都较大,而差异词对“painting”和“car”的相似距离以及与句子中其他词的搭配概率较小,因此,句子Can we take a photo of the painting相比较Can I take a picture 
of the car与待翻译句子具有更高的相似度,会选取Can we take a photo of the 
painting作为相似例句。
[0149] 步骤303:利用相似例句的译文得到待翻译句子的译文。
[0150] 在确定出相似例句后,生成待翻译句子的译文可以按照如下步骤实现:
[0151] 识别待翻译句子和相似例句之间的差异词;将待翻译句子中的差异词对应的译文作为候选译文片段;在相似例句的译文中,利用候选译文片段替换相似例句中对应差异词
的译文,得到待翻译句子的译文。该部分内容与现有技术相同,不再赘述。
[0152] 例如,识别出相似例句Can we take a photo of the painting与待翻译句子Can I take a picture of the painting的差异词为“we”和“I”,“photo”和“picture”。“I”的译文“我”以及“picture”的译文“相片”作为候选译文片段。相似例句的译文为“我们能为这幅油画拍张照片吗”,利用候选译文片段对相似例句中差异词的译文进行替换得到待翻译
句子的译文为“我能为这幅油画拍张相片吗”。
[0153] 在对待翻译句子的译文进行显示的同时,可以将相似例句进行显示,并进一步可以将相似例句和待翻译句子的各差异词对的打分结果进行显示。在显示差异词对的打分结
果时,可以根据预先设置的打分结果与置信度等级的对应关系,例如将置信度等级按照打
分结果分为高、中和低三个等级,然后确定差异词对的打分结果对应的置信度等级,从而显示该置信度等级。
[0154] 如图4所示,显示待翻译句子、相似例句、相似例句的译文以及待翻译句子的译文,其中相似例句和待翻译句子的差异词可以突出显示,候选译文片段也突出显示。同时在右侧显示差异词对的置信度等级。突出显示的方式并不限于图4中所示的方式。
[0155] 以上是对本发明提供的方法进行的详细描述,下面通过实施例四对本发明提供的计算句子相似度的装置进行描述。
[0156] 实施例四、
[0157] 图5为本发明实施例四提供的计算句子相似度的装置结构图,如图5所示,该装置可以包括:句子比较单元501、差异词打分单元502、差异词对打分单元503和相似度确定单元504。
[0158] 句子比较单元501对句子E1和句子E2进行比较,确定差异词对。
[0159] 实际上就是对句子E1和句子E2中的词语进行比较,确定出不一样的词语构成差异词对。
[0160] 差异词打分单元502利用差异词对中差异词与其所在句子E1或句子E2中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,搭配概率模型中两词语之间的搭配概率由两词语在预设的语料库中的共现次数统计得到。
[0161] 搭配概率模型的形成,是预先通过对预设的语料库中词语与词语之间共现次数的统计,获得词语与词语的搭配概率从而形成搭配概率模型的。词语之间的搭配概率越大,能够体现出该词语在句子中与上下文的依赖程度和编辑风险。在为各差异词进行打分时,可
以分别获取差异词与其所在句子中其他词语的搭配概率,将获取的搭配概率进行整合以得
到差异词的打分结果。
[0162] 例如,差异词打分单元502可以按照如下公式为各差异词打分:
[0163] 其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在的句子,可以为句子E1或句子E2,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
[0164] 差异词对打分单元503利用差异词对中各差异词的打分结果,确定差异词对的打分。
[0165] 相似度确定单元504利用各差异词对的打分结果,确定句子E1和句子E2的相似度。即对句子E1和句子E2中所有差异词对的打分结果进行整合,例如将所所有差异词对的打分
结果求和,从而确定出句子E1和句子E2的相似度。
[0166] 其中,差异词对打分单元503可以采用两种方式为差异词对打分,分别对应方法实施例一和实施例二,具体如下:
[0167] 第一种方式:差异词对打分单元503可以按照如下公式为差异词对打分:
[0168] 或者,
[0169] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为句子E1中的差异词w的打分结果, 为句子E2中的差异词 的打分结果,α1、α2、β1和β2为预设的权值参数。
[0170] 第二种方式:如图5中所示,该装置还包括:相似距离确定单元505,用于确定差异词对中两差异词的特征向量,利用两差异词的特征向量,计算两差异词的相似距离。
[0171] 此时,差异词对打分单元503在确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。
[0172] 具体地,在第二种方式中,相似距离确定单元505可以查询搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
[0173] 在计算两差异词的相似距离时,相似距离确定单元505可以按照如下公式:
[0174] 其中, 为差异词w和 的相似距离,A为预设的正数,F(w)为差异词w的特征向量, 为差异词 的特征向量,
为F(w)和 的夹角余弦。
[0175] 其中夹角余弦的计算方式可以采用现有技术中的多种具体公式,以其中一种为例可以得到实施例二中的公式(5)。
[0176] 在第二种方式中,差异词对打分单元503可以按照如下公式为差异词对打分:
[0177] 或者,
[0178]
[0179] 其中, 为由差异词w和 构成的差异词对的打分结果,r(w,E1)为句子E1中的差异词w的打分结果, 为句子E2中的差异词 的打分结果, 为差异词w和 的
相似距离,α1、α2、α3、β1、β2和β3为预设的权值参数。通常可以设置α1、α2、α3、β1、β2和β3为-
1和1之间的数,α1和α2通常同选取为正数或负数,β1和β2通常同选取为正数或负数。
[0180] 实施例五、
[0181] 图6为本发明实施例五提供的机器翻译装置的结构图,如图6所示,该装置可以包括:计算句子相似度的装置600、相似例句选择单元610和译文形成单元620。
[0182] 计算句子相似度的装置600计算待翻译句子和预设的例句库中句子的相似度,结构可以如图5所示。
[0183] 相似例句选择单元610选择相似度排在前N个的句子作为待翻译句子的相似例句,N为预设的正整数。作为一种优选的实施例N值通常取1。
[0184] 译文形成单元620利用相似例句的译文得到待翻译句子的译文。
[0185] 由于例句库中例句数量十分庞大,如果计算句子相似度的装置600针对例句库中所有的句子逐一计算与待翻译句子的相似度,则效率会较低,为了提高效率,该机器翻译的装置还可以包括:初步选择单元630,用于确定例句库中与待翻译句子之间的编辑距离满足预设要求的句子。例如,可以选择编辑距离小于预设阈值的句子,或者,选择编辑距离排在前M个的句子,M为预设的正整数。
[0186] 编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括:插入、删除或替换等,由于编辑距离的计算方式为现有技术,在此不再赘述。
[0187] 相应地,计算句子相似度的装置600只需计算待翻译句子和初步选择单元630确定的句子之间的相似度。
[0188] 译文形成单元620可以具体包括:差异词识别子单元621、片段构造子单元622和译文形成子单元623。
[0189] 差异词识别子单元621识别待翻译句子和相似例句之间的差异词。
[0190] 片段构造子单元622将待翻译句子中的差异词对应的译文作为候选译文片段。
[0191] 译文形成子单元623,用于在相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到待翻译句子的译文。
[0192] 该机器翻译的装置还可以进一步包括:显示单元640,用于在显示待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和待翻译句子的各差异词对的打分结果
进行显示。
[0193] 在对打分结果进行显示时,可以根据预先设置的打分结果与置信度等级的对应关系,例如将置信度等级按照打分结果分为高、中和低三个等级,然后确定差异词对的打分结果对应的置信度等级,从而显示该置信度等级。
[0194] 作为一种优选的显示方案,可以显示待翻译句子、相似例句、相似例句的译文以及待翻译句子的译文,其中相似例句和待翻译句子的差异词可以突出显示,候选译文片段也突出显示,如图4所示,同时在右侧显示差异词对的置信度等级。
[0195] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈