首页 / 专利库 / 人工智能 / 候选译文 / 一种基于相似度匹配的文本翻译方法

一种基于相似度匹配的文本翻译方法

阅读:131发布:2020-05-19

专利汇可以提供一种基于相似度匹配的文本翻译方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本; 服务器 依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在 现有技术 的 基础 上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。,下面是一种基于相似度匹配的文本翻译方法专利的具体信息内容。

1.一种基于相似度匹配的文本翻译方法,其特征在于,所述方法包括:
服务器获取用户上传的待翻译文件,对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;
根据分词所在句子的排列顺序,将所述译文排列成第一文本;
服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;
将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;
将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。
2.根据权利要求1所述的基于相似度匹配的文本翻译方法,其特征在于,所述步骤还包括:
预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
3.根据权利要求2所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤包括:
所述服务器对所述第一文本中的文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
4.根据权利要求3所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本中的文本块进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
5.根据权利要求4所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
6.根据权利要求5所述的基于相似度匹配的文本翻译方法,其特征在于,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
7.根据权利要求5所述的基于相似度匹配的文本翻译方法,其特征在于,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
8.根据权利要求6所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
9.根据权利要求6或7所述的基于相似度匹配的文本翻译方法,其特征在于,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
10.根据权利要求9所述的基于相似度匹配的文本翻译方法,其特征在于,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。

说明书全文

一种基于相似度匹配的文本翻译方法

技术领域

[0001] 本发明数据处理领域,尤其涉及一种基于相似度匹配的文本翻译方法。

背景技术

[0002] 现代社会是信息爆炸的社会,互联网上存在着海量的数据。现有技术中,由于全球资源共享,用户可能会产生对多个文本进行翻译的需求,比如:外国文献的语言是一般用户不懂的,需要对其进行翻译,或者新引进的技术资料,需要对其进行翻译,从而实现大家都知悉其具体内容。
[0003] 现有技术中的文件翻译方法一般是由人工将稿件阅读完后进行翻译,或者通过专的翻译软件进行翻译,但是人工翻译效率低,专门的翻译软件则过于机械化,错误率高,无法满足用户的需求。
[0004] 因此,现有技术有待于进一步的改进。

发明内容

[0005] 鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于相似度匹配的文本翻译方法,克服现有技术中文本翻译效率低或者翻译效果差的缺陷
[0006] 本发明公开了一种基于相似度匹配的文本翻译方法,其中,所述方法包括:
[0007] 服务器获取用户上传的待翻译文件;
[0008] 服务器对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;
[0009] 根据分词所在句子的排列顺序,将所述译文排列成第一文本;
[0010] 服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;
[0011] 将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;
[0012] 将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。
[0013] 可选的,所述步骤还包括:
[0014] 预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
[0015] 可选的,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤:
[0016] 所述服务器对所述第一文本中的文本进行拆解得到若干候选句子;
[0017] 所述服务器确定各候选句子的重要性分数;
[0018] 所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
[0019] 所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
[0020] 可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本中的文本块进行拆分的方法为:
[0021] 按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
[0022] 可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
[0023] 判断所述候选句子中是否包含中文句子和/或网页链接地址;
[0024] 若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
[0025] 若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
[0026] 若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
[0027] 可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
[0028] 按照语义分析的方式再将每个候选句子拆分为若干个词组;
[0029] 进行全文检索,计算各词组出现的次数;
[0030] 按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
[0031] 根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
[0032] 可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
[0033] 服务器后台开启该网页链接地址对应的目标网页;
[0034] 服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
[0035] 可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
[0036] 使用下面的公式确定目标网页的重要性分数;
[0037]
[0038] 其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
[0039] 可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
[0040] 计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
[0041] 若余弦相似度高于预设值,则确定第一文本与第二文本近似。
[0042] 可选的,所述余弦相似度的计算方法为:
[0043] 将第一句子拆分为若干个词组;
[0044] 将第二句子拆分为若干个词组;
[0045] 将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
[0046] 计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
[0047] 有益效果,本发明公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本;服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。附图说明
[0048] 图1为本发明所公开的一种基于相似度匹配的文本翻译方法的具体实施例步骤流程图

具体实施方式

[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 本发明公开一种基于相似度匹配的文本翻译方法,如图1所示,所述方法包括:
[0051] 步骤S101、服务器获取用户上传的待翻译文件,对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文。
[0052] 用户将需要翻译的文件上传到服务器上,可以通过客户端上传,也可以直接上传,满足服务器获取到所述待翻译文件即可。本步骤中对获取到的待翻译文件进行分词处理,即是将其中所含内容中的每个句子所含词语进行分词处理,划分出多个分词,依次对待翻译文件中所含的句子进行分词处理。
[0053] 根据获取到的分词从翻译库中查找出相对应的分词,并查找与查找出的分词相对应的译文。
[0054] 步骤S102、根据分词所在句子的排列顺序,将所述译文排列成第一文本。
[0055] 将每个分词的译文整合成第一文本,所整合的步骤为根据分词在待翻译文件中的排列步骤,将所述译文排列成第一文本。
[0056] 步骤S103、服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度。
[0057] 服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度。
[0058] 所述标准库中含有各种标准的句子库,属于从网络中收集到的各种符合语文语法文件的文本信息。本步骤中从标准库中匹配出与第一文本中各个句子相似度最高的标准句子,所述标准句子为与第一文本相对应的最佳译文。
[0059] 步骤S104、将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本,将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件[0060] 具体的,所述步骤还包括:
[0061] 预先建立分词库和标准库,所述分词库中含有与中文相对应的句子,所述标准库中含有各种标准句子及其翻译文本。
[0062] 具体的,所述服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度的步骤包括:
[0063] 所述服务器对所述第一文本中的文本块进行拆解得到若干候选句子;
[0064] 所述服务器确定各候选句子的重要性分数;
[0065] 所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
[0066] 所述服务器将所述第一文本的关键信息与各个第二文本中的关键信息进行对比得出第一文本与第二文本之间的相似度。
[0067] 进一步的,所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:
[0068] 所述服务器对所述第一文本进行拆解得到若干候选句子;
[0069] 所述服务器确定各候选句子的重要性分数;
[0070] 所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
[0071] 所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。
[0072] 在具体实施例中,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
[0073] 按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
[0074] 所述服务器确定各候选句子的重要性分数;
[0075] 所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
[0076] 所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比,并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。
[0077] 进一步的,由于各个候选句子中可能包含不同属性的信息,也即是候选句子可能含有中文句子或者网页链接地址,所以在进行重要性分数的计算之前,所述服务器确定各候选句子的重要性分数的步骤包括:
[0078] 判断所述候选句子中是否包含中文句子和/或网页链接地址;
[0079] 若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
[0080] 若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
[0081] 若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
[0082] 所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
[0083] 按照语义分析的方式再将每个候选句子拆分为若干个词组;
[0084] 进行全文检索,计算各词组出现的次数;
[0085] 按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
[0086] 根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
[0087] 进一步的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
[0088] 服务器后台开启该网页链接地址对应的目标网页;
[0089] 服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
[0090] 所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
[0091] 使用下面的公式确定目标网页的重要性分数;
[0092]
[0093] 其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
[0094] 具体的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
[0095] 计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
[0096] 若余弦相似度高于预设值,则确定第一文本与第二文本近似。
[0097] 具体的,所述余弦相似度的计算方法为:
[0098] 将第一句子拆分为若干个词组;
[0099] 将第二句子拆分为若干个词组;
[0100] 将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
[0101] 计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
[0102] 例如:
[0103] 第一句子为:Today the Association held a meeting in Beijing[0104] 第二句子为:The Association held a Franco-Prussian meeting in Beijing。
[0105]
[0106] 则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
[0107] 较佳的,本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
[0108]
[0109] 其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
[0110] 例如,上述两个句子计算的结果为:
[0111]
[0112] 最终的计算结果为:0.8。
[0113] 本发明提供了本发明公开了一种基于相似度匹配的文本翻译方法,通过获取用户上传的待翻译文件;对所述翻译文件进行分词处理,依次从分词库中匹配出相同的分词,并基于翻译库查找出与该分词相对应的译文;根据分词所在句子的排列顺序,将所述译文排列成第一文本;服务器依次计算第一文本中各个句子与标准库中第二文本所含句子之间的相似度;将第二文本中与第一文本句子相似度最高的句子判定为最佳翻译文本;将各个句子的最佳翻译文本按照第一文本中句子的排列顺序整合为翻译文件。本发明公开的翻译方法,在现有技术的基础上,增加了相似文本匹配的步骤,提高了文本翻译的准确性。
[0114] 可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈