首页 / 专利库 / 人工智能 / 候选译文 / 翻译译文的提供方法、装置和系统

翻译译文的提供方法、装置和系统

阅读:657发布:2020-06-15

专利汇可以提供翻译译文的提供方法、装置和系统专利检索,专利查询,专利分析的服务。并且本 发明 提出一种翻译译文的提供方法、装置和系统,其中,该方法包括:接收客户端发送的翻译 请求 ,并获取客户端的当前 位置 信息,其中,翻译请求包括待翻译内容和 目标语言 类型;根据目标语言类型获取与目标语言类型对应的地图数据和预设互信息集合;根据当前位置信息、地图数据和预设互信息集合获取待翻译内容的位置特征;根据位置特征和预设翻译模型获取待翻译内容的翻译译文,并将翻译译文发送至客户端。本发明 实施例 的翻译译文的提供方法使获取的翻译译文能够满足用户在特 定位 置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。,下面是翻译译文的提供方法、装置和系统专利的具体信息内容。

1.一种翻译译文的提供方法,其特征在于,包括:
接收客户端发送的翻译请求,并获取所述客户端的当前位置信息,其中,所述翻译请求包括待翻译内容和目标语言类型;
根据所述目标语言类型获取与所述目标语言类型对应的地图数据和预设互信息集合;
根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征;
根据所述位置特征和预设翻译模型获取所述待翻译内容的翻译译文,并将所述翻译译文发送至所述客户端。
2.如权利要求1所述的翻译译文的提供方法,其特征在于,所述根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征具体包括:
根据所述当前位置信息和所述地图数据获取与所述当前位置信息距离小于预设阈值的多个地标信息,并分别记录所述多个地标信息与所述当前位置信息的距离;
对所述多个地标信息进行分词以获取M个地标词汇,其中,M为正整数;
根据所述多个地标信息和所述多个地标信息与所述当前位置信息的距离分别获取所述M个地标词汇的位置得分;
根据所述M个地标词汇的位置得分和所述互信息集合获取所述待翻译内容的位置特征。
3.如权利要求2所述的翻译译文的提供方法,其特征在于,所述根据所述多个地标信息和所述多个地标信息与所述当前位置信息的距离分别获取所述M个地标词汇的位置得分,具体包括:
对于每个地标词汇w,从所述M个地标信息中获取包括所述地标词汇w的K个地标信息,其中,K为正整数;
获取所述K个地标信息到所述当前位置信息的平均距离;
根据所述地标词汇w在所述K个地标信息中的出现次数和所述平均距离通过以下公式获取所述地标词汇w的位置得分:
其中,score(w)为所述地标词汇w的位置得分, 为所述K个地标信息到所述当前位置信息的平均距离,其中,pk表示所述K个地标信息中第k个地标信息,disk为所述第k个地标信息pk与所述当前位置信息的距离。
4.如权利要求2所述的翻译译文的提供方法,其特征在于,所述根据所述M个地标词汇的位置得分和所述互信息集合获取所述待翻译内容的位置特征,具体包括:
获取所述待翻译内容中的至少一个短语,并获取所述至少一个短语中每个短语对应的多个候选翻译短语,其中,每个所述候选翻译短语中包括N个目标语言词汇,N为正整数;
根据所述预设互信息集合分别获取所述M个地标词汇和所述N个目标语言词汇中每个地标词汇与每个目标语言词汇之间的互信息;
根据所述每个地标词汇与每个目标语言词汇之间的互信息与每个地标词汇的位置得分获取相应的候选翻译短语基于位置的特征分值;
根据每个候选翻译短语基于位置的特征分值获取所述待翻译内容的位置特征。
5.如权利要求4所述的翻译译文的提供方法,其特征在于,通过以下公式获取每个候选翻译短语pt基于位置的特征分值:
其中,f(pt|LBM(S))为所述候选翻译短语pt基于位置的特征分值,LB_Cooc(wi,tj)为所述M个地标词汇中第i个地标词汇wi与所述N个目标语言词汇中第j个目标语言词汇tj的互信息,score(wi)为所述第i个地标词汇wi的位置得分,为待翻译内容的位置模型。
6.如权利要求1-5任一项所述的翻译译文的提供方法,其特征在于,所述预设互信息集合通过以下步骤建立:
获取第一语言的地图数据;
根据所述第一语言的地图数据获取地图上任意距离小于预设阈值的两个地标信息,以获取多对地标信息;
根据所述多对地标信息获取多个第一语言地标词汇;
分别获取每个第一语言地标词汇的出现概率,并获取任意两个第一语言地标词汇之间的共现概率;
根据所述每个第一语言地标词汇的出现概率和所述任意两个第一语言地标词汇之间的共现概率获取所述任意两个第一语言地标词汇之间的互信息,以建立第一语言的预设互信息集合。
7.如权利要求6所述的翻译译文的提供方法,其特征在于,通过以下公式获取所述任意两个第一语言地标词汇之间的互信息:
其中,w1和w2为两个第一语言地标词汇,LB_Cooc(w1,w2)为所述w1和所述w2之间的关联紧密度,I(w1;w2)为所述w1和所述w2之间的互信息,p(w1w2)为所述w1和所述w2的共现概率,p(w1)为所述w1的出现概率,p(w2)为所述w2的出现概率。
8.一种翻译译文的提供装置,其特征在于,包括:
接收模,用于接收客户端发送的翻译请求,其中,所述翻译请求包括待翻译内容和目标语言类型;
第一获取模块,用于获取所述客户端的当前位置信息;
第二获取模块,用于根据所述目标语言类型获取与所述目标语言类型对应的地图数据和预设互信息集合;
第三获取模块,用于根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征;
提供模块,用于根据所述位置特征和预设翻译模型获取所述待翻译内容的翻译译文,并将所述翻译译文发送至所述客户端。
9.如权利要求8所述的翻译译文的提供装置,其特征在于,所述第二获取模块具体包括:
记录子模块,用于根据所述当前位置信息和所述地图数据获取与所述当前位置信息距离小于预设阈值的多个地标信息,并分别记录所述多个地标信息与所述当前位置信息的距离;
第一获取子模块,用于对所述多个地标信息进行分词以获取M个地标词汇,其中,M为正整数;
第二获取子模块,用于根据所述多个地标信息和所述多个地标信息与所述当前位置信息的距离分别获取所述M个地标词汇的位置得分;
第三获取子模块,用于根据所述M个地标词汇的位置得分和所述互信息集合获取所述待翻译内容的位置特征。
10.如权利要求9所述的翻译译文的提供装置,其特征在于,所述第二获取子模块具体包括:
第一获取单元,用于对于每个地标词汇w,从所述M个地标信息中获取包括所述地标词汇w的K个地标信息,其中,K为正整数;
第二获取单元,用于获取所述K个地标信息到所述当前位置信息的平均距离;
第三获取单元,用于根据所述地标词汇w在所述K个地标信息中的出现次数和所述平均距离通过以下公式获取所述地标词汇w的位置得分:
其中,score(w)为所述地标词汇w的位置得分, 为所述K个地标信息到所述当前位置信息的平均距离,其中,pk表示所述K个地标信息中第k个地标信息,disk为所述第k个地标信息pk与所述当前位置信息的距离。
11.如权利要求9所述的翻译译文的提供装置,其特征在于,所述第三获取子模块具体包括:
第四获取单元,用于获取所述待翻译内容中的至少一个短语,并获取所述至少一个短语中每个短语对应的多个候选翻译短语,其中,每个所述候选翻译短语中包括N个目标语言词汇,N为正整数;
第五获取单元,用于根据所述预设互信息集合分别获取所述M个地标词汇和所述N个目标语言词汇中每个地标词汇与每个目标语言词汇之间的互信息;
第六获取单元,用于根据所述每个地标词汇与每个目标语言词汇之间的互信息与每个地标词汇的位置得分获取相应的候选翻译短语基于位置的特征分值;
第七获取单元,用于根据每个候选翻译短语基于位置的特征分值获取所述待翻译内容的位置特征。
12.如权利要求11所述的翻译译文的提供装置,其特征在于,所述第六获取单元通过以下公式获取每个候选翻译短语pt基于位置的特征分值:
其中,f(pt|LBM(S))为所述候选翻译短语pt的基于位置特征分值,LB_Cooc(wi,tj)为所述M个地标词汇中第i个地标词汇wi与所述N个目标语言词汇中第j个目标语言词汇tj的互信息,score(wi)为所述第i个地标词汇wi的位置得分,为待翻译内容的位置模型。
13.如权利要求8-12任一项所述的翻译译文的提供装置,其特征在于,还包括:
建立模块,用于建立所述预设互信息集合,其中,所述建立模块具体包括:
第四获取子模块,用于获取第一语言的地图数据;
第五获取子模块,用于根据所述第一语言的地图数据获取地图上任意距离小于预设阈值的两个地标信息,以获取多对地标信息;
第六获取子模块,用于根据所述多对地标信息获取多个第一语言地标词汇;
第七获取子模块,用于分别获取每个第一语言地标词汇的出现概率,并获取任意两个第一语言地标词汇之间的共现概率;
建立子模块,用于根据所述每个第一语言地标词汇的出现概率和所述任意两个第一语言地标词汇之间的共现概率获取所述任意两个第一语言地标词汇之间的互信息,以建立第一语言的预设互信息集合。
14.如权利要求13所述的翻译译文的提供装置,其特征在于,所述建立子模块通过以下公式获取所述任意两个第一语言地标词汇之间的互信息:
其中,w1和w2为两个第一语言地标词汇,LB_Cooc(w1,w2)为所述w1和所述w2之间的关联紧密度,I(w1;w2)为所述w1和所述w2之间的互信息,p(w1w2)为所述w1和所述w2的共现概率,p(w1)为所述w1的出现概率,p(w2)为所述w2的出现概率。
15.一种翻译译文的提供系统,其特征在于,包括:
如权利要求8-14任一项所述的翻译译文的提供装置;以及
客户端。

说明书全文

翻译译文的提供方法、装置和系统

技术领域

[0001] 本发明涉及机器翻译领域,特别涉及一种翻译译文的提供方法、装置和系统。

背景技术

[0002] 随着机器翻译技术的不断发展,用户可随时通过在线翻译在多种语言对之间进行翻译。特别是随着移动终端制造技术的发展,移动终端上的在线翻译应用程序也日益丰富,这使得用户随时随地都可以进行翻译。例如用户出国旅游时,可随时通过键盘输入、语音输入、拍照加OCR识别等输入方式将看到的路标、招牌、菜单、景点介绍等等输入到在线翻译应用程序中进行翻译。
[0003] 目前机器翻译在译文选择时主要考虑两方面的因素,即翻译概率和语言模型概率。其中,翻译概率是基于一个大规模的源语言目标语言的平行语料库,经过词对齐和短语抽取之后训练得到的,体现的是一个源语言短语翻译到一个目标语言短语的可能性;语
言模型概率是基于目标语言的大规模单语语料库统计得到的目标语言词序列的出现概率。
因而,目前机器翻译中源语言短语的候选翻译的选择取决于短语本身以及该短语所处在的
上下文句子。但是,存在源语言中的一个短语对应目标语言中的多个译文的情况,现有的机器翻译系统无法从多个译文中为用户筛选出更符合用户当前需求的译文。

发明内容

[0004] 本发明旨在至少在一定程度上解决上述技术问题。
[0005] 为此,本发明的第一个目的在于提出一种翻译译文的提供方法,该方法能够满足用户在特定位置上的翻译需求,快速准确的为用户提供翻译结果,极大的改善了用户的翻
译体验。
[0006] 为达上述目的,根据本发明第一方面实施例提出了一种翻译译文的提供方法,包括:接收客户端发送的翻译请求,并获取所述客户端的当前位置信息,其中,所述翻译请求包括待翻译内容和目标语言类型;根据所述目标语言类型获取与所述目标语言类型对应的
地图数据和预设互信息集合;根据所述当前位置信息、所述地图数据和所述预设互信息集
合获取所述待翻译内容的位置特征;根据所述位置特征和预设翻译模型获取所述待翻译内
容的翻译译文,并将所述翻译译文发送至所述客户端。
[0007] 本发明实施例的翻译译文的提供方法,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0008] 本发明第二方面实施例提供了一种翻译译文的提供装置,包括:接收模,用于接收客户端发送的翻译请求,其中,所述翻译请求包括待翻译内容和目标语言类型;第一获取模块,用于获取所述客户端的当前位置信息;第二获取模块,用于根据所述目标语言类型获取与所述目标语言类型对应的地图数据和预设互信息集合;第三获取模块,用于根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征;提
供模块,用于根据所述位置特征和预设翻译模型获取所述待翻译内容的翻译译文,并将所
述翻译译文发送至所述客户端。
[0009] 本发明实施例的翻译译文的提供装置,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0010] 本发明第三方面实施例提供了一种翻译译文的提供系统,包括:本发明第二方面实施例所述的翻译译文的提供装置;以及客户端。
[0011] 本发明实施例的翻译译文的提供系统,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0012] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0013] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0014] 图1为根据本发明一个实施例的翻译译文的提供方法的流程图
[0015] 图2为根据本发明一个具体实施例的翻译译文的提供方法的流程图;
[0016] 图3为根据本发明一个实施例的建立预算互信息集合的方法的流程图;
[0017] 图4为根据本发明一个实施例的获取每个地标词汇的位置得分的方法的流程图;
[0018] 图5为根据本发明一个实施例的获取待翻译内容的位置特征的方法的流程图;
[0019] 图6为根据本发明一个实施例的翻译译文的提供装置的结构示意图;
[0020] 图7为根据本发明一个具体实施例的翻译译文的提供装置的结构示意图。

具体实施方式

[0021] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0022] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发
明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0023] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0024] 在现有的机器翻译技术中,源语言语句的候选翻译的选择只取决于源语言语句中短语本身以及短语所处在的上下文句子,当源语言语句含的短语的译文较多时,获得的该
源语言语句的译文更多,这就需要用户根据需要在众多译文中选择,或者翻译系统自动为
用户提供使用率较高的译文,但却不一定是用户所需要的。而当为用户提供翻译译文时,如果根据用户发出翻译请求时所处的地理位置提供翻译译文,则会使翻译译文更加准确。例
如:当一个不懂英文的中国游客在翻译系统中输入“park”这个多义词时,他要找的中文翻译到底是什么便与他彼时彼刻正处于的位置有关。若此时他处于公园、动物园、旅游景点
等的口,则park很可能是“公园”的意思;但倘若他的旁边是商务区、办公区、路等,则park便很可能是“停车场”的意思。为此,本发明提出了一种翻译译文的提供方法、装置和系统。下面参考附图描述根据本发明实施例的翻译译文的提供方法、装置和系统。
[0025] 一种翻译译文的提供方法,包括以下步骤:接收客户端发送的翻译请求,并获取客户端的当前位置信息,其中,翻译请求包括待翻译内容和目标语言类型;根据目标语言类型获取与目标语言类型对应的地图数据和预设互信息集合;根据当前位置信息、地图数据和预设互信息集合获取待翻译内容的位置特征;根据位置特征和预设翻译模型获取待翻译内
容的翻译译文,并将翻译译文发送至客户端。
[0026] 图1为根据本发明一个实施例的翻译译文的提供方法的流程图。如图1所示,该翻译译文的提供方法包括以下步骤。
[0027] S101,接收客户端发送的翻译请求,并获取客户端的当前位置信息,其中,翻译请求包括待翻译内容和目标语言类型。
[0028] 在本发明的实施例中,客户端优选为移动终端,例如,IOS操作系统(IOS是由苹果公司开发的手持设备操作系统)、安卓操作系统(Android系统是一种基于Linux的自由及开放源代码的操作系统)、Windows Phone操作系统(Windows Phone是微软公司发布的一
款手机操作系统)的移动终端,当然也适用于个人计算机以及其他智能移动终端,本发明对此不作限定。应当理解,在本发明的实施例中,移动终端可以是手机、平板电脑个人数字助理电子书以及智能穿戴式设备等具有各种操作系统的硬件设备。待翻译内容为用户不熟
悉或不理解的语言类型的语句,目标语言类型为用户根据需要选择的能够理解的语言类型
中的一个或多个。其中,客户端的当前位置信息可通过GPS(Global Positioning System,全球定位系统)来获取。
[0029] S102,根据目标语言类型获取与目标语言类型对应的地图数据和预设互信息集合。
[0030] 在本发明的一个实施例中,地图数据为各种地图应用软件提供的包括道路、建筑、商铺、景点等地标信息的地图数据。与目标语言类型对应的地图数据可由地图应用程序直接提供,如果地图应用程序无法提供目标语言类型的地图数据,则可根据现有的翻译系将
地图应用程序可提供的一种语言类型的地图数据翻译为目标语言数据。预设互信息集合为
预先建立的包括任意地标信息中的词汇之间共同出现的互信息的集合。具体地,可根据各
个语言类型的地图数据中距离小于预设阈值的两个地标信息建立相应的地图数据中每两
个地标词汇之间的互信息,其中,每个语言类型对应一个预设信息集合。互信息是指两个事件集合之间的相关性的信息度量,因此,预设互信息集合中的每个互信息可表示与该互信
息相应的两个词在地图数据中的关联紧密度
[0031] S103,根据当前位置信息、地图数据和预设互信息集合获取待翻译内容的位置特征。
[0032] 在本发明的实施例中,待翻译内容的位置特征为与待翻译内容的当前位置信息相关的特征。
[0033] S104,根据位置特征和预设翻译模型获取待翻译内容的翻译译文,并将翻译译文发送至客户端。
[0034] 相关技术中,主要根据翻译概率、语言模型概率以及调序模型分值等多种特征构成的对数线性模型。在本发明的一个实施例中,可在离线阶段将位置特征作为一个新的特
征,与上述翻译概率、语言模型概率以及调序模型分值等多种特征一起训练预设翻译模型,举例来说,该预设翻译模型可为对数线性模型。从而,在线翻译时,可将获取的位置特征代入该预设翻译模型,即可获取与翻译请求客户端所在的当前位置信息相符的翻译译文。
[0035] 本发明实施例的翻译译文的提供方法,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0036] 图2为根据本发明一个具体实施例的翻译译文的提供方法的流程图。如图2所示,在本实施例中,可通过步骤S203-S206根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征,使得获取的待翻译内容的位置特征更加准
确,从而可为用户提供更加满足其需求的翻译译文。具体地,该训练翻译模型的方法包括以下步骤。
[0037] S201,接收客户端发送的翻译请求,并获取客户端的当前位置信息,其中,翻译请求包括待翻译内容和目标语言类型。
[0038] 在本发明的实施例中,客户端优选为移动终端,例如,IOS操作系统(IOS是由苹果公司开发的手持设备操作系统)、安卓操作系统(Android系统是一种基于Linux的自由及开放源代码的操作系统)、Windows Phone操作系统(Windows Phone是微软公司发布的一
款手机操作系统)的移动终端,当然也适用于个人计算机以及其他智能移动终端,本发明对此不作限定。应当理解,在本发明的实施例中,移动终端可以是手机、平板电脑、个人数字助理、电子书以及智能穿戴式设备等具有各种操作系统的硬件设备。待翻译内容为用户不熟
悉或不理解的语言类型的语句,目标语言类型为用户根据需要选择的能够理解的语言类型
中的一个或多个。其中,客户端的当前位置信息可通过GPS(Global Positioning System,全球定位系统)来获取。
[0039] S202,根据目标语言类型获取与目标语言类型对应的地图数据和预设互信息集合。
[0040] 在本发明的一个实施例中,地图数据为各种地图应用软件提供的包括道路、建筑、商铺、景点等地标信息的地图数据。与目标语言类型对应的地图数据可由地图应用程序直接提供,如果地图应用程序无法提供目标语言类型的地图数据,则可根据现有的翻译系将
地图应用程序可提供的一种语言类型的地图数据翻译为目标语言数据。
[0041] 在本发明的一个实施例中,预设互信息集合为预先建立的包括任意地标信息中的词汇之间共同出现的互信息的集合。图3为根据本发明一个实施例的建立预算互信息集合
的方法的流程图。如图3所示,在本发明的一个实施例中,预设互信息集合可通过以下步骤建立:
[0042] S301,获取第一语言的地图数据。
[0043] 其中,第一语言可为现有语言中的任意一种。
[0044] S302,根据第一语言的地图数据获取地图上任意距离小于预设阈值的两个地标信息,以获取多对地标信息。
[0045] 其中,预设阈值可为根据多次试验获得的阈值。地图上的地标信息为标识地理位置的信息,如道路、建筑、商铺、景点等。
[0046] S303,根据多对地标信息获取多个第一语言地标词汇。
[0047] 其中,第一语言地标词汇为通过对上述多对地标信息进行分词得到的单词或短语。
[0048] S304,分别获取每个第一语言地标词汇的出现概率,并获取任意两个第一语言地标词汇之间的共现概率。
[0049] 在本发明的实施例中,可首先获取每个第一语言地标词汇在获取到的多个第一语言地标词汇中的出现的次数,然后用该次数除以多个第一语言地标词汇的总数以获取每个
第一语言地标词汇的出现概率。对于第一语言地标词汇w1和w2,如果w1与w2分别为一对
距离小于预设阈值的地标信息中每个地标信息中的一个单词或词组(例如,对于一对地标
信息p1和p2,w1是地标信息p1中的单词,w2是地标信息中的单词p2),则记w1和w2共现一
次。按照此方法,可获取w1和w2在获取到的第一语言地标词汇中的共现次数。从而,根据
w1和w2的共现次数可计算w1和w2的共现概率。
[0050] S305,根据每个第一语言地标词汇的出现概率和任意两个第一语言地标词汇之间的共现概率获取任意两个第一语言地标词汇之间的互信息,以建立第一语言的预设互信息
集合。
[0051] 具体地,在本发明的一个实施例中,可通过以下公式获取任意两个第一语言地标词汇w1和w2之间的互信息,以表示与w1和w2在地图数据中的关联紧密度:
[0052]
[0053] 其中,w1和w2为两个第一语言地标词汇,LB_Cooc(w1,w2)为w1和w2之间的关联紧密度,I(w1;w2)为w1和w2之间的互信息,p(w1w2)为w1和w2的共现概率,p(w1)为w1的出现
概率,p(w2)为w2的出现概率。
[0054] S203,根据当前位置信息和目标语言类型对应的地图数据获取与当前位置信息距离小于预设阈值的多个地标信息,并分别记录多个地标信息与当前位置信息的距离。
[0055] 在本发明的一个实施例中,根据目标语言类型对应的地图数据,搜索以当前位置信息L为中心且与当前位置信息L的直线距离小于预设阈值D的目标语言的多个地标信
息,可将这些地标信息表示成{p1,…pi,…pn}。同时,记录每一个地标信息pi与当前位置信息L的距离,记为disi(单位取“百米”)。利用如此得到的以L为中心的地标信息及其相应的距离,便得到了当前位置信息L的基于位置的“上下文”内容,并将其表示为如下的二元组向量:
[0056] LB_Context(L)={|1≤i≤n}。
[0057] S204,对多个地标信息进行分词以获取M个地标词汇,其中,M为正整数。
[0058] 在本发明的一个实施例中,首先对LB_Context(L)中的所有地标信息进行分词,然后去除停用词(即无实际意义的虚词,如英语中的a,the等),以筛选出M个具有实际意义的地标词汇。
[0059] S205,根据多个地标信息和多个地标信息与当前位置信息的距离分别获取M个地标词汇的位置得分。
[0060] 图4为根据本发明一个实施例的获取每个地标词汇的位置得分的方法的流程图。如图4所示,在本发明的一个实施例中,该方法包括:
[0061] S401,对于每个地标词汇w,从多个地标信息中获取包括地标词汇w的K个地标信息,其中,K为正整数。
[0062] S402,获取K个地标信息到当前位置信息的平均距离。
[0063] S403,根据地标词汇w在K个地标信息中的出现次数和平均距离通过以下公式获取地标词汇w的位置得分:
[0064]
[0065] 其中,score(w)为地标词汇w的位置得分, 为K个地标信息到当前位置信息的平均距离,其中,pk表示K个地标信息中第k个地标信息,disk为第k个地标信
息pk与当前位置信息的距离。通过上述公式可见,地标词汇w在当前位置信息L周围出现
的越频繁,且与L的平均距离越近,则地标词汇w的分值就越大。可将如此形成的地标词汇
及其权位置得分的向量称作翻译请求的基于位置的模型,表示为:
[0066] LBM(S)={|1≤i≤M}。
[0067] S206,根据M个地标词汇的位置得分和互信息集合获取待翻译内容的位置特征。
[0068] 图5为根据本发明一个实施例的获取待翻译内容的位置特征的方法的流程图。如图5所示,在本发明的一个实施例中,该方法包括:
[0069] S501,获取待翻译内容中的至少一个短语,并获取与至少一个短语中每个短语对应的多个候选翻译短语,其中,每个候选翻译短语中包括N个目标语言词汇,N为正整数。
[0070] 在本发明的一个实施例中,待翻译内容中可包括至少一个单词或短语,对于其中的一个单词或短语ps,可根据现有翻译模型(以短语为单位进行翻译)获取与ps相应的候选翻译单词或短语pt,且pt是由词序列(t1,…,tj,…,tN)构成的,N为正整数。
[0071] S502,根据预设互信息集合分别获取M个地标词汇和N个目标语言词汇中每个地标词汇与每个目标语言词汇之间的互信息。
[0072] S503,根据每个地标词汇与每个目标语言词汇之间的互信息与每个地标词汇的位置得分获取相应的候选翻译短语基于位置的特征分值。
[0073] 具体地,在本发明的一个实施例中,可通过以下公式获取每个候选翻译短语pt基于位置的特征分值:
[0074]
[0075] 其中,f(pt|LBM(S))为候选翻译短语pt基于位置的特征分值,LB_Cooc(wi,tj)为M个地标词汇中第i个地标词汇wi与N个目标语言词汇中第j个目标语言词汇tj的互信息,score(wi)为第i个地标词汇wi的位置得分,为待翻译内容的位置模型。上述公式可保证:
若候选翻译短语pt中的词汇与翻译请求的基于位置的上下文模型LBM(S)中的词汇在地图
上的共现越紧密,则pt特征分值越大;同时,score(wi)可对翻译请求的基于位置的上下文模型LBM(S)中的词汇进行调权。
[0076] S504,根据每个候选翻译短语基于位置的特征分值获取待翻译内容的位置特征。
[0077] S207,根据位置特征和预设翻译模型获取待翻译内容的翻译译文,并将翻译译文发送至客户端。
[0078] 在本发明的一个实施例中,在离线阶段,可预先根据位置特征与传统特征值(如翻译概率、语言模型概率和调序模型分值等)相结合,构建预设翻译模型(可为对数线性模型),当在线翻译时,可将上述步骤获取的位置特征代入该预设翻译模型,即可获取与翻译请求客户端所在的当前位置信息相符的翻译译文。
[0079] 本发明实施例的翻译译文的提供方法,根据候选翻译短语中的词汇与翻译请求的基于位置的上下文模型的词汇在地图上的共现的紧密程度来获取翻译译文,使得翻译译文
能够更精准的满足用户翻译需求,进一步提升了用户体验。
[0080] 为了实现上述实施例,本发明还提出一种翻译译文的提供装置,包括:接收模块,用于接收客户端发送的翻译请求,其中,所述翻译请求包括待翻译内容和目标语言类型;第一获取模块,用于获取所述客户端的当前位置信息;第二获取模块,用于根据所述目标语言类型获取与所述目标语言类型对应的地图数据和预设互信息集合;第三获取模块,用于根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特
征;提供模块,用于根据所述位置特征和预设翻译模型获取所述待翻译内容的翻译译文,并将所述翻译译文发送至所述客户端。
[0081] 图6为根据本发明一个实施例的翻译译文的提供装置的结构示意图。如图6所示,根据本发明实施例的翻译译文的提供装置包括:接收模块100、第一获取模块200、第二获取立模块300、第三获取模块400和提供模块500。
[0082] 具体地,接收模块100用于接收客户端发送的翻译请求,其中,所述翻译请求包括待翻译内容和目标语言类型。在本发明的实施例中,客户端优选的为移动终端,如笔记本电脑、平板电脑、电子书、智能穿戴式设备等,也可为台式计算机等。待翻译内容为用户不熟悉或不理解的语言类型的语句,目标语言类型为用户根据需要选择的能够理解的语言类型中的一个或多个。
[0083] 第一获取模块200用于获取所述客户端的当前位置信息。其中,客户端的当前位置信息可通过GPS(Global Positioning System,全球定位系统)来获取。
[0084] 第二获取模块300用于根据所述目标语言类型获取与所述目标语言类型对应的地图数据和预设互信息集合。在本发明的一个实施例中,地图数据为各种地图应用软件提
供的包括道路、建筑、商铺、景点等地标信息的地图数据。与目标语言类型对应的地图数据可由地图应用程序直接提供,如果地图应用程序无法提供目标语言类型的地图数据,则可
根据现有的翻译系将地图应用程序可提供的一种语言类型的地图数据翻译为目标语言数
据。预设互信息集合为预先建立的包括任意地标信息中的词汇之间共同出现的互信息的集
合。具体地,可根据各个语言类型的地图数据中距离小于预设阈值的两个地标信息建立相
应的地图数据中每两个地标词汇之间的互信息,其中,每个语言类型对应一个预设信息集
合。互信息是指两个事件集合之间的相关性的信息度量,因此,预设互信息集合中的每个互信息可表示与该互信息相应的两个词在地图数据中的关联紧密度。
[0085] 第三获取模块400用于根据所述当前位置信息、所述地图数据和所述预设互信息集合获取所述待翻译内容的位置特征。在本发明的实施例中,待翻译内容的位置特征为与
待翻译内容的当前位置信息相关的特征。
[0086] 提供模块500用于根据所述位置特征和预设翻译模型获取所述待翻译内容的翻译译文,并将所述翻译译文发送至所述客户端。相关技术中,主要根据翻译概率、语言模型概率以及调序模型分值等多种特征构成的对数线性模型。在本发明的一个实施例中,可在
离线阶段将位置特征作为一个新的特征,与上述翻译概率、语言模型概率以及调序模型分
值等多种特征一起训练预设翻译模型,举例来说,该预设翻译模型可为对数线性模型。从
而,在线翻译时,可将获取的位置特征代入该预设翻译模型,即可获取与翻译请求客户端所在的当前位置信息相符的翻译译文。
[0087] 本发明实施例的翻译译文的提供装置,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0088] 图7为根据本发明一个具体实施例的翻译译文的提供装置的结构示意图。如图7所示,根据本发明实施例的翻译译文的提供装置包括:接收模块100、第一获取模块200、第二获取立模块300、第三获取模块400、提供模块500和建立模块600,其中,第二获取模块
300具体包括记录子模块310、第一获取子模块320、第二获取子模块330和第三获取子模
块340;建立模块600具体包括第四获取子模块610、第五获取子模块620、第六获取子模块
630、第七获取子模块640和建立子模块650。
[0089] 具体地,建立模块600用于建立预设互信息集合。
[0090] 记录子模块310用于根据当前位置信息和地图数据获取与当前位置信息距离小于预设阈值的多个地标信息,并分别记录多个地标信息与当前位置信息的距离。在本发明
的一个实施例中,记录子模块310可根据目标语言类型对应的地图数据,搜索以当前位置
信息L为中心且与当前位置信息L的直线距离小于预设阈值D的目标语言的多个地标信
息,可将这些地标信息表示成{p1,…pi,…pn}。同时,记录子模块310记录每一个地标信息pi与当前位置信息L的距离,记为disi(单位取“百米”)。利用如此得到的以L为中心的地标信息及其相应的距离,便得到了当前位置信息L的基于位置的“上下文”内容,并将其表示为如下的二元组向量:
[0091] LB_Context(L)={|1≤i≤n}。
[0092] 第一获取子模块320用于对多个地标信息进行分词以获取M个地标词汇,其中,M为正整数。在本发明的一个实施例中,第一获取子模块320首先对LB_Context(L)中的所
有地标信息进行分词,然后去除停用词(即无实际意义的虚词,如英语中的a,the等),以筛选出M个具有实际意义的地标词汇。
[0093] 第二获取子模块330用于根据多个地标信息和多个地标信息与当前位置信息的距离分别获取M个地标词汇的位置得分。更具体的,在本发明的一个实施例中,第二获取子模块330具体包括(图7中未标出):第一获取单元331用于对于每个地标词汇w,从M个地
标信息中获取包括地标词汇w的K个地标信息,其中,K为正整数。第二获取单元332用于
获取K个地标信息到当前位置信息的平均距离。第三获取单元333用于根据地标词汇w在
K个地标信息中的出现次数和平均距离通过以下公式获取地标词汇w的位置得分:
[0094]
[0095] 其中,score(w)为地标词汇w的位置得分, 为K个地标信息到当前位置信息的平均距离,其中,pk表示K个地标信息中第k个地标信息,disk为第k个地标信
息pk与当前位置信息的距离。通过上述公式可见,地标词汇w在当前位置信息L周围出现
的越频繁,且与L的平均距离越近,则地标词汇w的分值就越大。可将如此形成的地标词汇
及其权位置得分的向量称作翻译请求的基于位置的模型,表示为:
[0096] LBM(S)={|1≤i≤M}。
[0097] 第三获取子模块340用于根据M个地标词汇的位置得分和互信息集合获取待翻译内容的位置特征。更具体地,在本发明的一个实施例中,第三获取子模块340具体包括(图
7中未标出):
[0098] 第四获取单元341用于获取待翻译内容中的至少一个短语,并获取与至少一个短语中每个短语对应的多个候选翻译短语,其中,每个候选翻译短语中包括N个目标语言词
汇,N为正整数。在本发明的一个实施例中,待翻译内容中可包括至少一个单词或短语,对于其中的一个单词或短语ps,可根据现有翻译模型(以短语为单位进行翻译)获取与ps相应的候选翻译单词或短语pt,且pt是由词序列(t1,…,tj,…,tN)构成的,N为正整数。
[0099] 第五获取单元342用于根据预设互信息集合分别获取M个地标词汇和N个目标语言词汇中每个地标词汇与每个目标语言词汇之间的互信息。
[0100] 第六获取单元343用于根据每个地标词汇与每个目标语言词汇之间的互信息与每个地标词汇的位置得分获取相应的候选翻译短语基于位置的特征分值。在本发明的一个
实施例总,第六获取单元343可通过以下公式获取每个候选翻译短语pt基于位置的特征分
值:
[0101]
[0102] 其中,f(pt|LBM(S))为候选翻译短语pt基于位置的特征分值,LB_Cooc(wi,tj)为M个地标词汇中第i个地标词汇wi与N个目标语言词汇中第j个目标语言词汇tj的互信息,score(wi)为第i个地标词汇wi的位置得分,为待翻译内容的位置模型。上述公式可保证:
若候选翻译短语pt中的词汇与翻译请求的基于位置的上下文模型LBM(S)中的词汇在地图
上的共现越紧密,则pt特征分值越大;同时,score(wi)可对翻译请求的基于位置的上下文模型LBM(S)中的词汇进行调权。
[0103] 第七获取单元344用于根据每个候选翻译短语基于位置的特征分值获取待翻译内容的位置特征。
[0104] 第四获取子模块610用于获取第一语言的地图数据。其中,第一语言可为现有语言中的任意一种。
[0105] 第五获取子模块620用于根据第一语言的地图数据获取地图上任意距离小于预设阈值的两个地标信息,以获取多对地标信息。其中,预设阈值可为根据多次试验获得的阈值。地图上的地标信息为标识地理位置的信息,如道路、建筑、商铺、景点等。
[0106] 第六获取子模块630用于根据多对地标信息获取多个第一语言地标词汇。其中,第一语言地标词汇为通过对上述多对地标信息进行分词得到的单词或短语。
[0107] 第七获取子模块640用于分别获取每个第一语言地标词汇的出现概率,并获取任意两个第一语言地标词汇之间的共现概率。在本发明的实施例中,第七获取子模块640可
首先获取每个第一语言地标词汇在获取到的多个第一语言地标词汇中的出现的次数,然后
用该次数除以多个第一语言地标词汇的总数以获取每个第一语言地标词汇的出现概率。对
于第一语言地标词汇w1和w2,如果w1与w2分别为一对距离小于预设阈值的地标信息中每
个地标信息中的一个单词或词组(例如,对于一对地标信息p1和p2,w1是地标信息p1中的单词,w2是地标信息中的单词p2),则记w1和w2共现一次。按照此方法,可获取w1和w2在获
取到的第一语言地标词汇中的共现次数。从而,根据w1和w2的共现次数可计算w1和w2的
共现概率。
[0108] 建立子模块650用于根据每个第一语言地标词汇的出现概率和任意两个第一语言地标词汇之间的共现概率获取任意两个第一语言词汇之间的互信息,以建立第一语言的
预设互信息集合。更具体地,在本发明的一个实施例中,可通过以下公式获取任意两个第一语言地标词汇w1和w2之间的互信息,以表示与w1和w2在地图数据中的关联紧密度:
[0109]
[0110] 其中,w1和w2为两个第一语言地标词汇,LB_Cooc(w1,w2)为w1和w2之间的关联紧密度,I(w1;w2)为w1和w2之间的互信息,p(w1w2)为w1和w2的共现概率,p(w1)为w1的出现
概率,p(w2)为w2的出现概率。
[0111] 本发明实施例的翻译译文的提供装置,根据候选翻译短语中的词汇与翻译请求的基于位置的上下文模型的词汇在地图上的共现的紧密程度来获取翻译译文,使得翻译译文
能够更精准的满足用户翻译需求,进一步提升了用户体验。
[0112] 为了实现上述实施例,本发明还提出一种翻译译文的提供系统,包括本发明实施例的翻译译文的提供装置和客户端。
[0113] 本发明实施例的翻译译文的提供系统,通过获取发送翻译请求的客户端的当前位置信息,并获取与该当前位置信息相关的翻译译文,从而使获取的翻译译文能够满足用户
在特定位置上的翻译需求,并且翻译结果更符合用户预期。特别是对于一词多译的情况,能够快速准确的为用户提供翻译结果,极大的改善了用户的翻译体验。
[0114] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0115] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以
供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用
的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0116] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0117] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0118] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读取存储介质中。
[0119] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0120] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈