首页 / 专利库 / 人工智能 / 候选译文 / 数据处理装置、数据处理方法以及电子设备

数据处理装置、数据处理方法以及电子设备

阅读:506发布:2020-06-12

专利汇可以提供数据处理装置、数据处理方法以及电子设备专利检索,专利查询,专利分析的服务。并且本 发明 提供了 数据处理 装置、数据处理方法以及 电子 设备,以克服现有的语言数据处理技术所存在的处理 精度 不高的问题。上述数据处理装置包括:语义 角 色标注单元,用于对 源语言 语句以及作为其译文的候选调序结果的多个 目标语言 语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。本发明的上述技术能够应用于数据处理领域。,下面是数据处理装置、数据处理方法以及电子设备专利的具体信息内容。

1.一种数据处理装置,包括:
语义色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;
匹配单元,用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及
调序结果确定单元,用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
2.根据权利要求1所述的数据处理装置,其中,所述匹配单元包括:
相关程度获得子单元,用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,利用所述预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度;以及
匹配分数确定子单元,用于针对每个所述目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数。
3.根据权利要求2所述的数据处理装置,其中,所述相关程度获得子单元用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,获得如下多种相关程度中的任一种或多种:
该目标语言语义角色序列的仅包括该目标语言谓词的子序列与所述源语言语义角色序列之间的相关程度;
该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;
该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;以及
该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与所述源语言语义角色序列之间的相关程度。
4.根据权利要求2或3所述的数据处理装置,其中,所述匹配分数确定子单元用于根据下式获得所述匹配分数:
score(S,T)=P(VT|S)*P(a1|VT,S)
其中,S为所述源语言语义角色序列,T为所述目标语言语义角色序列,VT为T中的目标语言谓词,ai为T中位于VT左侧的第i个语义角色,h为VT左侧的语义角色数量,bj为T中位于VT右侧的第j个语义角色,k为VT右侧的语义角色数量,P(VT|S)为用于表示S与T的子序列{VT}之间的相关程度的条件概率,P(a1|VT,S)为用于表示S与T的子序列{VT}和{a1,VT}之间的相关程度的条件概率,P(ai|ai-1,VT,S)为用于表示S与T的子序列{ai-1,VT}和{ai,ai-1,VT}之间的相关程度的条件概率,P(b1|VT,S)为用于表示S与T的子序列{VT}和{VT,b1}之间的相关程度的条件概率,以及P(bj|VT,bj-1,S)为用于表示S与T的子序列{VT,bj-1}和{VT,bj-1,bj}之间的相关程度的条件概率。
5.根据权利要求4所述的数据处理装置,其中,所述相关程度获得子单元用于根据极大似然法获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)。
6.根据权利要求5所述的数据处理装置,其中,所述相关程度获得子单元用于根据以下公式获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S):
其中,VS为S中的源语言谓词,a'h',...,a'1为S中位于VS左侧的h’个语义角色,b'1,...,b'k'为S中位于VS右侧的k’个语义角色,C(VT,a'h',...,a'1,VS,b'1,...,b'k')表示在包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句所属双语句对中的预定目标语言语句中出现序列{VT}的次数,C(a'h',...,a'1,VS,b'1,...,b'k')表示包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句的数量,C(a1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{a1,VT}的次数,C(ai,ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai,ai-1,VT}的次数,C(ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai-1,VT}的次数,C(VT,b1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,b1}的次数,C(VT,bj-1,bj,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1,bj}的次数,C(VT,bj-1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1}的次数。
7.根据权利要求2所述的数据处理装置,其中,
所述语义角色标注单元用于在所述源语言语句包含至少两个源语言谓词的情况下,将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列,并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列;
所述匹配单元用于获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数;以及
所述调序结果确定单元用于通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。
8.根据权利要求1-7中任一项所述的数据处理装置,其中,所述源语言为汉语,所述目标语言为英语。
9.一种数据处理方法,包括:
对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;
基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及
将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
10.一种电子设备,包括如权利要求1-8中任一项所述的数据处理装置。

说明书全文

数据处理装置、数据处理方法以及电子设备

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及数据处理装置、数据处理方法以及电子设备。

背景技术

[0002] 数据处理是当前较为热的一个技术领域。在数据处理领域中,由于数据信息的种类的丰富性和多样性,处理的目的和要求也不尽相同。
[0003] 语言数据作为众多类型数据中的一种,在人们的日常生活、工作中是极为常见的。例如,电子邮件、手机间互发的短消息以及人们学习和工作中需要处理的各种文件中所包含的文字信息,都是语言数据。在利用现有的用于处理语言数据的技术对如上所述的语言数据进行处理时,尤其是将一种模式的语言数据转换为另一种模式时,其处理的准确度和/或精度往往较低。

发明内容

[0004] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005] 鉴于此,本发明提供了数据处理装置、数据处理方法以及电子设备,以至少解决现有的用于处理语言数据的技术所存在的处理的准确度和/或精度不高的问题。
[0006] 根据本发明的一个方面,提供了一种数据处理装置,该数据处理装置包括:语义色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数,其中,上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0007] 根据本发明的另一个方面,还提供了一种数据处理方法,该数据处理方法包括:对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数,其中,上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0008] 根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的数据处理装置。
[0009] 根据本发明的又一个方面,还提供了一种存储有机器可读取的指令代码的程序产品,上述程序产品在执行时能够使上述机器执行如上所述的数据处理方法。
[0010] 此外,根据本发明的其他方面,还提供了一种计算机可读存储介质,其上存储有如上所述的程序产品。
[0011] 上述根据本发明实施例的数据处理装置、数据处理方法以及电子设备,其针对作为源语言语句的译文的候选调序结果的多个目标语言语句,能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标语言语义角色序列分别与源语言语句对应的源语言语义角色序列之间的匹配分数,以在上述多个目标语言语句中确定最终的调序结果,由此能够获得至少以下益处之一:处理结果的准确度较高;计算量小,计算速度快;以及处理效率较高。
[0012] 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。

附图说明

[0013] 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
[0014] 图1是示意性地示出根据本发明的实施例的数据处理装置的一种示例结构的框图
[0015] 图2是示意性地示出如图1所示的匹配单元的一种可能的示例结构的框图。
[0016] 图3是示意性地示出根据本发明的实施例的数据处理方法的一种示例性处理的流程图
[0017] 图4是示出了可用来实现根据本发明的实施例的数据处理装置和数据处理方法的一种可能的信息处理设备的硬件配置的结构简图。
[0018] 本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。

具体实施方式

[0019] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0020] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0021] 本发明的实施例提供了一种数据处理装置,该数据处理装置包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数,其中,上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0022] 在根据本发明的实施例的数据处理装置的具体实现方式中,源语言例如可以是为英语、汉语、德语、法语、日语等众多语言中的任意一种语言,而目标语言可以是与作为源语言的语种之间具有相同的主谓宾结构的、上述众多语言中的另一种语言。其中,需要说明的是,这里所说的相同的主谓宾结构中的“主谓宾结构”并不限于“主语+谓语+宾语”这种顺序,也可以是其他顺序,例如“主语+宾语+谓语”等顺序,但所选定的源语言和目标语言的“主谓宾结构”是相同的。例如,源语言和目标语言都是“主语+谓语+宾语”顺序的“主谓宾结构”,或者都是“主语+宾语+谓语”顺序的“主谓宾结构”等。
[0023] 在下文中,将主要以源语言为汉语、目标语言为英语的情况为例来给出本发明各实施例的相关描述,对于采用其他语言作为源语言或目标语言的示例将不再进行详细描述。其中,汉语和英语均是具有“主语+谓语+宾语”这种顺序的主谓宾结构的语言。
[0024] 在一些数据处理过程中,对于某个源语言语句,可能存在多个候选译文,在这种情况下,可以在这多个候选译文中挑选出与该源语言语句最匹配的那个。在本发明的实施例中,数据处理装置能够通过确定每个候选译文中的各语义角色之间的顺序与源语言语句之间的匹配程度,来进一步确定哪一个候选译文与该源语言语句最匹配。需要说明的是,在上述数据处理过程中,多个候选译文相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的多个候选的处理结果。
[0025] 下面结合图1来详细描述根据本发明的实施例的数据处理装置的一个示例。
[0026] 如图1所示,根据本发明的实施例的数据处理装置100包括语义角色标注单元110、匹配单元120以及调序结果确定单元130。
[0027] 下文中,以某个源语言语句以及作为该源语言语句的候选调序结果的多个目标语言语句为例来描述如何在这多个目标语言语句中选择与该源语言语句最匹配的那个。
[0028] 在实际处理中,对于处理多个源语言语句的情况以及处理整篇源语言文章等的情况来说,处理的过程是类似的,将不再详述。
[0029] 如图1所示,在根据本发明的实施例的数据处理装置100中,语义角色标注单元110通过对源语言语句进行语义角色标注而获得该源语言语句的源语言语义角色序列。此外,语义角色标注单元110还对上述多个目标语言语句分别进行语义角色标注,以获得多个目标语言语句各自的目标语言语义角色序列,即,获得多个目标语言语义角色序列。
[0030] 在根据本发明的实施例的数据处理装置的具体实现方式中,可以采用如FrameNet、PropBank或NomBank中的语义角色标注技术来对英语语句(作为目标语言语句的示例)进行语义角色标注,以及可以采用如CPB(Chinese Proposition Bank)中的语义角色标注技术来对汉语语句(作为源语言语句的示例)进行语义角色标注。需要说明的是,语义角色标注技术对于本领域的技术人员来说是可以根据本领域公知常识所获知的,故这里不再详述。
[0031] 此外,在根据本发明的实施例的数据处理装置的具体实现方式中,源语言语句不限于完整语句(如“他就是我昨天看见的那个老师。”),也可以是完整语句中的部分句子成分(诸如“我昨天看见的那个老师”之类的具有主谓宾结构的句子成分)。
[0032] 举例来说,假设源语言语句为“我昨天看见的那个老师”,并假设目标语言语句“The teacher I saw yesterday”以及目标语言语句“I yesterday saw the teacher”是上述源语言语句的两个候选调序结果。在该例子中,源语言为汉语,目标语言为英语。需要说明的是,在该例子中,上述源语言语句的两个候选调序结果相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的候选的处理结果。
[0033] 通过语义角色标注单元110对源语言语句“我昨天看见的那个老师”进行语义角色标注,可以得到如下的标注结果:
[0034] [我]_argLS昨天[看见]_Vs的那个[老师]_argRS
[0035] 在该标注结果中,[…]_Vs的方括号中的内容表示源语言语句“我昨天看见的那个老师”中的源语言谓词,[…]_argLS的方括号中的内容表示源语言语句“我昨天看见的那个老师”中的位于源语言谓词左侧的一个语义角色,[…]_argRS的方括号中的内容表示源语言语句“我昨天看见的那个老师”中的位于源语言谓词右侧的一个语义角色。
[0036] 由此,根据对源语言语句“我昨天看见的那个老师”进行语义角色标注的结果,按照各个语义角色以及源语言谓词在源语言语句“我昨天看见的那个老师”中的顺序,可以得到如下的源语言语义角色序列S:
[0037] argLS看见argRS
[0038] 例如,假设argLS标注的是主语,argRS标注的是宾语,则上述源语言语义角色序列S对应于“主语+谓语+宾语”顺序的主谓宾结构。
[0039] 需要说明的是,在该例子中,源语言谓词左侧只有一个语义角色,其右侧也只有一个语义角色,但在本发明实施例的数据处理装置的其他例子中,源语言谓词左侧和/或右侧的语义角色可以多于一个。
[0040] 类似地,通过语义角色标注单元110对目标语言语句“The teacher I saw yesterday”进行语义角色标注,可以得到如下的标注结果:
[0041] The [teacher]_argLT12 [I]_argLT11 [saw]_Vt1 yesterday
[0042] 在该标注结果中,[…]_Vt1的方括号中的内容表示目标语言语句“The teacher I saw yesterday”中的目标语言谓词,[…]_argLT11的方括号中的内容表示目标语言语句“The teacher I saw yesterday”中的位于目标语言谓词左侧的一个语义角色,[…]_argLT12的方括号中的内容表示目标语言语句“The teacher I saw yesterday”中的位于目标语言谓词左侧的另一个语义角色。
[0043] 由此,根据对目标语言语句“The teacher I saw yesterday”进行语义角色标注的结果,按照各个语义角色以及目标语言谓词在目标语言语句“The teacher I saw yesterday”中的顺序,可以得到如下的目标语言语义角色序列T1:
[0044] argLT12 argLT11 saw
[0045] 例如,假设argLT12标注的是宾语,argLT11标注的是主语,则上述目标语言语义角色序列T1对应于“宾语+主语+谓语”顺序的主谓宾结构。
[0046] 此外,对于目标语言语句“I yesterday saw the teacher”,可以类似地得到如下的标注结果:
[0047] [I]_argLT21 yesterday [saw]Vt2 the [teacher]_argRT21
[0048] 在该标注结果中,[…]_Vt2的方括号中的内容表示目标语言语句“I yesterday saw the teacher”中的目标语言谓词,[…]_argLT21的方括号中的内容表示目标语言语句“I yesterday saw the teacher”中的位于目标语言谓词左侧的一个语义角色,[…]_argRT21的方括号中的内容表示目标语言语句“I yesterday saw the teacher”中的位于目标语言谓词右侧的另一个语义角色。
[0049] 根据该标注结果,按照各个语义角色以及目标语言谓词在目标语言语句“I yesterday saw the teacher”中的顺序,可以得到如下的目标语言语义角色序列T2:
[0050] argLT21 saw argRT21
[0051] 例如,假设argLT21标注的是主语,argRT21标注的是宾语,则上述目标语言语义角色序列T1对应于“主语+谓语+宾语”顺序的主谓宾结构。
[0052] 这样,通过语义角色标注单元110的处理,针对某个源语言语句,可以得到该源语言语句的源语言语义角色序列S,以及可以得到作为该源语言语句的候选调序结果的多个目标语言语句对应的多个目标语言语义角色序列T1、T2、…、TN,其中,N为大于1的整数。由此,基于预定双语语料库,匹配单元120可以获得上述源语言语义角色序列S分别与上述多个目标语言语义角色序列T1、T2、…、TN中的每一个之间的匹配分数。
[0053] 其中,上述预定双语语料库包括多个源语言和目标语言的双语句对,这些双语句对是预先经过语义角色标注的。需要说明的是,预定双语语料库可以包括通用领域的双语语料库和/或专有领域的双语语料库等。
[0054] 在根据本发明的实施例的数据处理装置的一种实现方式中,匹配单元120可以具有如图2所示的一种示例结构。如图2所示,在该实现方式中,匹配单元120可以包括相关程度获得子单元210和匹配分数确定子单元220。
[0055] 对于多个目标语言语义角色序列T1、T2、…、TN中的每个目标语言语义角色序列来说,相关程度获得子单元210可以针对该目标语言语义角色序列中的每个目标语言谓词,利用上述预定双语语料库来获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与源语言语义角色序列之间的相关程度。
[0056] 下面以多个目标语言语义角色序列T1、T2、…、TN中的任一个目标语言语义角色序列为例来描述如何获得目标语言语义角色序列与源语言语义角色序列之间的匹配分数。下文中,用Tg表示上述“任一个目标语言语义角色序列”,其中Tg=T1,T2,…,TN。
[0057] 在一个示例中,假设目标语言语义角色序列Tg中包含至少一个目标语言谓词,则针对目标语言语义角色序列Tg中的每个目标语言谓词,相关程度获得子单元210可以获得如下多种相关程度中的任一种或多种:目标语言语义角色序列Tg的仅包括该目标语言谓词的子序列(即该目标语言谓词本身,以下简称为第一类子序列)与源语言语义角色序列S之间的相关程度;目标语言语义角色序列Tg的包括位于该目标语言谓词左侧的至少一个语义角色的子序列(以下简称为第二类子序列)与源语言语义角色序列S之间的相关程度;目标语言语义角色序列Tg的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列(以下简称为第三类子序列)与源语言语义角色序列S之间的相关程度;
以及目标语言语义角色序列Tg的第一类子序列、第二类子序列以及第三类子序列中的至少两种子序列与源语言语义角色序列S之间的相关程度。
[0058] 下面以上文所描述的源语言语义角色序列S为“argLS看见argRS”、目标语言语义角色序列T1为“argLT12 argLT11 saw”以及目标语言语义角色序列T2为“argLT21 saw argRT21”的情况为例来描述一个示例。
[0059] 针对目标语言语义角色序列T1“argLT12 argLT11 saw”来说,其对应的第一类子序列例如可以为“saw”,第二类子序列例如可以为“argLT12”、“argLT11”和“argLT12argLT11”中的任一个,第三类子序列例如可以为“argLT11 saw”、“argLT12 saw”和“argLT12 argLT11 saw”中的任一个。
[0060] 由此,“saw”与“argLS看见argRS”之间的相关程度例如可以作为上述第一类子序列与源语言语义角色序列S之间的相关程度(下文称为“第一类相关程度”)的一个示例。其中,“saw”与“argLS看见argRS”之间的相关程度例如可以由上述预定双语语料库中“saw”与“argLS看见argRS”同时出现在一个双语句对中的概率来反映,或者,也可以由上述预定双语语料库中包含“argLS看见argRS”结构的所有中文语句对应的所有英文语句中出现“saw”的概率来反映。
[0061] 其中,需要说明的是,“argLS看见argRS”出现在一个双语句对中是指:在这个双语句对的汉语语句中,根据其语义角色标注的结果,假设按照这个汉语语句中的各个语义角色及谓词在该汉语语句中的出现顺序所得到的语义角色序列为S0,则“argLS看见argRS”为S0的子序列。例如,假设S0为“W1 W2 W3 W4 W5”,则“argLS看见argRS”例如可以是“W2 W4 W5”,等等。需要注意的是,某个序列的子序列可以是该序列本身。
[0062] 举例来说,假设argLS表示主语,argRS表示宾语,则“argLS看见argRS”的结构对应于“主语+‘看见’+宾语”这种结构。于是,假设双语句对C1包括“我看见猫”和“I saw a cat”,另一个双语句对C2包括“他看见许多书”和“He found many books”,由于根据“我看见猫”和“他看见许多书”的语义角色标注结果所得到的语义角色序列均为“主语+‘看见’+宾语”这种结构,因此可以判定“主语+‘看见’+宾语”即“argLS看见argRS”出现在双语句对C1中、也出现在双语句对C2中。同时,在双语句对C1的英语语句“I saw a cat”中出现了上述第一类子序列“saw”,而在双语句对C2的英语语句“He found many books”中没有出现上述第一类子序列“saw”。因此,上述预定双语语料库中包含“argLS看见argRS”结构的所有中文语句对应的所有英文语句中出现“saw”的概率例如可以为50%(在该预定双语语料库中只包含双语句对C1和C2的情况下)。
[0063] 此外,“argLT12”、“argLT11”和“argLT12argLT11”中的任一个与“argLS看见argRS”之间的相关程度例如可以作为上述第二类子序列与源语言语义角色序列S之间的相关程度(下文称为“第二类相关程度”)的一个示例。类似地,第二类相关程度例如可以由上述第二类子序列与源语言语义角色序列S同时出现在上述预定双语语料库的一个双语句对中的概率来反映,或者,也可以由上述预定双语语料库中包含源语言语义角色序列S的所有中文语句对应的所有英文语句中出现上述第二类子序列的概率来反映,计算概率的方法可以与上文相类似,这里不再赘述。
[0064] 此外,“argLT11 saw”、“argLT12 saw”和“argLT12 argLT11 saw”中的任一个与“argLS看见argRS”之间的相关程度例如可以作为上述第三类子序列与源语言语义角色序列S之间的相关程度(下文称为“第三类相关程度”)的一个示例。类似地,第三类相关程度例如可以由上述第三类子序列与源语言语义角色序列S同时出现在上述预定双语语料库的一个双语句对中的概率来反映,或者,也可以由上述预定双语语料库中包含源语言语义角色序列S的所有中文语句对应的所有英文语句中出现上述第三类子序列的概率来反映,计算概率的方法可以与上文相类似,这里不再赘述。
[0065] 类似地,可以获得上述第一类子序列、第二类子序列以及第三类子序列中的至少两种子序列与源语言语义角色序列S之间的相关程度(下文称为“第四类相关程度”)。
[0066] 例如,假设选择第一类子序列和第三类子序列作为上述至少两种子序列的示例,并假设第一类子序列为“saw”、第三类子序列为“argLT12 saw”,则第一类子序列和第三类子序列与源语言语义角色序列S之间的相关程度可以由上述第一类子序列“saw”、第三类子序列“argLT12 saw”以及源语言语义角色序列S同时出现在上述预定双语语料库的一个双语句对中的概率来反映,或者,也可以由上述预定双语语料库中包含源语言语义角色序列S的所有中文语句对应的所有英文语句中同时出现上述第一类子序列“saw”和第三类子序列“argLT12 saw”的概率来反映,其中,计算概率的方法可以与上文相类似,这里不再赘述。
[0067] 再如,假设选择第一类子序列和第二类子序列作为上述至少两种子序列的示例,并假设第一类子序列为“saw”、第二类子序列为“argLT12 argLT11”,则第一类子序列和第二类子序列与源语言语义角色序列S之间的相关程度可以由上述第一类子序列“saw”、第二类子序列为“argLT12 argLT11”以及源语言语义角色序列S同时出现在上述预定双语语料库的一个双语句对中的概率来反映,或者,也可以由上述预定双语语料库中包含源语言语义角色序列S的所有中文语句对应的所有英文语句中同时出现上述第一类子序列“saw”和第二类子序列为“argLT12 argLT11”的概率来反映,其中,计算概率的方法可以与上文相类似,这里不再赘述。
[0068] 以上举例说明了如何获得第一类至第四类相关程度,但需要注意的是,相关程度获得子单元210可以获得上述第一类至第四类相关程度中的任一种或多种,而不一定需要计算第一类至第四类相关程度的全部。另外,需要说明的是,相关程度获得子单元210所计算的相关程度中可以包括多个同类别的相关程度,例如,可以包括两个第二类相关程度(这两个第二类相关程度所对应的第二类子序列可以不同),等等。
[0069] 这样,匹配分数确定子单元220可以基于相关程度获得子单元210针对每个目标语言语义角色序列所获得的各种相关程度(如上述第一类至第四类相关程度中的任一种或多种中的任一种或多种),来确定每个目标语言语义角色序列与源语言语义角色序列之间的匹配分数。在一种实现方式中,针对每个目标语言语义角色序列,匹配分数确定子单元220可以将与该目标语言语义角色序列有关的相关程度的值彼此相乘,而将得到的乘积作为该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。在另一种实现方式中,针对每个目标语言语义角色序列,匹配分数确定子单元220也可以通过对与该目标语言语义角色序列有关的相关程度的值进行加权计算(例如加权求和)所得到的结果作为该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。
[0070] 在一个例子中,匹配分数确定子单元220可以根据如下的公式一来获得上述匹配分数。
[0071] 公式一:
[0072]
[0073] 在公式一中,S表示源语言语义角色序列,T表示与源语言语义角色序列S对应的多个目标语言语句中的任一个目标语言语义角色序列,VT为T中的目标语言谓词,ai为T中位于VT左侧的第i个语义角色,h为VT左侧的语义角色数量,bj为T中位于VT右侧的第j个语义角色,k为VT右侧的语义角色数量,P(VT|S)为用于表示S与T的子序列{VT}之间的相关程度的条件概率,P(a1|VT,S)为用于表示S与T的子序列{VT}和{a1,VT}之间的相关程度的条件概率,P(ai|ai-1,VT,S)为用于表示S与T的子序列{ai-1,VT}和{ai,ai-1,VT}之间的相关程度的条件概率,P(b1|VT,S)为用于表示S与T的子序列{VT}和{VT,b1}之间的相关程度的条件概率,以及P(bj|VT,bj-1,S)为用于表示S与T的子序列{VT,bj-1}和{VT,bj-1,bj}之间的相关程度的条件概率。
[0074] 在一种实现方式中,P(VT|S)例如可以等于在上述预定双语语料库中包含源语言语义角色序列S的所有预定源语言语句对应的所有预定目标语言语句中出现子序列{VT}的概率。为方便描述,下文中将“上述预定双语语料库中包含源语言语义角色序列S的所有预定源语言语句对应的所有预定目标语言语句”所构成的集合称为预定集合。这样,P(a1|VT,S)例如可以等于在上述预定集合中已经出现子序列{VT}的预定目标语言语句中出现子序列{a1,VT}的概率,P(ai|ai-1,VT,S)例如可以等于在上述预定集合中已经出现子序列{ai-1,VT}的预定目标语言语句中出现子序列{ai,ai-1,VT}的概率,P(b1|VT,S)例如可以等于在上述预定集合中已经出现子序列{VT}的预定目标语言语句中出现子序列{VT,b1}的概率,P(bj|VT,bj-1,S)例如可以在上述预定集合中已经出现子序列{VT,bj-1}的预定目标语言语句中出现子序列{VT,bj-1,bj}的概率。
[0075] 需要说明的是,在公式一中,距离VT越近,语义角色的序号越小。例如,a1为T中位于VT左侧且距离VT最近的第一个语义角色,而a2为T中位于VT左侧且距离VT最近的第二个语义角色,等等。
[0076] 其中,在一种实现方式中,相关程度获得子单元210可以利用极大似然法来获得公式一中的P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)。公式二至公式六给出了用于计算公式一中的P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)的一个示例。
[0077] 公式二:
[0078] 公式三:
[0079] 公式四:
[0080] 公式五:
[0081] 公式六:
[0082] 在以上公式二至公式六中,VS为S中的源语言谓词,a'h',...,a'1为S中位于VS左侧的h’个语义角色,b'1,...,b'k'为S中位于VS右侧的k’个语义角色,由此,序列{a'h',...,a'1,VS,b'1,...,b'k'}即为源语言语义角色序列S。
[0083] C(VT,a'h',...,a'1,VS,b'1,...,b'k')表示在包含源语言语义角色序列S(即{a'h',...,a'1,VS,b'1,...,b'k'})的所有预定源语言语句所属的双语句对中的所有预定目标语言语句中出现序列{VT}的次数。下面将包含源语言语义角色序列S(即{a'h',...,a'1,VS,b'1,...,b'k'})的所有预定源语言语句所属的所有双语句对称为待统计句对。C(a'h',...,a'1,VS,b'1,...,b'k')表示包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的所有预定源语言语句的数量,C(a1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{a1,VT}的次数,C(ai,ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{ai,ai-1,VT}的次数,C(ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{ai-1,VT}的次数,C(VT,b1,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{VT,b1}的次数,C(VT,bj-1,bj,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{VT,bj-1,bj}的次数,C(VT,bj-1,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{VT,bj-1}的次数。
[0084] 在另一个例子,匹配分数确定子单元220也可以根据如下的公式七来获得上述匹配分数。
[0085] 公式七:
[0086]
[0087] 与公式一不同的是,公式七中的P(ai|ai-1,ai-2VT,S)为用于表示S与T的子序列{ai-1,ai-2,VT}和{ai,ai-1,ai-2,VT}之间的相关程度的条件概率,P(bj|VT,bj-2,bj-1,S)为用于表示S与T的子序列{VT,bj-2,bj-1}和{VT,bj-2,bj-1,bj}之间的相关程度的条件概率。
[0088] 其中,公式七中的P(VT|S)例如可以根据公式二来计算,P(a1|VT,S)例如可以根据公式三来计算,P(a2|a1,VT,S)例如可以根据公式四来计算,P(b1|VT,S)例如可以根据公式五来计算,P(b2|VT,b1,S)例如可以根据公式六来计算。此外,P(ai|ai-1,ai-2VT,S)例如可以根据如下的公式八来计算,而P(bj|VT,bj-2,bj-1,S)例如可以根据如下的公式九来计算。
[0089] 公式八:
[0090] 公式九:
[0091] 其中,C(ai,ai-1,ai-2,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{ai,ai-1,ai-2,VT}的次数,C(ai-1,ai-2,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{ai-1,ai-2,VT}的次数,C(VT,bj-2,bj-1,bj,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{VT,bj-2,bj-1,bj}的次数,C(VT,bj-2,bj-1,a'h',...,a'1,VS,b'1,...,b'k')表示在待统计句对中的预定目标语言语句中出现序列{VT,bj-2,bj-1}的次数。
[0092] 通过以上描述可知,在上述结合图2所描述的例子中,通过相关程度获得子单元210和匹配分数确定子单元220的处理,能够同时考虑源语言语句以及目标语言语句中的谓词信息,相比于传统技术能够使得处理所得到的结果更加准确。
[0093] 由此,通过匹配单元120的处理可以得到多个目标语言语义角色序列T1、T2、…、TN中的每一个与源语言语义角色序列S之间的匹配分数。然后,调序结果确定单元130可以将与源语言语义角色序列S之间的匹配分数最高的那个目标语言语义角色序列所对应的候选调序结果确定为最终调序结果。需要说明的是,上述最终调序结果相当于在将源语言语句从源语言模式转换为目标语言模式的过程中所得到的最终的处理结果。
[0094] 例如,假设源语言语句为“我昨天看见的那个老师”,并假设目标语言语句“The teacher I saw yesterday”以及目标语言语句“I yesterday saw the teacher”是上述源语言语句的两个候选调序结果,则根据上文描述可知,语义角色标注单元110可以得到目标语言语义角色序列T1“argLT12 argLT11 saw”以及目标语言语义角色序列T2“argLT21 saw argRT21”。
[0095] 针对目标语言语义角色序列T1“argLT12 argLT11 saw”,根据公式一至公式六,匹配单元120可以获得目标语言语义角色序列T1与源语言语义角色序列S“argLS看见argRS”之间的匹配分数,假设为0.8。
[0096] 类似地,匹配单元120可以得到目标语言语义角色序列T2与源语言语义角色序列S“argLS看见argRS”之间的匹配分数,假设为0.5。
[0097] 于是,调序结果确定单元130可以将目标语言语义角色序列T2对应的候选调序结果(即“The teacher I saw yesterday”)确定为最终调序结果。
[0098] 在根据本发明的实施例的数据处理装置的另一种实现方式中,在源语言语句包含两个或两个以上谓词的情况下,语义角色标注单元110可以将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列,并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列。在这种情况下,匹配单元120可以获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数。这样,在这种实现方式中语义角色标注单元110和匹配单元120对每个谓词可以分别执行与上文中结合图1和/或图2所描述的语义角色标注单元110和匹配单元120的处理相类似的处理。需要说明的是,“与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列”是这样的两个序列:该源语言语义角色序列中包含谓词Vaa,该目标语言语义角色序列中包含谓词Vbb,则谓词Vaa和谓词Vbb互为译文。
[0099] 例如,假设源语言语句S’包含两个谓词Vs1和Vs2,并假设目标语言语句M1以及目标语言语句M2是上述源语言语句S’的两个候选调序结果,其中,目标语言语句M1包含谓词Vta1(对应于Vs1)和Vta2(对应于Vs2),目标语言语句M2包含谓词Vtb1(对应于Vs1)和Vtb2(对应于Vs2)。
[0100] 将源语言语句中的谓词Vs1及与谓词Vs1有关的语义角色所组成的序列称为序列S1’,源语言语句中的谓词Vs2及与谓词Vs2有关的语义角色所组成的序列称为序列S2’。
[0101] 将目标语言语句M1中的谓词Vta1及与谓词Vta1有关的语义角色所组成的序列称为序列T1a’,目标语言语句中的谓词Vta2及与谓词Vta2有关的语义角色所组成的序列称为序列T2a’。
[0102] 将目标语言语句M2中的谓词Vtb1及与谓词Vtb1有关的语义角色所组成的序列称为序列T1b’,目标语言语句中的谓词Vtb2及与谓词Vtb2有关的语义角色所组成的序列称为序列T2b’。
[0103] 这样,针对谓词Vs1,匹配单元120可以得到序列T1a’与序列S1’之间的匹配分数(以下称为分数一),以及可以得到序列T1b’与序列S1’之间的匹配分数(以下称为分数二)。
[0104] 类似地,针对谓词Vs2,匹配单元120可以得到序列T2a’与序列S2’之间的匹配分数(以下称为分数三),以及可以得到序列T2b’与序列S2’之间的匹配分数(以下称为分数四)。
[0105] 其中,可以根据词对应关系来确定目标语言语句中的谓词与源语言语句中哪个谓词对应,例如,可以把目标语言语句中与源语言语句中互为译词(或译文)的谓词(或语义角色)确定为相互对应。
[0106] 调序结果确定单元130可以通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。
[0107] 例如,由于序列T1a’和序列T2a’与目标语言语句M1相关,调序结果确定单元130可以将分数一和分数三的加权和(例如权重分别为1)作为衡量目标语言语句M1中的各语义角色之间的顺序与源语言语句之间的匹配程度的值,该值越大,表明二者之间越匹配。
[0108] 类似地,由于序列T1b’和序列T2b’与目标语言语句M2相关,调序结果确定单元130可以将分数二和分数四的加权和(例如权重分别为1)作为衡量目标语言语句M2中的各语义角色之间的顺序与源语言语句之间的匹配程度的值,该值越大,表明二者之间越匹配。
[0109] 这样,调序结果确定单元130可以在所有的目标语言语句中选择与源语言语句最匹配的那个来作为最终的调序结果。
[0110] 通过以上描述可知,上述根据本发明的实施例的数据处理装置针对作为源语言语句的译文的候选调序结果的多个目标语言语句,能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标语言语义角色序列分别与源语言语句对应的源语言语义角色序列之间的匹配分数,以便在上述多个目标语言语句中确定最终的调序结果。上述根据本发明的实施例的数据处理装置根据目标语言和源语言之间主谓宾结构的一致性来确定最终的调序结果,使得利用本发明实施例的上述数据处理装置所得到的处理结果较传统方法而言更准确。
[0111] 此外,在一些实施例中,采用如公式一和/或公式二至公式六来获得上述匹配分数,使得计算量小,计算速度快,由此使得处理的效率较高。
[0112] 此外,本发明的实施例还提供了一种数据处理方法,该数据处理方法包括:对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数,其中,上述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0113] 在根据本发明的实施例的数据处理方法的具体实现方式中,源语言例如可以是为英语、汉语、德语、法语、日语等众多语言中的任意一种语言,而目标语言可以是与作为源语言的语种之间具有相同的主谓宾结构的、上述众多语言中的另一种语言。其中,这里所说的“主谓宾结构”可以具有与上文描述的“主谓宾结构”相同的含义,故这里省略其详细描述。下文中,将主要以源语言为汉语、目标语言为英语的情况为例来给出本发明各实施例的相关描述。
[0114] 下面结合图3来描述上述数据处理方法的一种示例性处理。
[0115] 如图3所示,根据本发明的实施例的数据处理方法的处理流程300开始于步骤S310,然后执行步骤S320。
[0116] 在步骤S320中,对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列。然后执行步骤S330。其中,步骤S320中所执行的处理例如可以与上文中结合图1所描述的语义角色标注单元110的处理相同,并能够达到类似的技术效果,在此不再赘述。
[0117] 在步骤S330中,基于预定双语语料库获得源语言语义角色序列分别与每个目标语言语义角色序列之间的匹配分数,其中,预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对。然后执行步骤S340。其中,步骤S330中所执行的处理例如可以与上文中结合图1所描述的匹配单元120的处理相同,并能够达到类似的技术效果,在此不再赘述。
[0118] 在一个实现方式中,例如可以通过如下方式来实现步骤S330中的处理:针对每个目标语言语义角色序列中的每个目标语言谓词,利用预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与源语言语义角色序列之间的相关程度;以及针对每个目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的相关程度来确定该目标语言语义角色序列与源语言语义角色序列之间的匹配分数。
[0119] 在一个例子中,在步骤S330中,针对每个目标语言语义角色序列中的每个目标语言谓词,例如可以利用预定双语语料库获得如下多种相关程度中的任一种或多种:该目标语言语义角色序列的仅包括该目标语言谓词的子序列与源语言语义角色序列之间的相关程度;该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与源语言语义角色序列之间的相关程度;该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与源语言语义角色序列之间的相关程度;以及该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与源语言语义角色序列之间的相关程度。
[0120] 在一个示例中,可以根据上文中所描述的公式一计算上述匹配分数。类似地,公式一中的P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)例如可以利用极大似然法来获得。在一个例子中,可以根据上文所描述的公式二至公式六来计算P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S),这里不再赘述。
[0121] 需要说明的是,在根据本发明的实施例的数据处理方法的一个实现方式中,假设源语言语句包含至少两个源语言谓词,则可以将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列,并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列。然后,获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数,并通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。
[0122] 在步骤S340中,将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。然后执行步骤S350。其中,步骤S340中所执行的处理例如可以与上文中结合图1所描述的调序结果确定单元130的处理相同,并能够达到类似的技术效果,在此不再赘述。
[0123] 处理流程300结束于步骤S350。
[0124] 通过以上描述可知,上述根据本发明的实施例的数据处理方法针对作为源语言语句的译文的候选调序结果的多个目标语言语句,能够利用预定双语语料库来获得上述多个目标语言语句对应的多个目标语言语义角色序列分别与源语言语句对应的源语言语义角色序列之间的匹配分数,以便在上述多个目标语言语句中确定最终的调序结果。上述根据本发明的实施例的数据处理方法根据目标语言和源语言之间主谓宾结构的一致性来确定最终的调序结果,使得利用本发明实施例的上述数据处理方法所得到的处理结果较传统方法而言更准确。
[0125] 此外,本发明的实施例还提供了一种电子设备,该电子设备包括如上所述的数据处理装置。在根据本发明的实施例的上述电子设备的具体实现方式中,上述电子设备可以是以下设备中的任意一种设备:计算机(如台式机、笔记本电脑等);平板电脑个人数字助理;多媒体播放设备;手机(如智能手机);电子词典;以及电纸书等等。其中,该电子设备具有上述数据处理装置的各种功能和技术效果,这里不再赘述。
[0126] 上述根据本发明的实施例的数据处理装置中的各个组成单元、子单元、模等可以通过软件固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图4所示的通用机器400)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
[0127] 图4是示出了可用来实现根据本发明的实施例的数据处理装置和数据处理方法的一种可能的信息处理设备的硬件配置的结构简图。
[0128] 在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM403中,还根据需要存储当CPU401执行各种处理等等时所需的数据。CPU401、ROM402和RAM403经由总线404彼此连接。输入/输出接口405也连接到总线404。
[0129] 下述部件也连接到输入/输出接口405:输入部分406(包括键盘鼠标等等)、输出部分407(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡例如LAN卡、调制解调器等)。通信部分409经由网络例如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上,使得从中读出的计算机程序可根据需要被安装到存储部分408中。
[0130] 在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质411安装构成软件的程序。
[0131] 本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0132] 此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的数据处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
[0133] 在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0134] 此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
[0135] 此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
[0136] 而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
[0137] 此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
[0138] 上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
[0139] 另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
[0140] 最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0141] 综上,在根据本发明的实施例中,本发明提供了如下方案但不限于此:
[0142] 附记1.一种数据处理装置,包括:
[0143] 语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;
[0144] 匹配单元,用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及
[0145] 调序结果确定单元,用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0146] 附记2.根据附记1所述的数据处理装置,其中,所述匹配单元包括:
[0147] 相关程度获得子单元,用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,利用所述预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度;以及
[0148] 匹配分数确定子单元,用于针对每个所述目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数。
[0149] 附记3.根据权利要求2所述的数据处理装置,其中,所述相关程度获得子单元用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,获得如下多种相关程度中的任一种或多种:
[0150] 该目标语言语义角色序列的仅包括该目标语言谓词的子序列与所述源语言语义角色序列之间的相关程度;
[0151] 该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;
[0152] 该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;以及
[0153] 该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与所述源语言语义角色序列之间的相关程度。
[0154] 附记4.根据附记2或3所述的数据处理装置,其中,所述匹配分数确定子单元用于根据下式获得所述匹配分数:
[0155]
[0156]
[0157] 其中,S为所述源语言语义角色序列,T为所述目标语言语义角色序列,VT为T中的目标语言谓词,ai为T中位于VT左侧的第i个语义角色,h为VT左侧的语义角色数量,bj为T中位于VT右侧的第j个语义角色,k为VT右侧的语义角色数量,P(VT|S)为用于表示S与T的子序列{VT}之间的相关程度的条件概率,P(a1|VT,S)为用于表示S与T的子序列{VT}和{a1,VT}之间的相关程度的条件概率,P(ai|ai-1,VT,S)为用于表示S与T的子序列{ai-1,VT}和{ai,ai-1,VT}之间的相关程度的条件概率,P(b1|VT,S)为用于表示S与T的子序列{VT}和{VT,b1}之间的相关程度的条件概率,以及P(bj|VT,bj-1,S)为用于表示S与T的子序列{VT,bj-1}和{VT,bj-1,bj}之间的相关程度的条件概率。
[0158] 附记5.根据附记4所述的数据处理装置,其中,所述相关程度获得子单元用于根据极大似然法获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)。
[0159] 附记6.根据附记5所述的数据处理装置,其中,所述相关程度获得子单元用于根据以下公式获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S):
[0160]
[0161]
[0162]
[0163]
[0164]
[0165] 其中,VS为S中的源语言谓词,a'h',...,a'1为S中位于VS左侧的h’个语义角色,b'1,...,b'k'为S中位于VS右侧的k’个语义角色,C(VT,a'h',...,a'1,VS,b'1,...,b'k')表示在包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句所属双语句对中的预定目标语言语句中出现序列{VT}的次数,C(a'h',...,a'1,VS,b'1,...,b'k')表示包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句的数量,C(a1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{a1,VT}的次数,C(ai,ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai,ai-1,VT}的次数,C(ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai-1,VT}的次数,C(VT,b1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,b1}的次数,C(VT,bj-1,bj,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1,bj}的次数,C(VT,bj-1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1}的次数。
[0166] 附记7.根据附记2所述的数据处理装置,其中,
[0167] 所述语义角色标注单元用于在所述源语言语句包含至少两个源语言谓词的情况下,将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列,并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列;
[0168] 所述匹配单元用于获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数;以及
[0169] 所述调序结果确定单元用于通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。
[0170] 附记8.根据附记1-7中任一项所述的数据处理装置,其中,所述源语言为汉语,所述目标语言为英语。
[0171] 附记9.一种数据处理方法,包括:
[0172] 对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;
[0173] 基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及
[0174] 将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
[0175] 附记10.根据附记9所述的数据处理方法,其中,获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数的步骤包括:
[0176] 针对每个所述目标语言语义角色序列中的每个目标语言谓词,利用所述预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度;以及
[0177] 针对每个所述目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数。
[0178] 附记11.根据附记10所述的数据处理方法,其中,针对每个所述目标语言语义角色序列中的每个目标语言谓词,获得如下多种相关程度中的任一种或多种:
[0179] 该目标语言语义角色序列的仅包括该目标语言谓词的子序列与所述源语言语义角色序列之间的相关程度;
[0180] 该目标语言语义角色序列的包括位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;
[0181] 该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;以及
[0182] 该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与所述源语言语义角色序列之间的相关程度。
[0183] 附记12.根据附记10或11所述的数据处理方法,其中,所述匹配分数根据下式确定:
[0184]
[0185]
[0186] 其中,S为所述源语言语义角色序列,T为所述目标语言语义角色序列,VT为T中的目标语言谓词,ai为T中位于VT左侧的第i个语义角色,h为VT左侧的语义角色数量,bj为T中位于VT右侧的第j个语义角色,k为VT右侧的语义角色数量,P(VT|S)为用于表示S与T的子序列{VT}之间的相关程度的条件概率,P(a1|VT,S)为用于表示S与T的子序列{VT}和{a1,VT}之间的相关程度的条件概率,P(ai|ai-1,VT,S)为用于表示S与T的子序列{ai-1,VT}和{ai,ai-1,VT}之间的相关程度的条件概率,P(b1|VT,S)为用于表示S与T的子序列{VT}和{VT,b1}之间的相关程度的条件概率,以及P(bj|VT,bj-1,S)为用于表示S与T的子序列{VT,bj-1}和{VT,bj-1,bj}之间的相关程度的条件概率。
[0187] 附记13.根据附记12所述的数据处理方法,其中,根据极大似然法获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)。
[0188] 附记14.根据附记13所述的数据处理方法,其中,分别根据以下公式获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S):
[0189]
[0190]
[0191]
[0192]
[0193]
[0194] 其中,VS为S中的源语言谓词,a'h',...,a'1为S中位于VS左侧的h’个语义角色,b'1,...,b'k'为S中位于VS右侧的k’个语义角色,C(VT,a'h',...,a'1,VS,b'1,...,b'k')表示在包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句所属双语句对中的预定目标语言语句中出现序列{VT}的次数,C(a'h',...,a'1,VS,b'1,...,b'k')表示包含序列{a'h',...,a'1,VS,b'1,...,b'k'}的预定源语言语句的数量,C(a1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{a1,VT}的次数,C(ai,ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai,ai-1,VT}的次数,C(ai-1,VT,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{ai-1,VT}的次数,C(VT,b1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,b1}的次数,C(VT,bj-1,bj,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1,bj}的次数,C(VT,bj-1,a'h',...,a'1,VS,b'1,...,b'k')表示在所述预定目标语言语句中出现序列{VT,bj-1}的次数。
[0195] 附记15.根据附记10所述的数据处理方法,还包括:
[0196] 在所述源语言语句包含至少两个源语言谓词的情况下,将每个源语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的源语言语义角色序列,并将与该源语言谓词对应的目标语言谓词及其相关的语义角色所组成的序列作为与该源语言谓词对应的目标语言语义角色序列;
[0197] 获得与同一个源语言谓词对应的源语言语义角色序列和目标语言语义角色序列之间的匹配分数;以及
[0198] 通过结合针对每个源语言谓词的匹配分数来确定最终调序结果。
[0199] 附记16.根据附记9-15中任一项所述的数据处理方法,其中,所述源语言为汉语,所述目标语言为英语。
[0200] 附记17.一种电子设备,包括如附记1-8中任一所述的数据处理装置。
[0201] 附记18.根据附记17所述的电子设备,其中,所述电子设备是以下设备中的任意一种:
[0202] 计算机;平板电脑;个人数字助理;多媒体播放设备;手机;电子词典;以及电纸书。
[0203] 附记19.一种存储有机器可读取的指令代码的程序产品,所述程序产品在执行时能够使所述机器执行根据附记9-16中任一所述的数据处理方法。
[0204] 附记20.一种计算机可读存储介质,其上存储有根据附记19所述的程序产品。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈