首页 / 专利库 / 人工智能 / 候选译文 / 通过执行不同语言之间的翻译来支持交流的装置和方法

通过执行不同语言之间的翻译来支持交流的装置和方法

阅读:155发布:2020-07-27

专利汇可以提供通过执行不同语言之间的翻译来支持交流的装置和方法专利检索,专利查询,专利分析的服务。并且一种交流支持装置,包括 语音识别 器,用于识别 源语言 的第一语音作为第一源语言句子,以及识别第一语音之后的源语言的第二语音作为第二源语言句子;确定单元,用于确定第二源语言句子与第一源语言句子是否类似;以及语言转换器,用于将第一源语言句子翻译成第一译文句子,以及当确定单元确定第二源语言句子与第一源语言句子类似时,将第二源语言句子翻译成不同于第一译文句子的第二译文句子。,下面是通过执行不同语言之间的翻译来支持交流的装置和方法专利的具体信息内容。

1.一种交流支持装置,包括语音识别器,用于识别源语言的第一语音,作为第一源语言句子,以及识别所述第一语音之后的所述源语言的第二语音,作为第二源语言句子;确定单元,用于确定所述第二源语言句子与所述第一源语言句子是否类似;以及语言转换器,用于将所述第一源语言句子翻译成第一译文句子,以及当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,将所述第二源语言句子翻译成不同于所述第一译文句子的第二译文句子。
2.如权利要求1所述的交流支持装置,还包括翻译数据存储器,该翻译数据存储器用于存储源语言句子和至少一个候选译文句子,该候选译文句子是与所述源语言句子具有相同含意的目标语言句子,并且所述源语言句子和所述候选译文句子是彼此相关联的,其中,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器将所述第一源语言句子和所述第二源语言句子用作搜索关键词,在所述翻译数据存储器中搜索至少一个候选译文句子,从所述至少一个候选译文句子中选择第一候选译文句子作为所述第一译文句子,从所述至少一个候选译文句子中选择不同于所述第一候选译文句子的第二候选译文句子作为所述第二译文句子。
3.如权利要求1所述的交流支持装置,还包括源语言分析器,该源语言分析器用于分析所述第一源语言的含意以输出至少一个第一候选分析结果,并且分析所述第二源语言的含意以输出至少一个第二候选分析结果,其中,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选分析结果中的一个的所述至少一个第二候选分析结果中的一个,并且根据所述选择的第一候选分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选分析结果将所述第二源语言句子翻译成所述第二译文句子。
4.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子进行形态分析,以输出至少一个第一候选形态分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子进行形态分析,以输出至少一个第二候选形态分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选形态分析结果中的一个的所述至少一个第二候选形态分析结果中的一个,根据所述选择的第一候选形态分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选形态分析结果将所述第二源语言句子翻译成所述第二译文句子。
5.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子进行语法分析,以输出至少一个第一候选语法分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子进行语法分析,以输出至少一个第二候选语法分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选语法分析结果中的一个的所述至少一个第二候选语法分析结果中的一个,根据所述选择的第一候选语法分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选语法分析结果将所述第二源语言句子翻译成所述第二译文句子。
6.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子进行修饰分析,以输出至少一个第一候选修饰分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子进行修饰分析,以输出至少一个第二候选修饰分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选修饰分析结果中的一个的所述至少一个第二候选修饰分析结果中的一个,根据所述选择的第一候选修饰分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选修饰分析结果将所述第二源语言句子翻译成所述第二译文句子。
7.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子进行照应分析,以输出至少一个第一候选照应分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子进行照应分析,以输出至少一个第二候选照应分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选照应分析结果中的一个的所述至少一个第二候选照应分析结果中的一个,根据所述选择的第一候选照应分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选照应分析结果将所述第二源语言句子翻译成所述第二译文句子。
8.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子的省略解析进行分析,以输出至少一个第一候选省略分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子的省略解析进行分析,以输出至少一个第二候选省略分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选省略分析结果中的一个的所述至少一个第二候选省略分析结果中的一个,根据所述选择的第一候选省略分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选省略分析结果将所述第二源语言句子翻译成所述第二译文句子。
9.如权利要求3所述的交流支持装置,其中,所述源语言分析器对所述第一源语言句子的交流意图进行分析,以输出至少一个第一候选交流意图分析结果作为所述至少一个第一候选分析结果,并且对所述第二源语言句子的交流意图进行分析,以输出至少一个第二候选交流意图分析结果作为所述至少一个第二候选分析结果,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择不同于所述至少一个第一候选交流意图分析结果中的一个的所述至少一个第二候选交流意图分析结果中的一个,根据所述选择的第一候选交流意图分析结果将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选交流意图分析结果将所述第二源语言句子翻译成所述第二译文句子。
10.如权利要求1所述的交流支持装置,还包括源语言分析器,用于对所述第一源语言的含意进行分析,以输出至少一个第一分析结果,并且对所述第二源语言的含意进行分析,以输出至少一个第二分析结果,其中,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器根据所述第一分析结果输出至少一个与所述第一源语言句子指示相同含意的第一候选译文单词,根据所述第二分析结果输出至少一个与所述第二源语言句子指示相同含意的第二候选译文单词,选择不同于所述至少一个第一候选译文单词中的一个的所述至少一个第二候选译文单词中的一个,并且根据所述选择的第一候选译文单词将所述第一源语言句子翻译成所述第一译文句子,根据所述选择的第二候选译文单词将所述第二源语言句子翻译成所述第二译文句子。
11.如权利要求1所述的交流支持装置,其中,当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,所述语言转换器选择所述第一源语言句子的第一翻译方向,选择不同于所述第一翻译方向的所述第二源语言句子的第二翻译方向,并且根据所述第一翻译方向将所述第一源语言句子翻译成所述第一译文句子,并且根据所述第二翻译方向将所述第二源语言句子翻译成所述第二译文句子。
12.一种交流支持装置,包括:语音识别器,用于识别源语言的第一语音,作为第一源语言句子,以及识别所述第一语音之后的所述源语言的第二语音,作为第二源语言句子;确定单元,用于确定所述第二源语言句子与所述第一源语言句子是否类似;语言转换器,用于将所述第一源语言句子翻译成第一译文句子,以及将所述第二源语言句子翻译成第二译文句子;以及语音合成器,用于根据第一发声类型将所述第一译文句子合成为第三语音,并且当所述确定单元确定所述第二源语言句子与所述第一源语言句子类似时,根据不同于所述第一发声类型的第二发声类型将所述第二译文句子合成为第四语音。
13.一种交流支持方法,包括:识别源语言的第一语音作为第一源语言句子;将所述第一源语言句子翻译成第一译文句子;识别所述第一语音之后的所述源语言的第二语音作为第二源语言句子;确定所述第二源语言句子与所述第一源语言句子是否类似;以及当确定所述第二源语言句子与所述第一源语言句子类似时,将所述第二源语言句子翻译成不同于所述第一译文句子的第二译文句子。
14.一种交流支持方法,包括:识别源语言的第一语音作为第一源语言句子;将所述第一源语言句子翻译成第一译文句子;识别所述第一语音之后的所述源语言的第二语音作为第二源语言句子;确定所述第二源语言句子与所述第一源语言句子是否类似;将所述第二源语言句子翻译成第二译文句子;以及根据第一发声类型将所述第一译文句子合成为第三语音,并且当确定所述第二源语言句子与所述第一源语言句子类似时,根据不同于所述第一发声类型的第二发声类型将所述第二译文句子合成为第四语音。

说明书全文

通过执行不同语言之间的翻译来支持交流的装置和方法

技术领域

发明涉及一种通过执行多种语言之间的翻译来支持交流的装置和方法。

背景技术

近年来,随着自然语言处理技术的发展,用于将例如用日文书写的文本翻译成用另一种语言(例如英语)书写的文本的机器翻译系统已经有了实际的应用,并且这种系统已经广泛使用。
另一方面,语音处理技术的发展又导致语音听写系统的使用,这种系统可以通过将用户说的话转换为字符从而口头输入自然语言的字符串,另外还导致了语音合成系统的使用,其中,从该系统输出的以电子数据形式获得的句子或者自然语言的字符串被转换为语音输出。
而且,图像处理技术的发展已经实现了字符识别系统,其中通过对由照相机等等拾取的字符图像进行分析,可以将图像中的句子转换为机器可读取的字符数据。此外,手写字符识别技术的发展使得可以实现一种技术,其中,可以将用户通过笔输入单元等等输入的手写文本转换为一种机器可读取的字符数据。
另一方面,文化和经济的全球化使得说不同母语的人们之间的交流的机会越来越多。因此,迫切需要一种交流支持装置,其中通过配合使用所述自然语言处理技术、语音处理技术、图像处理技术和手写字符识别技术来支持说不同母语的人们之间的交流。
例如,可设计下述交流支持装置。首先,使用语音识别技术或手写字符识别技术,将讲日语的人通过语音或笔输入的日文转换为机器可读取的日文文本。接下来,使用机器翻译技术将该文本翻译为含意相同的英文文本,并且以英文字符串的形式呈现该结果,或者使用语音合成技术以英语语音的形式将该结果呈现给讲英语的人。另一方面,通过执行相反的处理,可以将讲英语的人通过英语语音输入或笔输入的英文,以翻译过的日文文本的形式呈现给讲日文的人。通过这种方法,正在开发可以实现不同母语的人们之间的双向交流的交流支持装置。
例如,还可以设计如下所述的另一种交流支持装置。首先,通过照相机拾取本地标志板上所写的英文字符串或英文警告的图像。接下来,使用图像处理技术和字符识别技术,将已获取其图像的字符串转换为机器可读取的英文字符串数据。然后,使用机器翻译技术,将英文文本翻译为含意相同的日文文本,并且将得到的日文字符串呈现给用户。另外,也可以使用语音合成技术,以日文语音将该文本呈现给用户。目前正在开发使用该方法的交流支持装置,并且通过这种装置,正在英语地区旅行的、只能说及理解日语的人可以理解标志板上的英文文本或警告。
使用这种交流支持装置,很难通过处理获取正确的、无错误的候选结果,在所述处理中,通过语音识别处理、手写字符识别处理或图像字符识别处理识别由用户输入的用源语言表示的文本,并且将其转换为机器可读取的文本数据。因此,通常具有多个候选解释的处理会导致不确定性。
同样在机器翻译处理中,将源语言句子转换为语义等同的目标语言句子时也会出现不确定性,并且当存在多个候选译文句子时,不能唯一地选择一个语义等同的译文句子,由此通常很难避免不确定性。
以下因素可能会导致出现不确定性:源语言句子是具有多种解释的不确定表达、上下文高度依赖的源语言句子的表达会导致多种解释,或者源语言和目标语言之间不同的语言和文化背景以及不同的概念系统会导致多种候选译文。
为了避免这种不确定性,如果存在多个候选,那么可以使用一种方法,其中,选择首先获得的候选,或者给用户提供多个候选,并使用户从中选择一个候选。另外还提出了一种方法,其中,如果存在多个候选,那么就根据某种标准对这些候选进行打分,然后选择具有最高分数的候选。例如,日本专利申请特开平No.H07-334506(此后称作第一文档)中提出了一种技术,其中,从作为翻译结果获得的多个单词中选择与原单词具有较高的概念相似度的译文单词,从而提高翻译文本的质量
但是,第一文档的方法存在问题,尽管消除了用户选择译文单词的负担,但是很难设定打分的标准,并且因此并不总是能够选择最佳候选,并且可能会输出偏离源语言句子的意图的译文句子。
而且,上述交流支持装置用于支持能够理解不同语言的用户之间的交流。通常,用户不能理解目标语言输出,并且因此要求用户选择多个候选中的一个会导致出现以下问题,即,如果存在翻译错误,那么就无法发现和更正该翻译错误。
如果由于翻译错误导致语音的交流意图无法成功地传送到另一方,那么用户通常会再次输入相同的文本。在该处理中,假定通过组合语音识别和语言翻译实现了一种交流支持装置。即使在由于语音识别失败而导致出现翻译错误的情况下,当再次执行语音识别处理时,语音识别可能成功并且可以避免翻译错误。
但是,只要在成功地进行了语音识别之后在翻译处理中出现了翻译错误,那么当用户再次输入相同的文本时语音识别输出结果仍然保持不变,因此在处理中会重复出现相同的翻译错误,因此也就不能避免出现相同的翻译错误。另外,重复的输入操作会增加用户的负担。

发明内容

根据本发明的一个方面,一种交流支持装置包括:语音识别器,用于识别源语言的第一语音作为第一源语言句子,以及识别第一语音之后的源语言的第二语音作为第二源语言句子;确定单元,用于确定第二源语言句子与第一源语言句子是否类似;以及语言转换器,用于将第一源语言句子翻译为第一译文句子,以及当确定单元确定第二源语言句子与第一源语言句子类似时,将第二源语言句子翻译为不同于第一译文句子的第二译文句子。
根据本发明的另一个方面,一种交流支持装置包括一种语音识别器,用于识别源语言的第一语音作为第一源语言句子,以及识别第一语音之后的源语言的第二语音作为第二源语言句子;确定单元,用于确定第二源语言句子与第一源语言句子是否类似;语言转换器,用于将第一源语言句子翻译为第一译文句子,将第二源语言句子翻译为第二译文句子;以及语音合成器,用于根据第一发声类型将第一译文句子合成为第三语音,并且当确定单元确定第二源语言句子与第一源语言句子类似时,根据不同于第一发声类型的第二发声类型将第二译文句子合成为第四语音。
根据本发明的另一个方面,一种交流支持方法包括:识别源语言的第一语音,作为第一源语言句子;将第一源语言句子翻译为第一译文句子;识别第一语音之后的源语言的第二语音作为第二源语言句子;确定第二源语言句子与第一源语言句子是否类似;以及当确定第二源语言句子与第一源语言句子类似时,将第二源语言句子翻译为不同于第一译文句子的第二译文句子。
根据本发明的另一个方面,一种交流支持方法包括:识别源语言的第一语音,作为第一源语言句子;将第一源语言句子翻译为第一译文句子;识别第一语音之后的源语言的第二语音,作为第二源语言句子;确定第二源语言句子与第一源语言句子是否类似;将第二源语言句子翻译为第二译文句子;以及根据第一发声类型将第一译文句子合成为第三语音,并且当确定第二源语言句子与第一源语言句子类似时,根据不同于第一发声类型的第二发声类型将第二译文句子合成为第四语音。
附图说明
图1是显示根据第一实施例的交流支持装置的结构的框图,;图2显示了翻译数据存储单元中的数据结构的例子;图3显示了候选数据存储单元中的数据结构的例子;图4显示了先前识别结果存储单元中的数据结构的例子;图5和6显示了根据第一实施例的交流支持处理的一般流程的流程图
图7显示了通过交流支持处理所处理的数据的例子;图8A到8D显示了显示屏幕的多个例子;图9是显示根据第二实施例的交流支持装置的结构的框图;图10A到10F显示了候选数据存储单元中的数据结构的多个例子;图11A和11B显示了以树结构表示的语法分析结果的例子;图12A和12B显示了根据第二实施例的交流支持处理的一般流程的流程图;图13是显示根据第三实施例的交流支持装置的结构的框图;图14显示了候选数据存储单元的数据结构的例子;图15A和15B显示了根据第三实施例的交流支持处理的一般流程的流程图;图16是显示了根据第四实施例的交流支持装置的结构的框图;图17显示了翻译方向数据存储单元的数据结构的例子;图18A和18B显示根据第四实施例的交流支持处理的一般流程的流程图;图19是显示根据第五实施例的交流支持装置的结构的框图;图20显示了发声类型数据存储单元的数据结构的例子;以及图21A和21B显示根据第五实施例的交流支持处理的一般流程的流程图。

具体实施方式

接下来将参考附图描述根据本发明的优选实施例的交流支持装置和交流支持方法。
在根据第一实施例的交流支持装置中,从存储有源语言句子和对应的候选译文的翻译数据存储单元中选择对应于输入源语言句子的候选译文句子并且将其输出。假设对应于一个源语言句子有多个候选译文句子,并且被选中的候选译文句子并不恰当,因此用户继续输入类似的源语言句子。在这种情况下,为后输入的源语言句子选择不同于首次所选择的候选译文句子的候选译文句子,并且将其作为译文句于输出。
“译文句子”被定义为针对输入的源语言句子而输出的用目标语言表示的对应的句子,并且对于一个源语言句子只输出一个译文句子。另一方面,“候选译文句子”被定义为可作为源语言句子的译文句子的候选的句子,并且被存储在翻译数据存储单元中,作为对应于源语言句子的句子。对于单个源语言句子,可以存在多个候选译文句子。源语言句子、译文句子和候选译文句子可以是句子、段落、短语、从句、单词以及由句号定义的句子中的任何一种。
根据第一实施例的交流支持装置可以用于直接转换类型的机器翻译,例如通过参考被存储为源语言句子和对应于该特定的源语言句子的译文句子的信息,从而执行的基于例子的翻译或基于统计的翻译。
图1是显示根据第一实施例的交流支持装置100的结构的框图。如图1所示,交流支持装置100包括语音识别器101、连续输入确定单元102、语言转换器103、输出控制器104、候选数据存储器110、先前识别结果存储器111以及翻译数据存储器112。
翻译数据存储器112用于存储用源语言表示的句子,以及至少一个对应的用目标语言表示的、与源语言句子含意相同的候选译文句子。当语言转换器103选择输入源语言句子的候选译文句子并且将其作为译文句子输出时,访问翻译数据存储器112。
图2显示了翻译数据存储器112的数据结构的例子。如图2所示,翻译数据存储器112存储用源语言表示的多个句子以及对应的候选译文列表,该列表包含每个源语言句子的按照预定的优先级顺序排列的多个候选译文句子。例如,对于日文(即源语言)句子“SUMIMASEN”而言,所存储的候选译文列表包含用英文表示的候选译文句子“Excuse me”和“I’m sorry”。在该候选译文列表中,按照每个候选译文句子的优先级顺序,附加了用于唯一标识每个候选译文句子的候选索引。根据候选译文句子的出现频率而预定的值被用作优先级。
图2显示了源语言是日文而目标语言是英文的情况。但是,可以针对能够被交流支持装置100处理的所有类型的语言,在翻译数据存储器112中存储类似的数据。
候选数据存储器110用于存储源语言句子和至少一个对应的候选译文句子,该候选译文句子是使用源语言句子作为搜索关键词对翻译数据存储器112进行搜索而得到的结果。候选数据存储器110用于暂时地存储对应于源语言句子的候选译文句子,并且当语言转换器103根据输出控制器104发出的指示从多个候选译文句子中选择一个候选译文句子时,对该候选数据存储器进行访问。
图3显示了候选数据存储器110的数据结构的一个例子。如图3中所示,候选数据存储器110存储有相互对应的语音识别器101所识别和输出的源语言句子、对于某个特定源语言句子由语言转换器103从翻译数据存储器112检索到的多个候选译文句子的数量,以及包含一个或多个候选译文的候选译文列表。
先前识别结果存储器111用于存储由语音识别器101识别和输出的先前的源语言句子(参见图4),并且通过由连续输入确定单元102访问该先前识别结果存储器以确定是否连续输入了一个类似的源语言句子。
语音识别器101接收用户发出的源语言语音,并且通过语音识别,将源语言句子输出到连续输入确定单元102和语言转换器103。语音识别器101根据通常使用的语音识别方法,例如线性预测系数(Linear Predictive Coefficient,LPC)分析、隐尔可夫模型(HiddenMarkov Model,HMM)、动态规划(dynamic programming)、神经网络(neural network)、N-元语法语言模型(N-gram language model)等等,进行语音识别处理。
在连续输入确定单元102所进行的相似性确定中,通过使用HMM、动态规划或神经网络对符号序列(例如字符串)的一致程度或不一致程度进行比较,从而将相似度计算为一个数值。另一个可选的方法是,可以通过比较两个语言句子的字符串之间的编辑距离从而计算得到用数值表示的相似度。
“编辑距离”被定义为将一个字符转换为另一个字符所需的字符编辑操作的次数。编辑距离的计算可以使用包含Smith-Waterman在内的任何传统方法。如果按照这种方式计算得到的相似度超过了预定的值,那么就认为源语言句子和先前的识别结果之间存在相似性。
语言转换器103接收由语音识别器101输出的源语言句子,并且对存储在翻译数据存储器112中的候选译文列表进行搜索以便找到对应于所接收到的源语言句子的候选译文句子。将按照上述方式检索到的候选译文句子输出到候选数据存储器110。同时,从存储在候选数据存储器110的候选译文列表中获取对应于由输出控制器104(在下文中将对其进行描述)指定的候选索引的候选译文句子,并且将其作为译文句子输出。
语言转换器103可以用于将译文句子以文本的形式输出到输出单元(未示出),例如显示器,或者以通过语音合成功能合成的语音来输出。
如果连续输入确定单元102确定连续地输入了一个类似的源语言句子,那么输出控制器104就以下述方式控制语言转换器103的输出处理,即,语言转换器103为后输入的源语言句子选择并输出一个不同于先前选择的候选译文句子的候选译文句子。如果仅存在一个对应于输入源语言句子的候选译文句子,那么就不执行转换所选择的候选译文句子的处理。
接下来将描述根据具有上述结构的第一实施例的交流支持装置所执行的交流支持处理。图5和6显示了根据第一实施例的交流支持处理的一般流程的流程图。
首先,语音识别器101执行初始化处理(步骤S501)。在该初始化处理中,连续输入数量计数器被设置为一(1),并且候选索引被设置为零(0),同时清除先前识别结果存储器111。
定时器初始化之后,语音识别器101开始在定时器上计算时间(步骤S502)。此后,语音识别器101确定定时器的计数值是否低于预定的阈值(步骤S503),并且如果定时器的计数值不低于该阈值(步骤S503:否),那么就再次执行初始化处理并且重复所述处理(步骤S501)。如果预定的时间过去之后连续地输入类似的语音,那么用户可能是在另一种情况下说话或是在对另一个人说话,因此不能确定为通过重复而连续地输入语音。因此,需要从头开始再次执行候选译文输出处理。
如果在步骤S503确定定时器的计数值小于阈值(步骤S503:是),那么语音识别器101就确定是否输入了用源语言表示的语音(步骤S504)。
如果未输入这样的语音(步骤S504:否),那么处理就再次返回到定时器的计数值和阈值之间的比较(步骤S503)。但是如果输入了语音(步骤S504:是),那么语音识别器101就对输入语音进行识别(步骤S505)。
接下来,连续输入确定单元102确定先前识别结果存储器111是否为空,也就是是否存储有先前的识别结果(步骤S506)。
如果先前识别结果存储器111是空的(步骤S506:是),那么语言转换器103在翻译数据存储器112中搜索对应于作为识别结果的源语言句子的候选译文句子,并且将其输出到候选数据存储器110(步骤S514)。这是因为如果没有先前识别结果,那么就需要获取对应于当前的识别结果的候选译文句子。从翻译数据存储器112检索到的候选译文句子的数量被设置到候选数据存储器110的候选数量列中。
但是如果先前识别结果存储器111不为空(步骤S506:否),那么连续输入确定单元102就确定从语音识别器101接收到的识别结果和存储在先前识别结果存储器111的先前识别结果之间的相似性(步骤S507)。
连续输入确定单元102确定识别结果和先前识别结果彼此之间是否相似(步骤S508),并且如果它们不相似(步骤S508:否),那么就由语言转换器103执行候选译文输出处理(步骤S514)。这是由于认为已经由用户输入了一个不同的语言句子并且因此需要获取新的对应于该特定源语言句子的候选译文句子。
但是如果确定识别结果和先前识别结果彼此之间相似(步骤S508:是),那么连续输入确定单元102就使得连续数量计数器的计数值加1(步骤S509)。接下来,连续输入确定单元102确定连续输入数量计数器的计数值是否小于预定的阈值(步骤S510)。
如果连续输入数量小于阈值(步骤S510:否),那么就由语言转换器103执行候选译文输出处理(步骤S514)。
但是如果连续输入数量计数器的计数值不小于该预定的阈值(步骤S510:是),那么连接输入确定单元102就使得候选索引加1(步骤S511)。
接下来,连续输入确定单元102确定候选索引是否不大于候选的总数(步骤S512)。可以从候选数据存储器110的候选数量列获取候选的总数。如果候选索引超过了候选总数(步骤S512:否),那么就由语言转换器103执行候选译文输出处理(步骤S514),这是由于如果没有对应于该候选索引的候选译文句子,那么就需要重新开始进行候选译文输出处理。
如果候选索引不大于候选的总数(步骤S512:是),那么输出控制器104就命令语言转换器103从候选数据存储器110获取对应于在步骤S511被加1的候选索引的候选译文句子(步骤S513)。
例如,假设当一个类似的源语言句子被连续输入三次时,会转换待输出的候选译文句子。在这种情况下,提前将阈值设置为3。因此,当一个类似的源语言句子被连续输入三次时,连续输入数量计数器的计数值达到3,也就是达到阈值(等于3)(步骤S510:是)。因此,输出控制器104发出指令,以获取对应于加1的候选索引的候选译文句子。
在步骤S514,语言转换器103在翻译数据存储器112中搜索对应于识别结果所包含的源语言句子的候选译文句子,并且将其输出到候选数据存储器110。此后,语言转换器103将候选索引初始化为1(步骤S515)。接下来,连续输入确定单元102将识别结果存储到先前识别结果存储器111中(步骤S516)。
接下来,输出控制器104指示语言转换器103从候选数据存储器110获取对应于初始化后的候选索引(等于1)的候选译文句子,也就是位于候选译文列表顶部的候选译文句子(步骤S513)。
然后,语言转换器103从候选数据存储器110获取由输出控制器104所指定的候选译文句子,并且将其输出(步骤S517),然后返回到定时器计数启动处理(步骤S502),以便接收下一个输入并且重复所述处理。
接下来,说明了根据上述步骤所执行的交流支持处理的一个具体的例子。图7是说明由该交流支持处理所处理的数据的例子的示图。为了简化说明,假设连续输入数量计数器的计数值的阈值被设置为2,并且在翻译数据存储器112中存储图2所示的数据。
首先,假设用户在时刻t0输入了语音“OKOSAMA WA IRASSHAIMASUKA”,其含意为“你有孩子吗?”(步骤S504:是)。作为响应,假设语音识别器101对该语音进行了识别(步骤S505)并且在时刻t1输出了正确的识别结果,即“OKOSAMA WA IRASSHAIMASUKA”。在时刻t2,先前识别结果存储器111是空的(步骤S506:是)。因此,语言转换器103执行正常的候选译文句子搜索处理,并且在时刻t3,输出两个候选译文句子,包括“Will your child comehere?”作为第一候选译文句子和“Do you have any children”作为第二候选译文句子(步骤S514)。
接下来,在时刻t4,语言转换器103设置第一候选索引(步骤S515),并且先前识别结果存储器111存储句子“OKOSAMA WAIRASSHAI MASUKA”(步骤S516)。然后,在时刻t5,语言转换器103将对应于输出控制器104所指定的候选索引1的第一候选译文句子“Will your child come here?”输出,作为译文句子(步骤S517)。
在该例子中,在时刻t9,连续输入确定单元102确定当前识别结果和先前识别结果彼此相似(步骤S508),并且使连续输入数量计数器的计数值加1(步骤S509)。在时刻t10,连续输入确定单元102还检测到连续输入数量达到阈值(等于2)(步骤S510),并且在时刻t11,使候选索引加1(步骤S511)。在时刻t12,语言转换器103将不同于输出控制器104所指定的先前会话的第二候选译文句子“Doyou have any children?”输出,作为译文句子(步骤S517),并且因此成功地结束该解释(时刻t13)。
如上面所述,根据现有技术,即使在重复输入的情况下,也会执行类似于先前会话的处理,而这通常会导致出现相同的错误。但是,根据本实施例,上述处理可以避免重复发生相同的错误。
接下来,将说明根据第一实施例的交流支持装置100在屏幕上所显示的内容的例子。图8A到8D显示了显示屏的多个例子。显示屏显示在输出单元上(未示出),例如该装置的显示器。
图8A显示了显示屏800,显示屏800显示了第一输入语音的识别结果。显示屏800是一个例子,其中在输入句子801处显示了表示语音识别结果的“OKOSAMA WA IRASSHAI MASUKA”。此时,未显示表示翻译结果的输出句子802。
图8B显示了显示屏810,显示屏810显示了第一输入语音的识别结果和对应的翻译结果。这显示了一种情况,其中,在显示屏810上显示了表示对应于输入句子811的翻译结果的输出句子812“Willyour child come here?”。
图8C显示了显示屏幕820,显示屏幕820显示了重复输入语音的识别结果和对应的翻译结果,作为翻译失败。显示屏幕820在输入句子821处显示了语音识别结果“OKOSAMA WA IRASSHAIMASUKA”。此时,未显示构成翻译结果的输出句子822。
图8D显示了在显示屏830上显示的重复输入语音的识别结果和对应的翻译结果。这显示了一种情况,其中在显示屏830上显示了表示对应于输入句子831的不同于第一输出翻译结果的、构成翻译结果的输出句子832“Do you have any children?”。
如果按照上述方式连续输入相同的语音,那么在不需要用户进行任何特殊操作的情况下,就可以在屏幕上显示不同的输出句子。或者,可以使得显示屏不显示输出句子,而是仅输出目标语言的输出句子的合成语音。
如上所述,使用根据第一实施例的交流支持装置100,假设连续地获得了类似的语音识别结果。可以从翻译数据存储器检索到不同于第一次输出的候选译文句子的候选译文句子,并且将其输出,作为随后被识别的源语言句子的候选译文句子。因此,即使当翻译错误导致用户输入一个类似的源语言句子时,也不会重复出现相同的翻译错误,从而降低了用户再次输入类似的源语言句子的负担并且可以输出一个适当的译文句子。
在根据第二实施例的交流支持装置中,对源语言句子的含意进行分析并且将其翻译为对应的目标语言句子,然后输出该目标语言句子。在该处理中,假设存在多个用于源语言句子的分析结果的候选,并且所选择的候选并不恰当,因此导致翻译错误,从而用户连续地输入类似的源语言句子。为后输入的源语言句子选择一个不同于首次所选候选的候选,并且输出对应的译文句子。
根据第二实施例的交流支持装置可以被用于称作转换类型的机器翻译,其中,对源语言句子进行分析,然后对分析结果进行转换,并且根据转换结果生成一个译文句子。
图9是显示根据第二实施例的交流支持装置900的结构的框图。如图9中所示,交流支持装置900包含语音识别器101、连续输入确定单元102、语言转换器903、输出控制器904、源语言分析器905、候选数据存储器910以及先前识别结果存储器111。
第二实施例与第一实施例的不同在于,在第二实施例中加入了源语言分析器905,另外语言转换器903和输出控制器904的功能,以及候选数据存储器910的数据结构也与第一实施例中的不同。其它部分的结构和功能与图1的框图所示的根据第一实施例的交流支持装置100的对应部分是相同的,并且分别用相同的参考数字指示,因此在这里就不再重复描述它们。
源语言分析器905接收由语音识别器101所识别的源语言句子,并且在参考源语言的词汇信息和语法规则执行了自然语言分析处理之后,输出由源语言句子所表达的含意的解释的候选分析结果,所述自然语言分析处理例如:形态(morphological)分析、语法分析(parsing)、修饰(modification)分析、照应(anaphoric)关系分析、省略解析(ellipsis resolution)分析和交流意图分析等。将被输出的候选分析结果可以是任何上述自然语言分析处理(形态分析、语法分析、修饰分析、照应关系分析、省略解析分析和交流意图分析等)的结果。
源语言分析器905所执行的自然语言分析处理可以使用任何常用的方法,包括使用CYK算法的形态分析和通过Earley算法、Chart算法、或通用LR分析(generalized LR parsing)的语法分析。另外,存储有形态信息、句子结构信息、语法规则和翻译规则的自然语言处理的词典被存储在广泛使用的存储器中,例如HDD(硬盘驱动器)、光盘或存储卡,并且在使用上述算法进行自然语言分析处理时对其进行访问。
语言转换器903从源语言分析器905输出的候选分析结果中选择一个,将该候选分析结果翻译为与其具有相同含意的目标语言句子,并且将其作为译文句子输出。在该处理中,语言转换器903选择对应于由输出控制器904(将在下文中对其进行描述)指定的候选索引的候选分析结果。语言转换器903对应于转换类型的机器翻译的执行句子转换和生成处理的部分。
输出控制器904以下述方式控制由语言转换器903执行的候选分析结果选择处理,即,当连续输入确定单元102确定连续地输入类似的源语言句子时,语言转换器903为后输入的源语言句子选择不同于先前选择的候选分析结果的候选分析结果。如果对应于输入源语言句子只有一个候选分析结果,那么就不执行控制对待选择的候选分析结果进行转换的处理。
候选数据存储器910存储有一个源语言句子和至少一个由源语言分析器905对特定的源语言句子进行分析所得到的对应的候选分析结果。图10A到10F显示了候选数据存储器910的数据结构的例子。
如图10A到10F中所示,候选数据存储器910存储有彼此相对应的由语音识别器101所识别并输出的源语言句子、由源语言分析器905输出的用于特定源语言句子的候选分析结果的数量,以及包含一个或多个候选分析结果的候选分析列表。
或者,源语言分析器905可以给候选分析结果打分,并且将它们存储到候选数据存储器910中,其中按照优先级的顺序为每个候选分析结果附加一个候选索引。可以将包括第一文件中描述的方法在内的任何传统已知的方法用作打分方法。这种结构可以按顺序选择适当的候选并且因此可以输出更适当的译文句子。
根据分析处理所使用的方法,候选数据存储器910会存储不同的分析结果。图10A显示了其中存储有形态分析处理的分析结果的例子,图10B显示了其中存储有语法分析的分析结果的例子,图10C显示了其中存储有修饰分析的分析结果的例子,图10D显示了其中存储有照应分析的分析结果的例子,图10E显示了其中存储有省略解析分析的分析结果的例子,并且图10F显示了其中存储有交流意图分析的分析结果的例子。
在图10A所示的情况中,源语言句子“KABAN WA IRI MASE N”与存储在候选分析列表中的包含“KABEN/WA/IRI/MASE/N”以及“KABAN/HAIRI/MASE/N”的候选形态分析结果相关联。在该候选分析列表中,通过所附的候选索引来唯一地标识每个候选分析结果。
在图10B所示的例子中,源语言句子“ISOIDE HASIRU TAROWO MITA”与存储在候选分析列表中的包括“第一语法树”以及“第二语法树”的候选语法分析结果相关联。该第一语法树和第二语法树指示了用树结构表示的语法分析结果。
图11A和11B显示了用树结构表示的语法分析结果。图11引用自“Hozumi Tanaka:自然语言处理,基础与应用,由Institute ofElectronics,Information and Communication Engineers出版,ISBN4-88552-160-2,1999,22页,图14”。图11A和11B显示了两个树结构,即第一语法树和第二语法树,并且它们组成为源语言句子“ISOIDE HASIRU TARO WO MITA”输出的语法分析结果。第一语法树指示了一种结构,其中,副词“ISOIDE”修饰仅包含动词“HASIRU”的动词从句,由此形成了一个动词短语。另一方面,第二语法树指示了一种结构,其中副词“ISOIDE”修饰整个动词短语“HASIRU ICHIRO WO MITA”,由此构成了对应于整个句子的动词短语。该语法分析结果被存储为候选分析列表中的一个候选分析结果,并且该树结构数据附加有一个候选索引。
在如图10C中所示的情况下,源语言句子“KINO KATTA HONWO YONDA(对应的英语为‘I read the book I bought yesterday’)”与存储在候选分析列表中的两个候选修饰关系分析结果相关联,它们是“KINO->KATTA”以及“KINO->YONDA”。具体地,在这种情况下,根据“KATTA”或“YONDA”中哪一个被单词“KINO”修饰从而输出两个候选分析结果。
另一方面,在图10D所示的例子中,源语言句子“TARO KARAHON WO MORATTA JITO WA URESIKATTA(英语为‘Jiro,given abook from Taro,was pleased.He was smiling.’)”与存储在候选分析列表中的两个候选照应关系分析结果相关联,它们是“KARE->TARO”以及“KARE->JIRO”。具体地,在这种情况下,根据“KARE”指示了TARO或JIRO中的哪一个,从而输出两个候选分析结果。
在图10E所示的例子中,源语言句子“IKE MASUKA”(英语为“Can*go?”)与存储在候选分析列表中的两个候选省略解析分析结果相关联,它们是“WATASHI WA IKE MASUKA(英语为‘Can Igo?’)”以及“ANATA WA IKEMASUKA(英语为‘Can you go?’)”。具体地,在这种情况下,根据省略了作为主语的“WATASHI”或“ANATA”中的哪一个,从而输出两个候选分析结果。
在图10F所示的例子中,源语言句子“KEKKO DESU”与存储在候选分析列表中的两个候选交流意图分析结果相关联,它们是“OKDESU(英语为‘I agree.’)”以及“IRIMASEN(英语为‘I do not wantit.’)”。具体地,在这种情况下,词组“KEKKO DESU”表达了肯定或否定的含意,因此将两个候选分析结果输出,作为交流意图。
候选分析结果并不限于上述图10A到10F中的任何一个。具体地,在形态分析、语法分析、修饰分析、照应关系分析、省略解析分析和交流意图分析中,可以将多个候选分析结果存储到候选数据存储器910并且由输出控制器904对其进行控制以用于选择处理。
接下来,说明根据具有上述结构的第二实施例的交流支持装置900所执行的交流支持处理。图12A和12B显示了根据第二实施例的交流支持处理的一般流程的流程图。
步骤S1201到S1212的输入处理和连续输入确定处理类似于根据第一实施例的交流支持装置100的步骤S501到S512的处理,因此这里就不再对其进行描述。
根据第一实施例,在步骤S514,语言转换器103将对应于识别结果的候选译文句子输出到候选数据存储器110。但是,第二实施例与第一实施例的不同在于,根据第二实施例,源语言分析器905分析识别结果并且将得到的候选分析结果输出到候选数据存储器910(步骤S1214)。
此后,源语言分析器905将候选索引初始化为1(步骤S1215),并且连续输入确定单元102将识别结果存储到先前识别结果存储器111(步骤S1216)。
接下来,输出控制器904指定从候选数据存储器910获取对应于候选索引的候选(步骤S1213)。具体地,在首次输入时,在执行分析处理(步骤S1214)之后将候选索引设置为1(步骤S1215)。因此,在这些候选分析结果中,指定获取候选索引为1的第一个候选。
如果连续输入类似的语音,那么候选索引被设置为加1的一个值(步骤S1211),这会导致在不重复步骤S1214的分析处理的情况下,指示从通过先前处理存储的候选分析结果中获取对应于下一个候选索引的候选。
接下来,语言转换器903从候选数据存储器910获取由输出控制器904指定的候选,并且将其翻译为与获取的候选分析结果含意相同的目标语言句子,然后将翻译结果作为译文句子输出(步骤S1217)。
接下来,说明根据上述步骤所执行的交流支持处理的一个具体例子。在该例子中,为了简化说明,假设将连续输入数量计数器的阈值设置为2。
考虑一个例子,其中,用户输入源语言句子“KEKKO”,其含意是“我不要它。”(步骤S1204)。在该例子中,源语言分析器905输出图10F中所示的候选形态分析结果(步骤S1214),从而为首次输入选择对应于候选索引1的候选分析结果所包含的“OK DESU”(步骤S1213),并且输出对应的译文句子(步骤S1217)。
但是,假设并未正确地传达用户的意图并且因此用户再次输入源语言句子“KEKKO DESU”。连续输入确定单元102确定输入了一个类似的源语言句子(步骤S1208),并且连续输入数量计数器的计数值加1(步骤S1209)。另外,因为连续输入数量计数器的计数值达到了阈值2(步骤S1210:是),所以候选索引也加1(步骤S1211),并且输出控制器904指示获取具有候选索引2的候选(步骤S1213)。因此,语言转换器903获取图10F中的对应于候选索引2的候选分析结果“IRI MASEN”,并且因此可以输出正确的译文句子(步骤S1217)。
如上面所述,使用根据第二实施例的交流支持装置900,假设存在多个源语言句子分析结果并且连续地产生类似的语音识别结果。为后识别的源语言句子选择不同于首次选择的分析结果的分析结果,并且输出对应的译文句子。因此,在出现了翻译错误并且用户再次输入类似的源语言句子的情况下,可以避免出现相同的翻译错误,从而可以减轻用户进行输入操作的负担,并且输出适当的译文句子。另外,在输入了类似的语音的情况下,在不重复进行分析源语言的处理的情况下,选择不同于先前候选分析结果的候选并且执行翻译处理。因此,可以减少进行会导致较重的处理负载的分析处理的次数。
使用根据第三实施例的交流支持装置,对源语言句子的含意进行分析,然后翻译为对应的目标语言,并作为译文句子输出。在该处理中,假设存在多个候选译文单词并且由于选择了不适当的候选而导致出现翻译错误,因此用户连续输入一个类似的源语言句子。然后,为后输入的源语言句子选择不同于首次选择的候选的候选,并且输出对应的译文句子。
可以将根据第三实施例的交流支持装置用于转换类型的机器翻译,其中,与第二实施例中类似,对源语言句子进行分析,将分析结果进行转换,并且根据转换结果生成译文句子。尽管在第二实施例中对通过分析源语言句子的处理所输出的多个候选进行选择控制处理,但是根据第三实施例,对通过分析结果转换处理而输出的多个候选进行选择控制操作。
图13是显示根据第三实施例的交流支持装置1300的结构的框图。如图13中所示,交流支持装置1300包含语音识别器101、连续输入确定单元102、语言转换器1303、输出控制器1304、源语言分析器905、候选数据存储器1310以及先前识别结果存储器111。
根据第三实施例,语言转换器1303和输出控制器1304的功能,以及候选数据存储器1310的数据结构与第二实施例中的不同。但是该结构的其它部分和其它功能与图9的框图所示的根据第二实施例的交流支持装置900的对应部分和功能类似,因此用相同的参考数字指示并且这里不再重复描述。
在语言转换器1303中,从源语言分析器905输出的分析结果被翻译为与该分析结果含意相同的目标语言,并且输出组成至少一个译文结果的候选译文单词,并且选择所输出的候选译文单词中的一个,以生成并输出译文句子。在该处理中,语言转换器1303选择对应于由输出控制器1304(将在下文对其进行描述)指定的候选索引的候选译文单词。
如果连续输入确定单元102确定连续输入了一个类似的源语言句子,那么输出控制器1304就以下述方式控制由语言转换器执行的用于选择候选译文单词的处理,即,语言转换器1303为后输入的源语言句子选择不同于先前所选择的候选的候选译文单词。如果仅存在一个对应于输入源语言句子的候选译文单词,那么就不执行用于转换所选择的候选译文单词的控制处理。
候选数据存储器1310存储用源语言表示的分析结果以及至少一个由语言转换器1303对该分析结果进行翻译而得到的对应的候选译文单词。图14是显示候选数据存储器1310的数据结构的例子的示图。
如图14所示,候选数据存储器1310存储有相互对应的由源语言分析器905输出的分析结果、表示由语言转换器1303对源语言进行翻译而得到的候选译文单词的数量的候选数量、以及包含一个或多个候选译文单词的候选译文单词列表。图14显示了一个例子,其中,翻译的源语言是英文,翻译的目标语言是日文,并且存在与对应英文具有相同含意的多个日文候选译文单词。
接下来,说明根据具有上述结构的第三实施例的交流支持装置1300所执行的交流支持处理。图15A和15B显示了根据第三实施例的交流支持处理的一般流程的流程图。
步骤S1501到S1512的输入处理和连续输入确定处理与根据第二实施例的交流支持装置中的步骤S1201到S1212的处理类似,因此不再重复说明。
根据第二实施例,在步骤S1214,源语言分析器905对识别结果进行分析并且将得到的候选分析结果输出到候选数据存储器110。但是,与第二实施例中不同,根据第三实施例,源语言分析器905对识别结果进行分析(步骤S1514),语言转换器1303对该分析结果进行翻译,并且将得到的组成翻译结果的候选译文单词输出到候选数据存储器1310(步骤S1515)。
此后,语言转换器1303将候选索引初始化为1(步骤S1516),并且连续输入确定单元102将识别结果存储到先前识别结果存储器111(步骤S1517)。
接下来,输出控制器1304指定从候选数据存储器1310获取对应于候选索引的候选(步骤S1513)。具体地,在首次输入时,由于在执行翻译处理(步骤S1515)之后将候选索引设置为1(步骤S1516),所以导致指定获取候选分析结果中的具有候选索引1的第一个候选。
当连续输入类似的语音时,由于候选索引被设置为加1的值(步骤S1511),所以导致在不重复步骤S1514和S1515的分析处理和翻译处理的情况下,指定从通过先前处理所存储的候选译文单词中获取对应于候选索引的候选。
接下来,语言转换器1303从候选数据存储器1310获取由输出控制器1304指定的候选,然后使用所获取的候选译文单词生成并输出译文句子(步骤S1518)。
如上面所述,在根据第三实施例的交流支持装置1300中,假设在进行翻译时存在多个候选译文单词,并且连续地产生类似的语音识别结果。为后识别的源语言句子选择不同于首次选择的候选的候选译文单词,并且根据所选择的候选译文单词生成一个译文句子。因此,即使在由于翻译错误,用户重复地输入类似的源语言句子的情况下,也可以避免重复出现相同的翻译错误。因此,用户重复输入操作的负担得到了降低,并且可以输出适当的译文句子。另外,在输入了类似的语音的情况下,在不再次执行任何对对源语言的分析或转换处理的情况下,通过选择不同于先前转换处理所得到的候选的候选,可以执行翻译处理,并且因此可以减少执行会导致较重的处理负载的分析和转换处理的次数。
在根据第四实施例的交流支持装置中,根据情况,适当地选择指示了构成翻译源的源语言和翻译的目标语言的组合的翻译方向,以执行翻译处理。在该处理中,假设存在多个翻译方向,并且不正确的翻译方向选择会导致翻译错误,以致用户连续地输入类似的源语言句子。为后输入的源语言句子选择不同于首次选择的方向的翻译方向,并且输出对应的译文句子。“翻译方向”被定义为提供翻译源的源语言和翻译的目标语言的组合。
另外在第四实施例中,与第二或第三实施例中类似,基于转换类型的机器翻译进行说明。但是,也可以使用第一实施例中的直接转换类型的机器翻译,其具有同样的效果。
图16是显示了根据第四实施例的交流支持装置1600的结构的框图。如图16所示,交流支持装置1600包含语音识别器101、连续输入确定单元102、语言转换器1603、输出控制器1604、翻译方向数据存储器1610以及先前识别结果存储器111。
第四实施例与第二实施例的不同之处在于,除了语言转换器1603和输出控制器1604的功能不同之外,第四实施例还包含翻译方向数据存储器1610。该结构的其它部分和功能与图9的框图所示的根据第二实施例的交流支持装置900的对应部分和功能类似。因此,分别使用相同的参考数字来指示相同或类似的组成部分,并且不再重复描述。
翻译方向数据存储器1610存储有可以在交流支持装置1600中使用的翻译方向。图17显示了翻译方向数据存储器1610的数据结构的例子。
如图17所示,翻译方向存储器1610存储用于唯一地标识翻译方向的候选索引和对应的翻译方向。图17显示了所存储的六个翻译方向,它们分别是将日文、英文和中文作为源语言和目标语言而得到的不同组合。可以根据该装置运行时的情况来改变翻译方向和其存储顺序。
在语言转换器1603中,将从源语言分析器905输出的分析结果翻译为与该特定的分析结果具有相同含意的目标语言句子,并且根据得到的译文单词,生成译文句子并且将其输出。在该处理中,语言转换器1603选择对应于由输出控制器1604(将在后面对其描述)指定的候选索引的翻译方向,并且根据如此选择的翻译方向生成译文句子。
当连续输入确定单元102确定正在连续地输入类似的源语言句子时,输出控制器1604就按照以下方式来控制语言转换器1603的翻译方向选择操作,即,使语言转换器1603为后输入的源语言句子选择不同于先前所选择的方向的方向。
现在,说明根据具有上述结构的第四实施例的交流支持装置1600所执行的交流支持处理。图18A和18B显示了根据第四实施例的交流支持处理的一般流程的流程图。
步骤S1801到S1812的输入处理和连续输入确定处理与根据第二实施例的交流支持装置900所执行的步骤S1201到S1212的处理类似,因此不再重复描述。
根据第二实施例,在步骤S1214由源语言分析器905执行分析处理。但是,第四实施例与第二实施例的不同之处在于,在第四实施例中,不是执行分析处理,而是执行候选索引初始化处理(步骤S1814)和识别结果存储处理(步骤S1815)。
接下来,源语言分析器905对识别结果进行分析并且输出分析结果(步骤S1813)。然后,输出控制器1604指定从翻译方向数据存储器1610中选择对应于候选索引的翻译方向(步骤S1816)。
例如,在首次输入时,指定选择具有在步骤S1814指定的候选索引1的翻译方向。另外,如果连续输入类似的语音,那么就使得索引值加1(步骤S1811),并且因此指定选择对应于特定候选索引的翻译方向。
接下来,在语言转换器1603中,从翻译方向数据存储器1610中选择由输出控制器1604指定的翻译方向(步骤S1817),并且根据所选择的翻译方向,对从源语言分析器905输出的分析结果进行转换,从而生成译文句子并且将其输出(步骤S1818)。
接下来将说明根据上述步骤所执行的交流支持处理的具体例子。例如,假设用户输入日语语音(步骤S1804)并且输出了英语译文句子(步骤S1818),但是由于对话的另一方懂得中文而不懂英文,所以用户的交流意图不能被成功地传达。在该处理中,用户再次输入相同的语音(步骤S1804)。然后,选择“日文到中文”翻译作为翻译方向的下一个候选(步骤S1817)。因此,可以正确地输出用中文表达的译文句子(步骤S1818)。
如上面所述,如果存在多个翻译方向并且连续地生成类似的语音识别结果,那么根据第四实施例的交流支持装置1600就按照下述方式工作,即,为后识别的源语言句子选择不同于首先选择的翻译方向的翻译方向,另外根据所选择的翻译方向,执行翻译并且输出译文句子。因此,即使翻译错误导致用户再次输入了类似的源语言句子,也可以避免重复发生相同的翻译错误,从而减轻了用户重复输入的操作负担并且可以输出正确的译文句子。
在根据第五实施例的交流支持装置中,从多个发声类型中选择一个适当的发声类型,并且根据所选择的发声类型对译文句子进行语音合成并输出。在该处理中,假设发声类型并正确,而且未能将用户的意图传达到另一方,从而使得用户连续地输入类似的源语言句子。为后输入的源语言句子选择不同于首次选择的发声类型的一个发声类型,然后对相应的译文句子进行语音合成并且输出。
图19是显示根据第五实施例的交流支持装置1900的结构的框图。如图19所示,交流支持装置1900包含语音识别器101、连续输入确定单元102、语言转换器1903、输出控制器1904、源语言分析器905、语音合成器1906、发声类型数据存储器1901以及先前识别结果存储器111。
第五实施例与第二实施例的区别在于,在第五实施例中,加入了语音合成器1906和发声类型数据存储器1910,并且语言转换器1903和输出控制器1904的功能与第二实施例中不同。该结构的其它部分和其它功能与图9的框图所示的根据第二实施例的交流支持装置900的结构的对应部分和功能类似。因此,分别用相同的参考数字表示它们并且不再重复描述。
发声类型数据存储器1910存储可用于交流支持装置1900执行的语音合成处理的发声类型。图20显示了发声类型数据存储器1910的数据结构的例子。
如图20中所示,发声类型数据存储器1910存储有用于唯一标识发声类型的候选索引以及对应的发声类型。可以用多种要素的组合指定发声类型,这些要素可以是例如音量、语速、音调、语调以及口音等。这些要素仅是例子,可以使用能够改变合成语音的发声方法的任何要素。
在语言转换器1903中,从源语言分析器905输出的分析结果被翻译为与该分析结果具有相同含意的目标语言句子,并且根据译文单词生成译文句子并且输出。
语音合成器1906接收从语言转换器1903输出的译文句子并且将其内容输出为目标语言的合成语音。在该处理中,语音合成器1906选择对应于由输出控制器1904(稍后描述)指定的候选索引的发声类型,并且根据所选择的发声类型执行针对译文句子的语音合成处理。
由语音合成器1906执行的语音合成处理可以使用各种通用的方法,包括使用音素(phoneme)编辑语音合成或共振峰语音合成的文本到语音系统。
如果连续输入确定单元102确定正在连续输入一个类似的源语言句子,那么输出控制器1904就按照以下方式控制语音合成器1906的发声类型选择处理,即,使得为后输入的源语言句子选择不同于先前由语音合成器1906所选择的类型的发声类型。
接下来,说明根据具有上述结构的第五实施例的交流支持装置1900所执行的交流支持处理。图21A和21B显示根据第五实施例的交流支持处理的一般流程的流程图。
步骤S2101到S2112的输入处理和连续输入确定处理与用于根据第二实施例的交流支持装置900的步骤S1201到S1212的处理类似,因此不再重复描述。
如果连续输入确定单元102确定候选索引超过了候选的总数(步骤S2112:否),那么源语言分析器905就分析识别结果并且输出分析结果(步骤S2114)。接下来,语言转换器1903翻译由源语言分析器905输出的分析结果并且输出译文句子(步骤S2115),此后,将候选索引初始化为1(步骤S2116)。另外,连续输入确定单元102将识别结果存储到先前识别结果存储器111(步骤S2117)。
接下来,输出控制器1904指定从发声类型数据存储器1910选择对应于候选索引的发声类型(步骤S2113)。
例如,在首次输入时,指定选择具有在步骤S2116指定的候选索引1的第一个发声类型。另外,当连续输入类似的语音时,由于候选索引的值被加1(步骤S2111),所以会导致指定选择对应于该特定候选索引的发声类型。
接下来,语言转换器1903从发声类型数据存储器1910中选择由输出控制器1904指定的发声类型,并且根据选择的发声类型对在步骤S2115输出的译文句子执行语音合成处理,然后输出处理结果(步骤S2118)。
如上面所述,使用根据第五实施例的交流支持装置1900,假设在进行语音合成时存在多个发声类型并且连续地生成类似的语音识别结果。为后识别的源语言句子选择不同于首次选择的发声类型的发声类型,并且通过根据所选择的发声类型所执行的语音合成,可以输出译文句子的语音。因此即使由于不正确的语音合成处理导致不能将用户的交流意图传达到另一方,并且用户尝试再次输入类似的源语言句子,也可以防止重复进行不正确的语音合成处理,并且降低了用户再次输入源语言句子的负担,由此使得可以输出正确的译文句子。
尽管参考将语音识别用作识别处理的结构对第一到第五实施例进行了说明,但是该识别处理并不限于语音识别,还可以包括字符识别、手写输入识别或图像识别等。另外,可以加入学习功能,以便对于已经在过去被多次正确地翻译的输入,不需要再对其进行上述的连续输入确定处理或输出控制处理。
由根据第一到第五实施例的交流支持装置执行的交流支持程序可以被以包含在ROM(只读存储器)等中的形式来提供。
或者,由根据第一到第五实施例的交流支持装置所执行的交流支持程序能够以可安装或可执行文件的形式存储在计算机可读记录介质中,例如CD-ROM(压缩盘只读存储器)、软盘(FD)、可记录压缩盘(CD-R)、或数字万能盘(DVD)等,以便提供其。
此外,由根据第一到第五实施例的交流支持装置执行的交流支持程序可以被存储在连接到网络(例如因特网)的计算机中,并且可以通过网络下载该程序。而且,可以通过网络(例如因特网)提供或分发由根据第一到第五实施例的交流支持装置执行的交流支持程序。
由根据第一到第五实施例的交流支持装置执行的交流支持程序可以具有包括上述部分(语音识别器、连续输入确定单元、语言转换器、输出控制器、源语言分析器以及语音合成器)的模化结构。CPU(中央处理单元)从ROM中读取交流支持程序并且执行该程序,从而上述部分被加载到主存储器上,并在该主存储器上生成这些部分作为实际的硬件
本领域的技术人员可以容易地知道其它优点和变形。因此,本发明并不限于上述具体细节和典型实施例。因此,在不脱离由所附权利要求和它们的等价内容所定义的本发明的精神或范围的情况下,可以实现多种变形。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈