一种在线语音翻译方法及装置 |
|||||||
申请号 | CN201310728312.X | 申请日 | 2013-12-25 | 公开(公告)号 | CN103744843A | 公开(公告)日 | 2014-04-23 |
申请人 | 北京百度网讯科技有限公司; | 发明人 | 王海峰; 吴华; | ||||
摘要 | 本 发明 公开了一种在线语音翻译方法及装置,所述方法包括:对第一用户输入的第一语音信息进行 语音识别 ,获得第一识别信息;确定第一识别信息的 置信度 ;根据第一识别信息的置信度提示第一用户对第一识别信息进行确认;对确认的第一识别信息进行翻译,获得第一翻译信息并输出;根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;根据关联信息对第一翻译信息进行修正并输出。通过本发明公开的一种在线语音翻译方法及装置,可以保证在跨语言交流中沟通顺畅。 | ||||||
权利要求 | 1.一种在线语音翻译方法,其特征在于,包括: |
||||||
说明书全文 | 一种在线语音翻译方法及装置技术领域背景技术[0002] 随着国际性交流的增加,使用不同语种的语言沟通越来越频繁。为克服语言障碍,基于客户端进行在线语音翻译得到广泛的应用。 [0003] 在线语音翻译一般涉及两个环节,第一是进行语音识别,即将第一用户输入的第一语种语音识别为文字信息;第二是将文字信息基于翻译语料库进行翻译,再生成第二语种的语音信息或文字信息,提供给第二用户。通过在线语音翻译,可以为使用不同语言的用户双方提供翻译服务,使双方进行顺利沟通。 [0004] 目前,在在线语音翻译过程中,在语音识别和翻译的过程中都可能会出现错误,导致在跨语言交流中沟通不畅,最终使得跨语言沟通无法进行。 发明内容[0005] 本发明提供一种在线语音翻译方法及装置,以实现提高在线语音翻译的准确率,保证沟通顺畅。 [0006] 一方面,本发明实施例提供了一种在线语音翻译方法,包括: [0007] 对第一用户输入的第一语音信息进行语音识别,获得第一识别信息; [0008] 提示所述第一用户对所述第一识别信息进行确认; [0009] 对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出; [0010] 根据第二用户反馈的第二信息,提取第一翻译信息的关联信息; [0011] 根据所述关联信息对提取第一翻译信息的关联信息。 [0012] 优选地,提示所述第一用户对所述第一识别信息进行确认包括: [0013] 确定第一识别信息的置信度; [0014] 根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。 [0015] 优选地,所述确定第一识别信息的置信度,包括: [0016] 根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。 [0017] 优选地,所述根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认,包括: [0018] 如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或 [0019] 如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。 [0020] 优选地,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括: [0021] 将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。 [0022] 优选地,所述根据第二用户反馈的第二信息,提取第一翻译信息的关联信息,包括: [0023] 根据当前对话场景中的关键词和/或语言规则,从所述第二信息中提取第一翻译信息的关联信息。 [0024] 优选地,所述方法还包括: [0025] 根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。 [0026] 另一方面,本发明实施例还提供了一种在线语音翻译装置,包括: [0027] 第一识别信息模块,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息; [0028] 确认提示模块,用于提示所述第一用户对所述第一识别信息进行确认; [0029] 信息翻译模块,用于对确认的所述第一识别信息进行翻译,获得第一翻译信息并输出; [0030] 关联信息提取模块,用于根据第二用户反馈的第二信息,提取第一翻译信息的关联信息; [0031] 信息修正模块,用于根据所述关联信息对所述第一翻译信息进行修正并输出。 [0032] 优选地,所述确认提示模块包括: [0033] 置信度确定模块,用于确定第一识别信息的置信度; [0034] 用户确认模块,用于根据所述第一识别信息的置信度提示所述第一用户对所述第一识别信息进行确认。 [0035] 优选地,所述置信度确定模块具体用于:根据当前对话场景中的关键词和/或语言规则,确定所述第一识别信息的置信度。 [0036] 优选地,所述确认提示模块具体用于: [0037] 如果所述第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供所述第一用户进行确认;或 [0038] 如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将所述关键词显示供所述第一用户进行确认。 [0039] 优选地,所述关联信息提取模块包括: [0040] 关键词匹配子模块,用于将所述第二用户反馈的所述第二信息与所述第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。 [0041] 优选地,所述关联信息提取模块包括: [0042] 语言规则子模块,用于根据当前对话场景中的关键词和、或语言规则,从所述第二信息中提取第一翻译信息的关联信息。 [0043] 优选地,所述装置还包括: [0044] 对话场景确定模块,用于根据所述第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景。 [0045] 本发明实施例通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。附图说明 [0046] 图1为本发明实施例一提供的一种在线语音翻译方法的流程图; [0047] 图2为本发明实施例二提供的一种在线语音翻译方法的流程图; [0048] 图3为本发明实施例三提供的一种在线语音翻译方法的流程图; [0049] 图4为本发明实施例四提供的一种在线语音翻译装置的结构示意图; [0050] 图5为本发明实施例五提供的一种在线语音翻译装置的结构示意图。 具体实施方式[0051] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。 [0052] 实施例一 [0053] 图1为本发明实施例一提供的一种在线语音翻译方法的流程图。本实施例可适用于双方跨语言进行语音交流时进行语音识别和翻译的情况,该方法可以由在线语音翻译装置来执行,该装置可以由硬件和/或软件来实现,该装置可以配置在任意终端或网元中。该方法具体包括如下: [0054] S101,对第一用户输入的第一语音信息进行语音识别,获得第一识别信息。 [0055] 在上述操作中,第一用户和第二用户进行跨语种的语言交流,第一用户可以采用第一语音输入第一语音信息,在线语音翻译装置可以对其进行语音识别,得到第一识别信息。 [0056] S102,提示第一用户对第一识别信息进行确认。 [0058] 该操作可以是获取的第一识别信息全部提示给用户进行确认,但优选是按照设定触发条件,有选择地提供给用户进行确认,优选是:确定第一识别信息的置信度;根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。 [0059] 置信度可以是表示第一识别信息的正确率,例如与第一用户输入的第一语音信息原意的误差度,第一识别信息的可识别率,与词库中标准词汇的误差度。置信度的确定可以是将第一识别信息在标准词库中进行匹配,以判断正确识别的词汇率是否达到设定限制,或者判断第一识别信息是否满足设定规则,例如语法要求。在实际使用过程中,可以确定全部第一识别信息的置信度;也可以是选取第一识别信息中的至少一个关键词,确定各关键词的置信度。 [0060] 根据第一识别信息的置信度对用户进行的提示,优选是,如果第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供第一用户进行确认。或者,如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将关键词显示供第一用户进行确认。 [0061] S103,对确认的第一识别信息进行翻译,获得第一翻译信息并输出。 [0062] 在上述操作中,将第一识别信息由第一用户所使用的语种翻译成为第二用户使用的语种,例如,对中文的第一识别信息进行翻译,获得英文的第一翻译信息。两个用户可以分别使用两个配置有在线语音翻译装置的终端,则第一用户的终端可以通过有线网络或无线网络输出第一翻译信息给第二用户的终端。 [0063] S104,根据第二用户反馈的第二信息,提取第一翻译信息的关联信息。 [0064] 在上述操作中,第二用户反馈的第二信息仍然可以通过终端之间的交互返回给第一用户的终端。第一翻译信息的关联信息是能够矫正第一翻译信息正确性的信息。例如,与第一翻译信息满足设定相似度的单字、词组,或者,与第一翻译信息具备设定逻辑关联的信息,如针对第一翻译信息的反问信息。 [0065] 获取关联信息的方式,例如可以为:将第二用户反馈的第二信息与第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。例如,第一用户说“从北京到天津怎么走?”,若第二用户反问“去哪”,就说明此处对天津的翻译可能有误,使得第二用户无法理解,则通过将第二信息“去哪”与第一翻译信息“从北京到天津怎么走?”进行相似度匹配,获取第二用户更为关注的信息,作为需纠正的信息。 [0066] S105,根据关联信息对第一翻译信息进行修正并输出。 [0067] 在上述操作中,可以对全部第一翻译信息进行修正并输出,确保不会遗漏信息。也可以将第一翻译信息中的一部分进行修正并输出,例如,其中的一些关键词,相对于翻译一段信息而言,翻译关键词的准确率较高,从而可以提高修正的正确率。而且处理部分字或者词的数据处理量较小,可以提高对第一翻译信息进行修正并输出的效率。具体的可以通过有线网络或者无线网络向第二用户进行输出。本操作中,无需再将第一翻译信息显示给第一用户进行确认,而是可以由装置自动完成翻译信息的修正,提高了翻译的准确性。 [0068] 本实施例公开的在线语音翻译方法,通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。 [0069] 实施例二 [0070] 图2为本发明实施例二提供的一种在线语音翻译方法的流程图。在实际双方交流的过程中,对话内容是基于一定的对话场景以及对话规则产生的。所以,本发明实施例二在本发明实施例一的基础上,基于对话场景及对话规则对在线语音翻译过程进行优化,本实施例提供的一种在线语音翻译方法,包括: [0071] S201,对第一用户输入的第一语音信息进行语音识别,获得第一识别信息。 [0072] S202,根据第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景; [0073] 在上述操作中,可以预先设定一些对话场景,及其确定规则。例如,娱乐信息场景、商务会谈场景、学术讨论场景、火车站交谈场景、飞机场交谈场景等。可以根据第一识别信息中的关键词确定当前对话场景,例如关键词为景点地名时,确定当前对话场景为旅游场景。也可以根据第一用户在预设时间段内确认的历史识别信息中的关键词识别当前对话场景。在第一用户对第一识别信息进行确认之前确认的信息为历史识别信息。当然,对话场景也可以由用户进行选择。 [0074] S203,根据当前对话场景中的关键词和/或语言规则,确定第一识别信息的置信度。 [0075] 在上述操作中,当前对话场景中关键词是在该场景下的常用词汇,或是该场景下的罕见词汇。所以,可以将第一识别信息与当前对话场景的关键词进行比对。根据所包括的常用词汇和/或罕见词汇的概率确定置信度。语言规则可以是语法规则,语言规则可以包括但不限于时间、地点、人物和事件。 [0076] S204,根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。 [0077] 在上述操作中,可以通过视觉方式提示第一用户对第一识别信息进行确认,例如在显示界面上弹出窗口和显示确定键等方式,也可以通过听觉方式提示第一用户对第一识别信息进行确认,例如播放提示语音信息。 [0078] S205,对确认的第一识别信息进行翻译,获得第一翻译信息并输出。 [0079] S206,根据当前对话场景中的关键词和/或语言规则,从第二信息中提取第一翻译信息的关联信息。 [0080] S207,根据关联信息对提取第一翻译信息的关联信息。 [0081] 通过本实施例二公开的在线语音翻译方法,增加了对话的场景管理,进一步优化了置信度确定和关联信息确定的准确率。 [0082] 实施例三 [0083] 图3为本发明实施例三提供的一种在线语音翻译方法的流程图。基于本发明前述提供的实施例,本实施例提供一种在线语音翻译方法的优选实施方案,以第一用户为中文用户,第二用户为法文用户进行举例说明。该方法包括: [0084] S301、第一用户使用中文通过麦克风输入“今天下午从尼斯去巴黎的火车票”,作为第一语音信息,对其进行语音识别,得到第一识别信息,由于口音、环境噪声等多方面原因,识别信息可能为“京天下午从14去巴黎的火车票”。 [0085] S302、确定“京天下午从14去巴黎的火车票”置信度,若置信度低于设定门限值,则执行S303,否则继续执行S305。 [0086] 由于在“京天下午从14去巴黎的火车票”中出现“下午”、“巴黎”和“火车票”,按照常规语法规则推断应为从一地去另一地的语法规则,“京天”既不是时间名词也不是地址名词,在“从14去巴黎”这一表达出发地和目的地的语法规则中,“14”也不是地址细腻,因此,“京天”和“14”的置信度较低,应执行S303。 [0087] S303、将“京天下午从14去巴黎的火车票”以文字的方式显示于显示屏上,提示第一用户进行确认。 [0088] S304、用户选择删除并重新输入,返回执行S301。 [0089] 直至得到置信度较高的第一识别信息为“今天下午从尼斯去巴黎的火车票”。 [0090] S305、将第一识别信息“今天下午从尼斯去巴黎的火车票”翻译为法语“今天下午从你斯去巴黎的火车票”,即第一翻译信息,输出给第二用户; [0091] 此处可能会由于词汇的生僻或者有多种语义,而导致翻译信息有误。 [0092] S306、接收第二用户输入的法语反馈信息,将反馈信息翻译成中文,反馈的信息为“你从哪里去巴黎”,作为第二信息; [0093] 可以直接将法语反馈信息作为第二信息,也可以将其翻译成中文后作为第二信息。 [0094] S307、根据语言规则,从第二信息中提取第一翻译信息的关联信息。 [0095] 本实例中,第二信息为“你从哪里去巴黎”,基于语言规则识别出是在询问出发地点,而第一识别信息中“今天下午从尼斯去巴黎的火车票”中,“从尼斯去巴黎”按照常规语法可反映出发地和目的地,据此,提取出“尼斯”作为关联信息。 [0096] S308、根据关联信息修正第一翻译信息,并输出给第二用户。 [0097] 依据关联信息“尼斯”将第一翻译信息修正为法语的“尼斯”,并输出给第二用户。通常情况下,翻译系统对单个词和短语的翻译相对于语句的翻译会比较准确,因此能在一定程度上降低翻译错误概率。 [0098] 本实施例三的技术方案,可以避免向第二用户方输出“京天”的翻译结果,造成双方沟通不顺畅,而且可以修正对“尼斯”的翻译结果并重新输出,保证了跨语言双方的沟通顺畅。 [0099] 实施例四 [0100] 图4为本发明实施例四提供的一种在线语音翻译装置的结构示意图。本实施例可适用于双方跨语言进行语音交流时进行语音识别和翻译的情况,该装置可以配置在任意终端或网元中。该装置具体包括: [0101] 第一识别信息模块41、确认提示模块42、信息翻译模块43、关联信息提取模块44和信息修正模块45。 [0102] 第一识别信息模块41,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;确认提示模块42,用于提示第一用户对第一识别信息进行确认;信息翻译模块43,用于对确认的第一识别信息进行翻译,获得第一翻译信息并输出;关联信息提取模块44,用于根据第二用户反馈的第二信息,提取第一翻译信息的关联信息;信息修正模块45,用于根据关联信息对第一翻译信息进行修正并输出。 [0103] 在第一识别信息模块41中,第一用户和第二用户进行跨语种的语言交流,第一用户可以采用第一语音输入第一语音信息,在线语音翻译装置可以对其进行语音识别,得到第一识别信息。 [0104] 在确认提示模块42中,可以将第一识别信息显示在显示屏上,第一用户通过触摸屏、键盘和鼠标等输入设备对第一识别信息进行确认。 [0105] 可以是获取的第一识别信息全部提示给用户进行确认,但优选是按照设定触发条件,有选择地提供给用户进行确认。 [0106] 确认提示模块42包括置信度确定模块421和用户确认模块422。 [0107] 置信度确定模块421,用于确定第一识别信息的置信度; [0108] 用户确认模块422,用于根据第一识别信息的置信度提示第一用户对第一识别信息进行确认。 [0109] 在置信度确定模块421中,置信度可以是表示第一识别信息的正确率,例如与第一用户输入的第一语音信息原意的误差度,第一识别信息的可识别率,与词库中标准词汇的误差度。置信度的确定可以是将第一识别信息在标准词库中进行匹配,以判断正确识别的词汇率是否达到设定限制,或者判断第一识别信息是否满足设定规则,例如语法要求。在实际使用过程中,可以确定全部第一识别信息的置信度;也可以是选取第一识别信息中的至少一个关键词,确定各关键词的置信度。 [0110] 在用户确认模块422中,根据第一识别信息的置信度对用户进行的提示,优选是,如果第一识别信息的置信度低于第一预设门限值,将第一识别信息显示供第一用户进行确认。或者,如果第一识别信息中至少一个关键词的置信度低于第二预设门限值,将关键词显示供第一用户进行确认。 [0111] 在信息翻译模块43中,将第一识别信息由第一用户所使用的语种翻译成为第二用户使用的语种,例如,对中文的第一识别信息进行翻译,获得英文的第一翻译信息。两个用户可以分别使用两个配置有在线语音翻译装置的终端,则第一用户的终端可以通过有线网络或无线网络输出第一翻译信息给第二用户的终端。 [0112] 在关联信息提取模块44中,第二用户反馈的第二信息仍然可以通过终端之间的交互返回给第一用户的终端。第一翻译信息的关联信息是能够矫正第一翻译信息正确性的信息。例如,与第一翻译信息满足设定相似度的单字、词组,或者,与第一翻译信息具备设定逻辑关联的信息,如针对第一翻译信息的反问信息。 [0113] 在关联信息提取模块44中,包括关键词匹配子模块441,用于将第二用户反馈的第二信息与第一翻译信息,进行关键词相似度匹配,提取匹配的关键词作为第一翻译信息的关联信息。例如,第一用户说“从北京到天津怎么走?”,若第二用户反问“去哪”,就说明此处对天津的翻译可能有误,使得第二用户无法理解,则通过将第二信息“去哪”与第一翻译信息“从北京到天津怎么走?”进行相似度匹配,获取第二用户更为关注的信息,作为需纠正的信息。 [0114] 在信息修正模块45中,可以对全部第一翻译信息进行修正并输出,确保不会遗漏信息。也可以将第一翻译信息中的一部分进行修正并输出,例如,其中的一些关键词,相对于翻译一段信息而言,翻译关键词的准确率较高,从而可以提高修正的正确率。而且处理部分字或者词的数据处理量较小,可以提高对第一翻译信息进行修正并输出的效率。具体的可以通过有线网络或者无线网络向第二用户进行输出。从而,无需再将第一翻译信息显示给第一用户进行确认,而是可以由装置自动完成翻译信息的修正,提高了翻译的准确性。 [0115] 本实施例四公开的在线语音翻译装置,通过提示第一用户对第一识别信息识别结果进行确认,避免了识别语音过程中会出现错误,提高了识别信息准确率;并且,通过依据在第二用户反馈的第二信息,提取第一翻译信息的关联信息,对第一翻译信息进行修正并输出,从而提高了跨语言翻译的准确率。 [0116] 实施例五 [0117] 图5为本发明实施例五提供的一种在线语音翻译装置的结构示意图。在实际双方交流的过程中,对话内容是基于一定的对话场景以及对话规则产生的。所以,本发明实施例五在本发明实施例四的基础上,基于对话场景及对话规则对在线语音翻译过程进行优化,本实施例提供的一种在线语音翻译装置,包括: [0118] 第一识别信息模块51、对话场景确定模块52、置信度确定模块53、用户确认模块54、信息翻译模块55、语言规则子模块56和信息修正模块57。 [0119] 第一识别信息模块51,用于对第一用户输入的第一语音信息进行语音识别,获得第一识别信息;对话场景确定模块52,用于根据第一识别信息确定当前对话场景,或根据第一用户已确认的历史识别信息中的关键词识别当前对话场景;置信度确定模块53,用于确定第一识别信息的置信度;用户确认模块54,用于根据第一识别信息的置信度提示第一用户对第一识别信息进行确认;信息翻译模块55,用于对确认的第一识别信息进行翻译,获得第一翻译信息并输出;语言规则子模块56,用于根据当前对话场景中的关键词和、或语言规则,从第二信息中提取第一翻译信息的关联信息;信息修正模块57,用于根据关联信息对第一翻译信息进行修正并输出。 [0120] 在对话场景确定模块52中,可以预先设定一些对话场景,及其确定规则。例如,娱乐信息场景、商务会谈场景、学术讨论场景、火车站交谈场景、飞机场交谈场景等。可以根据第一识别信息中的关键词确定当前对话场景,例如关键词为景点地名时,确定当前对话场景为旅游场景。也可以根据第一用户在预设时间段内确认的历史识别信息中的关键词识别当前对话场景。在第一用户对第一识别信息进行确认之前确认的信息为历史识别信息。当然,对话场景也可以由用户进行选择。 [0121] 在置信度确定模块53中,当前对话场景中关键词是在该场景下的常用词汇,或是该场景下的罕见词汇。所以,可以将第一识别信息与当前对话场景的关键词进行比对。根据所包括的常用词汇和/或罕见词汇的概率确定置信度。语言规则可以是语法规则,语言规则可以包括但不限于时间、地点、人物和事件。 [0122] 在用户确认模块54中,可以通过视觉方式提示第一用户对第一识别信息进行确认,例如在显示界面上弹出窗口和显示确定键等方式,也可以通过听觉方式提示第一用户对第一识别信息进行确认,例如播放提示语音信息。 [0123] 通过本实施例五公开的在线语音翻译装置,增加了对话的场景管理,进一步优化了置信度确定和关联信息确定的准确率。 [0124] 上述在线语音翻译装置可执行本发明任意实施例所提供的在线语音翻译方法,具备相应的功能模块和有益效果。 [0125] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。 |