语音合成设备、语音合成方法及其存储介质专利检索-语音信号音频信号广播专利检索查询-专利查询网

语音合成设备、语音合成方法及其存储介质

阅读：859发布：2020-05-08

专利汇可以提供语音合成设备、语音合成方法及其存储介质专利检索，专利查询，专利分析的服务。并且一种语音合成设备包括：语音输入器(102)，其被配置为输入语音；获取器(22)，其被配置为获得对语音输入器(102)输入的语音的首次答复；分析器(112)，其被配置为分析该首次答复是否包括重复目标；以及语音合成器(24)，其被配置为在所分析的首次答复被确定为包括重复目标的情况下，根据包括重复至少两次的重复目标的二次答复来合成语音以输出语音。，下面是语音合成设备、语音合成方法及其存储介质专利的具体信息内容。

权利要求

1.一种语音合成设备，包括：
语音输入器，其被配置为输入语音；
获取器，其被配置为获得对所述语音输入器输入的语音的首次答复；
分析器，其被配置为分析所述首次答复是否包括重复目标；以及
语音合成器，其被配置为在所分析的首次答复被确定为包括所述重复目标的情况下，根据包括重复至少两次的所述重复目标的二次答复来合成语音以输出所述语音,其中，所述重复目标是具有2个以下音节的感叹词，
其中，所述分析器被配置为：
确定所述首次答复是否包括感叹词；以及
在确定所述首次答复包括感叹词的情况下，分析所述感叹词中的音节数量是否为2个以下。
2.根据权利要求1所述的语音合成设备，
其中，所述获取器包括：
语言分析器，其被配置为分析所述语音输入器输入的语音的含义；以及首次答复生成器，其被配置为生成对所述语言分析器分析的含义做出回应的首次答复。
3.根据权利要求1所述的语音合成设备，还包括：重复器，其被配置为在所述分析器确定所述首次答复中所包括的感叹词中的音节数量为2个以下的情况下，重复所述感叹词至少两次，并且输出所重复的感叹词。
4.根据权利要求2所述的语音合成设备，还包括：重复器，其被配置为在所述分析器确定所述首次答复中所包括的感叹词中的音节数量为2个以下的情况下，重复所述感叹词至少两次，并且输出所重复的感叹词。
5.根据权利要求3所述的语音合成设备，
其中，所述语音合成器被配置为：
在所述首次答复中所包括的感叹词中的音节数量为2个以下的情况下，根据包括有已通过所述重复器进行重复的感叹词的所述二次答复来对语音进行合成；以及在所述首次答复中所包括的感叹词中的音节数量为3个以上的情况下，将所述首次答复当作所述二次答复并且根据该二次答复对语音进行合成。
6.根据权利要求4所述的语音合成设备，
其中，所述语音合成器被配置为：
在所述首次答复中所包括的感叹词中的音节数量为2个以下的情况下，根据包括有已通过所述重复器进行重复的感叹词的所述二次答复来对语音进行合成；以及在所述首次答复中所包括的感叹词中的音节数量为3个以上的情况下，将所述首次答复当作所述二次答复并且根据该二次答复对语音进行合成。
7.根据权利要求5所述的语音合成设备，
其中，所述语音合成器包括：
语音序列生成器，其被配置为根据所述二次答复来生成语音序列；以及合成器，其被配置为输出基于所述语音序列而合成的语音信号。
8.根据权利要求6所述的语音合成设备，
其中，所述语音合成器包括：
语音序列生成器，其被配置为根据所述二次答复来生成语音序列；以及合成器，其被配置为输出基于所述语音序列而合成的语音信号。
9.根据权利要求2所述的语音合成设备，
其中，所述语音合成设备在第一模式下或在第二模式下进行操作，
其中，所述首次答复生成器被配置为：在所述第一模式下，生成包括有感叹词和特定内容的所述首次答复，并且在所述第二模式下，生成仅包括感叹词或仅包括所述特定内容的首次答复。
10.根据权利要求5所述的语音合成设备，
其中，所述语音合成设备能够在禁止模式下进行操作，
其中，所述语音合成器被配置为在所述禁止模式下，在不重复具有2个以下音节的感叹词的情况下对语音进行合成。
11.根据权利要求6所述的语音合成设备，
其中，所述语音合成设备能够在禁止模式下进行操作，
其中，所述语音合成器被配置为在所述禁止模式下，在不重复具有2个以下音节的感叹词的情况下对语音进行合成。
12.根据权利要求7所述的语音合成设备，
其中，所述语音合成设备能够在禁止模式下进行操作，
其中，所述语音合成器被配置为在所述禁止模式下，在不重复具有2个以下音节的感叹词的情况下对语音进行合成。
13.根据权利要求8所述的语音合成设备，
其中，所述语音合成设备能够在禁止模式下进行操作，
其中，所述语音合成器被配置为在所述禁止模式下，在不重复具有2个以下音节的感叹词的情况下对语音进行合成。
14.根据权利要求9所述的语音合成设备，
其中，所述语音合成设备能够在禁止模式下进行操作，
其中，所述语音合成器被配置为在所述禁止模式下，在不重复具有2个以下音节的感叹词的情况下对语音进行合成。
15.根据权利要求10所述的语音合成设备，其中，所述重复器被配置为在所述禁止模式下，取消重复具有2个以下音节的感叹词的功能。
16.根据权利要求11所述的语音合成设备，其中，所述重复器被配置为在所述禁止模式下，取消重复具有2个以下音节的感叹词的功能。
17.根据权利要求12所述的语音合成设备，其中，所述重复器被配置为在所述禁止模式下，取消重复具有2个以下音节的感叹词的功能。
18.根据权利要求13所述的语音合成设备，其中，所述重复器被配置为在所述禁止模式下，取消重复具有2个以下音节的感叹词的功能。
19.根据权利要求14所述的语音合成设备，其中，所述重复器被配置为在所述禁止模式下，取消重复具有2个以下音节的感叹词的功能。
20.一种语音合成方法，包括：
输入语音；
获得对所输入的语音的首次答复；
分析所述首次答复是否包括重复目标；以及
在所分析的首次答复被确定为包括所述重复目标的情况下，根据包括有重复至少两次的所述重复目标的二次答复来合成语音以输出所述语音,
其中，所述重复目标是具有2个以下音节的感叹词，
其中，所述分析所述首次答复是否包括重复目标包括：
确定所述首次答复是否包括感叹词；以及
在确定所述首次答复包括感叹词的情况下，分析所述感叹词中的音节数量是否为2个以下。
21.一种非暂时性计算机可读存储介质，其上存储有计算机程序，所述程序用于使得计算机用作：
语音输入器，其被配置为输入语音；
获取器，其被配置为获得对所述语音输入器所输入的语音的首次答复；
分析器，其被配置为分析所述首次答复是否包括重复目标；以及
语音合成器，其被配置为在所分析的首次答复被确定为包括所述重复目标的情况下，根据包括有重复至少两次的所述重复目标的二次答复来合成语音以输出所述语音，其中，所述重复目标是具有2个以下音节的感叹词，
其中，所述分析器被配置为：
确定所述首次答复是否包括感叹词；以及
在确定所述首次答复包括感叹词的情况下，分析所述感叹词中的音节数量是否为2个以下。

说明书全文

语音合成设备、语音合成方法及其存储介质

技术领域

[0001] 本发明涉及一种语音合成设备、一种语音合成方法及其存储介质。

背景技术

[0002] 在近来已提出的各种语音合成技术当中，包括了以下示例：一种用于合成并输出与用户的话音音调或发音特质相对应的语音的技术，其目的是为了使得所得到的语音更加像人的声音(例如，参考专利文献1)；以及一种用于分析用户的语音并从而诊断用户的心理或身体状态的技术(例如，参考专利文献2)。也提出了一种交互式语音系统，其用于识别用户输入的语音，并且用于对场景指定的内容进行语音合成和输出以使得能够与用户进行语音交互(例如，参考专利文献3)。

[0003] 相关技术文献

[0004] 专利文献

[0005] 专利文献1：日本专利申请公开公布第2003-271194号

[0006] 专利文献2：日本专利第4495907号

[0007] 专利文献3：日本专利第4832097号

发明内容

[0008] 本发明要解决的问题

[0009] 当对所述的语音合成技术和交互式语音系统进行结合时，可以设想如下的一种语音合成设备：其响应于用户的语音而搜索数据并对输出语音进行合成。已就这种语音合成设备而指出的一个缺点在于，所输出的合成语音被用户感知为非常不自然；更具体地，所输出的语音听起来就像机器在说话。

[0010] 鉴于这些状况，本发明的目的在于提供能够产生用户能够感知为自然声音的语音的语音合成设备、语音合成方法及其程序。

[0011] 解决问题的手段

[0012] 为了实现所述目的，根据本发明的一方面的语音合成设备包括：语音输入器，其被配置为输入语音；获取器，其被配置为获得对语音输入器输入的语音的首次答复；分析器，其被配置为分析该首次答复是否包括重复目标；以及语音合成器，其被配置为在所分析的首次答复被确定为包括重复目标的情况下，根据包括重复了至少两次的重复目标的二次答复来合成语音以输出语音。在根据本发明的一方面所述的语音合成设备中，当首次答复包括重复目标时，重复该重复目标并且根据所重复的重复目标来合成语音以将其输出。因此，所输出的语音被用户感知为自然声音，达到了给用户留下他们正与人类进行交谈的印象的程度。

[0013] 在根据本发明的一方面所述的语音合成设备中，重复目标可以是具有2个以下音节的感叹词，并且分析器可以确定首次答复是否包括感叹词，并且在确定首次答复包括感叹词的情况下，分析器可以分析感叹词中的音节数量是否为2个以下。

[0014] 在根据本发明的一方面的语音合成设备中，获取器可以包括：语言分析器，其被配置为分析语音输入器输入的语音的含义；以及首次答复生成器，其被配置为生成对语言分析器分析的含义做出回应的首次答复。通过该配置，对针对输入语音的适当答复进行语音合成和输出。

[0015] 根据本发明的一方面的语音合成设备还可以包括：重复器，其被配置为在确定首次答复包括重复目标的情况下，重复该目标至少两次，并且输出所重复的目标。通过该配置，语音合成设备可以对用户给出用户正与人谈话的印象，其中，包括重音，并且尝试与用户建立友好关系。

[0016] 在语音合成设备包括重复器的配置中，语音合成器可以进行如下操作：在首次答复中所包括的感叹词中的音节数量为2个以下的情况下，根据包括有已通过重复器进行重复的感叹词的二次答复来对语音进行合成；并且在首次答复中所包括的感叹词中的音节数量为3个以上的情况下，将首次答复当作二次答复并且根据二次答复对语音进行合成。当首次答复中所包括的感叹词的音节数量为2个以下时，在二次答复中重复感叹词并且根据二次答复对语音进行合成。当首次答复中所包括的感叹词中的音节数量为3个以上时，将首次答复当作二次答复并且根据二次答复对语音进行合成。

[0017] 语音合成器可以包括：语音序列生成器，其被配置为根据答复来生成语音序列；以及合成器，其被配置为输出基于语音序列而合成的语音信号。

[0018] 根据本发明的一方面的语音合成设备可以在第一模式下或在第二模式下进行操作。在第一模式下，首次答复生成器可以被配置为生成包括有感叹词和特定内容的首次答复；而在第二模式下，首次答复生成器被配置为生成仅包括感叹词或仅包括特定内容的首次答复。在第一模式下，生成包括感叹词和特定内容的二次答复，并且当感叹词中的音节的数量为2个以下时，重复感叹词。以该方式，可以与用户建立更好的友好关系。

[0019] 根据本发明的一方面的语音合成设备可以在禁止模式下进行操作。在禁止模式下，语音合成器可以在不重复具有2个以下的音节的感叹词的情况下对语音进行合成。其原因是，取决于不同的语境，仅仅对感叹词的重复偶尔可能使得用户感到不适。禁止模式的使用使得能够降低引起用户不适的风险。在该配置中，在禁止模式下，重复器可以被配置为取消重复具有2个以下音节的感叹词的功能。

[0020] 除了语音合成设备外，本发明可以被理解为包括语音合成方法、使得计算机起到语音合成设备的作用的程序以及其上存储有该程序的计算机可读存储介质。附图说明

[0021] 图1是示出根据第一实施例的语音合成设备的配置的图。

[0022] 图2是示出语音合成设备的功能配置的框图。

[0023] 图3是示出根据第一实施例的语音合成设备的操作的流程图。

[0024] 图4A是示出用户提出的示例问题的图。

[0025] 图4B是示出语音合成设备合成的示例答复的图。

[0026] 图5A是示出用户提出的示例问题的图。

[0027] 图5B是示出语音合成设备合成的示例答复的图。

[0028] 图6是示出根据第二实施例的语音合成设备的配置的图。

[0029] 图7是示出根据第二实施例的语音合成设备的操作的流程图。

[0030] 图8是示出语音合成设备合成的示例答复的图。

[0031] 图9是示出语音合成设备合成的示例答复的图。

具体实施方式

[0032] 首先将描述根据实施例的语音合成设备的概述。

[0033] 假设在人们进行对话期间，一个人(人“a”)问了问题并且另一人(人“b”)对这些问题做出回应。在这样的状况中，当人“a”提出问题并且人“b”对该问题做出回应时，人“b”有时重复一部分或全部答复而不是仅仅按原样提供答复。例如，在日文中，当人“a”问了问题并且人“b”打算提供肯定答复[ha-i](这里，应注意，声音以罗马字母示出并按音节划分。以下，由方括号“[]”括起的语句按音节划分，并且该形式也可应用于附图中。)时，人“b”有时重复该答复，并因而做出[ha-i-ha-i]的答复，而不是仅仅做出[ha-i]的答复。

[0034] 也存在人“b”不重复对人“a”提出的问题的答复的情况。例如，当人“a”问了问题并且人“b”打算以日文[i-i-e]提供否定答复时，人“b”几乎不会如以[i-i-e-i-i-e]那样通过重复[i-i-e]进行答复。

[0035] 尽管事实上可能不存在答复的语义变化，但是取决于对象语言，答复与重复之间的关系可能是相反的。例如，当人“b”以英文“yes(是)”提供肯定答复时，人“b”几乎不会通过如以“yes,yes(是、是)”那样重复“yes(是)”来进行答复。另一方面，当人“b”以英文“no(不)”提供否定答复时，人“b”有时会通过如以“no,no(否、否)”那样重复“no(否)”来进行答复。

[0036] 在另一种情况下，当人“a”用日文“asu wa hare？”(翻译为英文是“Will be sunny tomorrow(明天是晴天吗)？”)问了问题，并且人“b”打算用日文提供答复[ha-i ha-re-de-su](英文的语义内容为“Yes,it will be sunny(是，将是晴天)”)时，人“b”有时会通过如以[ha-i-ha-i ha-re-de-su]那样重复[ha-i]来进行答复。然而，当人“b”以英文“Yes,it will be sunny tomorrow(是的，明天将是晴天)”用相同的语义内容来进行答复时，人“b”几乎不会通过如以“Yes,yes,it will be sunny tomorrow(是的、是的，明天将是晴天)”那样重复“yes(是)”来进行答复。

[0037] 这里，本发明的发明人认为，关于是否重复答复的部分或全部的重要确定因素是：答复中所包括的感叹词中的音节数量是否为2个以下。

[0038] 这是因为，如在上述示例中那样，重复各个具有2个以下的音节的感叹词(诸如，日文中的[ha-i]或英文中的“no(否)”)，而极少重复各个具有3个以上的音节的感叹词(诸如，日文中的[i-i-e]或英文中的“yes(是)”)。

[0039] 因而，重要的是首先考虑存在于感叹词中的音节数量，而与答复的语言或语义内容(诸如肯定或否定内涵)无关。

[0040] 大概地，重复具有2个以下音节的感叹词的原因包括：鉴于所使用的词的简明性来自然地且不自觉地进行强调；建立友好关系；传达说话者对其他人所做出的陈述表示同感或者给出肯定加强；以及避免给予冷漠的印象。

[0041] 这里，感叹词是不具有任何词形变化的词，并且本身可以用来构成句子。感叹词可以包括对情绪、答复或称呼其他人的表达。感叹词的其他示例包括诸如日文中的[fu-mu]或[so-u]、英文中的“Ah”或“Oh”或者中文中的[shi(是)]或[ming-ba-i(明白)]的非正式反馈，并且还包括如稍后所述的动物的呼叫。

[0042] 音节是说出的声音被划分成的分节。音节是通常由单个元音、或者附于元音的头部和/或尾部的一个或多个辅音构成的声音(或声音组)，如在以下描述的模式1至4中那样。音节是指当听见时的一元化的声音。

[0043] 1.元音(V)

[0044] 2.辅音+元音(CV)

[0045] 3.元音+辅音(VC)

[0046] 4.辅音+元音+辅音(CVC)

[0047] 日文中的音节包括落入模式1或2内的音节，但不包括落入模式3或4内的音节。

[0048] 应注意，模式1至4包括对音节进行分类的一种示例方法。根据语言，对一元化声音的感知可以基于辅音而不是元音。在诸如中文的带声调的语言中，每个音节可以由元音与辅音的组合以及通过元音的音调的变换而产生的声调构成。

[0049] 如上所述，当人们在交谈时，如下情况发生：人“b”通过重复具有2个以下音节的感叹词来对人“a”提出的问题进行答复。为了向用户提供用户正与人交谈的印象，总的来说，根据本发明的实施例的语音合成设备被配置为对语音进行合成以输出对用户提出的问题的答复，其中，如果感叹词中的音节数量为2个以下，则重复包括在答复中的感叹词至少两次。

[0050] 如上所述，重复各个由2个以下音节组成的感叹词的原因包括：这样的感叹词如此简单以至于它们自然地且不自觉地倾向于被强调。因而，各个由2个以下音节组成的简单单词，不论这些单词是否为感叹词，都倾向于被重复。此外，可能存在为了确认而自然地且不自觉地重复具有3个以上音节的感叹词的情况。稍后将给出进一步考虑这些趋势的描述。

[0051] 以下，将参照附图描述根据实施例的语音合成设备的细节。

[0052] 第一实施例

[0053] 图1是示出根据第一实施例的语音合成设备10的硬件配置的图。

[0054] 语音合成设备10例如是诸如移动电话的终端装置，并且包括中央处理单元(CPU)11、存储器12、显示器13、触摸面板14、语音输入器102、通信器126和语音输出器142。

[0055] CPU 11控制整个语音合成设备10。存储器12被用作CPU 11的主要存储装置，并且存储用于语音合成的应用程序、各种数据等。显示器13例如是液晶显示装置，并且显示各种画面，诸如进行配置和操作所需的画面。触摸面板14检测显示器13显示的画面上的触摸位置并输出指示所检测到的触摸位置的信息。

[0056] 语音输入器102由诸如以下的元件构成：将语音转换成电信号的麦克风、从所转换的语音信号中截止高频分量的低通滤波器(LPF)以及将高频分量被截止的语音信号转换成数字信号的A/D转换器(省略了对语音输入器102的详细描述)。通信器126经由互联网等与外部服务器进行通信。语音输出器142由诸如以下的元件构成：将合成的语音信号转换成模拟信号的D/A转换器、对已转换成模拟信号的语音信号进行放大的放大器以及对放大后的信号进行声学转换并将其输出的扬声器。

[0057] 语音合成设备10被配置为通过执行应用程序来实现语音合成和输出对用户提出的问题的答复的功能。换言之，语音合成设备10由与应用程序一起进行操作的处理装置(诸如CPU)来实现。

[0058] 该应用程序可以经由互联网从特定网站下载以安装在终端装置上，或者可以预先存储在诸如存储卡的计算机可读存储介质上以安装在终端装置上。

[0059] 在语音合成设备10中，CPU 11通过执行应用程序来构建以下功能块。

[0060] 图2是示出语音合成设备10的功能配置的框图。

[0061] 如该图中所示，语音合成设备10包括获取器22、语音合成器24、分析器112、重复器114、语言数据库122、答复数据库124和语音库128。获取器22包括语言分析器108和首次答复生成器110，语音合成器24包括语音序列生成器116和合成器118。以上已给出了对语音输入器102、通信器126和语音输出器142的描述。

[0062] 语言分析器108通过处理语音信号来分析(识别)语音输入器102输入的语音的语义内容。更具体地，语言分析器108通过参考在语言数据库122中预先创建的音素模型来分析单词的语音内容，以确定语音信号接近哪些音素。例如，隐马尔可夫模型可以用于音素模型。

[0063] 首次答复生成器110参考答复数据库124和通信器126中的每一个以生成首次答复的文本再现，该首次答复对语言分析器108所分析的语音的语音内容进行答复。

[0064] 例如，假设存在“现在是几点？”的问题。作为对该问题的响应，首次答复生成器110从内置的实时时钟(附图中未示出)获得时间信息以及从答复数据库124获得其他信息(例如，固定短语)以生成首次答复“现在是xx:xx”。

[0065] 作为另一示例，假设存在问题“明天的天气如何？”。语音合成设备10无法通过自身来生成首次答复，并且需要访问外部服务器以获得天气信息。如在该情况中，当首次答复生成器110无法仅仅使用答复数据库124来生成首次答复时，通信器126经由互联网访问外部服务器，并且首次答复生成器110获得生成首次答复所需的信息。如目前所述的那样，首次答复生成器110被配置为从答复数据库124或外部服务器获得对问题进行答复的首次答复。

[0066] 在已获得所需信息的情况下，首次答复生成器110使用固定短语来生成诸如“这是xxx”的首次答复以对问题进行答复。在一些情况下，作为生成具有对问题进行答复的特定内容的首次答复的替代，首次答复生成器110可以利用诸如“是”或“不是”的简单肯定/否定答案或诸如“确实如此”或“很好”的非正式反馈来生成感叹词作为首次答复。

[0067] 这里所使用的术语“首次答复”是指首次答复生成器110生成的答复，以及是指尚未重复感叹词的答复。这样命名首次答复是为了将其与用于最终进行语音合成的二次答复区分开。

[0068] 分析器112首先确定首次答复生成器110生成的首次答复是否包括感叹词。在首次答复包括感叹词的情况下，则分析器112分析感叹词中的音节数量。

[0069] 在分析器112确定首次答复包括感叹词并且感叹词中的音节数量为2个以下的情况下，分析器112将首次答复提供至重复器114。在分析器112确定首次答复不包括感叹词或包括在首次答复中的感叹词中的音节数量为3个以上的情况下，分析器112将首次答复当作二次答复并从而将作为二次答复的首次答复输出至语音序列生成器116。

[0070] 例如当首次答复生成器110生成的首次答复是诸如“将会是晴天”的陈述时，分析器112确定首次答复不包括感叹词。相反，在首次答复由日文单词[ha-i]组成的情况下，分析器112确定首次答复包括感叹词并且进一步确定感叹词中的音节数量为2个以下。在首次答复为日文单词[i-i-e]的情况下，分析器112确定首次答复包括感叹词并且确定感叹词中的音节数量为3个以上。

[0071] 类似地，在所生成的首次答复是英文单词“yes(是)”的情况下，分析器112确定首次答复包括感叹词并且确定感叹词中的音节数量为3个以上。在首次答复为英文单词“no(否)”的情况下，分析器112确定首次答复包括感叹词并且确定感叹词中的音节数量为2个以下。

[0072] 为了确定首次答复是否包括具有2个以下音节的感叹词，分析器112可以分析首次答复的文本再现，或者可以适用以下方法。具体地，首次答复生成器110可以按照使得首次答复中的感叹词与首次答复中的其他部分可区分开的方式来生成首次答复。分析器112可以预先存储有各个具有2个以下音节的不同的感叹词，并且当首次答复包括与预先存储的感叹词中的任一个匹配的可区分感叹词时，可以确定所生成的首次答复包括具有2个以下音节的感叹词。当首次答复不包括可区分感叹词时，或者当包括在首次答复中的可区分感叹词与预先存储的感叹词中的任一个均不匹配时，分析器112可以确定首次答复不包括具有2个以下音节的感叹词。

[0073] 重复器114多次(在第一实施例中为两次)重复具有2个以下音节的感叹词，并且输出重复的感叹词作为要根据其来合成语音的二次答复。在上述示例中，当首次答复生成器110生成的首次答复由日文单词[ha-i]组成时，重复器114重复[ha-i]两次并且输出二次答复[ha-i-ha-i]。当首次答复由英文单词“no(否)”组成时，重复器114重复“no(否)”两次并输出二次答复“no,no(否、否)”。

[0074] 语音序列生成器116根据重复器114重复感叹词的二次答复或者根据从分析器112输出的二次答复来生成语音序列。语音序列生成器116将所生成的语音序列提供至合成器118。

[0075] 这里的术语“语音序列”是指用于根据二次答复对语音进行合成的数据。具体地，语音序列由用于指定根据二次答复要生成语音的时机、音调和音量的数据组成。

[0076] 合成器118基于语音序列来对语音进行合成，并且以数字形式输出合成的语音信号。

[0077] 这里，例如，合成器118以如下方式对语音进行合成。合成器118将由语音序列定义的答复的内容转换成语音单位的序列，并且从语音库128选择与各个语音单位对应的语音单位数据。在校正语音单位数据之间的联结以平滑地连接语音单位数据的同时，合成器118在对语音进行合成时针对所连接的语音单位数据将各个音调和音量改变为与由语音序列指定的音调和音量一致。

[0078] 这里，语音库128是根据语音单位数据来预先编译的数据库，该语音单位数据用于限定各种语音单位的波形，语音单位包括生成语音时用作材料的各个音素和音素之间的变换。

[0079] 接下来，将描述语音合成设备10的操作。图3是示出语音合成设备10中的处理的流程图。

[0080] 当用户执行特定操作时，例如，当用户在显示器13上所显示的主菜单画面上选择与交互式处理对应的图标时，CPU 11使得与该处理对应的应用程序被执行。作为执行应用程序的结果，构造图2所示的功能块。

[0081] 当用户通过语音对语音输入器102提出问题时，即，当用户将语音输入到语音输入器102中时，语音输入器102将语音转换成数字语音信号并将该信号提供至语言分析器108(步骤Sa11)。

[0082] 接下来，语言分析器108分析问题的语音信号并将其含义作为文本提供至首次答复生成器110(步骤Sa12)。

[0083] 首次答复生成器110通过参考答复数据库124并且还通过参考根据需要经由通信器126从外部服务器获得的信息来生成对所分析的语音做出回应的首次答复，并且将所生成的首次答复提供至分析器112(步骤Sa13)。

[0084] 分析器112确定所生成的首次答复是否包括感叹词，并且如果肯定，则进行至确定感叹词中的音节数量是否为2个以下(步骤Sa14)。当确定结果为“是”时，分析器112将首次答复提供至重复器114。重复器114重复具有2个以下音节的感叹词两次，并且将所重复的感叹词提供至语音序列生成器116作为对语音进行合成所依据的二次答复(步骤Sa15)。

[0085] 另一方面，当所生成的首次答复不包括感叹词时，或者当包括在首次答复中的感叹词的音节数量为3个以上时(即，当在步骤Sa14中的确定结果为“否”时)，分析器112将首次答复直接提供至语音序列生成器116作为对语音进行合成所依据的二次答复。

[0086] 语音序列生成器116生成与已从首次答复生成器110或重复器114输出的二次答复对应的语音序列，并且将语音序列提供至合成器118(步骤Sa16)。这里，由语音序列指定的、要说出答复的时机以及答复的音调和/或音量等可以从数据库中获得(在附图中省略了图示)。

[0087] 合成器118根据语音序列生成器116生成的语音序列来根据二次答复对语音进行合成(步骤Sa17)。虽然在图中未示出，但是在根据二次答复对语音进行合成和输出之后，CPU 11终止应用程序的执行，并且再次显示菜单画面。

[0088] 图4A是用户提出的示例问题的图片表示，图4B是对问题的示例答复的图片表示，该答复已由语音合成设备10合成。

[0089] 如图4A所示，假设用户W将问题“asu wa hare？”(换言之，请求确认明天是否会是晴天的语音)输入到作为终端装置的语音合成设备10中。在这种情况下，我们假设首次答复生成器110生成的对问题的首次答复为作为确认的日文单词[ha-i]，因为经由外部服务器获得的天气信息表明是“晴天”。该首次答复包括感叹词，并且该感叹词中的音节数量为2个。因此，如图4B所示，重复确认[ha-i]并且对语音进行合成以产生[ha-i-ha-i]。因此，作为对用户的问题的响应，用户W听见与机械答复相反的自然发声，因而，如同用户W正与人进行交谈。此外，作为重复感叹词的结果，可以与用户W建立更良好的关系。

[0090] 图5A是用户提出的另一示例问题的图片表示，图5B是对问题的示例答复的图片表示，该答复已由语音合成设备10合成。

[0091] 在图5A中，假设用户W将问题“asu no tenki wa？”(换言之，请求关于明天的天气将会怎样的特定信息的问题)输入到语音合成设备10中。在这种情况下，假设首次答复生成器110生成的首次答复是日文短语[ha-re-de-su]，因为经由外部服务器获得的天气信息表明是“晴天”。由于首次答复不包括感叹词，因此按原样对语音进行合成以产生[ha-re-de-su]，如图5B所示。

[0092] 这里，日文短语[ha-re-de-su]在英文上意思是“It will be sunny(会是晴天)”。

[0093] 第二实施例

[0094] 接下来，将给出对第二实施例的描述。以下，用于表示第一实施例中的元件的附图标记用于表示相同或类似元件，并且适当地省略对这样的元件的详细描述。

[0095] 图6是示出根据第二实施例的语音合成设备10的配置的框图。图6不同于图2之处在于，首次答复生成器110根据在模式设置器130处已配置的模式来生成对语言分析器108分析的问题做出答复的首次答复的文本再现。在第二实施例中，模式设置器130输出用户设置的模式作为CPU 11对从触摸面板14输出的信息执行的处理的结果(参见图1)。

[0096] 在第二实施例中，存在可对首次答复生成器110进行配置的2种类型的模式：第一模式和第二模式。在第一模式下，即使当生成仅仅包括感叹词的首次答复就足以对用户提出的问题做出回应时，首次答复生成器110也生成包括该感叹词和附于感叹词的末尾的具体内容的首次答复。在第二模式下，当生成仅仅包括感叹词的首次答复就足以对用户提出的问题做出回应时，首次答复生成器110生成仅仅包括该感叹词的首次答复。在第二模式下，当生成仅仅包括感叹词的首次答复并不足以对该问题做出回应时，首次答复生成器110生成仅仅包括对该问题做出回应的特定内容的首次答复。

[0097] 例如，假设提出问题“asu wa hare？”(“明天会是晴天吗？”)。如果已设置第一模式，则例如当答复是日文并且为肯定时，首次答复生成器110生成的首次答复将是[ha-i ha-re-de-su](“是的，会是晴天”)。换言之，首次答复生成器110生成包括日文感叹词[ha-i]和在感叹词之后的、对问题做出回应的具体内容(即，日文短语[ha-re-de-su])的首次答复。

[0098] 在该示例中，如果已设置第二模式，则例如当答复是日文并且为肯定时，首次答复生成器110生成的首次答复将是[ha-i](“是”)。即，首次答复将仅包括感叹词。假设在第二模式下问了问题“asu no tenki wa？”(“明天会是什么天气？”)。在该情况下，当经由外部服务器获得的天气信息表明是“晴天”时，如在第一实施例中那样，当答复是日文时，首次答复生成器110生成的首次答复将是[ha-re-de-su](“将是晴天”)。

[0099] 接下来，将描述第二实施例的操作。

[0100] 图7是示出语音合成设备10中的处理的流程图。

[0101] 图7不同于图3之处在于，例如，首次答复生成器110在步骤Sa11之前的步骤Sa10中取回所配置的模式，并且在步骤Sa13中，根据所配置的模式，首次答复生成器110生成对语言分析器108分析的语音的含义做出回应的首次答复的文本再现。

[0102] 在第二实施例中，在步骤Sa14中，如以上在第一实施例中所述，分析器112在第一模式或第二模式下分析首次答复生成器110生成的首次答复，并且如果确定首次答复确实包括感叹词，则分析器112分析感叹词中的音节数量是否为2个以下。

[0103] 图8是示出根据第二实施例的语音合成设备10合成的示例答复的图。在该示例中，假设用户W输入问题“asu wa hare？”(“明天将是晴天吗？”)，如图4A所示。

[0104] 在该情况下，当经由外部服务器获得的天气信息表明是“晴天”时，并且当已设置第一模式时，将生成日文的首次答复[ha-i ha-re-de-su](“是的，将是晴天”)。应注意，在第二实施例中，重复包括在该首次答复中的感叹词[ha-i]多次，在该示例中为两次，并且对问题做出回应的具体内容[ha-re-de-su]接在重复的感叹词之后。换言之，对语音进行合成以产生[ha-i-ha-i ha-re-de-su]。

[0105] 在第二实施例中，作为对用户W提出的问题的响应，对重复了具有2个以下音节的感叹词的答复进行语音合成，并且提供对问题进行确认的效果的具体内容接在重复的感叹词之后。以该方式，可以与用户W建立更良好的关系。

[0106] 在第二实施例中，当经由外部服务器获得的天气信息表明是“晴天”时，并且当已设置第二模式时，将仅仅生成感叹词，例如日文单词[ha-i]。相应地，重复该感叹词[ha-i]多次，在该示例中为两次，并且对语音进行合成以产生[ha-i-ha-i],如图4B所示。

[0107] 应用和变型

[0108] 本发明不限于所述的实施例，并且对包括以下描述的各种应用和变型是开放的。以下应用和变型中的至少一个可以适当地与所述实施例中的任一个进行结合。

[0109] 重复目标

[0110] 在实施例中，当首次答复包括具有2个以下音节的感叹词时，合成对感叹词重复至少两次的语音。如已所述的那样，各个具有2个以下音节的简单单词，不论这些单词是否为感叹词，都倾向于被重复。此外，甚至各个具有3个以上音节的感叹词也倾向于被重复。

[0111] 鉴于这些倾向，分析器112可以分析首次答复是否包括诸如以下所述的重复目标(单词)，并且在确定所分析的首次答复包括该目标的情况下，分析器112可以将首次答复提供至重复器114。

[0112] 第一重复目标可以是各个具有2个以下音节的感叹词，如在实施例中那样。第二重复目标可以是各个具有2个以下音节的简单单词，其中，简单单词不限于感叹词。第三重复目标可以是各个具有3个以上音节的感叹词。第一重复目标是最优选的，并且第二重复目标和第三重复目标是第一重复目标的替选。

[0113] 可以是如下情况：由于各个具有2个以下音节的简单单词本身简单，因此难以分析这些简单单词，并且各个具有3个以上音节且可以重复的感叹词的数量有限。在这样的情况下，分析器112可以分析例如预先存储的目标中的任一个是否包括在首次答复中。

[0114] 语音输入器等

[0115] 在实施例中，语音输入器102被配置为将通过麦克风输入的用户的语音转换成语音信号。替选地，语音输入器102可以被配置为输入已由另一处理器处理的语音信号或从另一装置提供(或传递)的语音信号。换言之，这样的布置对于语音输入器102的操作而言是足够的，只要输入器被配置为无论用何种方式都能获得语音即可。

[0116] 在实施例中，以文本格式生成对语音的语义内容进行回应的首次答复，但可以以除了文本外的数据格式(诸如，以声音波形数据格式)生成首次答复。当声音波形数据用于首次答复时，可以通过处理声音波形数据来分析重复目标的存在。在该情况下，优选的是将声音波形数据格式用于二次答复。

[0117] 这里，在如在实施例中那样以文本格式生成首次答复时存在优点。例如，增强了分析重复目标的精确性，并且由于二次答复也将具有文本格式，因此该方法便于对语音进行合成。

[0118] 此外，首次答复生成器110可以从外部服务器直接获得对输入的语音的首次答复，而不是通过参考答复数据库124中的固定短语来生成首次答复。换言之，这样的布置对于首次答复生成器110的操作而言是足够的，只要首次答复生成器110被配置为无论以何种方式都能获得对输入的语音的首次答复即可。

[0119] 禁止模式

[0120] 在实施例中，重复各个具有2个以下音节的感叹词两次。然而，在一些情况下，例如当重复[ha-i]并且对语音进行合成和输出以产生[[ha-i-ha-i]时，这样的答复可能听起来无礼，结果，可能在不同语境下对用户引起不适感。

[0121] 鉴于这样的状况，语音合成设备10可以设置有禁止重复感叹词的操作模式(禁止模式)。在禁止模式下，取消重复感叹词的功能。在取消重复感叹词的功能的示例配置中，当已设置禁止模式时，重复器114可以被配置为禁止重复感叹词的功能。替选地，当已设置禁止模式时，分析器112可以被配置为：即使当包括在首次答复中的感叹词中的音节数量为2个以下时，也将首次答复生成器110生成的首次答复直接提供至语音序列生成器116，而不是将首次答复提供至重复器114。总之，语音合成设备10被配置为不重复各个具有2个以下音节的感叹词。

[0122] 以该方式，甚至当首次答复生成器110生成的首次答复为具有2个以下音节的[ha-i]时，也不重复[ha-i]，因而，将对语音进行合成以产生[ha-i]仅一次，如由首次答复所表示的那样，如图9所示。

[0123] 禁止模式和第一模式或第二模式可以由用户手动设置，或者可以由设备根据分析输入的语音的内容和/或音量的结果、答复的内容、交谈的历史记录(或状况)等来自动配置。

[0124] 语音和答复

[0125] 虽然在实施例中基于人声对答复进行语音合成，但是除了人声外还可以使用动物的叫声。换言之，重复目标可以包括动物叫声以及人声。

[0126] 例如，当用户将指示“这是美好的一天”的语义内容的语音与语言无关地输入到语音合成设备10中时，语音合成设备10可以重复猫的“meow”声音并执行语音合成以输出例如声音“Meow,meow”。

[0127] 当语音合成设备10输出基于动物叫声而合成的声音时，用户不能获得他们希望的信息。例如，当用户问了问题“明天将是什么天气？”时，用户无法从这样的答复中获得明天的天气信息。然而，期望通过借助于动物叫声对用户提出的问题进行回应，语音合成设备10能够通过提供如同用户与再现动物叫声的虚拟动物进行交流的印象来向用户提供令人欣慰的效果。

[0128] 使用语音合成设备10来执行基于动物叫声的语音合成不限于终端装置，并且可适合于模仿再现动物叫声的动物的宠物机器人或者毛绒玩具。

[0129] 其他变型例

[0130] 在实施例中，对重复目标重复两次，但可以重复它们三次以上。

[0131] CPU 11可以基于输入的语音的内容和/或音量、答复的内容、交谈的历史记录(或状况)等来配置重复次数。

[0132] 在实施例中，一起构成用于获得对问题的首次答复的元件的语言分析器108、语言数据库122和答复数据库124包括在语音合成设备10中。然而，考虑到终端装置上的处理负荷将很重并且这样的装置具有相对有限的存储容量，这些元件可以包括在外部服务器中。换言之，这样的布置对于语音合成设备10的操作而言是足够的，只要该设备被配置为无论以何种方式都能获得对问题的首次答复即可，并且没有规定首次答复是由语音合成设备10还是由除了语音合成设备10外的另一实体(例如，外部服务器)生成的。

[0133] 当以这样的方式使用语音合成设备10，使得语音合成设备10可以在不访问外部服务器等的情况下生成对语音的答复时，信息获取器126不是必需的。

[0134] 根据实施例的语音合成设备10可以由专用电子电路系统或由通用个人计算机、以及由终端装置来实现。当使用个人计算机时，语音合成设备10通过连接至麦克风和扬声器并执行预先安装的应用程序的个人计算机来实现。在该情况下，安装在个人计算机中的应用程序可以经由互联网下载，对于终端装置就是如此，或者可以以其上已存储有应用程序的计算机可读存储介质的形式来提供安装在个人计算机中的应用程序。在本说明书中，存储介质例如是非暂时性存储介质，该非暂时性存储介质的一个很好示例是诸如CD-ROM的光学存储介质(光盘)。这样的存储介质的示例还可以包括半导体存储介质和磁性存储介质。

[0135] 根据实施例的语音合成设备还可以被实现为用于合成语音的语音合成方法。

[0136] 附图标记的描述

[0137] 10语音合成设备；22获取器；24语音合成器；102语音输入器；108语言分析器；110首次答复生成器；112分析器；114重复器；116语音序列生成器；118合成器；126通信器。

标题	发布/更新时间	阅读量
一种基于医疗服务的集成信息管理方法	2020-05-08	22
一种相位相关的共享深度卷积神经网络语音增强方法	2020-05-08	382
语音识别方法和设备	2020-05-08	119
语音降噪系统	2020-05-08	185
基于语音识别的设备控制方法	2020-05-08	928
一种基于人工智能的综合客服系统	2020-05-08	494
一种订单打印机及打印系统	2020-05-08	943
一种新型AI智能交互装置	2020-05-08	894
一种基于双麦降噪的语音鼠标	2020-05-11	379
压差式电子流量计	2020-05-11	618

语音合成设备、语音合成方法及其存储介质

语音合成设备、语音合成方法及其存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：