[0197] 通过以上述方式构造的第五实施例,可以给想要得到针对询问的答复的用户具有自然感觉和符合用户的性格和心理状况的好似在人与人之间进行对话的答复。
[0198] 如果使用语音波形数据代替语音序列,则以与图16中示出的第四实施例实质上相同的方式构造第五实施例。在这种构造中,后处理部114a随着非语言信息的速度的降低而对语音输出的开始时机进行延迟。此外,虽然第五实施例被构造为根据询问的速度来控制语音输出的开始时机,但是对语音输出的开始时机进行控制所依据的速度可以被替换为音量或音高,并且可以酌情结合除速度、音量和音高以外的其他信息。
[0199] <第六实施例>
[0200] 与第一实施例和第二实施例的上述各示例和/或修改例类似的应用示例和/或修改例可以应用至第三、第四和第五实施例。例如,图18是示出作为本发明第六实施例的在应用与图12示出的操作模式类似的操作模式的情况下的答复音高确定程序(rout ine)的一
个示例的流程图。图18类似于图12,除了在图18中增加了步骤Sd174A和Sd174B之外。
[0201] 图18示出的示例被构造为在考虑了针对询问的答复的“停顿”的情况下执行控制。通常,在人与人之间的对话中,如果一个人试图以故意给出不好印象的方式来对询问进行答复,则对询问的答复的停顿与其他情况相比会大大缩短或大大延长。在比如争论场景中,例如,一个人趋向于快速地(实质上没有停顿地)或故意长停顿地反驳另一人的话语。在图
18示出的所示示例中,在考虑这种“停顿”的情况下执行控制。
[0202] 如果在图18的示例中当前设置第一模式作为操作模式,则语音控制部109在步骤Sd173A之后前进至步骤Sd174A,在该步骤中其确定语音合成应当在询问(话语)的词尾之后的预定时间范围内开始,作为要给予语音合成部112的指令。因为“预定时间范围”处于0.5至2.0秒的范围中,因此只要前述停顿在该范围内就认为其是恰当的停顿。
[0203] 另一方面,如果当前第二模式被设置作为操作模式(即,在步骤Sd172处“否”判定),则语音控制部109在步骤Sd173B确定答复的词尾的音高应当与询问的词尾的音高呈现出不协和音程关系。随后,在步骤Sd174B,语音控制部109确定语音合成应当在询问的词尾之后的预定时间范围以外开始,作为要给予语音合成部112的指令。
[0204] 在步骤Sd174A或Sd174B之后,处理返回至图15的步骤Sa21,从而语音控制部109在步骤Sa22确定答复的整体音量。此后,在步骤Sa18,语音合成部112以确定的时机和速度和确定的音量合成其改变已由语音控制部109确定的语音序列的语音,并随后将由此合成的语音输出。
[0205] 即,根据图18中示出的第六实施例,当操作模式为第一模式时将“停顿”控制为在预定时间范围内,而当操作模式为第二模式时,将“停顿”控制为在预定时间范围以外。由此,用户可以酌情使用这两种模式中的任意期望的一种,从而可以增强所述设备的可用性。图18中示出的应用示例不仅可应用至第三实施例(被构造为基于语音序列按音节进行答复语音合成)而且还可应用于第四实施例(被构造为产生整个答复语音的答复语音波形数
据)。
[0206] <第七实施例>
[0207] 虽然第三至第六实施例中的每一个被描述为使用与用户讲出的询问(话语)自身有关的信息(诸如音高、音量和速度)作为非语言信息,但是其他信息(诸如面部表情、姿势和衣着)可以被用作非语言信息。因此,下面描述使用非语音信息作为非语言信息的本发明的第七实施例。
[0208] 图19是示出本发明的语音合成设备10的第七实施例的构造的框图,其特征在于包括成像部130,用于对语音合成设备10周围的区域进行成像。在本实施例中,非语言分析部107根据成像部130获取的静态图像来分析用户的面部表情(笑、尴尬、生气等)并按如下在语音合成处理中反映所述分析的结果。
[0209] 当用户笑着讲出询问时,例如,音高分析部106易于在对询问进行的音高分析中检测到高音高。由此,非语言分析部107使得音高分析部106将检测到的音高调整为较低音高。另一方面,当用户生气地讲出询问时,音高分析部106易于在对询问进行的音高分析中检测到低音高。因此,非语言分析部107使得音高分析部106将检测到的音高调整为较高音高。通过如此根据用户的面部表情来对音高分析部106的音高分析的结果进行调整,本实施例可以实现音高检测和分析的更高精确度。
[0210] 此外,语音合成设备10以如下方式构造:如果用户在语音合成设备10已合成和输出答复(响应)的语音之后具有尴尬的面部表情,则将答复的词尾的音高改变为呈现出从询问的词尾的音高向下五度的音程关系。然而,可预期到的是这种音程关系未被正确地保持。因此,非语言分析部107使得语音控制部109将答复与询问的向下五度音程关系改变为另一音程关系,比如从询问的词尾的音高向下四度。作为另一种选择,非语言分析部107使得语音控制部109改变音高分析部106中的音高分析
算法(例如,音高波形的哪个局部最大值应当被设置为词尾;应当确定词尾的哪个部分的音高;等等),这是因为还可以预期到的是音高分析部106进行的音高分析的精确度已被降低了。通过如上所述地根据用户的面部表情来对音高分析和语音合成进行控制,本实施例可以将其语音将要被合成的答复导向不会给予不舒服感觉的方向。
[0211] 虽然在上面已关于根据用户的面部表情来对音高分析和语音合成进行控制的情况描述了本实施例,但是本实施例可以构造为根据成像部130获取的用户的图像来分析用户的姿势、衣着等,从而根据该用户的姿势、衣着等来对音高分析和语音合成进行控制。此外,可以设置湿度
传感器等替代成像部130或者除了成像部130外还设置
湿度传感器等,从而将经由湿度传感器等获取的周围环境的信息用于对语音合成进行控制。例如,在炎热而潮湿的环境中,可以合成预期会缓和沮丧感的答复的语音。
[0213] 第三至第六实施例中的每一个被构造为基于询问(话语)的音量和速度并根据上述规则来确定答复的音量、速度和停顿。然而,在规则固定的情况下,答复易于给予用户该答复单调的印象。因此,可以进行配置以赋予规则波动性,从而在例如所创建的答复不会给出不自然感觉的范围内修改规则,或者可以预先准备该范围内的多个规则,从而可以选择任一规则应用至语音合成。这种配置可以有效避免给用户单调的答复。
[0214] 本发明的第三至第七实施例中的每一个可以总结如下。即,第三至第七实施例中的每一个均包括:非语言分析部107,用于分析不同于与询问(即,话语)有关的音高信息的非语言信息;以及控制部(语音控制部109),用于根据所分析的非语言信息对语音产生部(即,语音合成部112或者答复语音输出部113和后处理部114a的组合)产生答复的语音进行控制。注意,与第一实施例和第二实施例有关的各种应用示例和/或修改例也可以应用于本发明的第三至第七实施例。
[0215] <第八实施例>
[0216] 下面参照图20描述本发明的语音合成设备的第八实施例,其特征在于根据包括在话语(询问)和答复(响应)中的语言信息来控制答复语音的产生。图20是示出本发明的语音合成设备的第八实施例的构造的框图。用与图1中相同的参考标记示出与图1中的块实现基本相同功能的图20中的块,并且不对其进行描述以避免不必要的重复。图20的第八实施例除了包括图1示出的构造以外还包括语音控制部109A,并且第八实施例中的语言分析部108A在构造上不同于图1示出的语言分析部108。
[0217] 第八实施例中的语言分析部108A不仅分析包含在话语(询问)的语音信号中的语言含义,而且分析答复创建部110所创建(获取)的答复(响应)的含义。语言分析部108A将所分析的话语(询问)的含义的结果供应至答复创建部110,并且当从答复创建部110接收到答复(响应)时,语言分析部108A分析所接收到的答复(响应)的含义并且将所分析的该答复
(响应)的含义的结果供应至语音控制部109A。
[0218] 在第八实施例中,答复创建部110可以创建(获取)以下类型的答复:
[0219] (1)指示肯定含义的答复;
[0220] (2)指示否定含义的答复;
[0221] (3)针对询问的具体答复;和
[0222] (4)在具体答复之前发出的共鸣答复(包括非正式答复)。上述类型(1)答复的示例包括“是”或“hai”(日语罗马字),上述类型(2)答复的示例包括“不”或“iie”(日语罗马字)。上述类型(3)答复的示例包括具体地对比如“asu no tenki wa?”(日语罗马字)进行回答的答复。此外,上述类型(4)答复的示例包括“êto”(日语罗马字,意思是“让我想想”)和“sou desune”(日语罗马字,意思是“恩,……”)。答复创建部110所创建的答复语音序列被供应至语音控制部109A和语音合成部112。
[0223] 语音控制部109A根据从音高分析部106供应的音高数据和从语言分析部108A供应的答复的含义来确定要对答复语音序列执行的控制的内容。下面参照图21描述语音控制部
109A进行的控制的内容。
[0224] 图21是语音合成设备10的第八实施例中执行的处理的流程图。图21示出为图4的修改例,并且执行与图4中的步骤实质相同的操作的步骤用与图4中相同的参考标记示出并将不进行描述以避免不必要的重复。
[0225] 在图21的步骤Sa14,语言分析部108A对语音信号所定义的词汇(询问或话语)的含义进行分析并将指示含义的数据供应至答复创建部110。随后,在步骤Sa15a,答复创建部110利用答复数据库124和信息获取部126(如有必要)来创建与所分析的词汇(询问)对应的答复,并将所创建的答复供应至语言分析部108A。注意,(从答复数据库124读出的)所创建的答复是针对询问的属于类型(1)、(2)和(4)中任一个的答复。虽然未在流程图中示出,但是在类型(4)答复之后创建具体答复(即,类型(3)答复)。在步骤Sa15b,答复创建部110输出所创建或所获取的答复的语音序列。
[0226] 图22的(a)示出了类型(1)的肯定答复“hai”(日语罗马字,意思是“是”)的示例语音序列。在图22的(a)的示出示例中,对答复“hai”的每个声音(即,每个音节)分配音符,从而指示出每个词汇(音节或音素)的音高和产生时机。虽然为了简化说明在示出的示例中为每个声音(即,每个音节或音素)分配了一个音符,但是可以利用音符连接符(比如连音符或滑音)为一个声音分配多个音符,可以将不同音高的多个声音瞬态互连等。
[0227] 图23的(a)示出了类型(2)的否定答复“iie”(日语罗马字)的示例语音序列,而图24的(a)示出了类型(4)的答复“êto”(日语罗马字,意思是“让我想想”)的示例语音序列。
[0228] 语言分析部108A在步骤Sa23对从答复创建部110供应的答复的含义进行分析。在本实施例中,语言分析部108A识别该答复是类型(1)、(2)和(4)中的哪一个并且随后将类型识别结果供应至语音控制部109A。
[0229] 语音控制部109A在步骤Sa24确定从答复创建部110输出的整个答复语音序列的音高,使得从答复创建部110输出的答复语音序列的第二区间的音高与从音高分析部106供应的音高数据的第一区间(例如,词尾)的音高呈现出如下音程关系。
[0230] 更具体地,对于类型(1)的肯定答复,语音控制部109A决定对整个答复语音序列的音高进行移动,使得答复的第二区间(词尾)的音高被改变为从话语(询问)的音高数据的第一区间(例如,词尾)的音高向下五度。
[0231] 对于类型(2)的否定答复,语音控制部109A决定对整个答复语音序列的音高进行移动,使得答复的第二区间(词尾)的音高被改变为从话语(询问)的音高数据的第一区间
(例如,词尾)的音高向下六度。即,类型(1)的肯定答复的第二区间的音高被设置成高于类型(2)的否定答复的第二区间的音高。
[0232] 对于类型(4)的答复,语音控制部109A决定以如下方式将整个答复语音序列的音高进行移动:将答复的第二区间(词尾)的音高改变为例如从话语(询问)的音高数据所指示的第一区间(例如,词尾)的音高向下五度。
[0233] 更具体地,考虑询问“asu wa hare?”(日语罗马字,意思是“明天是晴天吗?”)的情况,图22的(b)中参考标记A所示出的词尾处的“re”的音高由音高数据指示为“音高E”。在这种情况下,对于类型(1)的肯定答复“hai”(日语罗马字)的语音序列,语音控制部109A决定将整个答复语音序列中定义的音高进行移动,使得图22的(b)中的参考标记B处示出的答复的词尾处的“i”的音高变为“音高A”,其是从询问的词尾的音高“E”向下五度的音高。
[0234] 此外,对于类型(2)的否定答复“iie”(日语罗马字),语音控制部109A决定将整个答复语音序列所定义的音高进行移动,使得图23的(b)中的参考标记C处示出的答复的词尾处的“e”的音高变为“音高G”,其是从询问的词尾的音高“E”向下六度的音高。
[0235] 还考虑询问“asu no tenki wa”(日语罗马字,意思是“明天天气如何?”)的情况,在图24的(b)中的参考标记A处示出的词尾处的“wa”的音高由音高数据指示为“音高E”。在这种情况下,对于类型(4)的语音序列“êto”(日语罗马字),语音控制部109A确定语音序列中定义的音高,使得在图24的(b)的参考标记D处示出的词尾处的“to”的音高变为“音高A”,其是从询问的词尾的音高“E”向下五度的音高。
[0236] 现在返回来参照图21,语音控制部109A在步骤Sa25确定答复语音序列的输出时机,即,“停顿”。更具体地,对于类型(1)的肯定答复,语音控制部109A将从询问的词尾到答复的输出的“停顿”设置在0.5至2.0秒的范围内,或者对于类型(2)的否定答复,设置在比针对类型(1)的范围更长的3秒附近。因此,针对类型(1)的肯定答复的答复语音序列将在比针对类型(2)的否定答复的答复语音序列更早的时机输出。注意,对于类型(4)的答复,语音控制部109将“停顿”设置在与类型(1)的答复相同的0.5至2.0秒的范围内。
[0237] 在步骤Sa18,语音控制部109A控制语音合成部112来将从答复创建部110供应的语音序列移动至所确定的音高并在所确定的时机输出音高移动后的语音序列。根据这种控制,语音合成部112改变了语音序列的音高并以改变后音高合成和输出答复的语音。
[0238] 对于答复语音输出时机,语音控制部109A可以控制语音合成部112在由实时时钟(未示出)在询问的词尾处(例如,局部最大值P1(图5)的时间点)开始测量的时间经过预设时间时的时间点处开始输出语音序列。
[0239] 虽然未特别示出,但是语音合成部112被构造为使得如果其已输出类型(4)的答复语音,则随后其输出类型(3)的具体答复语音。以上述方式,应用程序的执行终止,处理返回至主菜单。
[0240] 图25是对响应于用户讲出的询问而输出类型(1)或(2)的答复语音进行说明的图。更具体地,图25示出了作为终端设备的语音合成设备10针对用户W讲出的询问“asu wa
hare”(日语罗马字,意思是“明天是晴天吗?”)输出“hai”或“iie”。
[0241] 在图25的示出示例中,以如下方式执行语音合成:答复“hai”或“iie”的词尾的音高呈现出从询问的词尾的音高向下五度或六度的协和音程关系。因此,该答复可以给予好似正在与人进行对话的印象,而不会给予用户不自然的感觉。
[0242] 在图25的示出示例中的类型(1)的答复“hai”的词尾的音高和类型(2)的答复“iie”的词尾的音高相对于询问的词尾的音高呈现出何种关系已经在上面关于图22和图23进行了描述。否定答复“iie”的词尾的音高趋向于低于肯定答复“hai”的词尾的音高。因此,当在本实施例中答复有否定含义时,考虑到不要使另一人或另一方陷入不好情绪中,以低语音输出否定答复。同样从这个角度,本实施例可以给出好似用户正实际与人进行对话的印象。此外,当输出类型(2)的否定答复时,与类型(1)的肯定答复的音量相比,语音控制部
109A可使答复的音量适度(即,降低答复的音量)。
[0243] 此外,在该图中的示出示例中,讲出询问时的时间点(例如,词尾处“re”的时间点)用(a)表示,讲出答复“hai”的词首时的时间点用(b)表示,讲出答复“iie”的词首时的时间点用(c)表示。从询问的讲出到答复“hai”被输出时的时间点的时间段T1短于从询问的讲出到答复“iie”被输出时的时间点的时间段T2;即,T1<T2。换言之,在语音合成设备10的本实施例中,答复“iie”的输出略微晚于答复“hai”的输出。因此,根据本发明,可以在类似于与人的真实对话中出现的停顿的情况下以合成的语音输出诸如“hai”和“iie”之类的答复。
[0244] 图26是对针对用户讲出的询问输出类型(3)或(4)的答复语音进行说明的图。更具体地,图26示出了语音合成设备10针对用户讲出的询问“asu no tenki wa”(日语罗马字,意思是“明天天气如何?”)而输出具体答复的情况。在图26的示出示例中,在输出类型(3)的具体答复之前,响应于询问输出类型(4)的答复“êto”。由于需要访问各种数据库和外部服务器中的任一个来创建具体答复,因此有时可能花费相对长的时间来创建答复。如果在具体答复被创建之前在语音合成设备10中持续相当长的静音状态,则会给予用户焦虑感。然而,在本实施例中,在暂时性输出类型(4)的答复的情况下,不会给予用户这种焦虑感。此外,在人与人之间的实际对话中,在答复具体内容之前讲出这种类型(4)的答复是通常做出的行为。由于本实施例被构造为通过仿效这种通常做出的行为来对答复的语音进行合成,因此可以给予用户好似该用户正实际与人进行对话的印象。
[0245] 在该图的示出示例中,讲出询问时的时间点(例如,询问的词尾处“wa”的时间点)用(d)表示,讲出答复“êto”的词首时的时间点用(e)表示,讲出答复“hare desu”的词首时的时间点用(f)表示。优选的是,从询问的讲出直到答复“êto”时的时间点的时间段T3大致等于类型(1)的答复的时间段T1。如果花费长时间来创建比如“hare desu”的具体答复,则可以重复作为类型(4)的答复的同一答复“êto”或另一答复,从而提供增加了时间长度的停顿。
[0246] <利用语音波形数据的修改例>
[0247] 虽然描述了本发明的第八实施例被构造为输出语音序列(其中按每个声音(每个音节)分配音高)作为针对询问的答复,但是第八实施例可以以与上述第二实施例类似的方式进行修改。即,图20的答复创建部110和语音合成部112的组合(即,利用语音合成技术的语音产生部)可以被替换为答复语音输出部113和后处理部114的组合(即,利用波形数据的语音产生部),并且可以从答复语音输出部113输出例如WAV格式的语音波形数据。
[0248] 在这种情况下,后处理部114可以被构造为例如在执行音高转换(比如滤波处理)之后输出(再现)语音波形数据,使得答复的第二区间(例如,词尾)的音高与话语(询问)的音高数据中的第一区间(例如,词尾)的音高呈现出预定的音程关系。此外,可以利用卡拉OK设备领域公知的在不改变语速(说话速度)的情况下对音高进行移动的所谓的音调控制技
术来执行该音高转换。
[0249] 注意,与第一实施例和第二实施例有关的各种应用示例和/或修改例也可应用于本发明的第八实施例。
[0250] 简言之,本发明的第八实施例的特征在于包括:语言分析部(语言分析部108A),其分析包含在询问(话语)和答复中的语言信息;以及控制部(语音控制部109A),其控制语音产生部(即,语音合成部112或答复语音输出部113和后处理部114的组合)进行的答复的语音的产生。
[0251] <第九实施例>
[0252] 下面参照图27描述本发明的语音合成设备的第九实施例,其特征在于根据话语(询问)中随时间的音高变化来控制答复(响应)中的音高变化。图27是本发明的语音合成设备10的第九实施例的功能框图。用与图1中相同的参考标记示出与图1中的块实现基本相同功能的图27中的块,并且不对其进行描述以避免不必要的重复。图27的实施例除了包括图1中示出的构造之外还包括非语言分析部107A和语音控制部109B。
[0253] 非语言分析部107A对由说话区间检测部104检测为说话区间的话语的语音信号执行音量分析和频率分析,从而检测话语中随时间的音高变化,并且输出指示话语中的音高变化的数据作为非语言信息。指示音高变化的数据被供应至语音控制部109B和答复创建部
110。
[0254] 答复创建部110利用非语言分析部107A所分析的指示音高变化的数据并参考答复数据库124和信息获取部126来创建与由语言分析部108分析的话语相对应的答复。如第八实施例,第九实施例中的答复创建部110可以创建(获取)以下类型的答复:
[0255] (1)指示肯定含义的答复;
[0256] (2)指示否定含义的答复;
[0257] (3)针对询问的具体内容的答复;和
[0258] (4)作为针对询问的非正式反馈的答复(参见图22至图24)。
[0259] 由答复创建部110创建/获取的语音序列被供应至语音控制部109B和语音合成部112,如上述第八实施例(参见图20等)。语音控制部109B根据从音高分析部106供应的音高数据和从非语言分析部107A供应的指示话语中的音高变化的数据来确定要对该语音序列
执行的控制的内容。
[0260] 图28是在语音合成设备10的第九实施例中执行的语音合成处理的流程图。图28示出为图4的修改例,并且与图4中的步骤执行实质相同的操作的步骤用与图4中相同的参考标记示出并将不对其进行描述以避免不必要的重复。
[0261] 在图28的步骤Sa13a和Sa13b处,以与图4的步骤Sa13处相同的方式,音高分析部106对询问(或话语)的检测到的说话区间中的语音信号进行分析,识别询问(或话语)中的第一区间(词尾)的音高,并随后将指示识别出的音高的音高数据供应至语音合成部112。
即,在步骤Sa13a,音高分析部106对检测出的说话区间中的语音信号进行分析以将该信号转换为分别针对询问(或话语)的音量和音高的波形。这种转换后的音量波形和音高波形的示例类似于上面图5中示出的那些。但是,为了便于说明,在图29中示出了类似于图5中示出的内容的转换后的音量波形和音高波形。
[0262] 在步骤Sa26,非语言分析部107A识别如上在步骤Sa13a中由音高分析部106分析的输入语音(话语或询问)的音高波形中的时间上的音高变化状态。现在将参照图29描述用于在步骤Sa26识别这种时间上的音高变化的示例方法。首先,非语言分析部107A从图29的(b)的音高波形中识别在图29的(a)的音量波形的局部最大值P1的时间点之前预定时间Ts(例如,0,3秒)的时间点P0处的音高N0。随后,非语言分析部107A评估从音高N0到音高N1的音高变化量(即,N1-N0)并将该音高变化量作为指示音高变化状态的数据供应至语音控制部
109B和答复创建部110。时间Ts可以设置为与话语的词首和词尾之间的时间间隔相对应的可变值,而不是设置为预定的固定值。作为一个示例,与话语的词首相对应的时间点可以设置为时间点P0。此外,被非语言分析部107A识别出的指示音高变化状态的数据的内容不限于等于差值N1-N0的音高变化量。例如,可以识别话语中的各单独词汇的音高(针对词汇的音高)的变化模式,并且可以将指示由此识别出的变化模式的数据供应至语音控制部109B和答复创建部110作为指示音高变化状态的数据。
[0263] 回过来参考图28,在图28的步骤Sa15a和Sa15b处执行与图4的步骤Sa15或图21的步骤Sa15a及Sa15b类似的操作。然而,在第九实施例中,答复创建部110以如下方式构造:即使对于包括同一文字列的话语(输入语音),只要音高变化状态不同,其就可以根据话语(输入语音)的音高变化状态来创建包括不同文字列的答复。例如,即使在用户讲出的话语的语言分析结果是“asu wa hare”的情况下,如果话语的音高朝向词尾上升,则该话语也可变成询问(疑问句)“asu wa hare(desuka)?”(日语罗马字,意思是“明天是晴天吗?”)。因此,答复创建部110访问外部服务器以获取答复所需的天气信息,并且如果所获取的天气信息指示“hare”(日语罗马字,意思是“晴天”),则输出语音序列“hai”(日语罗马字,意思是“是”),或者如果所获取的天气信息指示不是“hare”,则输出语音序列“iie”(日语罗马字,意思是“不”)。此外,即使如上所述用户的话语的语言分析结果是“asu wa hare”,如果话语的音高变化是平坦的或者朝向词尾下降,则话语也可变为比如“asu wa hare ”的独白。因此,答复创建部110从答复数据库124读出或者输出比如“sou desune”的非正式反馈的语音序列。例如,如果音高变化量超过阈值,则答复创建部110确定话语的音高朝向词尾上升,而如果音高变化量等于或小于该阈值,则答复创建部110确定话语的音高是平坦的或者朝向词尾下降。
[0264] 在图28的步骤Sa16,语音控制部109B以与图4的步骤Sa16相同的方式来识别从答复创建部110供应的语音序列的词尾的音高(初始音高)。
[0265] 随后,在步骤Sa17a,语音控制部109B基于音高数据和从非语言分析部107A供应的指示音高变化状态的数据按如下方式确定要对语音序列的音高做出的改变的内容。更具体地,如果用户的话语的音高朝向词尾上升,则语音控制部109B确定以如下方式改变整个语音序列的音高:使语音序列中所定义的词尾的初始音高呈现出从音高数据所指示的音高向下五度的预定的音程关系。另一方面,如果用户的话语的音高是平坦的或者朝向词尾下降,则语音控制部109B确定将整个语音序列的全部音高改变为从音高数据所指示的音高向下五度的音高。
[0266] 下面关于具体示例描述在第九实施例中执行的话语的音高、音高变化和语音序列的改变。图30的(b)的左边区域示出了用户给出的示例话语,其更具体地示出了其中用户的话语的语言分析结果是“asu wa hare”(日语罗马字,意思是“明天是晴天。”),并且其中如该部分中所示的按每个声音(音节)用音符指示音高的一个示例。注意,虽然如图29的(b)中所示的话语具有音高波形,但是该话语的音高用音符示出以便于描述。由于在示出示例中话语的音高朝向词尾上升,因此答复创建部110确定用户的话语是询问(疑问句)。因此,如果响应于该话语所获取的天气信息表明“hare”,则答复创建部110输出语音序列“hai”,或者如果所获取的天气信息表明不是“hare”,则答复创建部110输出语音序列“iie”。
[0267] 图30的(a)示出了答复“hai”(日语罗马字)的语音序列的基本语音的一个示例,其中按每个声音(音节)分配音符以定义该基本语音的每个词汇(音节或音素)的音高和产生时机。
[0268] 通过语音控制部109B按如下方式来改变这种基本答复语音序列。即,如果图30的(b)的左边区域指示的话语中由参考标记A指示的词尾处的区间“re”的音高被音高数据指示为“G”,则语音控制部109B以如下方式改变整个语音序列的各音高:答复“hai”中由参考标记B指示的词尾处的区间“i”的音高变为从音高“G”向下五度。虽然关于答复“hai”已描述了语音序列改变,但是其他答复语音的整个语音序列的各音高以类似于上述方式的方式进行改变。
[0269] 在如上所述的用户的话语的语言分析结果是“asu wa hare”并且如图31的(b)的左边区域中所示话语的音高变化是平坦的情况下,答复创建部110确定话语是独白之类。因此,答复创建部110输出例如之前所述的“sou desune”(日语罗马字,意思是“恩,……”)的语音序列。图31的(a)示出了“sou desune”的语音序列的基本语音的一个示例。这种基本语音序列由语音控制部109B按如下方式进行改变。
[0270] 即,如果图31的(b)的左边区域中指示的话语的中由参考标记A指示的词尾处的区间“re”的音高被音高数据指示为“G”,则语音控制部109B将答复语音“sou desune”(包括参考标记B指示的词尾处的“ne”)的全部音高改变为“C”,其是从“G”向下五度的音高(参见图31的(b)的右边区域)。
[0271] 同样在这种情况下,由于对答复的语音进行合成使得作为非正式反馈的答复的词尾的音高呈现出从词尾的音高向下五度的关系,因此可以给用户好似正在与人进行对话的良好印象,而不会给用户不自然的感觉。此外,根据本实施例,即使对于话语的相同的语言分析结果,也可以根据话语中朝向词尾的音高变化来创建不同答复。此外,如果话语的音高是平坦的,则针对该话语的非正式反馈的音高也是平坦的;即,原始语音序列中所定义的音高变化状态也被改变。因此,本实施例可以给予用户好似该用户正在与人而非与机器进行对话的印象。
[0272] <利用语音波形数据的修改例>
[0273] 类似上述第八实施例,第九实施例可以以与上述第二实施例相类似的方式来进行修改。即,图27的答复创建部110和语音合成部112的组合(即,利用语音合成技术的语音产生部)可以被替换为如图8或图16或图19所示的答复语音输出部113和后处理部114的组合(即,利用波形数据的语音产生部),并且可以从答复语音输出部113输出例如WAV格式的语音波形数据。
[0274] <答复的音高变化状态、答复的平均音高等>
[0275] 在上面描述了第九实施例被构造为对原始语音序列中所定义的答复的音高变化状态和平均音高进行改变,作为对整个语音序列的各音高进行移动使得答复的词尾等的音高变为例如从询问的词尾等的音高向下五度的结果,或者作为使语音序列的各音高平坦化的结果。但是,第九实施例不限于如此构造并且可以修改为对基本语音序列的音高变化状态进行改变。例如,对于其中话语的音高朝向词尾上升的音高变化状态,第九实施例可以改变基本语音序列的音高变化状态使得答复的音高朝向词尾下降,然而,对于其中话语的音高朝向词尾下降的音高变化状态,第九实施例可以改变基本语音序列的音高变化状态使得答复的音高朝向词尾上升。此外,第九实施例可以构造为对基本语音序列的全部或部分音高进行改变使得整个答复的平均音高根据话语的词尾等的音高或话语的音高变化而改变。
[0276] <话语的音量和音量变化、答复的音量和音量变化>
[0277] 以上描述了第九实施例被构造为利用话语的音量变化来识别话语的词尾。对于话语的这种音量,可以想到各种应用作为不同于音高信息的非语言信息。例如,第九实施例可以被构造为根据话语的平均音量来控制答复的合成语音的音量。此外,第九实施例可以被构造为根据话语的音量变化(音量包络)来控制答复的音量变化。
[0278] <对话的内容>
[0279] 以上描述了第九实施例被构造为在语音合成设备10以合成的语音输出针对用户的话语的答复时的时间点处终止其处理。但是,在人与人之间的实际对话中,话语和答复通常重复进行,而不是对话仅仅以话语和针对该话语的答复而结束,这种重复的数量根据话语和答复的含义而增加或减少。因此,如图32所示,可以如下方式对第九实施例进行修改:
语言分析部108不仅对用户的话语而且对答复创建部110所创建的答复执行语言分析并将
语言分析结果供应至语音控制部109,并且语音控制部109根据语言分析结果对答复的词尾等的音高、答复的音高变化状态、答复的平均音高等进行控制。
[0280] 注意,关于第一实施例和第二实施例的各种应用示例和/或修改例也可应用于本发明的第九实施例。
[0281] 总之,上述第九实施例的特征在于包括:非语言分析部(107A),其对话语中的音高变化进行分析;和控制部(语音控制部109B),其根据所分析的话语中的音高变化来执行用于对语音产生部(即,语音合成部112,或答复语音产生部(113)和后处理部(114)的组合)产生的答复的语音的音高进行改变的控制。
[0282] <第十实施例>
[0283] 下面参照图33描述本发明的语音合成设备的第十实施例,其特征在于,根据话语的说话者或讲话者的属性或答复语音的属性来修改用于确定答复语音中的第二区间的音高的规则。图33是本发明的语音合成设备10的第十实施例的功能框图。用与图1中相同的参考标记示出与图1中的块实现基本相同功能的图33中的块,并且将不对其进行描述以避免不必要的重复。图33的实施例除了包括图1示出的构造之外还包括语音控制部109C。
[0284] 类似于上述各实施例中的对应部分,第十实施例中的语音合成部112通过根据给定规则(即,以如下方式:使答复的第二区间的音高与询问或话语的词尾的音高呈现出预定的音程关系)对答复的第二区间的音高进行控制来对答复的语音进行合成。此外,第十实施例中的语音合成部112被构造为产生具有基于给定中介属性的特点的答复的语音。中介属性指示其语音将要被语音合成设备10合成的虚拟人的信息。即,中介属性是指示人的数据,用于定义假设哪种人来合成答复的语音。为了简化描述,这里假设中介属性是定义性别的数据。本实施例以如下方式构造:由用户经由属于语音合成设备10的操作输入部来选择或设置期望的中介属性,并且指示所选择或设置的中介属性的信息被供应至语音合成部112并合成具有基于该中介属性的特点的答复的语音。
[0285] 为了对答复语音序列的音高进行控制而应用于语音合成部112中的上述规则通过语音控制部109C来确定。作为规则的一个示例默认选项(默认规则),规定了:语音控制部
109C应当将答复的词尾的音高进行移动从而与话语(询问)的词尾的音高呈现出预定的音
程关系,更具体地,从话语(询问)的词尾的音高向下五度。但是,在一种替选方式中,语音控制部109C可以将答复的词尾的音高移动至具有不同于上述的从话语(询问)的词尾的音高
向下五度的音程关系的音程关系。然而,如果坚持使用默认规则,则通过语音合成而创建的答复可能不期望地变得不自然。因此,语音控制部109C被构造为必要时根据话语讲话者的属性(话语讲话者属性)和中介属性对默认规则进行修改,从而确定要应用于语音合成部
112的规则。话语讲话者属性是输入话语(询问)的讲话者的属性,在本实施例中,其是讲话者(用户)的性别。可以使
用例如在充当语音合成设备10的终端设备中登记的用户的个人信息来作为对话语讲话者属性进行定义的数据。
[0286] 对于语音合成,语音合成部112使用在语音库128中登记的语音片段数据。将被用作语音素材的定义了各种语音片段(诸如各单独音素和音素至音素的过渡部分)的波形的语音片段数据预先编译作为针对多个中介属性中的每一个的数据库。更具体地,语音合成部112利用由
选定或设定的中介属性所定义的语音片段数据来产生语音信号,更具体地,通过将语音序列的各单独声音(音节)的语音片段数据进行组合并将所组合的语音片段数据
修改为连续地相互连接来产生语音信号。
[0287] 图34是语音合成设备10的第十实施例中执行的处理的流程图。图34被示出为图4的修改例,并且与图4中的步骤执行实质相同的操作的步骤用相同参考标记示出并将不在此处进行描述以避免不必要的重复。
[0288] 在图34的步骤Sa15a和Sa15b处执行与图4的步骤Sa15和图21的步骤Sa15a和Sa15b相类似的操作。此外,在步骤Sa16,以与图14的步骤Sa16处相同的方式,执行对答复语音序列中的词尾的音高(初始音高)进行识别的操作。此外,以与图14的步骤Sa13处相同的方式,对检测到的说话区间中的话语的语音信号执行分析以识别话语中第一区间(词尾)的音高。
指示由此识别出的音高的音高数据被供应至语音控制部109C。
[0289] 在步骤Sa27,由语音控制部109C基于中介属性和话语讲话者属性来执行规则确定处理,从而确定要应用的规则。图35是示出规则确定处理的细节的流程图。
[0290] 首先,在图35的步骤Sb11,语音控制部109C获取指示话语讲话者属性的数据和指示中介属性的数据。随后,在步骤Sb12,语音控制部109C基于所获取的数据来确定话语讲话者属性(即,用户属性)是否为女性。如果话语讲话者属性是女性(步骤Sb12处判定为是),则语音控制部109C对默认规则进行修改使得答复的词尾的音高被移动至从音高数据所指示的音高向下六度(而非默认的五度)的音高,即,被移动至与音高数据所指示的音高处于协和音程关系且与音高数据所指示的音高的默认关系向下一级的音高。以这种方式,从由默认规则预设的音高下降的音高在步骤Sb13被确定为答复的词尾的音高。术语“级(rank)”不具有任何音乐含义并且仅为了便于描述而在这里使用。即,在本实施例中,在将从音高数据所指示的音高向下五度的音高设置为参考音高的情况下,从参考音高降一级的音高指的是从音高数据所指示的音高向下六度(大六度)的音高,从参考音高又降一级的音高指的是从音高数据所指示的音高向下八度的音高。此外,从参考音高升一级的音高指的是从音高数据所指示的音高向下(低于)三度(大三度)的音高,而从参考音高又升一级的音高指的是从音高数据所指示的音高向上四度的音高。
[0291] 另一方面,如果话语讲话者属性不是女性(步骤Sb12处判定为否),则语音控制部109C在步骤Sb14进一步确定话语讲话者属性是否为男性。如果话语讲话者属性是男性(步骤Sb14处判定为是),则语音控制部109C对默认规则进行修改以使得答复的词尾的音高被移动至从音高数据所指示的音高向下三度的音高。以这种方式,在步骤Sb15将从默认规则所预设的音高上升的音高确定为答复的词尾的音高。如果话语讲话者属性是中性或者话语讲话者属性还未被登记(步骤Sb14处判定为否),则语音控制部109C跳过步骤Sb13或Sb15的操作并且使用未修改形式的默认规则。
[0292] 随后,在步骤Sb16,语音控制部109C确定中介属性是否为女性。如果中介属性是女性(步骤Sb16处判定为是),则语音控制部109C在步骤Sb17对修改后的默认规则(或者未修改的默认规则)进行修改以使得答复的词尾的音高被上移一级。例如,如果在上述步骤Sb13处已修改了默认规则使得答复的词尾的音高下移一级或从音高数据所指示的音高向下六度,则语音控制部109C在步骤Sb17将修改后的规则返回至原始默认规则以使得答复的词尾的音高从音高数据所指示的音高向下移动五度。此外,如果在上述步骤Sb15处已修改了默认规则使得答复的词尾的音高上移一级或从音高数据所指示的音高向下三度,则语音控制部109C在步骤Sb17进一步对修改后的默认规则进行修改以使得答复的词尾的音高又上移
一级或从音高数据所指示的音高向上四度。注意,如果如上所述跳过了步骤Sb13或Sb15的操作,则语音控制部109C在步骤Sb17对默认规则进行修改以使得答复的词尾的音高上移一级或从音高数据所指示的音高向下三度。
[0293] 如果中介属性不是女性(步骤Sb16处判定为否),则语音控制部109C在步骤Sb18进一步确定中介属性是否为男性。如果中介属性是男性(步骤Sb18处判定为是),则语音控制部109C在步骤Sb19进一步对修改后的默认规则进行修改以使得答复的词尾的音高下移至向下一级的音高。例如,如果默认规则已被修改使得答复的词尾的音高下移一级或从音高数据所指示的音高向下六度,则语音控制部109C在步骤Sb19进一步修改默认规则以使得答复的词尾的音高被移动至从参考音高再向下一级的音高或从音高数据所指示的音高向下
八度的音高。此外,如果已修改了默认规则使得答复的词尾的音高被移动至向上一级的音高或从音高数据所指示的音高向下三度的音高,则语音控制部109C将修改后的默认规则返回至原始默认规则以使得答复的词尾的音高被移动至最初规定的向下五度的音高。此外,如果跳过了步骤Sb13或Sb15的操作,则语音控制部109C在步骤Sb19修改默认规则,使得答复的词尾的音高被移动至从参考音高向下一级的音高或者从音高数据所指示的音高向下
六度的音高。
[0294] 如果中介属性是中性或者如果中介属性还未被登记(步骤Sb18处判定为否),则语音控制部109C跳过步骤Sb17或Sb19的操作。在完成步骤Sb17或Sb19的操作之后,或者在跳过步骤Sb17或Sb19之后,处理返回至图34的步骤Sa28。通过酌情修改的默认规则来确定要应用的规则。注意,可以基于中介属性或话语讲话者属性中的至少一个来执行默认规则的修改(即,规则的确定)。
[0295] 返回来参考图34,语音控制部109C在步骤Sa28确定通过应用在步骤Sa27处确定的规则(或默认规则)来改变从答复创建部110供应的语音序列。更具体地,如果所确定的规则规定了答复中的词尾的音高应当被移动至例如从音高数据所指示的音高向下三度的音高,则语音控制部109C以如下方式对语音序列的全部音高进行移动:使从答复创建部110供应的语音序列中所定义的答复中的词尾的音高呈现出从音高数据所指示的音高向下三度的音程关系。在步骤Sa18,语音控制部109C根据所确定的内容控制语音合成部112进行的语音合成。由此,语音合成部112根据语音控制部109C所确定的规则来控制语音序列的各音高并从而合成和输出具有受控音高的答复语音信号。
[0296] 下面关于一些具体示例来描述话语的音高、语音序列的基本音高以及改变后的语音序列的音高。图36的(b)的左边区域示出了用户讲出的话语的一个示例。在图36的示出示例中,如左边区域中所示,该话语的语言分析结果为“asu wa hare desuka?”(日语罗马字,意思是“明天是晴天吗?”)并且其中利用音符将音高分配给话语的各独立声音。虽然该话语实际上具有类似于图5的(b)所示音高波形的音高波形,但是为了便于说明用音符来示出该话语的各音高。在这种情况下,与之前所述方式相同,如果响应于该话语而获取的天气信息指示“hare”,则答复创建部110输出语音序列“hai”,或者如果所获取的天气信息指示不是“hare”,则答复创建部110输出语音序列“iie”。
[0297] 图36的(a)示出了语音序列“hai”(日语罗马字)的基本音高的一个示例,而图36的(b)的右边区域示出了根据默认规则控制了其音高的答复语音序列的一个示例。即,如果将要应用默认规则,则答复创建部110输出的语音序列按如下方式被语音控制部109C改变。即,如果图36的(b)的左边区域中指示的话语中由参考标记A所指示的词尾处的区间“ka”的音高由音高数据指示为“E”,则语音控制部109C改变整个语音序列的音高使得答复“hai”中由参考标记B所指示的词尾处的区间“i”的音高变为音高“A”,其为从音高“E”向下五度的音高(参见图36的(b)的右边区域)。
[0298] 注意,在本实施例中,在三种情况下应用默认规则:当在步骤Sb12、Sb14、Sb16和Sb18的每一个中均做出“否”判定时;当在步骤Sb12做出“是”判定并且在步骤Sb16做出“是”判定时;以及当在步骤Sb12做出“否”判定,在步骤Sb14做出“是”判定,并且在步骤Sb18做出“是”判定时。
[0299] 在讲出的话语如图36的(b)的左边区域所示的情况下并且如果指示移动至例如从音高数据所指示的音高向下六度的音高的修改后的规则将被应用,则答复创建部110输出的语音处理按如下方式被语音控制部109C改变。即,语音控制部109C改变整个语音序列的各音高,使得答复“hai”中由参考标记B所指示的词尾处的区间“i”的音高被改变为从音高“E”向下六度的音高“G”(参见图37的右边区域)。
[0300] 注意,在本实施例中,在两种情况下应用指示“向下六度”的规则:当在步骤Sb12做出“是”判定,并且在步骤Sb16和步骤Sb18做出“否”判定时;以及当在步骤Sb12和Sb14做出“否”判定,在步骤Sb16做出“否”判定,并且在步骤Sb18做出“是”判定时。
[0301] 在讲出的话语如图36的(b)的左边区域所示的情况下,并且如果将要应用指示移动至例如从音高数据所指示的音高向下八度的音高的修改后的规则,则由答复创建部110输出的语音序列按如下方式被语音控制部109C改变。即,语音控制部109C改变整个语音序列的各音高使得答复“hai”中由参考标记B所指示的词尾处的区间“i”的音高被改变为从音高“E”向下八度(一个八度)的音高“E”(参见图38的右边区域)。注意,在本实施例中,只在一种情况下应用指示“向下八度”的规则,即,当在步骤Sb12做出“是”判定,在步骤Sb16做出“否”判定并且在步骤Sb18做出“是”判定时。
[0302] 在讲出的话语如图36的(b)的左边区域所示的情况下并且如果将要应用指示移动至从音高数据所指示的音高向下三度的音高的修改后的规则,则答复创建部110输出的语音序列按如下方式被语音控制部109C改变。即,语音控制部109C改变整个语音序列的各音高,使得答复“hai”中由参考标记B所指示的词尾处的区间“i”的音高被改变为从音高“E”向下三度的音高“C”(参见图39的右边区域)。注意,在本实施例中,在两种情况下应用指示“向下三度”的规则:当在步骤Sb12做出“否”判定,在步骤Sb14做出“是”判定并且在步骤Sb16和Sb18做出“否”判定时;以及当在步骤Sb12和Sb14做出“否”判定并且在步骤Sb16做出“是”判定时。
[0303] 在讲出的话语如图36的(b)的左边区域所示的情况下并且如果将要应用指示移动至从音高数据所指示的音高向上四度的音高的修改后的规则,则答复创建部110输出的语音序列按如下方式被语音控制部109C改变。即,语音控制部109C改变整个语音序列的各音高,使得答复“hai”中由参考标记B所指示的词尾处的区间“i”的音高被改变为从音高“E”向上四度的音高“A”(参见图40的右边区域)。注意,在本实施例中,只在一种情况下应用指示“向上四度”的规则,即,当在步骤Sb12做出“否”判定,在步骤Sb14做出“是”判定并且在步骤Sb16做出“是”判定时。
[0304] 以上关于答复包括词汇“hai”的情况对本实施例进行了描述。但是,对于包括不同于“hai”的其他词汇的答复也一样,以与前述方式类似的方式,根据基于中介属性和话语讲话者属性中的至少一个所确定的规则来改变整个答复语音序列的各音高。
[0305] 在应用规定了答复的词尾的音高应当是从话语的词尾的音高向下五度的默认规则的情况下,在本实施例中以如下方式合成答复的语音:如果讲话者属性是女性,则答复的词尾的音高下降一级,而如果讲话者属性是男性,则上升一级。此外,在应用规定了答复的词尾的音高应当是从话语的词尾的音高向下五度的默认规则的情况下,在本实施例中对答复的语音进行合成以使得如果中介属性是女性,则将答复的词尾的音高上升一级,而如果中介属性是男性,则下降一级。如上所述,由于答复的各音高根据讲话者属性和中介属性而改变,因此本实施例可给用户某种程度的新鲜感和乐趣。
[0306] <利用语音波形数据的修改例>
[0307] 如上述第八实施例和第九实施例一样,第十实施例可以以与上述第二实施例类似的方式进行修改。即,答复创建部110和语音合成部112的组合(即,利用语音合成技术的语音产生部)可以被替换为如图8或图16或图19所示的答复语音输出部113和后处理部114的组合(即,利用波形数据的语音产生部),并且可以从答复语音输出部113输出例如WAV格式的语音波形数据。
[0308] <讲话者属性>
[0309] 以上将第十实施例描述为利用在充当语音合成设备10的终端设备中登记的用户个人信息作为讲话者属性。但是,作为一种替代方式,可以在语音合成设备10中检测讲话者属性。例如,可以对用户的话语执行音量分析、频率分析等,并且随后将这种被分析的用户的话语和与预先存储的各种性别和年龄的组合相对应的模式进行比较,从而检测出具有高相似度的一种模式的属性作为讲话者属性。如果无法检测到这种讲话者属性,则在图35的步骤Sb12和步骤Sb14做出“否”判定。
[0310] <中介属性>
[0311] 虽然以上关于中介属性为性别的情况对第十实施例进行了描述,但是中介属性可以包括三种或三种以上属性(诸如性别、年龄等)的组合。
[0312] <非正式反馈的重复、非正式反馈的输出时机等>
[0313] 当从讲话者的性别的角度来看人与人之间的对话时,可能会根据讲话者属性观察到以下特定趋势。为了便于描述,假设女性通常倾向于重视氛围和调和并且在对话中观察到使氛围活跃的趋势。更具体地,假设观察到频繁使用非正式反馈、重复非正式反馈、缩短从话语到答复的时长等趋势。进一步假设女性肯定也对以合成的语音输出针对话语的答复的语音合成设备10抱以这种期望。因此,如果讲话者属性是女性,则语音控制部109C可以通知答复创建部110该结果以使得答复创建部110增加将答复创建为针对话语的非正式反馈的频率或者重复地输出同一非正式反馈的语音序列。此外,语音控制部109C可以控制语音合成部112以相对加快从用户的话语的结尾到开始输出针对该话语的答复的时间点的时
间。
[0314] 另一方面,男性通常倾向于重视对话中的内容、逻辑性、个性等。更具体地,为了便于描述,假设男性倾向于不会不必要地给出非正式反馈、根据情形敢于不给出答复(敢于沉默)、延长从话语到答复的时长等。因此,如果讲话者属性是男性,则语音控制部109C可以通知答复创建部110该结果以使得答复创建部110降低将答复创建为针对话语的非正式反馈的频率或者有时在一定几率下不给出答复。此外,语音控制部109C可以控制语音合成部112以相对减慢从用户的话语的结尾到开始输出针对该话语的答复的时间点的时间。
[0315] 此外,作为在答复的词尾的音高从根据默认规则而预先确定的音高降低时要应用的一个条件,可以在图35的步骤Sb13将话语的词尾的音高应当等于或大于第一阈音高(频率)的条件(参见步骤Sb13的块中的标记※)添加到讲话者属性是女性的条件。这是为了避免答复(包括合成的语音)在女性讲话音高高的情况下变得不自然地高。类似地,作为在答复的词尾的音高从根据默认规则而预先确定的音高升高时要应用的一个条件,可以在图35的步骤Sb15处将话语的词尾的音高应当等于或小于第二阈音高的条件(参见步骤Sb15的块中的标记※)添加到讲话者属性是男性的条件。这是为了避免答复(包括合成的语音)在男性讲话音高低的情况下变得不自然地低。
[0316] 注意,关于第一实施例和第二实施例的各种应用示例和/或修改例也可应用于本发明的第十实施例。
[0317] 简而言之,上述第十实施例的特征在于:语音产生部(即,语音合成部112,或答复语音输出部113和后处理部114的组合)被构造为根据给定规则将第二区间的音高与所分析的第一区间的音高相关联,并且利用基于给定中介属性的特点来产生答复的语音。第十实施例还包括控制部(语音控制部109C),其基于中介属性和话语的讲话者的属性中的至少一个确定上述规则。
[0318] <第十一实施例>
[0319] 下面参照图41描述本发明的语音合成设备的第十一实施例,其特征在于:在答复语音的可听地产生或发声之后,响应于经由语音输入部接收到另一话语的语音,对用于将答复语音的第二区间的音高与所分析的第一区间的音高相关联的规则进行更新。即,第十一实施例的特征在于:鉴于响应于机器讲出的答复而由用户讲出的另一话语,酌情改变要应用于下一答复语音的产生的规则。图41是本发明的语音合成设备10的第十一实施例的功能性框图。用与图1中相同的参考标记示出与图1中的块实现基本相同功能的图41中的块,并且将不对其进行描述以避免不必要的重复。图41的实施例除了包括图1示出的构造之外还包括语音控制部109D和管理数据库127。
[0320] 类似于上述实施例中的每一个中的对应部分,第十一实施例中的语音合成部112通过根据预定规则(即,使得答复的第二区间的音高与询问或话语的第一区间的音高呈现出预定的音程关系)对由答复创建部110所创建的答复语音序列的各音高进行控制来对答
复的语音进行合成。下面将第十一实施例中采用的给定规则称为“音高规则”。在答复语音的可听地产生或发声之后响应于经由语音输入部102接收到的另一话语的语音,语音控制部109D通过对应用至语音合成部112的规则(音高规则)进行更新来控制语音合成部112进
行的语音合成。
[0321] 如上所述,答复的第二区间的音高相对于询问或话语的第一区间的音高应当呈现出何种关系以让用户感到舒服并使得对话逼真在用户与用户之间存在不同。因此,在第十一实施例中,将评估时段设置为操作时段,并且利用多个音高规则来合成针对同一话语的各答复的语音。随后,在评估时段结束时,其中实现最逼真对话的一个音高规则(即,利用该音高规则使得对话最逼真)被设置为要应用的音高规则,使得可以在随后的语音合成中反映由此设置的音高规则。
[0322] 由语音控制部109D管理的管理数据库127除了别的之外还存储其中音高规则和指示对话的逼真度的的指标彼此一一关联的表格(指标表)。图42是示出指标表中的存储内容的一个示例。如图42所示,针对每个音高规则将话语的数量和应用的数量彼此关联。这里,各音高规则的每个都规定了答复的词尾的音高相对于话语的词尾的音高应当呈现出何种
关系,比如向上四度、向下三度、向下五度、向下六度和向下八度,如图中所示。
[0323] 此外,“话语的数量”意思是在语音合成设备10合成了针对用户讲出的话语的答复的语音并且随后用户在预定时间段内讲出另一话语的情况下用户讲出的话语的计数数量。话句话说,在评估时段期间,即使在答复的语音已经被语音合成设备10合成时,也可以想到的是用户没有讲出另一话语或者在预定时间段过去之后讲出另一话语(如有);这样的另一话语不被作为话语的数量进行计数。“应用的数量”指的是在评估时段期间相应音高规则被应用的次数。因此,通过比较将话语数量除以相应应用数量而计算出的值,用户可以了解哪个音高规则实现了最大数量的针对答复的话语,即,哪个音高规则实现了最逼真的对话。注意,即使已通过应用音高规则中的任一个合成了答复的语音时,用户可能有时也在预定时间段内不针对该答复讲出话语。这是因为应用的数量超过了话语的数量,如图42的示出示例中那样。
[0324] 图43是示出由CPU执行的应用程序所设置的操作时段的一个示例的图。在本实施例中,如图43所示,在操作时段中,规则固定时段和上述评估时段交替重复进行。这里,规则固定时段是根据在评估时段结束时设置的一个音高规则来合成答复的语音的时段。作为一个示例,在其中一个规则固定时段设置的这种音高规则是如图中白色三角所指示的“向下五度”。
[0325] 另一方面,评估时段是用于基于通过将音高规则应用于用户讲出的话语而进行的答复的语音合成来评价出多个音高规则中实现了最逼真的对话的音高规则。虽然本实施例被构造为使得规则固定时段和上述评估时段在操作时段中如图43所示那样交替重复,但是其也可以被构造为例如只响应于用户的指令而转移至评估时段。
[0326] 图44是在语音合成设备10的第十一实施例中执行的语音合成处理的流程图。与规则固定时段和评估时段无关地执行该语音合成处理。图44被示出为图4的修改例,并且与图4中的步骤执行实质相同的操作的步骤用与图4中相同的参考标记示出并将不进行描述以
避免不必要的重复。
[0327] 在图44的步骤Sa15a和Sa15b处执行与图4的步骤Sa15或图21的步骤Sa15a和Sa15b类似的操作。在图44的步骤Sa16,以与图4的步骤Sa16相同的方式执行用于识别从答复创建部110供应的语音序列中的第二区间(词尾)的音高(初始音高)的操作。此外,在图44的步骤Sa13a,以与图4的步骤Sa13相同的方式分析话语中的检测到的说话区间的语音信号以识别话语中的第一区间(词尾)的音高。随后,指示识别出的音高的数据被供应至语音控制部
109D。
[0328] 在步骤Sa29,语音控制部109D确定当前时间点是否处于规则固定时段之一内。如果当前时间点处于规则固定时段之一内(在步骤Sa29判定为是),则语音控制部109D在步骤Sa30应用在规则固定时段之前的评估时段中设置的音高规则。如果当前时间点不处于规则固定时段之一内而是处于评估时段之一内(步骤Sa29判定为否),则语音控制部109D在步骤Sa31选择例如以下总计三个音高规则中的任一个:在当前评估时段之前的评估时段中设置的音高规则以及在指标表中上下紧挨着(即,在上下方向上夹住)该音高规则的两个规则,然后应用由此选择的音高规则。更具体地,如果所设置的音高规则是图42中的白色三角标记所示出的“向下五度”,则语音控制部109D随机或按预定顺序选择以下三个规则中的任一个:“向下五度”的音高规则以及在指标表的竖直或上下方向上夹住“向下五度”的“向下三度”和“向下六度”的音高规则。
[0329] 在下一个步骤Sa32,语音控制部109D指示语音合成部112对答复进行音高改变以使得答复的第二区间(词尾)的音高与在步骤Sa13识别出的话语的第一区间(词尾)的音高
呈现出由所应用的音高规则规定的预定的音程关系。根据这样的指示,语音合成部112以如下方式改变整个语音序列的各音高:使答复的词尾的音高移动至由所应用的音高规则规定的音高。在本实施例中,在通过语音合成(即,以合成的语音)输出一个答复之后处理返回至步骤Sa11,从而允许用户在该答复之后讲出另一话语(即,从而接收另一话语)。如果用户不想继续与机器进行对话,则可响应于用户的明确操作(例如,用户对软件按钮的操作)使当前语音合成处理结束。
[0330] 图45是示出表更新处理的流程图。该表更新处理(其独立于图44的语音合成处理而执行)主要被设计来在评估时段对指标表(参见图42)进行更新,从而设置要在规则固定时段应用的音高规则。
[0331] 在步骤Sb21,语音控制部109D确定当前时间点(当前时间)是否处于评估时段之一内。如果当前时间点未处于评估时段之一内(步骤Sb21处判定为否),则语音控制部109D将表更新处理返回至步骤Sb21。另一方面,如果当前时间点处于评估时段之一内(步骤Sb21处判定为是),则语音控制部109D在步骤Sb22进一步确定是否已输出通过语音合成部112进行的语音合成所创建的任何答复。如果答复还未输出(步骤Sb22处判定为否),则语音控制部109D将表更新处理返回至步骤Sb21。由此,不执行表更新处理中的随后操作,除非当前时间点处于评估时段之一内并且已输出任一答复。另一方面,如果答复已输出(步骤Sb22处判定为是),则语音控制部109D在步骤Sb23进一步确定在该答复输出之后的预定时间段(例如,5秒)内是否存在任何用户话语。可以通过语音控制部109D对在答复输出之后的预定时间段内是否存在被供应的音高数据进行检查来确定在预定时间段内是否存在任何用户话语。
[0332] 如果在答复的输出之后的预定时间段内存在任何用户话语(步骤Sb23处判定为“是”),则语音控制部109D在步骤Sb24识别已被应用至答复的语音合成的音高规则,以对指标表进行更新。通过如下方式容许进行对这种音高规则的识别:在上述步骤Sa31处选择音高规则时将选定的音高规则和选定的时间信息彼此关联地存储到管理数据库127中,并随后搜索与最新或最近的时间信息相关联的音高规则。在步骤Sb25,语音控制部109D在指标表中将应用至答复的语音合成的音高规则的各项(话语的数量和应用的数量)增加1。
[0333] 另一方面,如果在答复的输出之后的预定时间段内不存在用户话语或者在预定时间段过去之后才讲出话语(步骤Sb23处判定为“否”),则语音控制部109D在步骤Sb26以与步骤Sb24相同的方式识别已被应用至答复的语音合成的音高规则。但是,在这种情况下,语音控制部109D在步骤Sb27只将指标表中的应用至答复的语音合成的音高规则的应用的数量增加1,这是因为认为不存在用户话语。
[0334] 接着,在步骤Sb28,语音控制部109D确定当前时间点是否是评估时段的结束时间。如果当前时间点不是评估时段的结束时间(步骤Sb28处判定为“否”),则语音控制部109D将处理返回到上述步骤Sb21以为在答复的输出之后用户讲出话语时的下一次做准备。另一方面,如果当前时间点是评估时段的结束时间(步骤Sb28处判定为“是”),则语音控制部109D在所讨论的评估时段中针对三个音高规则将通过将话语的数量除以相应的应用的数量而
计算出的数值进行比较,从而语音控制部109D将各音高规则中实现最逼真对话的一个音高规则设置为将要在该评估时段之后的规则固定时段中应用的音高规则(步骤Sb29)。例如,如果在步骤Sb28的操作中,评估时段中的三个音高规则分别是向下三度、向下五度、向下六度,并且话语的数量和应用的数量是如图42所示的值,则在规则固定时段中要应用的音高规则从预先设置的“向下五度”音高规则改变为由黑色三角标记所示出的“向下三度”音高规则。然后,语音控制部109D将在该评估时段中评估的三个音高规则中每一个的话语的数量和应用的数量清除,并随后将处理返回至步骤Sb21以便在下一个评估时段中执行类似操作。
[0335] 如上所述,本实施例被构造为:通过在评估时段中应用不同音高规则中的任一个来创建答复;如果在预定时段内存在针对答复的任何用户话语,则对话语的数量和所应用的音高规则的应用的数量进行更新;以及如果针对答复的用户话语不在预定时段内,则只对所应用的音高规则的应用的数量进行更新。随后,在评估时段结束时间处,在下一个规则固定时段中设置和应用实现了最逼真的对话的音高规则。
[0336] 第十一实施例中的话语的音高、语音序列的基本音高和语音序列的改变后的音高的具体示例可以与图36至图40中的那些类似。即,如果将“向下五度”应用为用于确定针对如图36的(b)的左边区域中所示的话语“asu wa hare desuka?”的答复“hai”的各音高的规则,则设置如图36的(b)的右边区域所示的音高模式。如果“向下六度”被应用为所述规则,则设置如图37的右边区域所示的音高模式。此外,如果“向下八度”被应用为所述规则,则设置如图38的右边区域所示的音高模式。此外,如果“向下三度”被应用为所述规则,则设置如图39的右边区域所示的音高模式。此外,如果“向上四度”被应用为规则,则设置如图40的右边区域所示的音高模式。
[0337] 在第十一实施例中,要在规则固定时段中应用的音高规则是在该规则固定时段之前的评估时段中实现了最逼真的对话的音高规则。因此,在该规则固定时段中,可以容易地使对话变得逼真;简言之,用户容易讲出话语。此外,由于在各评估时段中设置了这样的音高规则,因此可以实现使用户舒服、可以让用户放松并且可以使对话逼真(即,可以将对话指引到更有生气的方向上)的情形。
[0338] <第十二实施例>
[0339] 已描述了第十一实施例被构造为:在评估时段应用多个音高规则、设置各音高规则中实现了最逼真的对话的任一音高规则并且在规则固定时段中使用由此设置的音高规则。然而,除了音高之外,能够使得对话逼真的因素的示例还包括从话语到答复的“停顿”,即,时间间隔。因此,下面描述本发明的第十二实施例,其不仅如第十一实施例那样基于对音高规则的设置来执行答复语音音高控制,而且还在评估时段输出具有不同停顿的答复、设置各停顿中实现了最逼真的对话的一个停顿并且应用由此设置的停顿以控制答复的停
顿。
[0340] 通过执行上述应用程序而在第十二实施例中构建的功能块大致与图41的第十一实施例中的那些类似。然而,在第十二实施例中,除了如图42所示的用于对音高规则进行评估的表以外,还使用如图46所示的用于评估答复输出规则的表作为指标表。
[0341] 在用于评估答复输出规则的指标表(如图46所示)中,对于每个输出规则而言话语的数量和应用的数量彼此关联。这里,输出规则的每一个规定了例如从话语的结束(词尾)到答复的开始(词首)的停顿或时间间隔,并且这些输出规则以阶梯式方式指定了0.5秒、1秒、1.5秒、2.0秒和2.5秒。注意,这里的与各单独输出规则相关联的话语的数量和应用的数量与第十一实施例中的类似。
[0342] 第十二实施例中的处理可以类似于图44和图45中示出的处理,不同之处在于图44和图45中的“音高规则”应当被读作“音高规则和输出规则”等。更具体地,如果在图44中的步骤Sa30处当前时间点处于规则固定时段内,则语音控制部109D决定通过应用已经在该规则固定时段之前的评估时段中设置的音高规则和输出规则来合成语音。另一方面,如果在步骤Sa31当前时间点处于评估时段内,则语音控制部109D选择三个音高规则中的任一个,选择如下总共三个输出规则中的任一个:已经在规则固定时段之前的评估时段中设置的输出规则;以及在指标表(参见图46)中上下紧挨着(即,在竖直或上下方向上夹住)该设置的输出规则的两个输出规则,并应用由此选择的音高规则和输出规则。在步骤Sa32,被提供了音高数据的语音控制部109D指示语音合成部112合成针对话语的答复的语音以使得答复的词尾的音高与由所提供的音高数据所指示的音高呈现出如所应用的音高规则所确定的关系,并且使得从话语的词尾到开始输出答复时的时间点的时间间隔与由所应用的输出规则所确定的时间间隔一致。
[0343] 此外,为了更新所述两个指标表,语音控制部109D在图45的步骤Sb24和Sb26识别应用至答复的语音合成的音高规则和输出规则,并且在步骤Sb25将所应用的音高规则的两项和所应用的输出规则的两项中的每一项增加1。在步骤Sb27,语音控制部109D只将所应用的音高规则的应用的数量增加1并且只将所应用的输出规则的应用的数量增加1。如果当前时间点是评估时段的结束时间,则语音控制部109D在步骤Sb29在评估时段中设置各音高规则和各输出规则中实现了最逼真的对话的一个音高规则和一个输出规则。然后,在步骤Sb30,语音控制部109D将在评估时段中评估的各音高规则和输出规则的各项清除。
[0344] 通过第十二实施例,在评估时段中各音高规则和各输出规则中的实现了最逼真的对话的一个音高规则和一个输出规则被应用到该评估时段之后的规则固定时段中,可以利用有助于用户讲话的停顿来返回让用户舒服的良好印象的答复。例如,在语音合成设备10响应于如图17的(a)所示的用户的话语“asu no tenki wa?”(日语罗马字,意思是“明天天气如何?”)而输出答复“hare desu”(日语罗马字,意思是“明天是晴天”)的情况下,将从用户的话语的词尾“wa”(日语罗马字)到词首“ha”(日语罗马字)的时间间隔Ta设置为有助于用户W使对话有生气的时间间隔。在这种情况下,尽管未特别示出,答复的词尾“su”(日语罗马字)的音高被设置为相对于用户的话语的词尾“wa”(日语罗马字)处于由可以有助于使对话有生气的音高规则所指定的关系。
[0345] 如上所述,在第十二实施例中,如第十一实施例那样,以如下方式合成答复的语音:使答复的词尾的音高与话语的词尾的音高呈现出协和音程关系。此外,第十二实施例利用停顿来合成答复的语音,该停顿允许用户相比于第十一实施例更容易讲话,由此,第十二实施例可以使与用户的对话相比于第十一实施例更加逼真。
[0346] 虽然如上描述了第十二实施例被构造成除了以与第十一实施例相同的方式执行答复的音高控制之外,还控制从话语到答复的“停顿”,但是其可以被构造为只控制停顿而不执行答复的音高控制。这种修改形式(执行停顿控制而不执行音高控制)的内容通常类似于图45的处理,不同之处在于图45中的“音高规则”应当读作“输出规则”,并且从以上关于第十二实施例的描述中本领域技术人员可以充分理解该修改形式的内容。
[0347] <第十三实施例>
[0348] 下面描述本发明的第十三实施例。首先,简要叙述第十三实施例的前提。使针对话语的答复的词尾的音高相对于话语的词尾的音高让人感到舒服的音高关系因人而异。特别是,由于女性和男性的话语的音高彼此差异很大(即,女性的音高通常高于男性的音高),因此女性和男性的话语可以给出极大不同的印象。此外,近年来,有时可以通过语音合成以预定性别和年龄的虚拟人物的语音来输出答复。据认为,如果针对话语进行答复的人物的语音改变并且尤其是如果人物的性别改变,则用户将获得与改变前接收到的印象不同的印象。因此,本发明的第十三实施例作为不同场景假设了用户的性别(女性和男性)和要合成的语音的性别的各种组合并提供针对各单独场景的指标表以使得可以使用各指标表中与
用户的话语相对应的任一个指标表。
[0349] 图47示出了在第十三实施例中提供与用户的性别和要合成的语音的性别的各种组合相对应的指标表的示例。更具体地,在管理数据库127中准备了与用户的两种性别(即,女性和男性)以及要通过设备合成的答复语音的两种性别(即,女性和男性)对应的总计四个指标表。语音控制部109D以如下方式来选择这四个指标表中的任一个。
[0350] 即,语音控制部109D根据例如已登陆到充当语音合成设备10的终端设备中的用户的个人信息来识别用户的性别。替代性地,语音控制部109D可以对用户的话语执行音量分析和频率分析,将所分析的用户的话语的音量和频率与预先存储的女性和男性的模式进行比较,并识别预先存储的模式中与用户的话语的音量和频率具有高相似度的一个模式的性别来作为用户的性别。此外,语音控制部109D根据所设置的信息(对话中介的性别信息)来识别答复的性别。一旦语音控制部109D以上述方式识别出用户的性别以及答复的语音的性别,则其选择各指标表中与所识别的性别的组合相对应的一个指标表。在选择指标表之后,本实施例中规则固定时段和评估时段以与第十一实施例中相同的方式交替重复。
[0351] 根据第十三实施例,使用各指标表中与用户的话语的场景相对应的一个指标表,并且还在规则固定时段中对答复的词尾的音高进行控制以相对于话语的词尾的音高呈现出由在所述一个指标表中设置的音高规则所指定的预定关系。此外,在评估时段中设置指标表的各音高规则中的实现了最逼真对话的一个音高规则。由此,第十三实施例可以容易地使得在不同场景中对话对用户而言逼真和舒服。
[0352] 第十一实施例(其中规则固定时段和评估时段重复)也可以趋向于不管场景的变化都能够容易地使得对话对用户而言舒服和逼真的条件。但是,预期到的是实现这种趋向所需的时间(即,实现这种趋向所需的规则固定时段和评估时段的重复数量)将不期望地增加。相反,如果将适当的音高规则预先设置为每个场景的初始状态,则第十三实施例可以显著减少趋向于能够容易地使对话舒服的条件所需的时间。
[0353] 虽然以上关于将如第十一实施例中使用的音高规则用作指标表的情况对第十三实施例进行了描述,但是也可以用如下方式将第十二实施例的输出规则与音高规则相结合地用于第十三实施例中:响应于场景的改变而在输出规则之间进行切换。此外,所述场景可以包括性别和年龄的组合而非仅包括年龄。此外,可以将话语的速度、答复的速度和语音合成设备10的应用(比如在类似于博物馆、美术馆和动物园的各种设施中的语音指导应用以及语音对话应用等)假定并准备为场景,而不是将所述场景限制为用户以及对用户进行答复的虚拟人物的性别和年龄。
[0354] <利用语音波形数据的修改例>
[0355] 类似于上述其他实施例,第十一至第十三实施例可以以类似于上述第二实施例的方式进行修改。即,图41的答复创建部110和语音合成部112的组合(即,利用语音合成技术的语音产生部)可以被替换为如图8或图16或图19所示的答复语音输出部113和后处理部114的组合(即,利用波形数据的语音产生部),并且可以从答复语音输出部113以例如WAV格式输出语音波形数据。
[0356] 注意,关于第一和第二实施例的各种应用示例和/或修改例也可以应用于本发明的第十一至第十三实施例。
[0357] 简言之,上述第十一至第十三实施例的特征在于:语音产生部(即,语音合成部112,或答复语音输出部113和后处理部114的组合)被构造为根据给定规则将第二区间的音高与所分析的第一区间的音高相关联,并且这些实施例还包括控制部(语音控制部109D),其在答复的发声或音响产生之后基于经由语音输入部(102)对另一话语的语音的接收而对规则进行更新。
[0358] <第十四实施例>
[0359] 下面参照图48和图49描述根据本发明的第十四实施例构造的编码/解码装置和语音合成系统。第十四实施例的特征在于通过编码/解码装置200的快速处理来高效地产生响应于输入话语的非正式反馈的语音,同时通过计算机160的高容量集中式处理来高效地产生响应于输出话语的具有相对复杂的语言含义的答复的语音。以这种方式,第十四实施例提供了能够实现灵活人机对话功能的语音合成系统(语音合成设备100)。
[0360] 图48是示出根据本发明的第十四实施例构造的包括编码/解码装置的语音合成设备100(语音合成系统)的硬件配置的图。该语音合成设备100(语音合成系统)是例如比如便携式电话的终端设备的形式,其包括:语音输入部102;扬声器142;编码/解码装置(下文称作“CODEC”(
编码器解码器))200;以及主机计算机160,其相对于CODEC 200是更高级别的计算机。
[0361] 单芯片或多芯片模块形式的CODEC 200包括
微处理器202、
存储器204、A/D转换器206和D/A转换器208。此外,CODEC 200被构造为通过微处理器202执行存储在存储器204中的程序P1(
固件)来对语音信号进行处理。
[0362] 主机计算机160包括CPU(中央处理单元)162和存储器164。CPU 162经由总线BUS与CODEC 200和存储器164相连接。在本实施例中用于语音处理的程序P2以及
操作系统存储在存储器164中。本实施例中的语音处理包括:当用户讲出话语时用于利用合成的语音输出针对该话语的答复或非正式反馈的对话处理;用于将用户的话语转换为文字列的
语音识别处理;以及用于再现和输出通过主机160处理的音乐、语音等的再现(播放)处理。
[0363] 虽然没有特别示出,但是语音合成设备100还包括显示部、操作输入部等,以使得用户能够检查语音合成设备100的状态以及向设备100输入各种操作。此外,语音合成设备100可以是笔记本或平板个人计算机的形式而不是比如便携式电话的终端设备的形式。
[0364] 图49是示出本发明的语音合成设备100的功能配置的功能性框图。通过CODEC 200中的执行程序P1的微处理器202以及通过主机160中的执行程序P2的CPU 162来建立各个功能块。如图中所示,CODEC 200内已建立有音高分析部106、语言分析部108a、协作部140、读出部142、非正式反馈数据存储部143和音高控制部144,而主机160内已建立有语言分析部108b、协作部180、答复创建部110、语言数据库122、答复数据库124和语音库128。用与图1中相同的参考标记示出与图1中的块实现基本相同功能的图49中的块,并且将不对其进行描述以避免不必要的重复。
[0365] CODEC 200中的音高分析部106和语言分析部108a与图1中示出的音高分析部106和语言分析部108以基本相同的方式工作。但是,注意,语言分析部108a确定经由语音输入部102接收到的话语是否具有应当对其返回非正式反馈的内容或者是否具有应当对其返回不同于非正式反馈的答复的内容。语言分析部108a进行这种确定的具体方式的可能示例之中的一个示例是:预先存储朝向例如典型询问(即,针对其要返回不同于非正式反馈的答复的话语)的词尾的音量和音高变化模式。在这种情况下,如果由从音高分析部106输出的音量波形和音高波形表示的音量变化和音高变化匹配于(或高度类似于)任意的预先存储的
音量变化模式和音高变化模式,则该话语被确定为询问。另一方面,如果由从音高分析部
106输出的音量波形和音高波形表示的音量变化和音高变化不匹配于(或低度类似于)任意的预先存储的音量变化模式和音高变化模式,则该话语被确定为应当针对其返回非正式反馈的话语。注意,如果语言分析部108a无法确定是应当返回非正式反馈还是应当返回不同于非正式反馈的另一答复,或者如果语言分析部108a的确定结果可靠度低,则可以采用这样的特定规则:其使得确定步骤被直接委托给在随后阶段设置的主机160(语言分析部
108b)。此外,由于非正式反馈旨在单纯地使交谈流畅(或者改善交谈的节奏)并且可以无视非正式反馈的含义,实际上即使在话语是询问的情况下返回非正式反馈问题也不大。
[0366] 如果确定经由语音输入部102接收到的话语具有应当对其返回非正式反馈的内容,则协作部140控制音高控制部144选择非正式反馈数据作为处理对象并通知主机160其无需对该话语执行处理。在确定经由语音输入部102接收到的话语具有应当对其返回不同于非正式反馈的另一答复的内容的情况下(在应用特定规则的条件下,包括话语的内容无法辨识的情况和确定的结果可靠度低的情况),协作部140指示音高控制部144选择由主机
160的答复创建部110所创建的答复数据(即,不同于非正式反馈数据的响应数据)作为音高控制处理的对象,并通知主机160其应当创建(或获取)针对话语的答复(响应)。
[0367] 非正式反馈数据存储部143中存储有非正式反馈数据的多个集合。这里,非正式反馈数据的多个集合是语音波形数据的多个集合,该语音波形数据包括简单答复,比如“êto”(“让我想想。”)、“naru hodo”(“我知道了。”)、“sou desune”(“恩,……”)、“a hai”(“哦,是的。”)、“nn”(“让我们看看。”)。语音波形数据的集合例如为WAV格式。
[0368] 如果语音输入部102确定经由语音输入部102接收到的话语具有应当对其返回非正式反馈的内容,则读出部142根据预定顺序或随机读出非正式反馈数据的多个集合中的任何一个,并将所读出的非正式反馈数据供应至音高控制部144。通过这种非正式反馈数据独立于话语的具体内容而输出的构造,有时可以输出与话语无关的非正式反馈,但是,这并不重要,因为可以如上所述地无视非正式反馈的含义。
[0369] 因为由读出部142读出的非正式反馈和由答复创建部110供应的答复数据(不同于非正式反馈的响应数据)都是语音波形数据,因此可以通过按原样再现的非正式反馈和响应数据以语音输出非正式反馈和答复(不同于非正式反馈的响应)。但是,第十四实施例被构造为在考虑要针对其返回非正式反馈或答复的话语的音高的情况下对非正式反馈或答
复(响应)的音高进行控制,如上述第一实施例等中描述的那样,并且这样的音高控制功能通过音高控制部144来执行。即,与上述第一实施例等一样,音高控制部144根据音高分析部
106所分析的话语的第一区间(例如,词尾)的音高来控制基于从非正式反馈数据存储部143读取的非正式反馈数据或从答复创建部110供应的答复数据的语音的各音高。更具体地,音高控制部144通过控制非正式反馈或答复的整个答复语音的各音高使得非正式反馈数据的特定区间(第二区间)或答复数据的特定区间(第三区间)的音高与话语的第一区间的音高
呈现出预定的音程关系,从而控制答复语音合成。由音高控制部144合成的答复语音信号被D/A转换器208转换为模拟信号并随后经由扬声器142可听地输出。
[0370] 另一方面,在主机160中,协作部180将诸如各种参数和各种状态之类的信息供应至CODEC 200的协作部140。此外,当从协作部140接收到创建答复(响应)的
请求时,协作部180控制语言分析部108b和答复创建部110。与图1的语言分析部108一样,语言分析部108b对被A/D转换器206转换成数字信号的语音信号所表示的话语的含义进行分析。在图49示出的主机160中,语言分析部108b和答复创建部110起到与图1示出的语言分析部108和答复创建部110基本相似的作用。注意,图49的主机160中的答复创建部110原则上被构造为创建不同于非正式反馈的答复(响应)。但是,如果CODEC200中的语言分析部108a无法辨识话语的内容,或者如果语言分析部108a的辨识结果的可靠度低,则主机160中的答复创建部110有时创建非正式反馈作为针对话语的答复。由答复创建部110创建或获取的答复数据被供应至音高控制部144。
[0371] 下面描述语音合成设备100的行为。图50是在语音合成设备100中执行的语音处理的流程图。首先,响应于用户执行预定的操作(例如,在主菜单(未示出)上选择与语音处理相对应的图标),CPU 162启动程序P2,从而在CODEC 200和主机160中建立图49示出的各功能块。
[0372] 在步骤S11,一旦用户输入话语的语音至语音输入部102,则该语音被语音输入部102转换为语音信号并随后利用A/D转换器206转换为数字信号。随后,在步骤S12,主机160中的协作部180确定在已开始的语音处理中是否指定了执行对话处理。如果在已开始的语音处理中未指定执行对话处理(步骤S12判定为否),则在步骤S16执行其他处理。其他处理的示例包括:语音辨识处理,其用于将被转换为数字信号的语音信号供应至主机160中的如图49中的标记※1所指示的另一功能块(未示出),使得其他功能块将用户的话语转换为文字列;以及再现处理,其利用D/A转换器208将其他块处理的数据转换为模拟信号并通过扬声器142可听地再现该模拟信号。
[0373] 另一方面,如果在已开始的语音处理中指定了执行对话处理(步骤S12判定为是),则协作部180通知CODEC 200的协作部140该结果,使得协作部140指示语言分析部108a在步骤S13确定输入话语是否具有应当对其返回非正式反馈的内容。如果输入话语具有应当对其返回非正式反馈的内容(步骤S13判定为是),则在步骤S 14执行如下非正式反馈处理。另一方面,如果输入话语不具有应当对其返回非正式反馈的内容(步骤S13判定为否),则在步骤S15执行如下答复处理。注意,该语音处理在步骤S14、S15和S16之后结束。
[0374] 图51是示出在步骤S14执行的非正式反馈处理的细节的流程图。首先,已确定输入话语具有应当对其返回非正式反馈的内容的语言分析部108a通知协作部140该结果,并且协作部140通知主机160的协作部180无需创建针对该话语的答复(步骤Sa41)。在从协作部140接收到这种信息时,协作部180指示语言分析部108b忽略与该话语相对应的数字信号。
由此,在主机160中不执行关于该话语的语音处理(步骤Sb31)。
[0375] 同时,在步骤Sa42,音高分析部106例如用以下方式来分析输入话语的语音信号从而对该话语的第一区间(例如,词尾)的音高进行识别并随后将指示识别出的音高的音高数据供应至音高控制部144。与该音高分析并行,在步骤Sa43,读出部142选择性地读出存储在非正式反馈数据存储部143中的非正式反馈数据的集合中的任一个并将所读出的非正式反馈数据供应至音高控制部144。与上述实施例一样,音高控制部144对与第二区间(例如,词尾)相对应的一部分简单再现的非正式反馈数据的音高进行分析,随后以如下方式将整个非正式反馈数据的各音高进行移动:使所分析的音高与由从音高分析部106供应的音高数据所指示的音高(诸如词尾之类的第一区间的音高)呈现出预定的音程(例如,向下五度)关系,并随后输出音高移动后的非正式反馈数据(步骤Sa44)。音高控制部144对音高移动后的非正式反馈数据进行再现并将再现的音高移动后的非正式反馈数据供应至D/A转换器208。以这种方式,输出与话语相对应地移动了音高的非正式反馈。在输出音高移动后的非正式反馈数据之后,该语音处理(图50)与非正式反馈处理一同结束。
[0376] 下面描述该语音处理的步骤S15处执行的答复处理。图52是示出该答复处理的细节的流程图。已确定输入话语具有不应当对其返回非正式反馈的内容的语言分析部108a通知协作部140该结果,使得协作部140通知主机160的协作部180应当创建针对该话语的答复(答复请求)(步骤Sa45)。在接收到该通知时,协作部180指示语言分析部108b对话语的含义进行分析。随后,语言分析部108b在步骤Sb32按指示对该话语的含义进行分析。随后,在步骤Sb33,答复创建部110创建(获取)与该话语的含义相对应的答复数据并将该答复数据供应至音高控制部144。
[0377] 同时,在答复处理中,在步骤Sa46,以与上述步骤Sa42相同的方式,音高分析部106识别输入话语的第一区间(例如,词尾)的音高并随后将指示识别出的音高的音高数据供应至音高控制部144。随后,音高控制部144在答复数据简单再现时对该答复数据的第三区间(例如,词尾)的音高进行分析,而且还将整个答复数据的各音高进行移动使得所分析的音高与从音高分析部106供应的音高数据所指示的音高呈现出向下五度关系,随后音高控制部144将音高移动后的答复数据输出(步骤Sa47)。
[0378] 通过语音合成设备100的这样的实施例,无论是利用非正式反馈数据输出非正式反馈还是利用答复数据输出不同于非正式反馈的另一答复,可以给用户好似正在进行人与人之间的对话的自然感觉。此外,根据本实施例,当针对话语要返回非正式反馈时,仅在CODEC200中处理非正式反馈数据而无需在主机160中进行处理,由此,可以响应良好地快速输出非正式反馈。此外,当响应于话语要输出不同于非正式反馈的另一答复时,在主机160中创建或获取这样的答复,从而可以提升答复的精确度。因此,本实施例不仅允许响应良好地快速输出非正式反馈,而且允许以更高的精确度输出不同于非正式反馈的另一答复。
[0379] <话语和非正式反馈>
[0380] 第十四实施例被描述为按如下方式构造:当确定话语具有应当对其返回非正式反馈数据的内容时,读出在非正式反馈数据存储部143中存储的非正式反馈数据的集合中的任一个。然而,通过这种构造,虽然如上所述并不重要,但是有时会输出与话语无关的非正式反馈。因此,可以提前将非正式反馈数据的集合与同非正式反馈相对应的可能话语的典型音量变化模式和音高变化模式相关联,如此,当语言分析部108a确定了从音高分析部106供应的话语的音量和音高变化匹配于任一话语的音量和音高变化模式时,其指示读出部142读出与该话语相关联的非正式反馈数据的集合。更具体地,通过这样的构造,如果非正式反馈数据的集合“sou desune”(“是啊。”)与话语“samui na”(“很冷,是吧?”)的音量和音高变化相关联地预先存储在非正式反馈数据存储部143中,并且如果用户的实际话语
“samui na”(“很冷,是吧?”)的音量和音高变化匹配所存储的话语“samui na”的音量和音高变化,则可以输出恰当的非正式反馈“是啊。”因此,在这种情况下,可以避免输出不恰当的或无关的非正式反馈比如“êto”(“让我想想。”)、“naru hodo”(“我知道了。”)或“sorede”(“所以呢?”)
[0381] <语言分析部>
[0382] 虽然以上关于CODEC 200包括语言分析部108a并且主机160包括语言分析部108b的情况对第十四实施例进行了描述,但是可以省略任一语言分析部,比如语言分析部108a。
如果省略了语言分析部108a,则语言分析部108b执行语言分析部108a的功能。即,语言分析部108b确定数字语音信号所表示的话语是否具有应当对其返回非正式反馈的内容。如果该话语具有应当对其返回非正式反馈的内容,则语言分析部108b可以经由协作部180和140直接或间接地将该结果的信息提供给CODEC 200的读出部142并指示读出部142读出非正式反馈数据。
[0383] 总结CODEC(编码/解码装置)200的主要构造特征,CODEC 200包括:A/D转换器(206),其将话语的输入语音信号转换为数字信号;音高分析部(106),其基于数字信号对话语的第一区间的音高进行分析;非正式反馈获取部(语言分析部108a、读出部142和非正式反馈数据存储部143的组合),其在针对话语要返回非正式反馈时,获取与该话语的含义相对应的非正式反馈数据;音高控制部(144),其以如下方式控制所获取的非正式反馈数据的音高:使所述非正式反馈数据的第二区间具有与所分析的第一区间的音高相关联的音高;
以及D/A转换器(208),其构造为将音高受控的非正式反馈数据转换成模拟信号。
[0384] 注意,关于第一实施例和第二实施例的各种应用示例和/或修改例也可以应用于本发明的第十四实施例。
[0385] 此外,主机计算机160的主要功能特点可以总结如下。当针对话语应当返回不同于非正式反馈的答复语音时,主机计算机160被构造为根据由A/D转换器(206)转换的数字信号来获取响应于该话语的答复语音数据并随后将所获取的答复语音数据返回至编码/解码装置(CODEC 200)。编码/解码装置(CODEC 200)的音高控制部(144)还被构造为对从主机电脑(160)返回的答复语音数据的音高进行控制,使得该答复语音数据的第三区间具有与所分析的第一区间的音高相关联的音高,并且D/A转换器(208)还被构造为将音高受控的答复语音数据转换为模拟信号。