首页 / 专利库 / 人工智能 / 词性标注 / 基于韵律结构的语音合成文本处理方法

基于韵律结构的语音合成文本处理方法

阅读:42发布:2021-09-22

专利汇可以提供基于韵律结构的语音合成文本处理方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种能够丰富和改进韵律控制方法、进一步提高汉语语音合成自然度的基于韵律结构的语音合成文本处理方法。它包括以下计算机可实现的步骤:文本规整步骤,用于将输入的文本与预先设置的特殊符号表相比较,输出合法读音字符串;韵律结构分析步骤,用于将合法读音字符串根据预先设置的分词规则、韵律结构分析规则进行比较,并输出标注了韵律结构信息的标注字符串;语言学处理步骤,用于将标注字符串逐字与预先设置的韵律规则、拼音表进行比较,并输出标注了韵律信息的标注拼音码串。本发明从汉语的语音特征、汉语的声调与特点和汉语的语调及模式出发,构筑一套完整的基于韵律结构的语音合成文本处理方法。,下面是基于韵律结构的语音合成文本处理方法专利的具体信息内容。

1、一种基于韵律结构的语音合成文本处理方法,其特征在于它包括以下计算机可实现的步 骤:
文本规整步骤,将输入的文本句子字符串按照预先设置的特殊符号表转换成合法读音字 符串,输出合法读音字符串给韵律结构分析步骤;
韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模进行处理,根据 预先设置的分词规则、韵律结构分析规则对合法读音字符串标注韵律结构信息,输出标注了 韵律结构信息的标注字符串给语言学处理步骤;
语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先 设置的韵律规则、拼音表进行字音转换,将韵律结构信息标注映射为相应韵律信息,将输入 的汉字符映射为拼音码,输出处理后的标注拼音码串给语音合成处理程序。
2、根据权利要求1所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的韵律结 构分析模块包括以下几个子模块:
分词和词性标注子模块,用以对输入的合法读音字符串根据预先设置的分词规则进行比 较,将字符串根据分词规则标注分词信息和词性信息,输出标注了分词信息和词性信息的字 符串送给韵律结构预测子模块;
韵律结构预测子模块,用以将送入的标注分词信息和词性信息的字符串构建韵律结构预 测树,并根据韵律结构预测树来确定韵律边界位置,对目标语句确定输出语句的韵律组块及 其层级结构,输出标注韵律层次结构的标注字符串给语言学处理步骤。
3、根据权利要求2所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的预先设 置的分词规则为:将输入文本的合法读音字符串从句首向句尾、逐字假设分割点形成词,从 当前字向后进行最大词匹配处理确定词边界。
4、根据权利要求3所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的一个语 调短语包括一个或一个以上的韵律短语,一个韵律短语包括一个或一个以上的韵律词,一个 韵律词包括一个或一个以上的语法词。
5、根据权利要求1所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的韵律结 构生成规则进一步包括以下几个处理步骤:
将语句中在句法上距离最近的语法词两两连接为韵律节点,构成韵律词;
再将在句法上距离最近的韵律词两两连接为更高一个层级的韵律节点,构成韵律短语;
重复连接构建,直到在句法上仅有一个最高层级的节点,构成语调短语;
将同层的每两个相邻的节点之间划分为韵律边界或一个韵律停顿,则构建成为韵律结构 预测树。
6、根据权利要求1所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的语言学 处理模块进一步包括以下几个子模块:
音变、变调分析子模块,用以将送入的标注字符串进行音变现象分析,将两字词、三字 词和四字词与预先设置的韵律规则库中的音变、变调规则相比较,将应发生音变或变调现象 的字或音节标注为正确的音调,输出的字符串给停顿分析子模块;
停顿分析子模块,用以将音变、变调分析模块送入的标注字符串与预先设置的韵律规则 库中的停顿规则相比较,对标注字符串按照韵律边界的不同插入适当时间长度的停顿或无声 段,输出的字符串给强调、重音分析子模块;
强调、重音分析子模块,用以将停顿分析子模块送入的标注字符串根据常规重音分布规 律标注重音位置,并按照韵律结构预测树韵律边界的不同标注重音位置,以及预先设置的韵 律规则中的强调、重音规则修正停顿的时间长度或者韵律边界的字词的音高或时长,输出的 字符串给字音转换子模块;
字音转换子模块,用以将强调、重音分析子模块送入的字符串按照拼音表转换成标注韵 律信息的拼音码串并输出,输出的字符串给语音合成处理程序。
7、根据权利要求6所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的音变、 变调分析子模块处理过程为:将每个词组的字符串按照二字词、三字词和四字词分别与文本 处理数据库中的音变、变调规则表进行匹配比对,如果完全匹配则进行相应的转换处理,输 出转换后的字符串,否则输出原字符串。
8、根据权利要求6所述的一种基于韵律结构的语音合成文本处理方法,其特征在于所述的停 顿分析子模块的处理过程为:将标注的字符串根据韵律规则中的停顿规则,按照韵律边界的 不同,从句首向句尾、依次将字符串中韵律边界标记与韵律词标记、韵律短语标记和语调短 语标记进行匹配,如果满足其一就在其韵律边界标记处插入与韵律边界标记等价的停顿,否 则字符串保持不变。
9、根据权利要求6所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的强调、 重音分析模块中标注重音位置步骤又包括以下计算机可以实现的步骤:将得到的字符串按照 韵律结构预测树内部两个分叉之间的句法关系,以及常规重音分布规律,给每个二分叉韵律 成分标注相对的轻/重地位;计算每个韵律词最后标注的重度指标,确定每个韵律词的重度; 将各个韵律词的重度标注于字符串上,输出标注后的字符串。
10、根据权利要求6所述的基于韵律结构的语音合成文本处理方法,其特征在于所述的字音 转换模块的处理过程为:将文本字符从句首向句尾、依次将字符与文本处理数据库中的拼音 表进行匹配,如果满足匹配要求则就将该字符用与其对应的拼音码替代,直至将整个文本字 符替代完毕,输出标注拼音码串。

说明书全文

(一)技术领域

发明涉及语音信号处理技术领域,具体涉及到语音合成技术中一种基于韵律结构的文 本处理方法。

(二)背景技术

现有的汉语语音合成方法是以字为切分单位的单字式的字音转换,或是以语法词为切分 单位的词组式的文语转换。事实上,人在说话时不是以字或语法词为切分单位,而是以韵律 词为切分单位。前面两种语音合成方法会导致计算机及语音合成装置所输出的合成语音自然 度相对较低,“机器味”太浓,好像是在“蹦字”发音,无法达到用户可以接受的程度,从而 制约了这项技术大规模地进入市场。其原因是语音合成及其韵律控制存在以下几个方面的问 题:①连续的合成语音的自然度有待进一步提高;②文本分析过程应当能够反映自然语音中 韵律变化,来丰富合成语音的表现;③语音合成的韵律控制过程应当符合自然语音的韵律 规律。

(三)发明内容

本发明的目的在于提供一种能够丰富和改进韵律控制方法,进一步提高汉语合成语音自 然度的、基于韵律结构的语音合成文本处理方法

本发明的目的是这样实现的:它包括以下计算机可实现的步骤:

文本规整步骤,将输入的文本句子字符串按照预先设置的特殊符号表转换成合法读音字 符串,输出合法读音字符串给韵律结构分析步骤;

韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模进行处理,根据 预先设置的分词规则、韵律结构分析规则对合法读音字符串标注韵律结构信息,输出标注了 韵律结构信息的标注字符串给语言学处理步骤;

语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先 设置的韵律规则、拼音表进行字音转换,将输入的汉字符映射为拼音码,将韵律结构信息标 注映射为相应韵律信息,输出处理后的标注拼音码串给语音合成处理程序。

本发明还有这样一些结构特征:

1、所述的韵律结构分析模块包括以下几个子模块:

分词和词性标注子模块,用以对输入的合法读音字符串根据预先设置的分词规则进行比 较,将字符串根据分词规则标注分词信息和词性信息,输出标注了分词信息和词性信息的字 符串送给韵律结构预测予模块;

韵律结构预测子模块,用以将送入的标注分词信息和词性信息的字符串构建韵律结构预 测树,并根据韵律结构预测树来确定韵律边界位置,对目标语句确定输出语句的韵律组块及 其层级结构,输出标注韵律层次结构的标注字符串给语言学处理步骤;

2、所述的预先设置的分词规则为:将输入文本的合法读音字符串从句首向句尾、逐字假 设分割点形成词,从当前字向后进行最大词匹配处理确定词边界;

3、所述的一个语调短语包括一个或一个以上的韵律短语,一个韵律短语包括一个或一个 以上的韵律词,一个韵律词包括一个或一个以上的语法词;

4、所述的韵律结构生成规则进一步包括以下几个处理步骤:

将语句中在句法上距离最近的语法词两两连接为韵律节点,构成韵律词;

再将在句法上距离最近的韵律词两两连接为更高一个层级的韵律节点,构成韵律短语;

重复连接构建,直到在句法上仅有一个最高层级的节点,构成语调短语;

将同层的每两个相邻的节点之间划分为韵律边界或一个韵律停顿,则构建成为韵律结构 预测树;

5、所述的语言学处理模块进一步包括以下几个子模块:

音变、变调分析子模块,用以将送入的标注字符串进行音变现象分析,将两字词、三字 词和四字词与预先设置的韵律规则库中的音变、变调规则相比较,将应发生音变或变调现象 的字或音节标注为正确的音调,输出的字符串给停顿分析子模块;

停顿分析子模块,用以将音变、变调分析模块送入的标注字符串与预先设置的韵律规则 库中的停顿规则相比较,对标注字符串按照韵律边界的不同插入适当时间长度的停顿或无声 段,输出的字符串给强调、重音分析子模块;

强调、重音分析子模块,用以将停顿分析子模块送入的标注字符串根据常规重音分布规 律标注重音位置,并按照韵律结构预测树韵律边界的不同标注重音位置,以及预先设置的韵 律规则中的强调、重音规则修正停顿的时间长度或者韵律边界的字词的音高或时长,输出的 字符串给字音转换子模块;

字音转换子模块,用以将强调、重音分析子模块送入的字符串按照拼音表转换成标注韵 律信息的拼音码串并输出,输出的字符串给语音合成处理程序;

6、所述的音变、变调分析子模块处理过程为:将每个词组的字符串按照二字词、三字词 和四字词分别与文本处理数据库中的音变、变调规则表进行匹配比对,如果完全匹配则进行 相应的转换处理,输出转换后的字符串,否则输出原字符串;

7、所述的停顿分析子模块的处理过程为:将标注的字符串根据韵律规则中的停顿规则按 照韵律边界的不同,从句首向句尾依次将字符串中韵律边界标记与韵律词标记、韵律短语标 记和语调短语标记进行匹配,如果满足其一就在其韵律边界标记处插入与韵律边界标记等价 的停顿,否则字符串保持不变;

8、所述的强调、重音分析子模块中标注重音位置步骤又包括以下计算机可以实现的步骤: 将得到的字符串按照韵律结构预测树内部两个分叉之间的句法关系,以及常规重音分布规律, 给每个二分叉韵律成分标注相对的轻/重地位;计算每个韵律词最后标注的重度指标,确定每 个韵律词的重度;将各个韵律词的重度标注于字符串上,输出标注后的字符串;

9、所述的字音转换子模块的处理过程为:将文本字符从句首向句尾依次将字符与文本处 理数据库中的拼音表进行匹配,如果满足匹配要求则就将该字符用与其对应的拼音码替代, 直至将整个文本字符替代完毕,输出标注拼音码串。

本发明的有益优点有:

(1)采用韵律分层技术对要合成的句子文本进行有效的韵律切分,合成的声音更加自 然、流畅;

(2)采用韵律分层技术可以更好地反映韵律变化复杂多变的要求,符合自然语音的韵律 要求;

(3)采用韵律分层技术,为以后的语音基元选取提供了方便;

(4)采用韵律分层技术可以简化后期语音合成的韵律控制。

汉语不同于其它西方语系,表现在语法结构、语法规则、声学特性、韵律结构等多个方 面。首先,汉语是一字一音,即单音节字;其次,汉语是声调语言,声调具有辨义作用,每 个字都有固定的音调(基频形状)。而且,字与字之间的音调前后彼此互相影响会发生变异, 甚至失去了原有的调型,即出现协同发音现象(音变现象)。同时,连续语句的发音中间还会 有短暂的停顿。每个人说话都有一个基本频率,称作基频,它体现了说话人的音调高低,此 外,人们说话还有声音大小的区别等等。在汉语的文语转换(TTS)系统中,对语音基频、时 长、幅度等韵律信息的预测、分析和控制称作韵律控制。

针对这种情况,发明人从汉语的语音特征出发,研究汉语的声调与特点、汉语的语调及 模式,构筑了一套基于韵律结构的语音合成文本处理方法及装置。本发明通过韵律结构的分 析与预测,利用韵律分层的方法,实现对汉语句子的分层描述,进而使句子的韵律描述变得 更丰富,实现以韵律词为切分单位的韵律词组式的文语转换,极大程度地提高了合成语音的 自然度。本发明中的各步骤及模块、子模块均可由计算机程序实现,操作性、移植性强,适 用范围广。

语音识别和语音合成技术是实现人机语音交互的两项关键技术,它能使电脑象人一样具 有“能说会听”的能力,是现代信息产业的重要竞争市场。研究语音合成技术的目的是制造 一种会说话的机器,将文本信息转换成为语音。而本发明通过对汉语韵律结构以及汉语语音 合成韵律控制方法的研究,揭示了汉语的韵律结构与韵律规则和模型之间的内在联系,丰富 和改进了韵律控制方法,进一步提高了汉语语音合成的自然度。

(四)附图说明

图1为文语转换系统示意图;

图2为文本处理框图

图3为文本处理流程图

图4为汉语的韵律层级结构示意图;

图5为韵律结构预测树示意图;

图6为本发明实施例的计算机硬件系统框图。

(五)具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明:

结合图1,本发明包括以下计算机可实现的步骤:

文本规整步骤,将输入的文本字符串按照预先设置的特殊符号表转换成合法读音字符串, 输出合法读音字符串给韵律结构分析步骤;

韵律结构分析步骤,将接收到的合法读音字符串送入韵律结构分析模块进行处理,根据 预先设置的分词规则、韵律结构分析规则对合法读音字符串标注韵律结构信息,输出标注了 韵律结构信息的标注字符串给语言学处理步骤;

语言学处理步骤,将接收到的标注字符串送入语言学处理模块进行处理,逐字按照预先 设置的韵律规则、拼音表进行字音转换,将输入的汉字符映射为拼音码,将韵律结构信息标 注映射为相应韵律信息,输出处理后的标注拼音码串给语音合成处理程序。

实施例中各步骤及模块、子模块均由计算机程序实现。

结合图2-3,本发明对于输入的文本,通过文本规整步骤进行处理,目的是将输入文本 中如日期、数字、天气预报、牌号等一些带有特殊符号的信息,根据正确读法对输入文本 进行标注;例如:日期“2000-12-12”标注为“2000年12月12日”,“晚间最低气温-12℃” 标注为“晚间最低气温零下12度”,等等。文本规整装置的输出是合法读音字符串,如表1 所示。

表1  特殊符号与输入文本的关系

    字符类型   输入字符格式   特殊符号读法 合法读音的字符串     日期   2000-12-12   第一个“-”读作“年”   第二个“-”读作“月” 2000年12月12日     温度   -12℃   “+”读作“零上”,   “-”读作“零下”   “℃”读作“度” 零下12度”

首先,对输入文本字符逐字进行判断,当文本字符是合法字符时则正常输出,而当文本 字符是非法字符时进入特殊符号处理过程。特殊符号处理过程中,首先判断文本字符是否为 日期格式,是则进行日期格式的读音转换,并输出转换后合法读音字符串;否则继续判断是 否为温度格式,是则进行温度格式的读音转换,并输出转换后合法读音字符串;否则进行下 一步,判断是否为其他特殊字符,以此类推,直至将整个文本字符串处理完毕。

韵律结构分析步骤是将文本借助于如“韵律结构树CART的方法”等方法进行语义分析、 或韵律结构分析,目的是将一个文本按照语法规则和韵律结构分析规则切分成较小的单位, 这有利于确定文本的韵律结构。如果按照语义规则对文本进行切分,则切分的最小单位是语 法词和韵律词;如果是按照韵律结构对文本进行切分,则切分的最小单位是韵律词。韵律结 构分析步骤的输出是标注的字符串。

在做韵律结构分析步骤以前,应预先建立文本处理规则数据库。文本处理规则数据库包 括特殊符号表、分词规则及词典、韵律结构分析规则、韵律规则和拼音表,其中特殊符号表 是文本中一些特殊符号与其在文本中正确读法的映射规定;分词规则是字与语法词之间的映 射规定;韵律结构分析规则是将语法词按照韵律层级结构合并成韵律词的规定;韵律规则包 括音变、变调规则,停顿规则,强调、重音规则,分别解决文本中字与字之间的音变现象, 韵律成分之间的停顿,以及语义焦点重音的规定;拼音表是文本中每个文字转换成与其对应 的拼音码的映射规定。建库的方法与一般建立数据库的力法相同,这里就不一一细举。

其中标注分词信息步骤为根据分词规则对输入文本进行分词和词性标注,利用分词和词 性信息查找韵律分析规则实现分词;而韵律结构预测模块是在对目标语句完成句法切分和句 法标注的基础上,结合最初的韵律组词构建韵律结构预测树,借此预测韵律边界位置,确定 输出语句的韵律组块及其层级结构。

分词方法是采用正向最大匹配法,即从句首向句尾逐字假设分割点形成词,在确定了词 边界后从当前字向后按最大词匹配,把句子分成词或词组串。与本分词法相匹配建立了分词 词库,词库中包括二字词、三字词和四字词。最大匹配是指按最大匹配后确定不可以再分的 字符串的原则,如语句“晚间最低气温零下十度。”经上述正向最大匹配法匹配的过程如表2 所示:

表2  分词举例

    步骤   比较  分词结果     1   晚间 “晚间”是词     2   晚间最 “晚间最”、“间最”不是饲,确定“最”不是词。     3   最低 “最低”是词     4   最低气 “最低气”、“低气”不是词,确定“气”不是词     5   气温 “气温”是词     6   气温零 “气温零”、“温零”不是词,确定“零”     7   零下 “零下”是词     8   零下十 “零下十”、“下十”不是词,确定“十”不是词     9   十度 “度”不是词,确定“十度”是词

    分词的最后结果   晚间/最低/气温/零下/十度/

结合图4可以概括出这样几个韵律结构特点:

(1)一个语调短语包含了一个或一个以上的韵律短语;一个韵律短语包含了若干个韵律 词;而一个韵律词也可以包含了一个或一个以上的语法词;

(2)两个语法词在同一个韵律词内部;

(3)两个语法词在不同的韵律词内,但在同一个韵律短语内;

(4)两个语法词不在同一个韵律短语内。

本发明将汉语的韵律结构主要分为由底到高的三个基本层级:韵律词、韵律短语和语调 短语,并且它们之间的关系在韵律上是按照树状的层级结构、有序地排列。

利用从文本分析获得的句法信息和词性信息,再根据已经认识的有关韵律与句法之间的 某种相关性,可以预测合成话语的总体韵律结构框架,包括停顿的位置分布和等级的确定, 以及重音的位置分布和等级的确定。这种预测的实质,就是首先给每个语法(词)边界确立 韵律地位,然后给每个韵律词确立重音地位。因此,韵律组词是预测的关键。

综合上面的分析结果,利用韵律预测树可以实现韵律结构的预测,结合图5,具体方法 如下:

(1)基本步骤

首先,借助韵律结构分析模块对输入文本的句子进行分词和词性标注,利用分词和词性 信息,查找韵律结构分析规则实现韵律组词;然后,在输入文本句子完成句法切分和句法标 注的基础上,结合最初的韵律组词构建韵律结构预测树;藉此预测韵律边界位置,确定输出 语句的韵律组块及其层级结构。

(2)预测树的构建方法

预测树的构建综合利用了文本分析时得到的句法、词性和韵律组词信息。它的上半部是 个倒置的二分叉树,通常汉语语音在韵律组词上有偶分的倾向。首先把语句中在句法上距离 最近的韵律词两两连接为节点,然后再依此法建立更高层级的韵律节点,同层级中的每个节 点都代表了它所对应的两个下位树杈之间的一个韵律停顿或韵律边界。这样,自低层向高层 总会找到根节点,从而构建韵律结构树。基于这种二分叉结构,可以实现对一个句子韵律层 级的预测,即:越是接近根部的节点,它所代表的停顿级别越高,韵律边界也就越强。

语言学处理模块又包括音变、变调分析予模块、停顿分析子模块、强调、重音分析子模 块和字音转换子模块,其中音变、变调分析子模块是将输入文本进行音变现象分析。汉语的 每个音节在单独发音时,都有自己稳定的静态声调。然而在连续语流中,由于每个音节都会 受到它前后音节的影响,使得它原有的单字声调发生变异,成为“动态声调”,我们把这种 现象称之为协同发音现象,也叫“音变”现象。其变化的情况可以分为:发生“部分变调”; 或发生“全部变调”,即失去原有的单字调值;或发生声调融合,即与别的声调连成一体。 例如,“重量(zhong4liang4)”和“重庆(chong2qing4)”,同一个“重”字在不同的两 个词组里发音已经完全不相同;再如“爸爸(ba1ba4)”,第一个“爸”的发音已经变为阳 平(1声)。

声调的变化与字(音节)所在的词组及它在词组中的位置有关。比如某个音节声调在二 字词、三字词和四字词以及在词中的位置不同,变化也不尽相同。动态声调和静态声调直接 有内在的联系性和对应性。二字词在汉语中占的比例最高,约为74.3%,是最常用的基本语言 单位,也是构成三字词和四字词一部分。

音变、变调处理过程采用音变匹配法,即将每个词组字符串中的二字词、三字词和四字 词分别与文本处理规则数据库音变、变调规则表中的二字词、三字词和四字词进行匹配比对, 如果完全匹配则进行相应的转换处理,否则原字符串保持不变。

表3  变调规则表

  双音节词的变调规则 (1)上声+上声→阳平+上声; (2)上声+其它声调,平上+其它声调(不变)   三音节词变调规则 (1)阴平+阳平+阴平(或阳平、去声)→阳平+阴平+阴平(或阳平、去声); (2)阴平+阳平+上声→阴平+去声+上声; (3)阳平+阳平+阴平(或去声)→阳平+阴平+阴平(或去声): (4)阳平+阳平+阳平(或上声)→阳平+去声+阳平(或上声); (5)上声+上声+阴平(或阳平、上声、去声)→阳平+半上+阴平(或阳平、上 声、去声); (6)去声+去声+其它~去声(53)+去声(31)+其它;   轻声调型规则 (1)阴平+轻声,轻声取41降调,例如“他的”; (2)阳平+轻声,轻声取51降调,例如“得了”; (3)上声+轻声,轻声取高平调44,例如“好的”; (4)去声+轻声,轻声取21降调,例如“对的”;   音节词变调规则 以双音节变调规律为基础,例如可以将前两个音节和后两个音节分别当作双 音节词变调。

停顿分析子模块是将送入的字符串根据韵律规则中的停顿规则,按照韵律边界的不同, 插入适当时间长度的停顿(无声段)。其处理过程采用韵律边界匹配法,即从句首向句尾依次 将字符串中韵律边界标记与韵律词标记、韵律短语标记和语调短语标记进行匹配,如果满足 其一就将其韵律边界标记处插入与韵律边界等价的停顿。否则,字符串保持不变。其停顿等 级包括:一级停顿、二级停顿、三级停顿和四级停顿,其适用范围如表3和表4所示。

表4  停顿与停顿位置、时间间隔列表

    停顿等级     停顿位置     插入形式的     时间间隔

    一级停顿     语调短语边界     插入     0.125秒~0.6秒     二级停顿     韵律短语边界     插入     0.05秒~0.1秒     三级停顿     韵律词组边界     插入     0.0375秒     四级停顿     韵律词边界     插入     0.0157秒

强调、重音分析子模块是根据韵律规则中的强调、重音规则,将停顿分析模块的输出字 符串中按照韵律边界不同和重音的位置修正停顿(无声段)的时间长度或者韵律边界的字词 的音高或时长,其适用范围如表4所示。

强调、重音分析子模块的处理过程采用强调、重音匹配法,即:从句首向句尾依次将字 符串中强调、重音标记与强调、重音标记表进行匹配,如果满足其一就在其标记处插入相应 的强调、重音标注等级或提高基频、时长。

本发明中语句重音等级的预测借助于韵律预测树实现,利用多重二分叉韵律预测树,根 据韵律组块内部两个分叉之间句法关系,以及常规重音分布规律,给每个二分叉韵律成分赋 予相对的轻/重地位;计算每个韵律词最后负载的重度指标,确定每个韵律词的重度;根据各 个韵律词的重度,输出标注重度信息的字符串。

表5  重音的区别特征表

注:“+”表示增大,“-”表示减小。

字音转换子模块是将输入文本按照拼音表转换成标注了韵律信息的拼音码串。处理过程 为:从句首向句尾、依次将文本字符与文本处理规则数据库中的拼音表进行匹配,如果满足 匹配条件则将该字符用与其对应的拼音码替代,直至将整个文本字符替代完毕。输出转换后 的拼音码串给语音合成处理程序。

而后的语音合成处理就可以采用通用的语音合成方法,如采用Viterbi等寻优算法实现 合成基元选取,再采用PSOLA技术的波形拼接算法进行语音合成,即可输出自然度很高的自 然语音。

下面对从文本到语音合成韵律标注的映射举例说明:

例如:

·文本:他们的关系本来就一向很不好。

·分词标注后的结果:

(名—形(名代{的}—名(名{的}他们的)关系)(副—形本来(副—形就(副—形一 向(副—形(程副一副很不)好)))))

·韵律标注后的结果:

他们关系本来一向不好

·拼音码标注的结果:

/r{ta1men5}/u{de5}/n{guan1xi4} /d{ben3lai2}/d{jiu4}/d{yi1xiang4}/d{hen3} /a{bu4hao3}/

其中,韵律标注符号见表6。

表6  韵律标注符号

    标识名称 句式结构 用途与说明     句子标识 ... ...表示为句子     字词标识 ... ...表示为字词     语气标识 ... 陈述句语气 ... 疑问句语气 ... 感叹句语气     停顿标识 x代表时间,单位为毫秒     发音基元标识 ... x=-1或0或1,分别代表字的发 音为轻读、正常读和重读。

结合图6,为一个可以实施本发明的适合的计算系统环境。该计算系统环境只是可以实 施本发明的计算系统环境的一个实施例,而并非是对本发明的应用范围或功能进行任何限制。 计算环境也不应被认为是对实例性操作环境中所示的任何一个部件或者部件的组合有任何依 赖性或要求。

本发明可以用于众多的特定的或非特定的计算系统环境或配置,如:个人计算机,小型 计算机,中型计算机,大型计算机,网络计算机,服务器计算机,手持或膝上型装置,多处 理器系统,基于微处理器的系统,机顶盒,可编程电子消费装置,包括任何上述的系统或装 置的分布式计算环境,等等。

本发明可以使用计算机可执行指令的一般模式来描述,例如计算机的程序模块。程序模 块包括程序、子程序、对象、控件、组件、数据结构等,它们用来执行特定的任务或者实现 特定的抽象数据类型。本发明也可以被应用于分布式计算环境,其中通过利用通信网络链接 的远程处理装置来执行任务。在分布式计算环境中,程序模块可以同时存放在包括存储器存 储装置在内的本地和远程计算机存储介质中。

图6所示的计算机装置的构成包括:一个或多个中央处理单元、内部存储器、外部存储 器、输入设备接口、输出设备接口以及连接上述各个单元或部件的系统总线。系统总线可以 是包括如下几种类型的总线结构中的任何总线结构:一个存储总线或存储控制器、一个外围 总线和使用各种总线结构中总线的局部总线。这些总线结构:如工业标准结构(ISA)总线、 微通道体系结构(MCA)总线、增强的ISA线、视频电子标准协会(VESA),局部总线以及外 部设备互连(PCI)总线(也叫夹层总线(Mezzanine bus),等等。

用户可以通过输入装置向计算机口输人命令和信息。这些输入装置可以是键盘、麦克 以及指点装置如鼠标轨迹球触摸板,还可以是其他的输入装置(图上未画出),例如操作 杆、游戏垫、圆盘式卫星电视大线(satellite dish)、扫描仪等。上述输人装置通常是通过 一个耦合到系统总线的用户输入接口连接到处理单元的,但也可以通过别的的接口和总线结 构连接,例如并行端口、游戏端口或者通用串行总线(USB)。监视器或者其他类型的显示装 置通过一个接口,例如视频接口连接到系统总线。除了该监视器外,计算机也可以包括其他 的外部输出设备,例如扬声器以及打印机,它们通过一个外部输出接口连接。

计算机可以通过逻辑连接的方式连接到一台或更多远程计算机(例如远程计算机)从而 在网络环境中进行操作。远程计算机可以是个人计算机、手持装置、服务器、路由器、网络 计算机、对等装置(peer device)或者其他常用的网络节点,通常包括多个或所有上述与计 算机相关的部件。图6中所示的逻辑连接包括一个局域网和一个广域网,但协议包括其它网 络。这种网络环境常见于办公室、企业范围内的计算机网络、内部网和因特网。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈