首页 / 专利库 / 人工智能 / 语音语料库 / 多发音人语音合成方法、系统及装置

多发音人语音合成方法、系统及装置

阅读:1038发布:2020-06-01

专利汇可以提供多发音人语音合成方法、系统及装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种多发音人语音合成方法及系统,所述合成方法包括:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及 音素 级别字典;基于 文本分析 方法,从待测文本中提取文本特征;将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。本发明将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。,下面是多发音人语音合成方法、系统及装置专利的具体信息内容。

1.一种多发音人语音合成方法,其特征在于,所述合成方法包括:
从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
基于文本分析方法,从待测文本中提取文本特征;
将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
2.根据权利要求1所述的多发音人语音合成方法,其特征在于,所述从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典,具体包括:
对于每一发音人,
以句子为单位,从多发音人语料库中提取紧凑矢量i-vector特征,得到全局发音表征;
以音素为单位,对多发音人语料库中的语料信息进行训练,得到切分音段;
从各切分音段中,分别提取同一发音人的相同音素;
将各相同音素拼接成一句新语音;
从各所述新语音中语音提取i-vector特征,得到局部发音表征;
将多个发音人的全局发音表征作为句子级别字典存储;将多个发音人的局部发音表征作为音素级别字典存储。
3.根据权利要求1所述的多发音人语音合成方法,其特征在于,将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,具体包括:
根据所述文本特征,确定发音人的发音音素序列;
根据所述发音音素序列,从所述句子级别字典及音素级别字典中查找对应发音人的全局发音表征及局部发音表征;
基于双向长短事记忆神经网络模型,对所述发音人的局部发音表征进行特征序列编码,得到编码结果;
运用注意机制,将所述发音人的全局发音表征将及编码结果句加权结合,得到针对所述待测文本的音素相关发音人特征。
4.根据权利要求3所述的多发音人语音合成方法,其特征在于,根据以下公式,得到针对所述待测文本的音素相关发音人特征xs:
*
其中,h表示编码结果,Z表示计算权重,σ()表示激活函数,tanh()表示双曲正切函数,及 分别表示计算权重Z的系数矩阵, 为发音人的全局发音表
征。
5.根据权利要求1所述的多发音人语音合成方法,其特征在于,所述基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息,具体包括:
基于平均子模型,根据所述文本特征,得到第一输出信息;
基于自适应子模型,根据所述文本特征及发音人特征,得到第二输出信息;
运用注意力机制,将所述第一输出信息及第二输出信息加权动态结合,得到发音人语音信息。
6.根据权利要求1-5中任一项所述的多发音人语音合成方法,其特征在于,所述合成方法还包括:
将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
7.一种多发音人语音合成系统,其特征在于,所述合成系统包括:
字典创建单元,用于从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
特征提取单元,用于基于文本分析方法,从待测文本中提取文本特征;
结合单元,用于将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
信息确定单元,用于基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
语音合成单元,用于根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
8.根据权利要求7所述的多发音人语音合成系统,其特征在于,所述合成系统还包括:
更新单元,用于将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
9.一种存储装置,其特征在于,所述存储装置用于存储以下程序:
从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
基于文本分析方法,从待测文本中提取文本特征;
将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
10.一种处理装置,其特征在于,所述处理装置报处理器、存储器
所述存储器用于存储以下程序:
从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
基于文本分析方法,从待测文本中提取文本特征;
将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
根据所述发音人语音信息,通过基于神经网络的声码器,合成语音;
所述处理器从所述存储器中加载并执行以上程序。

说明书全文

多发音人语音合成方法、系统及装置

技术领域

[0001] 本发明涉及语音合成技术领域,具体涉及一种基于音素相关发音人特征的多发音人语音合成方法、系统及装置。

背景技术

[0002] 语音合成技术,又称文语转换(Text to Speech)技术,用于将文字信息转化为语音信息。目前,语音合成的方法主要有两种:
[0003] 第一种:基于语料库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。第二种:采用参数语音合成方法,该方法作为一种基于统计声学建模方法的具体实现,对语音的声学参数进行建模,并通过参数生成算法来重构声学参数轨迹,最后调用语音合成器来产生语音波形
[0004] 其中,第一种方法虽然能够合成较为接近原始语音的波形,合成音质较高,但是波形拼接合成的语音在基元拼接点存在不连续的问题,且拼接合成音库的制作成本较大,系统尺寸大。
[0005] 第二种方法虽然对于多发音人语音合成及其自适应,参数合成系统构建速度快,便于快速自适应。但是在传统方法中多采用发音人识别任务中的特征,该特征对语音合成任务来说不是最优的,缺乏对发音人发音特征的精细描述。

发明内容

[0006] 为了解决现有技术中的上述问题,即为了提高对发音人发音特征的精细描述,本发明提供一种多发音人语音合成方法、系统及装置。
[0007] 为实现上述目的,本发明提供了如下方案:
[0008] 一种多发音人语音合成方法,所述合成方法包括:
[0009] 从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0010] 基于文本分析方法,从待测文本中提取文本特征;
[0011] 将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0012] 基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0013] 根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0014] 可选地,所述从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典,具体包括:
[0015] 对于每一发音人,
[0016] 以句子为单位,从多发音人语料库中提取紧凑矢量i-vector特征,得到全局发音表征;
[0017] 以音素为单位,对多发音人语料库中的语料信息进行训练,得到切分音段;
[0018] 从各切分音段中,分别提取同一发音人的相同音素;
[0019] 将各相同音素拼接成一句新语音;
[0020] 从各所述新语音中语音提取i-vector特征,得到局部发音表征;
[0021] 将多个发音人的全局发音表征作为句子级别字典存储;将多个发音人的局部发音表征作为音素级别字典存储。
[0022] 可选地,将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,具体包括:
[0023] 根据所述文本特征,确定发音人的发音音素序列;
[0024] 根据所述发音音素序列,从所述句子级别字典及音素级别字典中查找对应发音人的全局发音表征及局部发音表征;
[0025] 基于双向长短事记忆神经网络模型,对所述发音人的局部发音表征进行特征序列编码,得到编码结果;
[0026] 运用注意机制,将所述发音人的全局发音表征将及编码结果句加权结合,得到针对所述待测文本的音素相关发音人特征。
[0027] 可选地,根据以下公式,得到针对所述待测文本的音素相关发音人特征xs:
[0028]
[0029] 其中,h*表示编码结果,Z表示计算权重,σ()表示激活函数,tanh()表示双曲正切函数, 及 分别表示计算权重Z的系数矩阵, 为发音人的全局发音表征。
[0030] 可选地,所述基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息,具体包括:
[0031] 基于平均子模型,根据所述文本特征,得到第一输出信息;
[0032] 基于自适应子模型,根据所述文本特征及发音人特征,得到第二输出信息;
[0033] 运用注意力机制,将所述第一输出信息及第二输出信息加权动态结合,得到发音人语音信息。
[0034] 可选地,所述合成方法还包括:
[0035] 将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
[0036] 为实现上述目的,本发明还提供了如下方案:
[0037] 一种多发音人语音合成系统,所述合成系统包括:
[0038] 字典创建单元,用于从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0039] 特征提取单元,用于基于文本分析方法,从待测文本中提取文本特征;
[0040] 结合单元,用于将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0041] 信息确定单元,用于基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0042] 语音合成单元,用于根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0043] 可选地,所述合成系统还包括:
[0044] 更新单元,用于将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
[0045] 为实现上述目的,本发明还提供了如下方案:
[0046] 一种存储装置,所述存储装置用于存储以下程序:
[0047] 从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0048] 基于文本分析方法,从待测文本中提取文本特征;
[0049] 将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0050] 基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0051] 根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0052] 为实现上述目的,本发明还提供了如下方案:
[0053] 一种处理装置,所述处理装置报处理器、存储器
[0054] 所述存储器用于存储以下程序:
[0055] 从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0056] 基于文本分析方法,从待测文本中提取文本特征;
[0057] 将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0058] 基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0059] 根据所述发音人语音信息,通过基于神经网络的声码器,合成语音;
[0060] 所述处理器从所述存储器中加载并执行以上程序。
[0061] 根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0062] 本发明通过从待测文本中提取文本特征,并将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步根据所述文本特征及发音人特征,确定发音人语音信息;进而通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。附图说明
[0063] 图1是本发明多发音人语音合成方法流程图
[0064] 图2是为字典创建流程图;
[0065] 图3为发音人特征确定流程图;
[0066] 图4为发音人语音信息确定流程图;
[0067] 图5为本发明多发音人语音合成系统的模结构示意图。
[0068] 符号说明:
[0069] 字典创建单元—1,特征提取单元—2,结合单元—3,信息确定单元—4,语音合成单元—5。

具体实施方式

[0070] 下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
[0071] 本发明提供一种多发音人语音合成方法,通过从待测文本中提取文本特征,并将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,从而可提高对对发音人发音特征的精细描述;进一步根据所述文本特征及发音人特征,确定发音人语音信息;进而通过基于神经网络的声码器,合成语音,从而可有效提供语音合成的准确性。
[0072] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0073] 如图1所示,本发明多发音人语音合成方法包括:
[0074] 步骤100:从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0075] 步骤200:基于文本分析方法,从待测文本中提取文本特征;
[0076] 步骤300:将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0077] 步骤400:基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0078] 步骤500:根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0079] 优选地,本发明多发音人语音合成方法还包括:
[0080] 步骤600:将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
[0081] 如图2所示,在步骤100中,所述从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典,具体包括:
[0082] 对于每一发音人,
[0083] 步骤101:以句子为单位,从多发音人语料库中提取紧凑矢量i-vector特征,得到全局发音表征;
[0084] 步骤102:以音素为单位,对多发音人语料库中的语料信息进行训练,得到切分音段;
[0085] 步骤103:从各切分音段中,分别提取同一发音人的相同音素;
[0086] 步骤104:将各相同音素拼接成一句新语音;
[0087] 步骤105:从各所述新语音中语音提取i-vector特征,得到局部发音表征;
[0088] 步骤106:将多个发音人的全局发音表征作为句子级别字典TABLE-U存储;将多个发音人的局部发音表征作为音素级别字典TABLE-P存储。
[0089] 具体地,发音表征是指用于描述描述一段语音的声学统计特性,用于区分当前发音人与其他说话人发音格。其中,全局发音表征是指以语料库中以句子为单位提取到该段语音的发音特性统计。可用音段切分技术获取各发音音素的起止时间点,局部发音表征是以句中每个音素为单位,提取单一类别音素发音语音片段的发音特性统计。以发音人、音素进行分类、统计与存储为发音表征。
[0090] 如图3所示,在步骤300中,将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征,具体包括:
[0091] 步骤301:根据所述文本特征,确定发音人的发音音素序列。
[0092] 其中,得到的发音人S的发音音素序列为{p1,p2,...,pu,...,pU},其中,u=1,2,...,U,U表示发音音素量,u表示发音音素的序列号。
[0093] 步骤302:根据所述发音音素序列,从所述句子级别字典及音素级别字典中查找对应发音人的全局发音表征 及局部发音表征
[0094] 步骤303:基于双向长短事记忆神经网络模型(Bidirectional Long Short-term Memory,BLSTM),对所述发音人的局部发音表征进行特征序列编码,得到编码结果h*。
[0095] 步骤304:运用注意力机制,将所述发音人的全局发音表征将及编码结果句加权结合,得到针对所述待测文本的音素相关发音人特征。
[0096] 具体地,根据以下公式,得到针对所述待测文本的音素相关发音人特征xs:
[0097]
[0098] 其中,h*表示编码结果,Z表示计算权重,σ()表示激活函数,tanh()表示双曲正切函数, 及 分别表示计算权重Z的系数矩阵, 为发音人的全局发音表征。
[0099] 如图4所示,在步骤400:根据所述文本特征及发音人特征,确定发音人语音信息,具体包括:
[0100] 步骤401:基于平均子模型,根据所述文本特征,得到第一输出信息;
[0101] 步骤402:基于自适应子模型,根据所述文本特征及发音人特征,得到第二输出信息;
[0102] 步骤403:运用注意力机制,将所述第一输出信息及第二输出信息加权动态结合,得到。
[0103] 发音人语音信息输出送入对应发音人的基于神经网络的声码器,得到待测文本对应的合成语音。
[0104] 需要说明的是,本发明实施例中所用的文本特征的个数可根据实际需要进行相应的增加或减少,所用的文本特征的类别同样可根据实际需求进行相应的替换,表1示例性示出的是用于本发明实施例中的文本特征。
[0105] 表1用于本发明实施例中的文本特征
[0106] 此外,本发明还提供一种多发音人语音合成系统,可提高对发音人发音特征的精细描述。
[0107] 如图5所示,本发明多发音人语音合成系统包括字典创建单元1、特征提取单元2、结合单元3、信息确定单元4及语音合成单元5。
[0108] 其中,所述字典创建单元1用于从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;所述特征提取单元2用于基于文本分析方法,从待测文本中提取文本特征;所述结合单元3用于将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;所述信息确定单元4用于基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;所述语音合成单元5用于根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0109] 优选地,本发明多发音人语音合成系统还包括:更新单元,用于将所述合成语音添加到所述多发音人语料库中,以对所述多发音人语料库进行更新。
[0110] 进一步地,本发明还提供一种存储装置,所述存储装置用于存储以下程序:
[0111] 从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0112] 基于文本分析方法,从待测文本中提取文本特征;
[0113] 将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0114] 基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0115] 根据所述发音人语音信息,通过基于神经网络的声码器,合成语音。
[0116] 本发明还提供一种处理装置,所述处理装置报处理器、存储器;
[0117] 所述存储器用于存储以下程序:
[0118] 从多发音人语料库中进行语音声学统计特征提取,得到句子级别字典及音素级别字典;
[0119] 基于文本分析方法,从待测文本中提取文本特征;
[0120] 将所述文本特征与句子级别字典及音素级别字典动态结合,得到音素相关的发音人特征;
[0121] 基于平均子模型和自适应子模型,根据所述文本特征及发音人特征,确定发音人语音信息;
[0122] 根据所述发音人语音信息,通过基于神经网络的声码器,合成语音;
[0123] 所述处理器从所述存储器中加载并执行以上程序。
[0124] 相对于现有技术,本发明多发音人语音合成系统、存储装置、处理装置与上述多发音人语音合成方法的有益效果相同,再次不在赘述。
[0125] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈