专利汇可以提供语音合成系统和方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种语音合成系统和方法,所述方法包括:采集若干项合成素材信息,并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中,所述合成素材信息包括文本信息,以及语音信息和图像信息中的至少一类信息;通过 预测模型 对各项所述合成特征信息进行预测,以生成声学参数信息;根据所述声学参数信息生成语音合成结果信息。本发明提供的语音合成系统和方法通过分别采集文本信息,以及语音信息和图像信息中的至少一类信息,以提取各项合成特征信息,并通过预测模型进行预测,最终生成语音,通过语音信息和/或图像信息所提取的特征信息预测用户的情感或语境,实现了合成表达用户情感或语境的个性化语音。,下面是语音合成系统和方法专利的具体信息内容。
1.一种语音合成系统,其特征在于,所述系统包括:
特征提取单元,用于采集若干项合成素材信息,并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中,所述合成素材信息包括文本信息,以及语音信息和图像信息中的至少一类信息;
预测单元,用于通过预测模型对各项所述合成特征信息进行预测,以生成声学参数信息;
合成单元,用于根据所述声学参数信息生成语音合成结果信息。
2.根据权利要求1所述的语音合成系统,其特征在于,所述特征提取单元还用于采集若干项训练素材信息,并分别对各项所述训练素材信息进行预处理以提取训练特征信息;其中,所述训练素材信息包括文本信息,以及语音信息和图像信息中的至少一类信息;
所述系统还包括:
模型训练单元,用于根据各项所述训练特征信息训练预测模型。
3.根据权利要求1或2所述的语音合成系统,其特征在于,所述特征提取单元包括:
文本特征提取子单元,用于采集第一文本信息,并对所述第一文本信息进行预处理,以提取用于预测的第一文本特征信息;
同时还包括以下至少一项:
语音特征提取子单元,用于采集第一语音信息,并对所述第一语音信息进行预处理,以提取用于预测采集环境和用户语境的第一语音特征信息;
图像特征提取子单元,用于采集第一图像信息,并对所述第一图像信息进行预处理,以提取用于预测用户表情的第一图像特征信息。
4.根据权利要求3所述的语音合成系统,其特征在于,所述对所述第一文本信息进行预处理包括对所述第一文本信息进行文本归一化处理和韵律预测;
所述对所述第一语音信息进行预处理包括对所述第一语音信息进行梅尔频率倒谱系数(简称mfcc)特征提取和数字化处理;
所述对所述第一图像信息进行预处理包括对所述第一图像信息进行人脸识别,并提取相关的颜色、纹理、形状和空间关系特征。
5.根据权利要求3所述的语音合成系统,其特征在于,所述文本特征提取子单元还用于采集第二文本信息,并对所述第二文本信息进行预处理,以提取用于训练预测模型的第二文本特征信息;
所述语音特征提取子单元还用于采集第二语音信息,并对所述第二语音信息进行预处理,以提取用于训练预测模型的第二语音特征信息;
所述图像特征提取子单元还用于采集第二图像信息,并对所述第二图像信息进行预处理,以提取用于训练预测模型的第二图像特征信息。
6.根据权利要求1所述的语音合成系统,其特征在于,所述预测模型为逻辑回归模型或深度神经网络模型。
7.一种语音合成方法,其特征在于,所述方法包括:
采集若干项合成素材信息,并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中,所述合成素材信息包括文本信息,以及语音信息和图像信息中的至少一类信息;
通过预测模型对各项所述合成特征信息进行预测,以生成声学参数信息;
根据所述声学参数信息生成语音合成结果信息。
8.根据权利要求7所述的语音合成方法,其特征在于,所述采集若干项合成素材信息,并分别对各项所述合成素材信息进行预处理以提取合成特征信息之前还包括:
采集若干项训练素材信息,并分别对各项所述训练素材信息进行预处理以提取训练特征信息;其中,所述训练素材信息包括文本信息,以及语音信息和图像信息中的至少一类信息;
根据各项所述训练特征信息训练预测模型。
9.根据权利要求7或8所述的语音合成方法,其特征在于,所述采集若干项合成素材信息,并分别对各项所述合成素材信息进行预处理以提取合成特征信息包括:
采集第一文本信息,并对所述第一文本信息进行预处理,以提取用于预测的第一文本特征信息;
同时还包括以下至少一项:
采集第一语音信息,并对所述第一语音信息进行预处理,以提取用于预测采集环境和用户语境的第一语音特征信息;
采集第一图像信息,并对所述第一图像信息进行预处理,以提取用于预测用户表情的第一图像特征信息。
10.根据权利要求9所述的语音合成方法,其特征在于,所述对所述第一文本信息进行预处理包括对所述第一文本信息进行文本归一化处理和韵律预测;
所述对所述第一语音信息进行预处理包括对所述第一语音信息进行梅尔频率倒谱系数(简称mfcc)特征提取和数字化处理;
所述对所述第一图像信息进行预处理包括对所述第一图像信息进行人脸识别,并提取相关的颜色、纹理、形状和空间关系特征。
11.根据权利要求8所述的语音合成方法,其特征在于,所述采集若干项训练素材信息,并分别对各项所述训练素材信息进行预处理以提取训练特征信息包括:
采集第二文本信息,并对所述第二文本信息进行预处理,以提取用于训练预测模型的第二文本特征信息;
同时还包括以下至少一项:
采集第二语音信息,并对所述第二语音信息进行预处理,以提取用于训练预测模型的第二语音特征信息;
采集第二图像信息,并对所述第二图像信息进行预处理,以提取用于训练预测模型的第二图像特征信息。
12.根据权利要求7所述的语音合成方法,其特征在于,所述预测模型为逻辑回归模型或深度神经网络模型。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
语音唇形拟合方法、系统及存储介质 | 2020-05-12 | 578 |
声纹识别方法、装置、移动终端及计算机可读存储介质 | 2020-05-14 | 126 |
一种基于特征融合的语音声效模式检测方法 | 2020-05-14 | 729 |
基于多种特征融合的语音篡改检测方法 | 2020-05-14 | 200 |
到站提醒方法、装置、终端及存储介质 | 2020-05-08 | 218 |
一种基于余弦相似度的语音识别方法和装置 | 2020-05-13 | 253 |
身份识别方法、装置及计算机可读存储介质 | 2020-05-15 | 675 |
一种登陆方法和装置 | 2020-05-14 | 534 |
一种基于LSTM循环神经网络的天然气管道泄漏检测方法 | 2020-05-08 | 79 |
一种用于增强现实的处理方法及增强现实终端 | 2020-05-13 | 546 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。