专利汇可以提供一种基于二维语谱图和条件生成对抗网络的语音增强方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于二维语谱图和条件生成对抗网络的语音增强方法,将语音 信号 经过短时傅里叶变换后的若干 帧 频谱 组成二维语谱图,将其作为条件生成对抗网络的输入特征,通过生成网络G和判别网络D的互相对抗训练生成网络G。测试过程中,提取含噪语音的二维语谱图,训练阶段得到的G网络直接将含噪语谱图映射为增强语谱图,从而实现语音增强。本 专利 基于语谱图和条件生成对抗网络的语音增强 算法 大幅提高了增强后语音的 感知 质量 ,且算法的泛化性能好,具有较强的鲁棒性。,下面是一种基于二维语谱图和条件生成对抗网络的语音增强方法专利的具体信息内容。
1.一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,包括以下步骤:
(1)在训练语音信号中加入不同类型、不同信噪比的噪声,得到含噪训练语音信号;
(2)对步骤(1)得到的含噪训练语音信号进行预处理,得到分帧后的含噪训练语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(3)对于步骤(2)得到的分帧后的含噪训练语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪训练语音频谱组成含噪训练语音的二维语谱图;
(4)将步骤(3)得到的含噪训练语音的二维语谱图作为条件生成对抗网络的输入特征,通过条件生成对抗网络G和判别网络D的相互对抗来训练条件生成对抗网络G;
(5)对不同声学环境下的含噪测试语音信号进行预处理,得到分帧的含噪测试语音信号,所述预处理包括依次进行的归一化、分帧和加窗;
(6)对于步骤(5)得到的分帧后的含噪测试语音信号进行短时傅里叶变换,并将短时傅里叶变换得到的若干帧含噪测试语音频谱组成含噪测试语音的二维语谱图;
(7)将步骤(6)得到的含噪测试语音的二维语谱图作为步骤(4)训练得到的条件生成对抗网络G的输入特征,输出增强后的语谱图;
(8)将步骤(7)得到的增强后的语谱图,结合步骤(6)中短时傅里叶变换后的相位信息进行短时逆傅里叶变换,得到增强后的时域语音信号。
2.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(1)中语音信号加入噪声的计算公式为:
d(n)=s(n)+v(n)
其中,d(n)表示含噪语音信号,s(n)为单声道语音信号,v(n)表示指定信噪比下的某一类型噪声信号,n表示样本点序号。
3.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(2)和步骤(5)中的预处理具体包括:
归一化方法为:
其中,d(n)为含噪语音信号,dmax为d(n)绝对值的最大值,x(n)为归一化后的语音信号;
分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·N/2+m),0≤k
加窗方法为:
x(k,m)=w(m)x(k·N/2+m)
其中x(k,m)为预处理后第k帧的语音信号,w(m)为窗函数。
4.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(3)和步骤(6)中的二维语谱图即语音的幅度谱图,由若干帧语音频谱按照帧顺序排列组成,其横坐标表示帧序号,纵坐标表示频率;
预处理后第k帧的语音信号x(k,m)的短时傅里叶变换的表达式为:
其中,i表示傅里叶变换的第i个频谱,N为帧长;
对X(k,i)取其幅值得到|X(k,i)|,根据其频谱的对称性,选择前N/2个频点的幅度谱,同时选择N/2帧,将这N/2帧每一帧中前N/2个频点的幅度谱按照帧的前后顺序拼接在一起,得到二维语谱图S,其构成形式为:
5.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络模型的总体损失函数为:
其中,λ表示正则化系数,LL1表示正则化项,LL1(G)=E[||P-G(S)||1],LcGAN表示不带正则化项的损失函数,LcGAN(G,D)=E[log D(S,P)]+E[log(1-D(S,G(S))],S表示含噪训练语音的二维语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
6.根据如权利要求1所述的一种基于二维语谱图和条件生成对抗网络的语音增强方法,其特征在于,所述步骤(4)中的条件生成对抗网络训练阶段具体包括以下子步骤:
(4-1)以卷积神经网络为基础搭建条件生成对抗网络G和判别网络D,并初始化参数;
(4-2)对G输入含噪训练语音的二维语谱图S,得到S的增强语谱图G(S);
(4-3)固定D的参数,计算S和G(S)的损失,对G进行优化,其优化损失函数为:
其中,S表示含噪训练语音的语谱图,P表示含噪训练语音对应的纯净训练语音的语谱图,λ表示正则化系数,G(·)表示G的输出,D(·)表示D的输出,E[·]表示期望运算,||·||1表示L1范数。
(4-4)将S和G(S)输入D,输出第一个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-5)将S和P输入D,输出第二个判决结果,若判决结果为真,则输出1,反之,输出0;
(4-6)综合步骤(4-4)和(4-5)中的判决结果对D进行优化,所使用的损失函数为:
(4-7)重复步骤(4-2)和(4-3)优化G,重复步骤(4-4)至(4-6)优化D,直至网络收敛,条件生成网络训练过程结束。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
电路板转印机构 | 2020-11-13 | 1 |
螺旋式刮刀结构 | 2020-11-18 | 5 |
一种新型的专利资助自动生成报表装置 | 2020-06-25 | 0 |
专利电子回执文件分析系统及方法 | 2020-06-08 | 2 |
一种连续长纤维增强尼龙/聚烯烃复合材料及其制备方法 | 2021-05-25 | 3 |
一种门板密封机构 | 2020-12-02 | 3 |
氢化铝钠的合成方法 | 2020-10-19 | 3 |
电磁式练泥机 | 2020-12-31 | 3 |
含阴离子粘土组合物的制备方法 | 2020-10-17 | 0 |
一种电子废物回收环节个人信息保护方法 | 2021-08-25 | 1 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。