专利汇可以提供基于情感迁移规则及语音修正的说话人识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于情感迁移规则及语音修正的说话人识别方法,首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征,并对这些特征进行分析和对比,然后根据这些特征的变化规律修正采集的中性语音中的特征参数。当对比语音的情感状态不是中性的时候,就可以选用具备相应情感信息的语音模型来对比。本发明有益的效果是:结合语音特征修正和语音合成两种方法,使得采集的语音与对比的语音情感状态相一致,来提高说话人识别系统的性能。,下面是基于情感迁移规则及语音修正的说话人识别方法专利的具体信息内容。
1、一种基于情感迁移规则及语音修正的说话人识别方法,其特征在于:首先对具有相 同文本的中性语音与情感语音提取其中能反映情感信息的语音特征,并对这些特征进行分析 和对比,然后根据这些特征的变化规律修正采集的中性语音中的特征参数;当对比语音的情 感状态不是中性的时候,用具备相应情感信息的语音模型来对比。
2、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的中性语音中要修正的特征参数为将音频分帧后,对各帧进行线性预测编码分析, 得到线性预测编码系数和余量信息,以及语音强度。
3、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的具备情感信息的中间状态语音为把根据情感特征修正以后的中性语音特征参数利 用线性预测编码合成的方法合成得到的语音。
4、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的说话人模型为用高斯混合模型对从具备情感信息的中间状态语音提取的梅尔倒谱 特征系数建模得到的模型。
5、根据权利要求1或2或3或4所述的基于情感迁移规则及语音修正的说话人识别方 法,其特征在于:该方法的主要步骤:
5.1)、音频预处理:音频预处理分为采样量化,去零漂,预加重和加窗四个部分;
5.2)、情感语音特征提取:语音帧的特征提取包括基频、线性预测编码系数和余量信 号的提取;
5.3)、情感特征分析:包括平均基频、基频范围、发音持续时间、强度的均值和强度 的变化范围的分析;
5.3.1)、平均基频计算及变化分析
A)、平均基频的计算;
其中,Pmean是一个语句的平均基频,Pi是各帧的基音值,f是语句中的语音帧数
B)、平均基频的变化规律是指情感语音和中性语音的平均基频的差值:
AP=Pmean-e-Pmean-n
其中,AP是平均基频的变化规律,Pmean-e和Pmean-n分别是情感语句和相应的中性 语句的平均基频。
5.3.2)、基频范围计算及变化分析
A)、基频范围的计算;
R=Pmax-Pmin
其中,R是一个语句的基频范围,Pmax是语句中基音的最大值,Pmin是语句中基音 的最小值。
B)、基频范围的变化规律是指情感语音比中性语音的基频范围的商值:
PR=Re/Rn
其中,PR是基频范围的变化规律,Re和Rn分别是情感语句和相应的中性语句的基 频范围。
5.3.3)、发音的持续时间计算及变化分析
A)、语句发音持续时间是每一句语句从开始到结束的持续时间,用第一步中确定的每个 语句的帧数来衡量语句的发音持续时间;
B)、发音持续时间的变化根据情感语句的持续时间和相应的中性语句持续时间的比值得 到:D=fe/fn
其中,D是发音持续时间的变化规律,fe和fn分别是情感语句和相应的中性语句 的语音帧数;
5.3.4)、平均强度的计算及变化分析
A)、平均强度的计算;
其中,Tmean是一个语句的平均强度,Pi是各个采样点的值,K是语句中的采样点 数。
B)、平均强度的变化规律是指情感语音和中性语音的平均强度的差值:
AT=Tmean-e-Tmean-n
其中,AP是平均强度的变化规律,Tmean-e和Tmean-n分别是情感语句和相应的中性 语句的平均强度。
5.3.5)、强度范围的计算及变化分析
A)、强度范围的计算;
TR=Rmax-Rmin
其中,TR是一个语句的强度范围,Rmax是语句中强度的最大值,Rmin是语句中强 度的最小值;
B)、强度范围的变化规律是指情感语音比中性语音的强度范围的商值:
TRC=TRe/TRn
其中,TRC是强度范围的变化规律,TRe和TRn分别是情感语句和相应的中性语句 的强度范围。
5.4)、语音修正及中间状态语音合成:
得到中性语音与情感语音的变化规律之后,通过得到的变化信息,对中性语音的参 数进行修正,同时利用这些新的参数得到具备情感信息的中间状态语音;
5.5)、说话人识别
在获取具备情感信息的中间状态语音之后,对其提取梅尔倒谱特征,并采用高斯混 合模型进行说话人识别,对每一个用户建立一个高斯混合模型,对每个人的模型参数进 行训练,输入的语音信号,即中间状态语音和测试音,首先要进行特征提取,说话人识 别分为特征提取,模型训练,身份识别三个部分。
6、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的情感语音特征提取具体为:
6.1)、Pitch(基音频率)的提取:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);
B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
D)、计算每个频率的分谐波-谐波比例
SHR=SS/SH
其中
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,没有基音频率,Pitch =0
G)、在[1.937f1,2.062f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0;
K)、最后对全部的Pitch值进行中值平滑滤波;
6.2)、线性预测编码系数:
A)、设置线性预测编码的阶数p;
B)、计算p阶LPC系数{ai}(i=1,2,...,p),由递推式:
E0=R0
∨1≤i≤p
∨1≤j≤i-1
∨i=1,2,...,p
∨i=1,2,...,p
即可算得{ai},其中Ri为自相关函数;
6.3)、余量信号:
其中G为激励系数。
7、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的说话人识别具体步骤为:
7.1)、MFCC,即梅尔倒谱系数的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
D)、计算对应的频域刻度:
E)、计算每个梅尔域通道φj上的对数能量谱:
其中
F)、做离散余弦变换DCT;
7.2)、GMM模型训练:
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间 中的分布,即:
bi(x)=N(x,ui,Ri)
其中,p是特征的维数,bi(x)为核函数,是均值矢量为ui、协方差矩阵为Ri的高 斯分布函数:是GMM模型的阶数,在建立说话人模型以前设定为一确定整数; 为说话人特征分布GMM中的参数,作为高斯混合分布的加权 系数,Pi应满足使得:
7.3)、识别:
用户语音输入后,经特征提取,得到一特征向量序列;该序列输入到相关用户模型参数 的GMM中,得到相似度值s;取生成最大的s值的GMM模型所对应的用户为识别者。
8、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:确定一句话的开始和结束的位置采用的方法是:把语音能量和预先设定的能量阀值作比 较,当语音能量超过这个阀值,并且在接下来的连续几帧都高于这个阀值,标志着一句话的 开始,当语音能量连续几帧低于这个阀值时表示一句话的结束。
9、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:在语音修正及中间状态语音合成中具体步骤如下:
9.1)、修正中性语音的持续时间;通过对中性语音的帧数的加碱来改变语音持续时间;
对D值取整为K,如果D大于1,则说明情感的变化将延长语音持续时间,使得语音帧 数增加;为了模仿情感语音,对每K帧在末尾用第K帧模仿第K+1帧,原来的第K+1帧顺 延变为第K+2帧;如果D小于1,则说明情感的变化将缩短语音持续时间,使得语音帧数减 少,删去每K帧的最后一帧第K帧,原来的第K+1帧变为第K帧;
9.2)、修正中性语音的基频
um=(u+AP)*PR;
其中,um为修正后的中性语音的基频,u为经过持续时间修正后的中性语音基频, AP是平均基频的变化规律,PR是基频范围的变化规律;
9.3)、合成中间状态语音
同样地,根据修正后的线性预测编码系数和余量信息,利用预测编码合成得到中间 状态语音;
9.4)、修正中间状态的语音的强度
最后,对经过预测编码合成得到语音进行语音强度修正,得到具备情感信息的中间 状态语音;Tm=(T+AT)*TRC
其中,Tm为修正后的中性语音的强度,u为预测编码合成得到语音的强度,AT是 平均强度的变化规律,TRC是强度范围的变化规律。
本发明涉及信号处理和模式识别领域,主要是一种基于情感迁移规则及语音修正的说话 人识别方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于室内声学信道扰动分析的物体识别方法 | 2020-05-12 | 835 |
基于谱峭度和神经网络的滚动轴承故障分类方法及系统 | 2020-05-12 | 610 |
基于长短时记忆神经网络的说话人分段标注方法及装置 | 2020-05-13 | 551 |
基于双声道的脚步检测方法 | 2020-05-13 | 552 |
基于多种特征融合的语音篡改检测方法 | 2020-05-14 | 200 |
一种基于后端模型的声纹识别优化方法和相关装置 | 2020-05-08 | 156 |
音频处理方法、装置和存储介质 | 2020-05-12 | 359 |
一种基于声信号特征库的风机桨叶故障识别方法 | 2020-05-14 | 334 |
一种音频关键词模板的筛选和优化方法 | 2020-05-12 | 781 |
一种登陆方法和装置 | 2020-05-14 | 534 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。