首页 / 专利库 / 信号处理 / 梅尔频率倒谱 / 基于情感迁移规则及语音修正的说话人识别方法

基于情感迁移规则及语音修正的说话人识别方法

阅读:883发布:2021-01-09

专利汇可以提供基于情感迁移规则及语音修正的说话人识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于情感迁移规则及语音修正的说话人识别方法,首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征,并对这些特征进行分析和对比,然后根据这些特征的变化规律修正采集的中性语音中的特征参数。当对比语音的情感状态不是中性的时候,就可以选用具备相应情感信息的语音模型来对比。本发明有益的效果是:结合语音特征修正和语音合成两种方法,使得采集的语音与对比的语音情感状态相一致,来提高说话人识别系统的性能。,下面是基于情感迁移规则及语音修正的说话人识别方法专利的具体信息内容。

1、一种基于情感迁移规则及语音修正的说话人识别方法,其特征在于:首先对具有相 同文本的中性语音与情感语音提取其中能反映情感信息的语音特征,并对这些特征进行分析 和对比,然后根据这些特征的变化规律修正采集的中性语音中的特征参数;当对比语音的情 感状态不是中性的时候,用具备相应情感信息的语音模型来对比。
2、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的中性语音中要修正的特征参数为将音频分后,对各帧进行线性预测编码分析, 得到线性预测编码系数和余量信息,以及语音强度。
3、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的具备情感信息的中间状态语音为把根据情感特征修正以后的中性语音特征参数利 用线性预测编码合成的方法合成得到的语音。
4、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的说话人模型为用高斯混合模型对从具备情感信息的中间状态语音提取的梅尔倒谱 特征系数建模得到的模型。
5、根据权利要求1或2或3或4所述的基于情感迁移规则及语音修正的说话人识别方 法,其特征在于:该方法的主要步骤:
5.1)、音频预处理:音频预处理分为采样量化,去零漂,预加重和加窗四个部分;
5.2)、情感语音特征提取:语音帧的特征提取包括基频、线性预测编码系数和余量信 号的提取;
5.3)、情感特征分析:包括平均基频、基频范围、发音持续时间、强度的均值和强度 的变化范围的分析;
5.3.1)、平均基频计算及变化分析
A)、平均基频的计算;
P mean = Σ i = 1 f P i f
其中,Pmean是一个语句的平均基频,Pi是各帧的基音值,f是语句中的语音帧数
B)、平均基频的变化规律是指情感语音和中性语音的平均基频的差值:
AP=Pmean-e-Pmean-n
其中,AP是平均基频的变化规律,Pmean-e和Pmean-n分别是情感语句和相应的中性 语句的平均基频。
5.3.2)、基频范围计算及变化分析
A)、基频范围的计算;
R=Pmax-Pmin
其中,R是一个语句的基频范围,Pmax是语句中基音的最大值,Pmin是语句中基音 的最小值。
B)、基频范围的变化规律是指情感语音比中性语音的基频范围的商值:
PR=Re/Rn
其中,PR是基频范围的变化规律,Re和Rn分别是情感语句和相应的中性语句的基 频范围。
5.3.3)、发音的持续时间计算及变化分析
A)、语句发音持续时间是每一句语句从开始到结束的持续时间,用第一步中确定的每个 语句的帧数来衡量语句的发音持续时间;
B)、发音持续时间的变化根据情感语句的持续时间和相应的中性语句持续时间的比值得 到:D=fe/fn
其中,D是发音持续时间的变化规律,fe和fn分别是情感语句和相应的中性语句 的语音帧数;
5.3.4)、平均强度的计算及变化分析
A)、平均强度的计算;
T mean = Σ i = 1 K T i K
其中,Tmean是一个语句的平均强度,Pi是各个采样点的值,K是语句中的采样点 数。
B)、平均强度的变化规律是指情感语音和中性语音的平均强度的差值:
AT=Tmean-e-Tmean-n
其中,AP是平均强度的变化规律,Tmean-e和Tmean-n分别是情感语句和相应的中性 语句的平均强度。
5.3.5)、强度范围的计算及变化分析
A)、强度范围的计算;
TR=Rmax-Rmin
其中,TR是一个语句的强度范围,Rmax是语句中强度的最大值,Rmin是语句中强 度的最小值;
B)、强度范围的变化规律是指情感语音比中性语音的强度范围的商值:
TRC=TRe/TRn
其中,TRC是强度范围的变化规律,TRe和TRn分别是情感语句和相应的中性语句 的强度范围。
5.4)、语音修正及中间状态语音合成:
得到中性语音与情感语音的变化规律之后,通过得到的变化信息,对中性语音的参 数进行修正,同时利用这些新的参数得到具备情感信息的中间状态语音;
5.5)、说话人识别
在获取具备情感信息的中间状态语音之后,对其提取梅尔倒谱特征,并采用高斯混 合模型进行说话人识别,对每一个用户建立一个高斯混合模型,对每个人的模型参数进 行训练,输入的语音信号,即中间状态语音和测试音,首先要进行特征提取,说话人识 别分为特征提取,模型训练,身份识别三个部分。
6、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的情感语音特征提取具体为:
6.1)、Pitch(基音频率)的提取:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);
B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
D)、计算每个频率的分谐波-谐波比例
SHR=SS/SH
其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N = f ceiling / f
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,没有基音频率,Pitch =0
G)、在[1.937f1,2.062f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0;
K)、最后对全部的Pitch值进行中值平滑滤波;
6.2)、线性预测编码系数:
A)、设置线性预测编码的阶数p;
B)、计算p阶LPC系数{ai}(i=1,2,...,p),由递推式:
R i = Σ n = i N - 1 s ( n ) s ( n - i )
E0=R0
K i = - [ R i + Σ j = 1 i - 1 a j ( ( i - 1 ) R i - j ] / E i - 1
∨1≤i≤p
a i ( i ) = k i
a j ( i ) = a j ( i - 1 ) + k i a i - j ( i - 1 ) ∨1≤j≤i-1
E i = ( 1 - k i 2 ) E i - 1
∨i=1,2,...,p
a j = a j ( p ) ∨i=1,2,...,p
即可算得{ai},其中Ri为自相关函数;
6.3)、余量信号:
u ( n ) = [ s ( n ) - Σ i = 1 p a i s ( n - i ) ] / G ; 其中G为激励系数。
7、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:所述的说话人识别具体步骤为:
7.1)、MFCC,即梅尔倒谱系数的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2 , 其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 ;
F)、做离散余弦变换DCT;
7.2)、GMM模型训练:
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间 中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x ) ,
bi(x)=N(x,ui,Ri)
= 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - u i ) T R i - 1 ( x - u i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为ui、协方差矩阵为Ri的高 斯分布函数:是GMM模型的阶数,在建立说话人模型以前设定为一确定整数; λ = Δ { P i , u i , R i | i = 1,2 , . . . , M } 为说话人特征分布GMM中的参数,作为高斯混合分布的加权 系数,Pi应满足使得: - + p ( x / λ ) dx = 1 ;
7.3)、识别:
用户语音输入后,经特征提取,得到一特征向量序列;该序列输入到相关用户模型参数 的GMM中,得到相似度值s;取生成最大的s值的GMM模型所对应的用户为识别者。
8、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:确定一句话的开始和结束的位置采用的方法是:把语音能量和预先设定的能量值作比 较,当语音能量超过这个阀值,并且在接下来的连续几帧都高于这个阀值,标志着一句话的 开始,当语音能量连续几帧低于这个阀值时表示一句话的结束。
9、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法,其特征在 于:在语音修正及中间状态语音合成中具体步骤如下:
9.1)、修正中性语音的持续时间;通过对中性语音的帧数的加来改变语音持续时间;
对D值取整为K,如果D大于1,则说明情感的变化将延长语音持续时间,使得语音帧 数增加;为了模仿情感语音,对每K帧在末尾用第K帧模仿第K+1帧,原来的第K+1帧顺 延变为第K+2帧;如果D小于1,则说明情感的变化将缩短语音持续时间,使得语音帧数减 少,删去每K帧的最后一帧第K帧,原来的第K+1帧变为第K帧;
9.2)、修正中性语音的基频
um=(u+AP)*PR;
其中,um为修正后的中性语音的基频,u为经过持续时间修正后的中性语音基频, AP是平均基频的变化规律,PR是基频范围的变化规律;
9.3)、合成中间状态语音
同样地,根据修正后的线性预测编码系数和余量信息,利用预测编码合成得到中间 状态语音; s ( n ) = G u m ( n ) + Σ i = 1 p a i s ( n - i )
9.4)、修正中间状态的语音的强度
最后,对经过预测编码合成得到语音进行语音强度修正,得到具备情感信息的中间 状态语音;Tm=(T+AT)*TRC
其中,Tm为修正后的中性语音的强度,u为预测编码合成得到语音的强度,AT是 平均强度的变化规律,TRC是强度范围的变化规律。

说明书全文

技术领域

发明涉及信号处理和模式识别领域,主要是一种基于情感迁移规则及语音修正的说话 人识别方法。

背景技术

随着生物学和信息技术高度发展的21世纪的来临,生物证人技术作为一种更加便捷、先 进的信息安全技术开始在全球电子商务时代崭露头。声纹识别属于其中的一种,是一项根 据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
相比于其他的生物认证技术,声纹识别,即说话人识别,具有无需接触,易接受,使用 方便、经济、准确,等以及适用于远程应用优势。但是在实际应用中,声纹识别的性能除了 会受到外界噪声的影响之外,还会随着说话人自身状态(如情感)的变化而影响到采集与对 比的结果。所以,强鲁棒性的声纹识别系统应该综合考虑说话人的生理和行为相结合的特征。 声纹特征提取的不仅是语音信号中的生理特征,还包括其中的情感特征,整个识别系统根据 说话人的生理和行为相结合的特征进行识别,从前提上消除了由于情感变化所带来的声纹识 别系统性能不稳定的隐患。
现有的情感语音说话人识别系统在以往基于中性语音的说话人语音模型中加入特定说话 人的情感语音,利用说话人各种情感状态下的语音进行建模,以消除情感变化的影响。
这种基于情感语音的说话人建模方法,要求在采集用户中性语音要求用户同时给出情感 语音。这种刻意的情感表达,往往难以获得用户的认同,破坏了说话人识别原有的友好性。

发明内容

本发明要解决上述技术所存在的缺陷,提供一种基于情感迁移规则及语音修正的说话人 识别方法。通过对不同情感状态下语音特征的分析,实现中性语音修正,丰富语音中的情感 信息,生成具有情感信息的中间状态语音,使得采集与对比时的语音情感状态相一致,从而 提高说话人识别的性能。
本发明解决其技术问题所采用的技术方案:这种基于情感迁移规则及语音修正的说话人 识别方法,首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征, 并对这些特征进行分析和对比,然后根据这些特征的变化规律修正采集的中性语音中的特征 参数。当对比语音的情感状态不是中性的时候,就可以选用具备相应情感信息的语音模型来 对比。
本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的进行对比情感特征 为平均基频、基频范围、发音持续时间、平均强度和强度范围。所述的中性语音中要修正的 特征参数为将音频分后,对各帧进行线性预测编码分析,得到线性预测编码系数和余量信 息,以及语音强度。所述的具备情感信息的中间状态语音为把根据情感特征修正以后的中性 语音特征参数利用线性预测编码合成的方法合成得到的语音。所述的说话人模型为用高斯混 合模型对从具备情感信息的中间状态语音提取的梅尔倒谱特征系数建模得到的模型。
本发明有益的效果是:结合语音特征修正和语音合成两种方法,使得采集的语音与对比 的语音情感状态相一致,来提高说话人识别系统的性能。
附图说明
图1是本发明的基于情感迁移规则及语音修正的抗情感变化的说话人识别方法系统框架图;
图2是本发明的语音修正的算法流程图

具体实施方式

下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分五步。
第一步:音频预处理
音频预处理分为采样量化,去零漂,预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN;
C)、对音频信号Sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小 的值;
B)、s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N 个音频信号样本;
C)、计算哈明窗函数:

D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步:情感语音特征提取
语音帧的特征提取包括基频(Pitch)、线性预测编码系数和余量信号的提取。
1、Pitch的提取:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);
B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
D)、计算每个频率的SHR(分谐波-谐波比例)
SHR=SS/SH
其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N = f ceiling / f
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,没有基音频率,Pitch =0
G)、在[1.9375f1,2.062f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0。
K)、最后对全部的Pitch值进行中值平滑滤波。
2、线性预测编码系数(LPCC):
A)、设置线性预测编码(LPC)的阶数p;
B)、计算p阶LPC系数{ai}(i=1,2,...,p),由递推式:
R i = Σ n = i N - 1 s ( n ) s ( n - i )
E0=R0
K i = - [ R i + Σ j = 1 i - 1 a j ( ( i - 1 ) R i - j ] / E i - 1 1≤i≤p
a i ( i ) = k i
a j ( i ) = a j ( i - 1 ) + k i a i - j ( i - 1 ) 1≤j≤i-1
E i = ( 1 - k i 2 ) E i - 1
i=1,2,...,p
a j = a j ( p ) 1≤j≤p
即可算得{ai},其中Ri为自相关函数。
3、余量信号:
u ( n ) = [ s ( n ) - Σ i = 1 p a i s ( n - i ) ] / G
其中G为激励系数。
第三步、情感特征分析
情感特征分析包括平均基频、基频范围、发音持续时间、强度的均值和强度的变化 范围的分析。
1、平均基频计算及变化分析
A)、平均基频的计算;
P mean = Σ i = 1 f P i f .
其中,Pmean是一个语句的平均基频,Pi是各帧的基音值,f是语句中的语音帧数
B)、平均基频的变化规律是指情感语音和中性语音的平均基频的差值:
AP=Pmean-e-Pmean-n
其中,AP是平均基频的变化规律,Pmean-e和Pmean-n分别是情感语句和相应的中性语 句的平均基频。
2、基频范围计算及变化分析
A)、基频范围的计算;
R=Pmax-Pmin
其中,R是一个语句的基频范围,Pmax是语句中基音的最大值,Pmin是语句中基音 的最小值。
B)、基频范围的变化规律是指情感语音比中性语音的基频范围的商值:
PR=Re/Rn
其中,PR是基频范围的变化规律,Re和Rn分别是情感语句和相应的中性语句的基 频范围。
3、发音的持续时间计算及变化分析
A)、语句发音持续时间是每一句语句从开始到结束的持续时间。确定一句话的开始和结 束的位置采用的方法是:把语音能量和预先设定的能量值作比较。当语音能量超过这 个阀值,并且在接下来的连续几帧都高于这个阀值,标志着一句话的开始。当语音能量 连续几帧低于这个阀值时表示一句话的结束。根据这个定义,用第一步中确定的每个语 句的帧数来衡量语句的发音持续时间;
B)、发音持续时间的变化根据情感语句的持续时间和相应的中性语句持续时间的比值得 到:
D=fe/fn
其中,D是发音持续时间的变化规律,fe和fn分别是情感语句和相应的中性语句 的语音帧数。
4、平均强度的计算及变化分析
A)、A)、平均强度的计算;
T mean = Σ i = 1 K T i K
其中,Tmean是一个语句的平均强度,Pi是各个采样点的值,K是语句中的采样点数。
B)、平均强度的变化规律是指情感语音和中性语音的平均强度的差值:
AT=Tmean-e-Tmean-n
其中,AP是平均强度的变化规律,Tmean-e和Tmean-n分别是情感语句和相应的中性语 句的平均强度。
5、强度范围的计算及变化分析
A)、强度范围的计算;
TR=Rmax-Rmin
其中,TR是一个语句的强度范围,Rmax是语句中强度的最大值,Rmin是语句中强 度的最小值。
B)、强度范围的变化规律是指情感语音比中性语音的强度范围的商值:
TRC=TRe/TRn
其中,TRC是强度范围的变化规律,TRe和TRn分别是情感语句和相应的中性语句 的强度范围。
第四步、语音修正及中间状态语音合成
得到中性语音与情感语音的变化规律之后,就可以通过得到的变化信息,对中性语 音的参数进行修正,同时利用这些新的参数得到具备情感信息的中间状态语音。
1、修正中性语音的持续时间
通过对中性语音的帧数的加来达到改变语音持续时间的作用。
对D值取整为K,如果D大于1,则说明情感的变化将延长语音持续时间,使得语 音帧数增加。为了模仿情感语音,对每K帧在末尾用第K帧模仿第K+1帧,原来的第 K+1帧顺延变为第K+2帧。如果D小于1,则说明情感的变化将缩短语音持续时间,使 得语音帧数减少。删去每K帧的最后一帧第K帧,原来的第K+1帧变为第K帧。
2、修正中性语音的基频
um=(u+AP)*PR
其中,um为修正后的中性语音的基频,u为经过持续时间修正后的中性语音基频, AP是平均基频的变化规律,PR是基频范围的变化规律。
3、合成中间状态语音
同样地,根据修正后的线性预测编码系数和余量信息,利用预测编码合成得到中间 状态语音。
s ( n ) = G u m ( n ) + Σ i = 1 p a i s ( n - i )
4、修正中间状态的语音的强度
最后,对经过预测编码合成得到语音进行语音强度修正,得到具备情感信息的中间 状态语音。
Tm=(T+AT)*TRC
其中,Tm为修正后的中性语音的强度,u为预测编码合成得到语音的强度,AT是 平均强度的变化规律,TRC是强度范围的变化规律。
第五步、说话人识别
在获取具备情感信息的中间状态语音之后,对其提取梅尔倒谱特征,并采用高斯混 合模型(GMM)进行说话人识别。对每一个用户建立一个高斯混合模型,需要对每个 人的模型参数进行训练。输入的语音信号(中间状态语音,测试音)首先要进行特征提 取。说话人识别分为特征提取,模型训练,身份识别三个部分。
1、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度:
M i = i p × 2592 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 .
F)、做离散余弦变换DCT
2、GMM模型训练
每一说话人的语音特征在特征空间中都形成了特定的分布,可以用这一分布来描述 说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特 征分布。
每一说话人的概率密度函数的函数形式是相同的,所不同的只是函数中的参数。M 阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分 布,即:
p ( x ) Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , u i , R i )
= 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - u i ) T R i - 1 ( x - u i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为ui、协方差矩阵为Ri的高斯 分布函数,M(可选,一般为16,32)是GMM模型的阶数,在建立说话人模型以前设 定为一确定整数。 λ = Δ { P i , u i , R i | i = 1,2 , . . . , M } 为说话人特征分布GMM中的参数。作为高 斯混合分布的加权系数,Pi应满足使得:
- + p ( x / λ ) dx = 1
由于计算GMM中的p(x)需要求p×p维方阵Ri(i=1,2,...,M)的逆,运算量大。为此, 将Rj设为对角阵,将求逆运算转化为求倒数运算,提高运算速度。
3、识别
用户语音输入后,经特征提取,得到一特征向量序列。该序列输入到相关用户模型 参数的GMM冲,得到相似度值s。取生成最大的s值的GMM模型所对应的用户为识 别者。
实验结果
本系统在Emotional Prosody Speech语音库上进行了实验。这个语音库是由国际语言学数 据联盟依据数据库标准建立的情感语音数据库,用作不同情感语音的发音特征研究,由7名 专业演员(3名男性目标说话人和4名女性目标说话人)来录制的,用英语朗读一系列特定 予以的语句,主要是日期和数字,涵盖了14种不同情感类型。录音的方法是让演员表演相应 情感时候的不同语气、语调以及语速,每个说话人在每种情感的录音时间不等,大约在10秒 到40秒之间,也有极少数长达50秒,每个说话人总的录音时间大约在5、6分钟。
我们同时在这个库上用传统的说话人识别方法(Baseline)和加入线性预测编码分析和合 成但是没有进行特征修正的说话人识别方法(Unmodified LPC)进行了同样的实验,用于和 本系统(Modified LPC)进行对比。这两种方法都是利用中性语音对说话人进行建模,没有 用到任何情感的先验知识。
传统的无任何处理的说话人识别方法基于本说明的第一步和第六步。对中性语音进行预 处理以后,对其提取梅尔倒谱特征,利用高斯混合模型对说话人建模。同样的,测试的情感 语音在经过预处理和梅尔倒谱特征提取的过程之后,与建好的说话人模型进行匹对,取得分 最高的模型所对应的说话人为说别者。
加入线性预测编码分析和合成但是没有进行特征修正的说话人识别方法在传统说话人识 别方法的基础上,在语音预处理之后,进行线性预测编码分析,之后利用分析得到的初始线 性预测编码系数和余量信号(在未作任何修正的情况下)进行合成,再对语音提取梅尔倒谱 特征,之后利用高斯混合模型对说话人建模。同样的,测试的情感语音在经过预处理之后, 也多了一步线性预测编码分析和合成的过程。
我们对14种情感测试语音对中性语音的说话人模型的识别结果评估。 实验结果如下:   情感   Baseline   (%)   Unmodified   LPC(%)   Modified   LPC(%)   IR   IR   IR   Anxiety(焦虑)   73.53   78.24   87.06   Boredom(厌倦)   86.36   86.36   90.91   cold anger(恼怒)   56.41   66.03   71.79   Contempt(轻蔑)   66.11   65.56   78.89   Despair(绝望)   80.92   71.68   80.92   Disgust(厌恶)   53.89   50.56   53.89   Elation(得意)   32.08   30.82   35.85   hot anger(愤怒)   39.57   32.37   39.57   Interest   (兴趣盎然)   67.80   70.62   80.23   Neutral(中性)   81.25   85.00   92.50   Panic(惊慌)   29.08   33.33   46.81   Pride(自豪)   75.50   70.86   79.47   Sadness(悲伤)   65.56   56.95   66.89   Shame(羞愧)   73.65   79.05   85.14   Total   62.81   62.34   70.22
其中,“Baseline”表示传统的说话人识别方法,“Unmodified LPC”表示加入线性预测编 码分析和合成但是没有进行特征修正的说话人识别方法,“Modified LPC”表示本系统所提出 的方法。“IR”表示说话人的识别正确率,即在用户为合法的情况下,将申请人与数据库中的 所有合法用户做比较,从而给出最相似用户,如果申请人与给出的用户为同一个人,则识别 正确。
实验结果表明,传统的无任何处理的说话人识别方法在采集语音和测试语音情感状态相 一致的情况下(均为中性语音时),能达到较好的识别率,但当测试情感发生变化时,性能急 剧下降。
在对语音提取梅尔倒谱特征之前,进行线性预测编码分析和合成,不会丢失说话人特有 的特征。
本识别算法能通过对文本相同的情感语音和中性语音的分析,根据语音的变化规律,对中性 语音进行修正,把情感信息加入到中性语音中去。本算法能根据情感的先验知识,不需要特 定的说话人情感语音,并且提高了说话人识别的识别率,所以增强了说话人识别系统在说话 人情感波动情况下的鲁棒性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈