基于情感迁移规则及语音修正的说话人识别方法专利检索-梅尔频率倒谱信号处理专利检索查询-专利查询网

基于情感迁移规则及语音修正的说话人识别方法

阅读：883发布：2021-01-09

专利汇可以提供基于情感迁移规则及语音修正的说话人识别方法专利检索，专利查询，专利分析的服务。并且本发明涉及一种基于情感迁移规则及语音修正的说话人识别方法，首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征，并对这些特征进行分析和对比，然后根据这些特征的变化规律修正采集的中性语音中的特征参数。当对比语音的情感状态不是中性的时候，就可以选用具备相应情感信息的语音模型来对比。本发明有益的效果是：结合语音特征修正和语音合成两种方法，使得采集的语音与对比的语音情感状态相一致，来提高说话人识别系统的性能。，下面是基于情感迁移规则及语音修正的说话人识别方法专利的具体信息内容。

权利要求

1、一种基于情感迁移规则及语音修正的说话人识别方法，其特征在于：首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征，并对这些特征进行分析和对比，然后根据这些特征的变化规律修正采集的中性语音中的特征参数；当对比语音的情感状态不是中性的时候，用具备相应情感信息的语音模型来对比。
2、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：所述的中性语音中要修正的特征参数为将音频分帧后，对各帧进行线性预测编码分析，得到线性预测编码系数和余量信息，以及语音强度。
3、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：所述的具备情感信息的中间状态语音为把根据情感特征修正以后的中性语音特征参数利用线性预测编码合成的方法合成得到的语音。
4、根据权利要求1所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：所述的说话人模型为用高斯混合模型对从具备情感信息的中间状态语音提取的梅尔倒谱特征系数建模得到的模型。
5、根据权利要求1或2或3或4所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：该方法的主要步骤：
5.1)、音频预处理：音频预处理分为采样量化，去零漂，预加重和加窗四个部分；
5.2)、情感语音特征提取：语音帧的特征提取包括基频、线性预测编码系数和余量信号的提取；
5.3)、情感特征分析：包括平均基频、基频范围、发音持续时间、强度的均值和强度的变化范围的分析；
5.3.1)、平均基频计算及变化分析
A)、平均基频的计算；
$P_{mean} = \frac{Σ_{i = 1}^{f} P_{i}}{f}$
其中，Pmean是一个语句的平均基频，Pi是各帧的基音值，f是语句中的语音帧数
B)、平均基频的变化规律是指情感语音和中性语音的平均基频的差值：
AP＝Pmean-e-Pmean-n
其中，AP是平均基频的变化规律，Pmean-e和Pmean-n分别是情感语句和相应的中性语句的平均基频。
5.3.2)、基频范围计算及变化分析
A)、基频范围的计算；
R＝Pmax-Pmin
其中，R是一个语句的基频范围，Pmax是语句中基音的最大值，Pmin是语句中基音的最小值。
B)、基频范围的变化规律是指情感语音比中性语音的基频范围的商值：
PR＝Re/Rn
其中，PR是基频范围的变化规律，Re和Rn分别是情感语句和相应的中性语句的基频范围。
5.3.3)、发音的持续时间计算及变化分析
A)、语句发音持续时间是每一句语句从开始到结束的持续时间，用第一步中确定的每个语句的帧数来衡量语句的发音持续时间；
B)、发音持续时间的变化根据情感语句的持续时间和相应的中性语句持续时间的比值得到：D＝fe/fn
其中，D是发音持续时间的变化规律，fe和fn分别是情感语句和相应的中性语句的语音帧数；
5.3.4)、平均强度的计算及变化分析
A)、平均强度的计算；
$T_{mean} = \frac{Σ_{i = 1}^{K} T_{i}}{K}$
其中，Tmean是一个语句的平均强度，Pi是各个采样点的值，K是语句中的采样点数。
B)、平均强度的变化规律是指情感语音和中性语音的平均强度的差值：
AT＝Tmean-e-Tmean-n
其中，AP是平均强度的变化规律，Tmean-e和Tmean-n分别是情感语句和相应的中性语句的平均强度。
5.3.5)、强度范围的计算及变化分析
A)、强度范围的计算；
TR＝Rmax-Rmin
其中，TR是一个语句的强度范围，Rmax是语句中强度的最大值，Rmin是语句中强度的最小值；
B)、强度范围的变化规律是指情感语音比中性语音的强度范围的商值：
TRC＝TRe/TRn
其中，TRC是强度范围的变化规律，TRe和TRn分别是情感语句和相应的中性语句的强度范围。
5.4)、语音修正及中间状态语音合成：
得到中性语音与情感语音的变化规律之后，通过得到的变化信息，对中性语音的参数进行修正，同时利用这些新的参数得到具备情感信息的中间状态语音；
5.5)、说话人识别
在获取具备情感信息的中间状态语音之后，对其提取梅尔倒谱特征，并采用高斯混合模型进行说话人识别，对每一个用户建立一个高斯混合模型，对每个人的模型参数进行训练，输入的语音信号，即中间状态语音和测试音，首先要进行特征提取，说话人识别分为特征提取，模型训练，身份识别三个部分。
6、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：所述的情感语音特征提取具体为：
6.1)、Pitch(基音频率)的提取：
A)、设置基音频率的搜索范围ffloor＝50，fceiling＝1250(Hz)；
B)、设置语音的基音频率的取值范围fmin＝50，fmax＝550(Hz)；
C)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)；
D)、计算每个频率的分谐波-谐波比例
SHR＝SS/SH
其中 $SS = Σ_{n = 1}^{N} X ((n - 1 / 2) f), SH = Σ_{n = 1}^{N} X (nf), N = f_{ceiling} / f$
E)、找出SHR最高的频率f1
F)、如果f1＞fmax或者f1的SS-SH＜0，那么认为是非语音或静音帧，没有基音频率，Pitch ＝0
G)、在[1.937f1，2.062f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2＞fmax，或者f2的SHR＞0.2，Pitch＝f1
I)、其他情况，Pitch＝f2
J)、对得到的基音频率进行自相关效验：
从帧的中点开始，前后各取1/pitch长的采样点，计算它们的自相关值C，如果C＜0.2 那么认为基音频率值不可靠，Pitch＝0；
K)、最后对全部的Pitch值进行中值平滑滤波；
6.2)、线性预测编码系数：
A)、设置线性预测编码的阶数p；
B)、计算p阶LPC系数{ai}(i＝1，2，...，p)，由递推式：
$R_{i} = Σ_{n = i}^{N - 1} s (n) s (n - i)$
E0＝R0
$K_{i} = - [R_{i} + Σ_{j = 1}^{i - 1} a_{j}^{((i - 1)} R_{i - j}] / E_{i - 1}$
∨1≤i≤p
$a_{i}^{(i)} = k_{i}$
$a_{j}^{(i)} = a_{j}^{(i - 1)} + k_{i} a_{i - j}^{(i - 1)}$ ∨1≤j≤i-1
$E_{i} = (1 - k_{i}^{2}) E_{i - 1}$
∨i＝1，2，...，p
$a_{j} = a_{j}^{(p)}$ ∨i＝1，2，...，p
即可算得{ai}，其中Ri为自相关函数；
6.3)、余量信号：
$u (n) = [s (n) - Σ_{i = 1}^{p} a_{i} s (n - i)] / G;$ 其中G为激励系数。
7、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：所述的说话人识别具体步骤为：
7.1)、MFCC，即梅尔倒谱系数的提取：
A)、设置梅尔倒谱系数的阶数p；
B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)；
C)、计算梅尔域刻度：
$M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)$
D)、计算对应的频域刻度：
$f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)$
E)、计算每个梅尔域通道φj上的对数能量谱：
$E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2},$ 其中 $Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1;$
F)、做离散余弦变换DCT；
7.2)、GMM模型训练：
M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：
$p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x),$
bi(x)＝N(x，ui，Ri)
$= \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - u_{i})}^{T} R_{i}^{- 1} (x - u_{i})}$
其中，p是特征的维数，bi(x)为核函数，是均值矢量为ui、协方差矩阵为Ri的高斯分布函数：是GMM模型的阶数，在建立说话人模型以前设定为一确定整数； $λ \overset{Δ}{=} {P_{i}, u_{i}, R_{i} | i = 1,2, . . ., M}$ 为说话人特征分布GMM中的参数，作为高斯混合分布的加权系数，Pi应满足使得： $\int_{- \infty}^{+ \infty} p (x / λ) dx = 1;$
7.3)、识别：
用户语音输入后，经特征提取，得到一特征向量序列；该序列输入到相关用户模型参数的GMM中，得到相似度值s；取生成最大的s值的GMM模型所对应的用户为识别者。
8、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：确定一句话的开始和结束的位置采用的方法是：把语音能量和预先设定的能量阀值作比较，当语音能量超过这个阀值，并且在接下来的连续几帧都高于这个阀值，标志着一句话的开始，当语音能量连续几帧低于这个阀值时表示一句话的结束。
9、根据权利要求5所述的基于情感迁移规则及语音修正的说话人识别方法，其特征在于：在语音修正及中间状态语音合成中具体步骤如下：
9.1)、修正中性语音的持续时间；通过对中性语音的帧数的加碱来改变语音持续时间；
对D值取整为K，如果D大于1，则说明情感的变化将延长语音持续时间，使得语音帧数增加；为了模仿情感语音，对每K帧在末尾用第K帧模仿第K+1帧，原来的第K+1帧顺延变为第K+2帧；如果D小于1，则说明情感的变化将缩短语音持续时间，使得语音帧数减少，删去每K帧的最后一帧第K帧，原来的第K+1帧变为第K帧；
9.2)、修正中性语音的基频
um＝(u+AP)*PR；
其中，um为修正后的中性语音的基频，u为经过持续时间修正后的中性语音基频， AP是平均基频的变化规律，PR是基频范围的变化规律；
9.3)、合成中间状态语音
同样地，根据修正后的线性预测编码系数和余量信息，利用预测编码合成得到中间状态语音； $s (n) = G u_{m} (n) + Σ_{i = 1}^{p} a_{i} s (n - i)$
9.4)、修正中间状态的语音的强度
最后，对经过预测编码合成得到语音进行语音强度修正，得到具备情感信息的中间状态语音；Tm＝(T+AT)*TRC
其中，Tm为修正后的中性语音的强度，u为预测编码合成得到语音的强度，AT是平均强度的变化规律，TRC是强度范围的变化规律。

说明书全文

技术领域

本发明涉及信号处理和模式识别领域，主要是一种基于情感迁移规则及语音修正的说话人识别方法。

背景技术

随着生物学和信息技术高度发展的21世纪的来临，生物证人技术作为一种更加便捷、先进的信息安全技术开始在全球电子商务时代崭露头角。声纹识别属于其中的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。
相比于其他的生物认证技术，声纹识别，即说话人识别，具有无需接触，易接受，使用方便、经济、准确，等以及适用于远程应用优势。但是在实际应用中，声纹识别的性能除了会受到外界噪声的影响之外，还会随着说话人自身状态(如情感)的变化而影响到采集与对比的结果。所以，强鲁棒性的声纹识别系统应该综合考虑说话人的生理和行为相结合的特征。声纹特征提取的不仅是语音信号中的生理特征，还包括其中的情感特征，整个识别系统根据说话人的生理和行为相结合的特征进行识别，从前提上消除了由于情感变化所带来的声纹识别系统性能不稳定的隐患。
现有的情感语音说话人识别系统在以往基于中性语音的说话人语音模型中加入特定说话人的情感语音，利用说话人各种情感状态下的语音进行建模，以消除情感变化的影响。
这种基于情感语音的说话人建模方法，要求在采集用户中性语音要求用户同时给出情感语音。这种刻意的情感表达，往往难以获得用户的认同，破坏了说话人识别原有的友好性。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种基于情感迁移规则及语音修正的说话人识别方法。通过对不同情感状态下语音特征的分析，实现中性语音修正，丰富语音中的情感信息，生成具有情感信息的中间状态语音，使得采集与对比时的语音情感状态相一致，从而提高说话人识别的性能。
本发明解决其技术问题所采用的技术方案：这种基于情感迁移规则及语音修正的说话人识别方法，首先对具有相同文本的中性语音与情感语音提取其中能反映情感信息的语音特征，并对这些特征进行分析和对比，然后根据这些特征的变化规律修正采集的中性语音中的特征参数。当对比语音的情感状态不是中性的时候，就可以选用具备相应情感信息的语音模型来对比。
本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的进行对比情感特征为平均基频、基频范围、发音持续时间、平均强度和强度范围。所述的中性语音中要修正的特征参数为将音频分帧后，对各帧进行线性预测编码分析，得到线性预测编码系数和余量信息，以及语音强度。所述的具备情感信息的中间状态语音为把根据情感特征修正以后的中性语音特征参数利用线性预测编码合成的方法合成得到的语音。所述的说话人模型为用高斯混合模型对从具备情感信息的中间状态语音提取的梅尔倒谱特征系数建模得到的模型。
本发明有益的效果是：结合语音特征修正和语音合成两种方法，使得采集的语音与对比的语音情感状态相一致，来提高说话人识别系统的性能。
附图说明
图1是本发明的基于情感迁移规则及语音修正的抗情感变化的说话人识别方法系统框架图；
图2是本发明的语音修正的算法流程图；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分五步。
第一步：音频预处理
音频预处理分为采样量化，去零漂，预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器对音频信号进行滤波，使其奈奎斯特频率FN为4KHZ；
B)、设置音频采样率F＝2FN；
C)、对音频信号Sa(t)按周期进行采样，得到数字音频信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值s；
B)、将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)＝1-αz-1中的预加重系数α，α可取1或比1稍小的值；
B)、s”(n)通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是音频采样率，单位为Hz；
B)、以帧长为N、帧移量为T，把s(n)划分成一系列的音频帧Fm，每一音频帧包含N 个音频信号样本；
C)、计算哈明窗函数：

D)、对每一音频帧Fm加哈明窗：
ω(n)×Fm(n){Fm′(n)|n＝0，1，…，N-1}。
第二步：情感语音特征提取
语音帧的特征提取包括基频(Pitch)、线性预测编码系数和余量信号的提取。
1、Pitch的提取：
A)、设置基音频率的搜索范围ffloor＝50，fceiling＝1250(Hz)；
B)、设置语音的基音频率的取值范围fmin＝50，fmax＝550(Hz)；
C)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。
D)、计算每个频率的SHR(分谐波-谐波比例)
SHR＝SS/SH
其中

SS = Σ_{n = 1}^{N} X ((n - 1 / 2) f), SH = Σ_{n = 1}^{N} X (nf), N = f_{ceiling} / f

E)、找出SHR最高的频率f1
F)、如果f1＞fmax或者f1的SS-SH＜0，那么认为是非语音或静音帧，没有基音频率，Pitch ＝0
G)、在[1.9375f1，2.062f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2＞fmax，或者f2的SHR＞0.2，Pitch＝f1
I)、其他情况，Pitch＝f2
J)、对得到的基音频率进行自相关效验：
从帧的中点开始，前后各取1/pitch长的采样点，计算它们的自相关值C，如果C＜0.2 那么认为基音频率值不可靠，Pitch＝0。
K)、最后对全部的Pitch值进行中值平滑滤波。
2、线性预测编码系数(LPCC)：
A)、设置线性预测编码(LPC)的阶数p；
B)、计算p阶LPC系数{ai}(i＝1，2，...，p)，由递推式：

R_{i} = Σ_{n = i}^{N - 1} s (n) s (n - i)

E0＝R0

K_{i} = - [R_{i} + Σ_{j = 1}^{i - 1} a_{j}^{((i - 1)} R_{i - j}] / E_{i - 1}

1≤i≤p

a_{i}^{(i)} = k_{i}

a_{j}^{(i)} = a_{j}^{(i - 1)} + k_{i} a_{i - j}^{(i - 1)}

1≤j≤i-1

E_{i} = (1 {- k}_{i}^{2}) E_{i - 1}

i＝1，2，...，p

a_{j} = a_{j}^{(p)}

1≤j≤p
即可算得{ai}，其中Ri为自相关函数。
3、余量信号：

u (n) = [s (n) - Σ_{i = 1}^{p} a_{i} s (n - i)] / G

其中G为激励系数。
第三步、情感特征分析
情感特征分析包括平均基频、基频范围、发音持续时间、强度的均值和强度的变化范围的分析。
1、平均基频计算及变化分析
A)、平均基频的计算；

P_{mean} = \frac{Σ_{i = 1}^{f} P_{i}}{f} .

其中，Pmean是一个语句的平均基频，Pi是各帧的基音值，f是语句中的语音帧数
B)、平均基频的变化规律是指情感语音和中性语音的平均基频的差值：
AP＝Pmean-e-Pmean-n
其中，AP是平均基频的变化规律，Pmean-e和Pmean-n分别是情感语句和相应的中性语句的平均基频。
2、基频范围计算及变化分析
A)、基频范围的计算；
R＝Pmax-Pmin
其中，R是一个语句的基频范围，Pmax是语句中基音的最大值，Pmin是语句中基音的最小值。
B)、基频范围的变化规律是指情感语音比中性语音的基频范围的商值：
PR＝Re/Rn
其中，PR是基频范围的变化规律，Re和Rn分别是情感语句和相应的中性语句的基频范围。
3、发音的持续时间计算及变化分析
A)、语句发音持续时间是每一句语句从开始到结束的持续时间。确定一句话的开始和结束的位置采用的方法是：把语音能量和预先设定的能量阀值作比较。当语音能量超过这个阀值，并且在接下来的连续几帧都高于这个阀值，标志着一句话的开始。当语音能量连续几帧低于这个阀值时表示一句话的结束。根据这个定义，用第一步中确定的每个语句的帧数来衡量语句的发音持续时间；
B)、发音持续时间的变化根据情感语句的持续时间和相应的中性语句持续时间的比值得到：
D＝fe/fn
其中，D是发音持续时间的变化规律，fe和fn分别是情感语句和相应的中性语句的语音帧数。
4、平均强度的计算及变化分析
A)、A)、平均强度的计算；

T_{mean} = \frac{Σ_{i = 1}^{K} T_{i}}{K}

其中，Tmean是一个语句的平均强度，Pi是各个采样点的值，K是语句中的采样点数。
B)、平均强度的变化规律是指情感语音和中性语音的平均强度的差值：
AT＝Tmean-e-Tmean-n
其中，AP是平均强度的变化规律，Tmean-e和Tmean-n分别是情感语句和相应的中性语句的平均强度。
5、强度范围的计算及变化分析
A)、强度范围的计算；
TR＝Rmax-Rmin
其中，TR是一个语句的强度范围，Rmax是语句中强度的最大值，Rmin是语句中强度的最小值。
B)、强度范围的变化规律是指情感语音比中性语音的强度范围的商值：
TRC＝TRe/TRn
其中，TRC是强度范围的变化规律，TRe和TRn分别是情感语句和相应的中性语句的强度范围。
第四步、语音修正及中间状态语音合成
得到中性语音与情感语音的变化规律之后，就可以通过得到的变化信息，对中性语音的参数进行修正，同时利用这些新的参数得到具备情感信息的中间状态语音。
1、修正中性语音的持续时间
通过对中性语音的帧数的加碱来达到改变语音持续时间的作用。
对D值取整为K，如果D大于1，则说明情感的变化将延长语音持续时间，使得语音帧数增加。为了模仿情感语音，对每K帧在末尾用第K帧模仿第K+1帧，原来的第 K+1帧顺延变为第K+2帧。如果D小于1，则说明情感的变化将缩短语音持续时间，使得语音帧数减少。删去每K帧的最后一帧第K帧，原来的第K+1帧变为第K帧。
2、修正中性语音的基频
um＝(u+AP)*PR
其中，um为修正后的中性语音的基频，u为经过持续时间修正后的中性语音基频， AP是平均基频的变化规律，PR是基频范围的变化规律。
3、合成中间状态语音
同样地，根据修正后的线性预测编码系数和余量信息，利用预测编码合成得到中间状态语音。

s (n) = G u_{m} (n) + Σ_{i = 1}^{p} a_{i} s (n - i)

4、修正中间状态的语音的强度
最后，对经过预测编码合成得到语音进行语音强度修正，得到具备情感信息的中间状态语音。
Tm＝(T+AT)*TRC
其中，Tm为修正后的中性语音的强度，u为预测编码合成得到语音的强度，AT是平均强度的变化规律，TRC是强度范围的变化规律。
第五步、说话人识别
在获取具备情感信息的中间状态语音之后，对其提取梅尔倒谱特征，并采用高斯混合模型(GMM)进行说话人识别。对每一个用户建立一个高斯混合模型，需要对每个人的模型参数进行训练。输入的语音信号(中间状态语音，测试音)首先要进行特征提取。说话人识别分为特征提取，模型训练，身份识别三个部分。
1、MFCC的提取：
A)、设置梅尔倒谱系数的阶数p；
B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2592 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φj上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2}

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1 .

F)、做离散余弦变换DCT
2、GMM模型训练
每一说话人的语音特征在特征空间中都形成了特定的分布，可以用这一分布来描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特征分布。
每一说话人的概率密度函数的函数形式是相同的，所不同的只是函数中的参数。M 阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) Σ_{i = 1}^{M} P_{i} b_{i} (x)

b_{i} (x) = N (x, u_{i}, R_{i})

= \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - u_{i})}^{T} R_{i}^{- 1} (x - u_{i})}

其中，p是特征的维数，bi(x)为核函数，是均值矢量为ui、协方差矩阵为Ri的高斯分布函数，M(可选，一般为16，32)是GMM模型的阶数，在建立说话人模型以前设定为一确定整数。

λ \overset{Δ}{=} {P_{i}, u_{i}, R_{i} | i = 1,2, . . ., M}

为说话人特征分布GMM中的参数。作为高斯混合分布的加权系数，Pi应满足使得：

\int_{- \infty}^{+ \infty} p (x / λ) dx = 1

由于计算GMM中的p(x)需要求p×p维方阵Ri(i＝1，2，...，M)的逆，运算量大。为此，将Rj设为对角阵，将求逆运算转化为求倒数运算，提高运算速度。
3、识别
用户语音输入后，经特征提取，得到一特征向量序列。该序列输入到相关用户模型参数的GMM冲，得到相似度值s。取生成最大的s值的GMM模型所对应的用户为识别者。
实验结果
本系统在Emotional Prosody Speech语音库上进行了实验。这个语音库是由国际语言学数据联盟依据数据库标准建立的情感语音数据库，用作不同情感语音的发音特征研究，由7名专业演员(3名男性目标说话人和4名女性目标说话人)来录制的，用英语朗读一系列特定予以的语句，主要是日期和数字，涵盖了14种不同情感类型。录音的方法是让演员表演相应情感时候的不同语气、语调以及语速，每个说话人在每种情感的录音时间不等，大约在10秒到40秒之间，也有极少数长达50秒，每个说话人总的录音时间大约在5、6分钟。
我们同时在这个库上用传统的说话人识别方法(Baseline)和加入线性预测编码分析和合成但是没有进行特征修正的说话人识别方法(Unmodified LPC)进行了同样的实验，用于和本系统(Modified LPC)进行对比。这两种方法都是利用中性语音对说话人进行建模，没有用到任何情感的先验知识。
传统的无任何处理的说话人识别方法基于本说明的第一步和第六步。对中性语音进行预处理以后，对其提取梅尔倒谱特征，利用高斯混合模型对说话人建模。同样的，测试的情感语音在经过预处理和梅尔倒谱特征提取的过程之后，与建好的说话人模型进行匹对，取得分最高的模型所对应的说话人为说别者。
加入线性预测编码分析和合成但是没有进行特征修正的说话人识别方法在传统说话人识别方法的基础上，在语音预处理之后，进行线性预测编码分析，之后利用分析得到的初始线性预测编码系数和余量信号(在未作任何修正的情况下)进行合成，再对语音提取梅尔倒谱特征，之后利用高斯混合模型对说话人建模。同样的，测试的情感语音在经过预处理之后，也多了一步线性预测编码分析和合成的过程。
我们对14种情感测试语音对中性语音的说话人模型的识别结果评估。实验结果如下：情感 Baseline (％) Unmodified LPC(％) Modified LPC(％) IR IR IR Anxiety(焦虑) 73.53 78.24 87.06 Boredom(厌倦) 86.36 86.36 90.91 cold anger(恼怒) 56.41 66.03 71.79 Contempt(轻蔑) 66.11 65.56 78.89 Despair(绝望) 80.92 71.68 80.92 Disgust(厌恶) 53.89 50.56 53.89 Elation(得意) 32.08 30.82 35.85 hot anger(愤怒) 39.57 32.37 39.57 Interest (兴趣盎然) 67.80 70.62 80.23 Neutral(中性) 81.25 85.00 92.50 Panic(惊慌) 29.08 33.33 46.81 Pride(自豪) 75.50 70.86 79.47 Sadness(悲伤) 65.56 56.95 66.89 Shame(羞愧) 73.65 79.05 85.14 Total 62.81 62.34 70.22
其中，“Baseline”表示传统的说话人识别方法，“Unmodified LPC”表示加入线性预测编码分析和合成但是没有进行特征修正的说话人识别方法，“Modified LPC”表示本系统所提出的方法。“IR”表示说话人的识别正确率，即在用户为合法的情况下，将申请人与数据库中的所有合法用户做比较，从而给出最相似用户，如果申请人与给出的用户为同一个人，则识别正确。
实验结果表明，传统的无任何处理的说话人识别方法在采集语音和测试语音情感状态相一致的情况下(均为中性语音时)，能达到较好的识别率，但当测试情感发生变化时，性能急剧下降。
在对语音提取梅尔倒谱特征之前，进行线性预测编码分析和合成，不会丢失说话人特有的特征。
本识别算法能通过对文本相同的情感语音和中性语音的分析，根据语音的变化规律，对中性语音进行修正，把情感信息加入到中性语音中去。本算法能根据情感的先验知识，不需要特定的说话人情感语音，并且提高了说话人识别的识别率，所以增强了说话人识别系统在说话人情感波动情况下的鲁棒性。

标题	发布/更新时间	阅读量
基于室内声学信道扰动分析的物体识别方法	2020-05-12	835
基于谱峭度和神经网络的滚动轴承故障分类方法及系统	2020-05-12	610
基于长短时记忆神经网络的说话人分段标注方法及装置	2020-05-13	551
基于双声道的脚步检测方法	2020-05-13	552
基于多种特征融合的语音篡改检测方法	2020-05-14	200
一种基于后端模型的声纹识别优化方法和相关装置	2020-05-08	156
音频处理方法、装置和存储介质	2020-05-12	359
一种基于声信号特征库的风机桨叶故障识别方法	2020-05-14	334
一种音频关键词模板的筛选和优化方法	2020-05-12	781
一种登陆方法和装置	2020-05-14	534

基于情感迁移规则及语音修正的说话人识别方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：