专利汇可以提供利用基频包络剔除情感语音的说话人识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种利用基频包络剔除情感语音的说话人识别,在说话人识别的测试中,一段语音先提取 倒谱 特征和基音 频率 ,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的 阀 值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各 帧 的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。本发明有益的效果是:克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能比传统的ASR系统提高8%。,下面是利用基频包络剔除情感语音的说话人识别方法专利的具体信息内容。
1.一种利用基频包络剔除情感语音的说话人识别方法,其特征在于:在说话人识别的 测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特 征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值; 接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进 行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。
2.根据权利要求1所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 包括如下步骤:
1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;
2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率;
3)、训练说话人模型和性别模型:对测试集说话人每人训练一个GMM模型和对男女性 别分别训练一个性别GMM模型;
4)、情感成分剔除:对于输入测试语音的倒谱特征,先用性别模型判断测试语音的性别, 再根据性别选择所使用的剔除阀值;最后根据阀值剔除基频包络均值高于阀值的包络对应帧 的倒谱特征,得到处理后的倒谱特征;
5)、识别:把处理后的倒谱特征输入到相关用户模型参数的GMM中,得到相似度值并 根据其给用户打分。
3.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 所述的语音信号预处理具体步骤是:
1)、采样与量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHz;
B)、设置语音采样率F=2FN;
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化值表示s′(n);
2)、预加重处理
A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍 小的值;
B)、s′(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″(n);
3)、加窗
A)、计算语音帧的帧长N,N需满足:
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为N/2,把s″(n)划分成一系列的语音帧Fm,每一语音帧包 含N个语音信号样本;
C)、计算哈明窗函数:
D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=1,1,...,N-1}。
4.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 所述语音帧上的特征提取的具体步骤是:
语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取;
1)、基音频率(pitch):
A)、设置语音的基音频率的取值范围fmin=93.75Hz,fmax=500Hz;这里,fmin表示语音 基音频率取值的下限,fmax表示语音基音频率取值的上限;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k;这里,n表示时域 信号所处的采样时刻,k表示频域信号的频域坐标取值;
C)、通过短时自相关函数找出基音周期;
其中,τ为位移距离,w(m)为窗函数,N为窗长
短时自相关函数R(τ)在基音周期的整数倍点上有很大的峰值,取第一最大峰值点为 基音周期点;
D)、最后对全部的Pitch值进行中值平滑滤波;
2)、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
D)、计算对应的频域刻度:
E)、计算每个梅尔域通道φj上的对数能量谱:
其中
F)、做离散余弦变换DCT。
5.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 所述的训练说话人模型和性别模型具体步骤是:
性别模型用两个高阶的GMM分别近似男、女两类说话人的特征分布;说话人模型和性 别模型的概率密度函数的函数形式是相同的,所不同的只是函数中的参数,M阶高斯混合模 型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分 布函数,M是GMM模型的阶数,在建立说话人模型以前设为一确定整数, 为说话人特征分布GMM中的参数,作为高斯混合分布的加权系数, Pi应满足使:
即有
6.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 所述的情感成分剔除具体步骤是:
一段语音信号的基频序列J={jn|n=0,1,...,N-1},其对应的倒谱特征(MFCC)为 M={mn|n=0,1,...,N-1},以下为情感成分剔除的具体步骤:
A)、倒谱特征M分别在男性别模型Mm和女性别模型Mf进行测试,得到得分Gm和Gf;
B)、若Gm>Gf,则把剔除阀值δg设为156;反之,设为250;
C)、根据J划分基频包络集合J*={(Sn,En)|n=0,1,...,K-1},其中Sn为第n个包络的 起始帧的序号,En为该包络的结束帧的序号;
D)、计算J*中各基频包络的对应的均值H={hn|n=0,1,...,K-1};
E)、根据δg选择要剔除的包络集合X={(Sn,En)|n=i0,i1,...,ip=1};
F)、根据X,剔除M里对应帧的倒谱特征,得到M’。
7.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于: 所述的识别具体步骤是:
用于语音输入后,经特征提取和情感成分剔除,得到一特征向量序列,该序列输入到相 关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
本发明涉及生物特征识别技术,主要是一种利用基频包络剔除情感语音的说话人识别方 法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
移动终端的音量调节方法、装置、移动终端及存储介质 | 2020-05-08 | 381 |
语音交互的方法、装置、设备和计算机可读存储介质 | 2020-05-11 | 265 |
话语分类器 | 2020-05-12 | 937 |
一种基于空时残差神经网络的远场语音识别方法 | 2020-05-13 | 786 |
一种基于声信号特征库的风机桨叶故障识别方法 | 2020-05-14 | 334 |
到站提醒方法、装置、终端及存储介质 | 2020-05-08 | 218 |
一种音频关键词模板的筛选和优化方法 | 2020-05-12 | 781 |
身份识别方法、装置及计算机可读存储介质 | 2020-05-15 | 675 |
语音转换、文件生成、播音、语音处理方法、设备及介质 | 2020-05-11 | 145 |
一种基于表情、语音和眼动特征的多模态测谎方法 | 2020-05-11 | 762 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。