专利汇可以提供基于倒谱特征线性情感补偿的说话人识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 倒谱 特征线性情感补偿的说话人识别方法,主要步骤是:1)语音 信号 进行预处理;2)语音 帧 上的特征提取:在说话人语音上提取倒谱特征MFCC和基音 频率 ,根据基音频率存在与否,将 语音信号 流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语音,不予处理;3)依据基音频率的变化对相应帧的MFCC进行线性补偿;4)根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语音特征进行训练;5)识别。本发明有益的效果是:采用基于基音频率的倒谱特征补偿,利用韵律特征在情感语音中的变化规律,对情感语音的MFCC特征进行补偿后使说话人特征更具 稳定性 ,以尽量减少情感影响带来的说话人自身语音差异。,下面是基于倒谱特征线性情感补偿的说话人识别方法专利的具体信息内容。
1、一种基于倒谱特征线性情感补偿的说话人识别方法,其特征在于:主要步骤是:
1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;
2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率,根据基音 频率存在与否,将语音信号流分成浊音段和清音段,判断如果某帧为清音帧,则丢弃该帧语 音,不予处理;
3)、依据基音频率的变化对相应帧的MFCC进行线性补偿,其间不断调整补偿系数使 EM算法中的最大似然估计得到的概率值最大,并由此确定补偿系数;
4)、根据这个使最大似然估计得到的概率最大的系数对MFCC进行补偿,由补偿后的语 音特征进行训练;
5)、识别:用于语音输入后,经特征提取,得到一特征向量序列,该序列输入到相关用 户模型参数的GMM中,得到相似度值并根据其给用户打分。
2、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的倒谱特征线性补偿为将每一帧的MFCC特征各维量值通过对应帧的基音频率进行修 正,使其能够尽量更好地表征说话人个性特征。
3、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的补偿系数为进行到谱特征补偿时所使用的描述基音频率变化对MFCC特征影响的因 子,可通过多次EM算法来调整得到最佳的补偿系数。
4、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 所述的多次EM算法确定最佳补偿系数方法是通过不同补偿系数补偿后的MFCC进行隐概率 估计,找出其中令概率值最大的补偿系数作为训练模型时使用的补偿系数。
5、根据权利要求1所述的基于倒谱特征线性情感补偿的说话人识别方法,其特征在于: 语音帧上的特征提取包括基音频率,即pitch和梅尔倒谱系数,即MFCC的提取;
1)、基音频率:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250Hz;
B)、设置语音的基音频率的取值范围fmin=50,fmax=550Hz;
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
D)、计算每个频率的SHR,即分谐波-谐波比例
SHR=SS/SH
其中
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,基音频率Pitch=0
G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2 那么认为基音频率值不可靠,Pitch=0;
K)、最后对全部的Pitch值进行中值平滑滤波;
2)、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
D)、计算对应的频域刻度:
E)、计算每个梅尔域通道φj上的对数能量谱:
其中
其中
F)、做离散余弦变换DCT。
6、根据权利要求1或2或3或4所述的基于倒谱特征线性情感补偿的说话人识别方法, 其特征在于:通过EM算法确定最佳补偿系数,对应不同的补偿系数αk进行多次隐状态的概 率计算,以得到最佳补偿系数;
A)、对应帧的倒谱特征进行补偿系数为αk的线性补偿
x(t)是t时刻的倒谱特征,Y(t)是t时刻的基音频率,Xopt(t)是该时刻经过补偿后的倒谱 特征,E(Y(t))是平均基音频率:
B)、估计隐状态概率
其中
C)、循环进行计算直至找到 满足
D)、以局部最大准则估计GMM的参数P′、μi′和Ri′,即λ′;
本发明涉及生物特征识别技术,主要是一种基于倒谱特征线性情感补偿的说话人识别方 法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于室内声学信道扰动分析的物体识别方法 | 2020-05-12 | 835 |
基于谱峭度和神经网络的滚动轴承故障分类方法及系统 | 2020-05-12 | 610 |
基于长短时记忆神经网络的说话人分段标注方法及装置 | 2020-05-13 | 551 |
基于双声道的脚步检测方法 | 2020-05-13 | 552 |
基于多种特征融合的语音篡改检测方法 | 2020-05-14 | 200 |
一种基于后端模型的声纹识别优化方法和相关装置 | 2020-05-08 | 156 |
音频处理方法、装置和存储介质 | 2020-05-12 | 359 |
一种基于声信号特征库的风机桨叶故障识别方法 | 2020-05-14 | 334 |
一种音频关键词模板的筛选和优化方法 | 2020-05-12 | 781 |
一种登陆方法和装置 | 2020-05-14 | 534 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。