专利汇可以提供基于长时特征和短时特征的重叠语音与单人语音区分方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分 帧 、 加窗 ;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化 算法 训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。,下面是基于长时特征和短时特征的重叠语音与单人语音区分方法专利的具体信息内容。
1.一种基于长时特征和短时特征的重叠语音与单人语音区分方法,其特征在于,包括如下步骤:
S1读入语音:读入记录有重叠语音或单人语音的语音文件;
S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;
S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;
S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;
S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;
S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
2.根据权利要求1所述的区分方法,其特征在于,所述S2中对读入的语音文件进行预加重、分帧、加窗,具体步骤为:
-1
S2.1所述预加重,具体为:设置数字滤波器的Z传递函数为H(z)=1-αz ,其中α取值为:0.9≤α≤1,读入的语音文件通过数字滤波器后实现预加重;
S2.2所述分帧、加窗,具体步骤为:
S2.2.1设置语音帧的帧长为40毫秒、帧移为20毫秒,帧长和帧移所对应的采样点个数分别为N=0.04×fs和S=0.02×fs,其中fs为语音采样频率,将输入语音信号分割成T个语音帧x′t(n),且每个语音帧包含N个采样点;
S2.2.2计算汉明窗函数ω(n):
S2.2.3对每一个语音帧x′t(n)加汉明窗,得到xt(n):
3.根据权利要求1所述的区分方法,其特征在于,所述S3从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵,具体包括如下步骤:
S3.1提取梅尔频率倒谱系数及其一阶差分,具体为:
S3.1.1对第t帧语音信号xt(n)做离散傅立叶变换,得到线性频谱Xt(k):
(0≤n,k≤N-1)
S3.1.2将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),
S3.1.3将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧梅尔频率倒谱系数Ct(p):
(0≤p
(0≤p
S3.1.5对每帧语音重复步骤S3.1.1~S3.1.4,得到所有T帧语音的梅尔频率倒谱系数及其一阶差分,将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵与一阶差分矩阵,再将这两个矩阵合并构成特征矩阵;
S3.2提取短时能量,具体为:
S3.2.1计算第t帧短时能量STEt:
1≤t≤T
S3.2.2将T帧短时能量STEt拼接成大小为T×1的短时能量特征矩阵STE:
TRS
STE=[STE1,STE2,...,STET] ,
上式中,TRS表示矩阵的转置,T表示帧数;
S3.3提取过零率,具体为:
S3.3.1计算第t帧过零率ZCRt:
1≤t≤T
式中sgn(·)为符号函数;
S3.3.2将T帧过零率ZCRt拼接成大小为T×1的过零率特征矩阵ZCR:
TRS
ZCR=[ZCR1,ZCR2,...,ZCRT] ;
S3.4将MFCCs、ΔMFCCs、STE和ZCR拼接成短时特征矩阵SF:
SF=[MFCCs,ΔMFCCS,STE,ZCR]T×D
式中,D表示短时特征矩阵的维数。
4.根据权利要求1所述的区分方法,其特征在于,所述S4计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵,具体步骤为:
S4.1计算均值特征Mean,具体为:
S4.1.1计算短时特征矩阵SF各维的均值Meanj:
1≤j≤D;
S4.1.2将各维均值拼接成均值矩阵Mean:
Mean=[Mean1,Mean2,...,MeanD]1×D;
S4.2计算最大值特征Maxi,具体为:
S4.2.1计算短时特征矩阵SF各维的最大值Maxij:
1≤j≤D,
S4.2.2将各维最大值拼接成最大值矩阵Maxi:
Maxi=[Maxi1,Maxi2,...,MaxiD]1×D;
S4.3计算最小值特征Mini,具体为:
S4.3.1计算短时特征矩阵SF各维的最小值Minij:
1≤j≤D,
S4.3.2将各维最小值拼接成最小值矩阵Mini:
Mini=[Mini1,Mini2,...,MiniD]1×D;
S4.4计算中值特征Medi,具体为:
S4.4.1计算短时特征矩阵SF各维的中值Medij:
1≤j≤D,
式中median(·)表示计算中值;
S4.4.2将各维中值拼接成中值矩阵Medi:
Medi=[Medi1,Medi2,...,MediD]1×D;
S4.5计算标准差特征Std,具体为:
S4.5.1计算短时特征矩阵SF各维的标准差Stdj:
1≤j≤D,
式中std(·)表示计算标准差;
S4.5.2将各维标准差拼接成标准差矩阵Std:
Std=[Std1,Std2,...,StdD]1×D;
S4.6将上述提取出来的均值、最大值、最小值、中值、均方差特征拼接成长时特征矩阵LF:
LF=[Mean,Maxi,Mini,Medi,Std]1×D′,
式中D′=5×D为长时特征矩阵的维数。
5.根据权利要求1所述的区分方法,其特征在于,所述S5采用EM算法训练四个高斯混合模型,具体步骤为:
S5.1设一个G阶混合分量的D维高斯混合模型表示为:
式中:wi表示混合权重系数,bi(F)是D维高斯概率分布,表示为:
式中:ui表示均值,∑i表示协方差矩阵,一个高斯模型表示为:θ={wi,ui,∑i},大小为T×D的特征矩阵F=[F1,F2,...,FT]TRS输入高斯混合模型θ,得到的概率值为:
*
S5.2求期望:计算函数Q(θ,θ):
*
Q(θ,θ)=E{lnP[(F,i)|θ]}
整理得:
式中ln(·)表示自然对数函数,根据贝叶斯公式,训练特征矩阵在第i个高斯的概率为:
* *
S5.3最大化:根据Q(θ,θ)函数估计θ={wi,ui,∑i}:
*
S5.4EM算法迭代高斯混合模型:当似然函数值达到最大时停止迭代,即当P(F|θ)值相对上次迭代时的P(F|θ)值增幅小于设定的阈值,则停止迭代,得到最终的模型参数,所述模型参数如下:
混合权重系数:
均值矢量:
协方差矩阵:
S5.5从单人语音的训练样本中提取短时特征矩阵SFS、从重叠语音的训练样本中提取短时特征矩阵SFO;
从单人语音的训练样本中提取长时特征矩阵LFS、从重叠语音的训练样本中提取长时特征矩阵LFO;将SFS、SFO、LFS和LFO依次作为特征矩阵F,再重复S5.1-S5.4训练得到单人语音的短时特征模型θSS、单人语音的长时特征模型θSL、重叠语音的短时特征模型θOS、重叠语音的长时特征模型θOL。
6.根据权利要求1所述的区分方法,其特征在于,所述S6模型融合判决,具体步骤包括:
S6.1将S3中提取的短时特征矩阵SF和S4中提取的长时特征矩阵LF按照S5训练得到θSS和θSL,并按下式进行模型融合,得到最终的输出概率值:
P1=(1-β)×ln(p(SF|θSS))+β×ln(p(LF|θSL)),
上式中,p(SF|θSS)表示特征矩阵SF输入模型θSS时所得到的输出概率,p(LF|θSL)表示特征矩阵LF输入模型θSL时所得到的输出概率,β为加权系数且取值为:
0≤β≤1;
S6.2将上述SF和LF分别输入θOS和θOL,并按下式进行模型融合,得到最终的输出概率值:
P2=(1-β)×ln(p(SF|θOS))+β×ln(p(LF|θOL));
S6.3如果P1>P2,则该测试样本被判为单人语音,否则被判为重叠语音。
7.根据权利要求3所述的区分方法,其特征在于,所述步骤S3.1.4中Q取值为3。
8.根据权利要求5所述的区分方法,其特征在于,所述步骤S5.4中设定的阈值为10-4。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种低信噪比环境下的极化码辅助载波同步系统及方法 | 2020-05-16 | 583 |
一种时空数据智能聚合方法 | 2020-05-19 | 474 |
一种通用主题嵌入模型联合训练方法 | 2020-05-20 | 824 |
非临床环境下对高血压进行非干预式的监测和评估方法 | 2020-05-08 | 179 |
基于多能量系统响应矩阵的放射源定位重建方法 | 2020-05-15 | 509 |
基于时间序列分析的阀门故障实时诊断系统及诊断方法 | 2020-05-19 | 309 |
一种语音检测方法及装置 | 2020-05-19 | 599 |
用于确定PET成像动力学参数的系统、方法 | 2020-05-11 | 134 |
一种基于高维Copula技术的光伏发电爬坡事件概率预测方法 | 2020-05-18 | 131 |
图片分割方法、装置和系统 | 2020-05-13 | 108 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。