专利汇可以提供基于决策树和说话人改变检测的音频分割方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 决策树 和说话人改变检测的 音频分割 方法,首先利用自适应的静音检测找出音频中的静音,并利用这些静音对音频进行粗分割,然后根据突变检测来进行细分割,并用决策树来对分割得到的音频 片段 进行语音/非语音的分类,最后在语音片段之间检测说话人改变点,由说话人改变点得到最终分割结果。本发明有益的效果是:结合静音检测和突变检测两种方法,并采用语音/非语音决策树进行语音检测,利用各自的优点提高语音检测准确性。再在语音片断之间进行说话人改变检测,相较一般的需要两两计算距离的聚类 算法 更节省计算时间。,下面是基于决策树和说话人改变检测的音频分割方法专利的具体信息内容。
1、一种基于决策树和说话人改变检测的音频分割方法,其特征在于:首先利用自适应 的静音检测找出音频中的静音,并利用这些静音对音频进行粗分割,然后根据突变检测来进 行细分割,并用决策树来对分割得到的音频片段进行语音/非语音的分类,最后在语音片段之 间检测说话人改变点,由说话人改变点得到最终分割结果。
2、根据权利要求1所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 包括如下步骤:
1)、对音频进行预处理:音频预处理分为采样量化,去零漂,预加重和加窗三个部分;
2)、音频特征提取:音频帧上的特征提取包括能量,过零率和梅尔倒谱系数的提取;
3)、静音检测:将音频分帧后计算各帧能量,通过自适应能量阈值和时间阈值确定静音;
4)、语音分割:静音检测之后,音频信号被分割成连续的静音段和非静音段,对长度大 于10秒的非静音段进行进一步分割;突变检测是通过计算能量和过零率的分布之间的距离 确定突变点;
5)、语音/非语音分类:用训练好的决策树来对非静音段分类:语音或非语音,决策树的 每一个结点对应一个段特征;决策树为一组事先训练的判定规则,将音频片断的段特征与对 应规则依次进行判定,按决策树的最终取值决定音频片段类型;
6)、说话人改变检测:用特征分布之间的相似度来检测说话人的改变,即将相邻语音段 之间的距离与自适应阈值比较,确定说话人改变点。
3、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 所述的音频预处理具体步骤是:
1)、采样量化:
A)、用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN;
C)、对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s′(n);
2)、去零漂:
A)、计算量化的振幅序列的平均值s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s″(n):
3)、预加重:
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;
B)、s″(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n);
4)、加窗:
A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音 频信号样本;
C)、计算哈明窗函数:
D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
4、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 所述音频特征提取的具体步骤是:
1)、能量的提取:
2)、过零率的提取:
3)、梅尔倒谱系数,即MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
D)、计算对应的频域刻度:
(i=0,1,2,...,p)
E)、计算每个梅尔域通道φj上的对数能量谱:
其中
F)、做离散余弦变换DCT。
5、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 所述的静音检测具体步骤是:
A、计算自适应能量阈值:
Threshold(E)=min(E)+0.3×[mean(E)-min(E)]
其中,Threshold(E)是自适应能量阈值,min(E)是各帧能量的最小值,mean(E)是各帧能 量的平均值;
B、静音段检测:将每个音频帧的能量与能量阈值T比较,低于阈值的帧为静音帧,连续的 静音帧组成一个静音段;
C、过零率阈值的计算:
Threshold(Zcr)=0.5×mean(Zcri),i∈{i|Ei<Threshold(E)}
其中,Threshold(Zcr)是自适应过零率阈值,mean(Zcri)是静音帧的过零率平均值;
D、静音段的过零率修正:从每个静音段的两端依次检查各帧过零率,如果高于阈值,则视 为音节起始或结束时的清音,移出静音段;
E、平滑处理:低于10帧,即0.1秒的静音段被视为连续语音间的短时停顿而舍去。
6、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 所述的语音分割具体步骤是:
A、能量和过零率分布的参数估计:在需要进一步分割的非静音段内,以50帧为窗长,10 帧为窗步长,计算每个窗内50帧的能量和过零率x2分布的参数:
其中 μ是平均值,σ是方差;
B、距离计算:
每个窗的距离定义如下:
ai-1,ai+1,bi-1,bi+1分别是前后窗的参数a,b;
C、突变检测:在每个有极大值距离D(i)的窗内,再次对每一帧计算同样的距离,取距离最 大的帧为分割点。
7、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 在步骤5)中所选用的段特征如下:
A)、高过零率比例HZCRR:
语音段的HZCRR分布中心相对噪音和音乐等较高,HZCRR高于fh的段被视为语音段;
B)、低能量比例LRMSR:
语音段的LRMSR分布中心相对噪音和音乐等较低,LRMSR低于fl的段被视为语音段;
C)、基频Mean F:
音频段的基频用过零率来估计:
MeanF=max[Zcr(n)]×F/N,
其中F是采样频率8000,N是帧长32ms,基频高于ff的段被视为非语音段;
D)、无过零率间隔数NZCRR:
NZCRR的定义是段里面出现过零率为零的帧的次数,连续的无过零帧只算一次,NZCRR 低于fn的段被视为语音段;
E)、能量方差Var RMS
Var RMS的定义是段内能量的方差,方差小于fv的段被视为语音段;
F)、fh,fl,ff,fn,fv的值均通过决策树训练得到。
8、根据权利要求2所述的基于决策树和说话人改变检测的音频分割方法,其特征在于: 在步骤6)中用T2距离来计算每个语音段之间的MFCC特征距离;
1)、T2距离定义如下:
其中a,b是段的长度,μ1,μ2是各段内MFCC的平均值,∑是共同的协方差矩阵;
2)、自适应阈值计算
通过比较T2距离与阈值,可以检测是否存在说话人改变,自适应阈值的计算公式如下:
T=μ+λσ
其中μ是平均距离,σ是距离方差,λ是惩罚系数;
3)、合并:
如果两个语音段之间的距离小于阈值,那么这两个语音段被视为属于同一个说话人,可 以将这两个语音段合并成一个;如果这两个语音段之间存在静音,那么这段静音也将被合并 进来;如果两个语音段之间存在非语音,则不合并。
本发明涉及信号处理和模式识别,主要是一种基于决策树和说话人改变检测的音频分割 方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
移动终端的音量调节方法、装置、移动终端及存储介质 | 2020-05-08 | 381 |
语音交互的方法、装置、设备和计算机可读存储介质 | 2020-05-11 | 265 |
话语分类器 | 2020-05-12 | 937 |
一种基于空时残差神经网络的远场语音识别方法 | 2020-05-13 | 786 |
一种基于声信号特征库的风机桨叶故障识别方法 | 2020-05-14 | 334 |
到站提醒方法、装置、终端及存储介质 | 2020-05-08 | 218 |
一种音频关键词模板的筛选和优化方法 | 2020-05-12 | 781 |
身份识别方法、装置及计算机可读存储介质 | 2020-05-15 | 675 |
语音转换、文件生成、播音、语音处理方法、设备及介质 | 2020-05-11 | 145 |
一种基于表情、语音和眼动特征的多模态测谎方法 | 2020-05-11 | 762 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。