首页 / 专利库 / 信号处理 / 信号处理 / 音频信号处理 / 一种抗噪的SVM分类器的音频特征选择方法

一种抗噪的SVM分类器的音频特征选择方法

阅读:1发布:2020-08-30

专利汇可以提供一种抗噪的SVM分类器的音频特征选择方法专利检索,专利查询,专利分析的服务。并且发明 涉及一种抗噪的SVM分类器的音频特征选择方法,属于音频 信号 处理技术领域。本发明具体为S1:利用PAFSA产生初始种群。S2:生成初始SVM参数。S3:送入SVM进行训练和测试。S4:计算个体适应值。S5:进行 迭代 寻优。S6:调整个体适应值。S7:若满足则输出结果,若不满足,则进入S3进行循环。通过上述步骤,可以过滤掉环境中的噪音,提高了SVM分类器的识别率,提高了 语音识别 的 精度 。本发明在寻优的过程中维持样本个体的多样性,提高求解速度和解的精确性,并利用测试函数对该优化方法进行测试和比较。,下面是一种抗噪的SVM分类器的音频特征选择方法专利的具体信息内容。

1.一种抗噪的SVM分类器的音频特征选择方法,其特征在于:
(1)产生初始样本:采用PAFSA算法得到初始种群,即采样系统得到的语音数据文件作为语音样本;
(2)预处理:先是进行A/D转换,然后预加重处理,再进行分处理,最后对语音信号进行加窗函数处理;
(3)提取语音信号的特征参数:分别用时域分析方法、频域分析方法、倒谱分析方法提取出待测的初始样本的时域特征、频域特征、倒谱特征;
(4)输入到SVM分类器中进行训练:将得到的时域特征量、频域特征量、倒谱特征量输入到matlab平台的SVM分类器中进行训练;
(5)输入到SVM分类器中进行测试:将训练后的特征参数输入到matlab中的SVM分类器中进行测试;
(6)计算个体适应值:将总体测试样本识别率转换成该样本的适应值;
(7)进行迭代寻优:对测试后的语音样本进行觅食、聚群、追尾等行为进行寻优,产生下一代参数样本种群;
(8)调整个体适应值:利用得到的子代参数样本种群,重新对SVM进行训练和测试并计算相应的适应值;
(9)判断是否进入循环:如满足终止条件,则输出结果,如不满足,则进入步骤4进行循环;
(10)结束训练:得出参数为最终算法得到的样本参数。
2.根据权利要求1所述的抗噪的SVM分类器的音频特征选择方法,其特征在于:所述产生初始样本中利用Goldwave软件录制语音样本。
3.根据权利要求1所述的抗噪的SVM分类器的音频特征选择方法,其特征在于:所述预处理包括以下步骤:
(1)A/D转换:把模拟信号转换成数字信号,经过A/D转换,得出数字信号;
(2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本;
(3)分帧处理:语音信号是个准稳态信号,把它分成较短的帧,将其看成稳态信号,用处理稳态信号的方法去处理,利用语音信号的短时分析将信号分割成若干个语音段,让帧与帧之间有部分重叠,使帧与帧之间平滑过渡,得到重叠的部分为帧移;
(4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗,减弱了频域中的泄漏
4.根据权利要求1所述的抗噪的SVM分类器的音频特征选择方法,其特征在于:所述提取语音信号的特征参数有以下步骤:
(1)利用时域分析技术得到语音样本的时域特征参数:短时平均过零率、短时能量、短时互相关函数、短时平均幅度;
(2)利用频域分析技术得到语音样本的频域特征参数:频谱差分幅度、频谱质心、频谱宽度、频谱截止频率、子频带周期、噪音帧的比率;
(3)利用倒谱分析技术得到语音样本的倒谱特征参数:梅尔倒谱系数和线性预测倒谱系数。
5.根据权利要求1所述的抗噪的SVM分类器的音频特征选择方法,其特征在于:所述调整个体适应值为利用得到的子代参数样本种群,重新对SVM进行训练和测试并计算相应的适应值,通过反映个体之间相似程度的共享函数来调节群体中各个个体的适应度。
6.根据权利要求1所述的抗噪的SVM分类器的音频特征选择方法,其特征在于:所述判断是否进入循环为:计算相应的适应值,进行判断,若满足人工鱼群算法中训练停止准则,则停止并输出结果,若不满足人工鱼群算法中训练停止准则,则进入步骤5进行循环。

说明书全文

一种抗噪的SVM分类器的音频特征选择方法

技术领域

[0001] 本发明涉及一种抗噪的SVM分类器的音频特征选择方法,属于音频信号处理技术领域。

背景技术

[0002] 语音识别技术是人机接口应用的前沿技术之一,作为语音信号处理的一个研究方向,近年来语音识别得到了迅速发展,在国际化浪潮以及多民族和多文化的相互交织的大背景下,语音识别越来越受到人们的关注。虽然目前存在一些针对不同类型音频信号的场景分析,但对于含有噪声的场景分析还很局限,识别率也有待于提高。

发明内容

[0003] 本发明要解决的技术问题是提出一种抗噪的SVM分类器的音频特征选择方法,用以解决上述问题。
[0004] 本发明的技术方案是:一种抗噪的SVM分类器的音频特征选择方法,包括以下步骤:
[0005] (1)产生初始样本:采用PAFSA算法得到初始种群,即采样系统得到的语音数据文件作为语音样本;
[0006] (2)预处理:先是进行A/D转换,然后预加重处理,再进行分处理,最后对语音信号进行加窗函数处理;
[0007] (3)提取语音信号的特征参数:分别用时域分析方法、频域分析方法、倒谱分析方法提取出待测的初始样本的时域特征、频域特征、倒谱特征;
[0008] (4)输入到SVM分类器中进行训练:将得到的时域特征量、频域特征量、倒谱特征量输入到matlab平台的SVM分类器中进行训练;
[0009] (5)输入到SVM分类器中进行测试:将训练后的特征参数输入到matlab中的SVM分类器中进行测试;
[0010] (6)计算个体适应值:将总体测试样本识别率转换成该样本的适应值;
[0011] (7)进行迭代寻优:对测试后的语音样本进行觅食、聚群、追尾等行为进行寻优,产生下一代参数样本种群;
[0012] (8)调整个体适应值:利用得到的子代参数样本种群,重新对SVM进行训练和测试并计算相应的适应值;
[0013] (9)判断是否进入循环:如满足终止条件,则输出结果,如不满足,则进入步骤4进行循环;
[0014] (10)结束训练:得出参数为最终算法得到的样本参数。
[0015] 产生初始样本:利用Goldwave软件录制语音样本。
[0016] 预处理包括以下步骤:
[0017] (1)A/D转换:AD转换就是模数转换,把模拟信号转换成数字信号,经过A/D转换,得出数字信号,得到更有益于我们分析和参数提取的信号样本。
[0018] (2)预加重处理:将语音信号通过一个高通滤波器,采用数字电路的方式提升语音中的高频部分,得到利于频谱处理的信号样本。
[0019] (3)分帧处理:语音信号是个准稳态信号,把它分成较短的帧,将其看成稳态信号,用处理稳态信号的方法去处理。利用语音信号的短时分析将信号分割成若干个语音段,让帧与帧之间有部分重叠,使帧与帧之间平滑过渡,得到重叠的部分为帧移。
[0020] (4)加窗函数:对分帧过的语音样本进行加窗函数处理,得到的每一帧语音乘以汉明窗或海宁窗,减弱了频域中的泄漏
[0021] 提取语音信号的特征参数有以下步骤:
[0022] (1)利用时域分析技术得到语音样本的时域特征参数:短时平均过零率、短时能量、短时互相关函数、短时平均幅度。
[0023] (2)利用频域分析技术得到语音样本的频域特征参数:频谱差分幅度、频谱质心、频谱宽度、频谱截止频率、子频带周期、噪音帧的比率。
[0024] (3)利用倒谱分析技术得到语音样本的倒谱特征参数:梅尔倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。
[0025] 输入到SVM分类器中进行训练需要将上述得到的语音特征量输入到matlab平台的SVM分类器中进行训练。
[0026] 输入到SVM分类器中进行测试需要将上述训练后得到的语音特征量输入到matlab平台的SVM分类器中进行测试。
[0027] 计算个体适应值:样本经过训练和测试后,得到了总体的测试样本识别率,将其转换成该样本的适应值。
[0028] 进行迭代寻优:对测试后的语音样本进行觅食、聚群、追尾等行为进行寻优,产生下一代参数样本种群。
[0029] 调整个体适应值:利用得到的子代参数样本种群,重新对SVM进行训练和测试并计算相应的适应值,通过反映个体之间相似程度的共享函数来调节群体中各个个体的适应度。
[0030] 判断是否进入循环:计算相应的适应值,进行判断,若满足人工鱼群算法中训练停止准则,则停止并输出结果,若不满足人工鱼群算法中训练停止准则,则进入步骤5进行循环。
[0031] 本发明的有益效果是:引入小生境共享机制技术,降低错过较优解的概率,并通过matlab仿真对语音样本进行训练和测试,达到更好分类的目的。附图说明
[0032] 图1是本发明的步骤流程图

具体实施方式

[0033] 下面结合附图和具体实施方式,对本发明作进一步说明。
[0034] 实施例1:如图1所示,一种抗噪的SVM分类器的音频特征选择方法,具体步骤为:
[0035] 1、初始样本的录制:
[0036] 使用百度翻译器进行文字样本的语音信号录制,针对20段不同内容的文字,分别对20个说话人进行相同时间的录制两次,一次在没有噪声的环境下录制,另一次加入一定程度的噪声。录制软件为GoldWave,格式为Wav,录制后得到每个说话人的40段对比语音信号。
[0037] 2、预处理:预处理包括A/D转换,预加重,分帧,加窗。
[0038] (1)A/D转换:使数字信号转化为模拟信号,更好的进行之后的信号处理
[0039] (2)预加重:将语音信号通过一个高通滤波器,频谱变得更平坦。
[0040] (3)分帧:将信号分为较短的帧,视为可被处理的稳态信号,令帧与帧之间有帧移,取帧长的1/2。
[0041] (4)加窗:给每一帧的信号加上汉明窗或汉宁窗,减少了频域的泄露。
[0042] 录制的说话人语音信号经过预处理后,帧长为25点,帧移15点,音频信号的采样率为44.1KHz,待测音频信号均分为n帧。
[0043] 3、从预处理过的语音信号中分别提取时域特征量,频域特征量以及倒谱特征量[0044] 3.1、时域特征量
[0045] 时域特征量包括短时平均过零率、短时自相关函数、短时能量、高过零率帧的比重、低能量帧的比重、短时平均幅度。
[0046] (1)短时平均过零率
[0047] 定义:在离散时间语音信号的情况下,如果相邻的采样具有不同的代数符号就称其为发生了过零。单位时间内过零的次数就称为短时平均过零率。
[0048] 短时过零率的公式为:
[0049]
[0050] 其中,sgn()函数是符号函数,即
[0051]
[0052] N为一帧的长度,n为对应的帧数,按帧处理。
[0053] (2)短时能量
[0054] 语音一般分为无声段,清音段和浊音段。虽然信号是一个非平稳态过程,但是在相对短时间内,如10-30ms的范围,其特性可以看做一个准稳态过程。由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况。定义n时刻某语音信号的短时平均能量E为:
[0055]
[0056] 语音和噪声的区别可以体现在他们的能量上,语音段的能量比噪声段的能量大,如果环境噪声和系统输入的噪声比较小,只要计算输入信号的短时能量就能够把语音段和噪声背景区分开。
[0057] (3)短时自相关函数
[0058] 语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号,做自相关计算所得的结果。式中,n表示窗函数是从第n点开始加入。
[0059] Rk=∑x(n)x(n-k)   (4)
[0060] 因为音频信号用时域幅值计算互相关函数来比较信号的相似性,准确度不高,所以用信号在频率域的幅值的互相关函数来比较信号的相似性。在这个发明中,用到了xcorr函数用来计算两个信号的相似度。一般来说选择归一化进行互相关运算后,得到结果绝对值越大,两组数据相关程度就越高。当小于0.1时,没有相关性;当处于0.1-0.3,弱相关;当处于0.3-0.5,中等相关;当处于0.5-0.8,显著相关;当处于0.8-1,强相关。
[0061] 互相关函数是信号分析里的概念,表示的是两个时间序列之间的相关程度,即互相关函数是描述随机信号x(t),y(t)在任意两个不同时刻t1,t2的取值之间的相关程度。描述两个不同的信号之间的相关性的函数,这两个信号不一定是随机信号。因为一个人的语音在相同的频率上由于声带发声的原因就会很相似,即使不同内容频谱做互相关函数,比较也很相似,因此做频谱的互相关函数就不适合于比较一个人长时间语音信号的相似度的比较。但是可以比较不同发生物体的相似性,比如不同的人说话,或是人说话和动物的发音的比较。
[0062] (4)短时平均幅度
[0063] 短时能量的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个短时平均幅度函数来衡量语音幅度的变化:
[0064]
[0065] 与短时能量比较,短时平均幅度相当于用绝对值之后代替了平方和,简化了运算。
[0066] (5)高过零率帧的比重
[0067] 高过零率帧的比重即一段窗内高于帧的平均过零率的1.5倍的帧所占的比重。提取语音信号的高过零率帧的比重,得到待测语音信号的高过零率帧的比重参数。
[0068]
[0069] 由于语音信号中交替包含着清音和浊音,清音和浊音分别具有较高和较低的过零率,而音乐信号比较平稳单调,这决定了语音信号的过零率的变化要比音乐信号快,从统计意义上来讲,就是方差较大,高过零率帧的比率会较高,从而一定程度上可以区分音乐和语音。
[0070] (6)低能量帧的比率
[0071] 低能量帧的比率即一段窗内低于帧的平均短时能量的0.5倍的帧所占的比重。提取语音信号的低能量帧的比重,得到待测语音信号的低能量帧的比重参数。公式如下:
[0072]
[0073] (7)短时功率谱密度函数
[0074] 短时功率谱密度函数反映相关函数在时域内表达随机信号自身与其他信号在不同时刻的内在联系。提取语音信号的短时功率谱密度函数,得到待测语音信号的短时功率谱密度函数参数。
[0075] 功率谱针对能量无限的功率信号,功率信号不满足傅里叶变换的绝对可积的条件,其付里叶变换是不存在的,如正弦函数的付里叶变换是不存在,只有引入了冲激函数才求得其付里叶变换。功率谱不能直接进行傅立叶变换,通常使用短截函数进行截取后。
[0076] 3.2、频域特征量及倒谱特征量
[0077] 频域特征量包括mfcc系数和lpcc系数。
[0078] 一梅尔频率倒谱系数(MFCC)
[0079] MFCC的计算过程如下所示:
[0080] (1)对语音信号进行预处理,包括预加重、分帧、加汉明窗等过程,产生每个语音帧的时域信号。分帧处理时采用的帧长为25ms,帧移为10ms。
[0081] (2)使用FFT变换对每帧时域信号计算其线性频谱,求出频谱的平方,即得能量谱。
[0082] (3)将能量频谱送入滤波器滤波,就可以在每个三滤波器内对频谱的模加权求和。若要得到多个加权后的输出,就需要有多个相应的滤波器来实现。
[0083] (4)对加权后的输出矢量求对数得到相应频带的对数谱。
[0084] (5)将对数谱进行离散余弦变换就可以得到参数特征,组成特征矢量序列。
[0085] (6)用这种方法得到的是静态特征,然后对静态特征做一阶差分,就可以得到动态特征。均值特征矢量则是所得到的。在本实验中,对每个语句样本取维特征,然后在整个语句样本内求得所有帧的特征平均值作为我们提取的特征参数。
[0086] 二线性预测倒谱系数(LPCC)
[0087] 对LPCC的提取步骤进行优化,提高语音信号的识别率。流程主要有预加重,分帧,加窗,lpc分析,lpc系数转换,得到lpc倒谱系数。
[0088] 4、得到参数后就要进行SVM分类器的训练和测试。
[0089] 支持向量机的关键技术:支持向量机性能的优劣主要取决于核函数的选取,所以对于一个实际问题而言,如何根据实际的数据模型选择合适的核函数从而构造SVM算法,核函数应当具有不同的形式和参数。
[0090] 提取说话人的语音样本参数C后,把参数输入到matlab仿真平台的SVM分类器中进行训练和测试,得到训练样本X和测试样本S
[0091] 5、计算样本的适应值
[0092] 步骤4后得到语音样本的测试样本X和测试样本S,并计算出测试样本的识别率,将其转换成该样本的适应值。
[0093] 6、迭代寻优
[0094] 依据适应值,对说话人样本参数进行觅食、聚群、追尾等行为进行寻优,产生下一代参数C1种群。
[0095] 7、调整适应值
[0096] 利用得到的子代参数C1种群,重新对SVM进行训练和测试并计算相应的适应值,进行判断,若达到一定的迭代次数,则依据个体的共享度调整对应个体的适应度,再选取最优个体。
[0097] 8、判断是否循环
[0098] 运用已得到的子代参数,重新对SVM进行训练和测试并计算相应的适应值,进行判断,若满足人工鱼群算法中训练停止准则,则输出参数;否则返回步骤4继续执行。
[0099] 9、结束训练
[0100] 输出参数后结束训练,得到最终的说话人样本参数,根据大量的实验可以证明本发明提出的一种抗噪的SVM分类器的音频特征选择方法,其语音识别结果与一般的SVM模型、HMM识别结果相比较,识别率有很大程度的提高。
[0101] 以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈