首页 / 专利库 / 图形技术 / 对比度 / 一种音频特征提取方法、装置、训练方法及电子设备

一种音频特征提取方法、装置、训练方法及电子设备

阅读:116发布:2020-05-08

专利汇可以提供一种音频特征提取方法、装置、训练方法及电子设备专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种音频特征提取方法、装置、训练方法及 电子 设备,其中方法包括:按照预设的窗口长度获取待提取音频,将待提取音频按照预设的 帧 长划分为M帧音频帧;计算每一音频帧对应的 频谱 ;根据每一频谱的N个频域点,基于线性拟合 算法 获得每一频谱对应的拟合斜率和拟合截距;根据频谱和预设的计算公式,计算获得每一频谱的频谱平坦度;将每一频谱划分为m段频谱带,计算获得每一段频谱带对应的对数频谱,进而计算获得每一频谱的频谱 对比度 ;根据音频帧的拟合斜率、拟合截距、频谱平坦度和频谱对比度,获得音频帧的特征量,进而提取出待提取音频的音频特征。本发明提取的音频特征用于婴儿哭声等检测场景时,有利于提高音频检测的准确度。,下面是一种音频特征提取方法、装置、训练方法及电子设备专利的具体信息内容。

1.一种音频特征提取方法,其特征在于,所述方法包括:
按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的长划分为M帧音频帧,M>1;
计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>
1;
根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度
根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
2.如权利要求1所述的音频特征提取方法,其特征在于,所述线性拟合算法为线性最小二乘算法,所述根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距,具体包括:
从每一所述频谱的N个频域点中,选取所对应的频率位于预设频率范围内的频域点;
基于线性最小二乘算法,对所选取的对应的频率位于预设频率范围内的频域点进行线性拟合,获得每一所述频谱对应的拟合斜率和拟合截距。
3.如权利要求1所述的音频特征提取方法,其特征在于,所述将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱,具体包括:
将每一所述频谱划分为m段频谱带,分别对每一段所述频谱带进行K-L变换处理;
根据以下公式,获得每一段经K-L变换处理后的频谱带所对应的对数频谱:
si(f″)=10×log10 si(f′);
其中,si(f′)为经K-L变换处理后的第i个频谱带,si(f″)为si(f′)所对应的对数频谱,1≤i≤m。
4.如权利要求1所述的音频特征提取方法,其特征在于,所述根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度,具体包括:
对于每一段所述对数频谱,获取所述对数频谱的谱峰值和谱谷值,并计算所述谱峰值和所述谱谷值之间的峰谷差值;
对于每一所述频谱,计算对应的m段所述对数频谱的m个所述峰谷差值的平均值,获得所述频谱的频谱对比度。
5.如权利要求1所述的音频特征提取方法,其特征在于,所述计算公式为:
其中,s(f)为所述频谱;Flatness(s(f))为频谱s(f)所对应的所述频谱平坦度;N为所述频谱所包含的频域点的数量,x(n)为频谱s(f)的第n个频域点的幅值。
6.如权利要求1所述的音频特征提取方法,其特征在于,所述方法还包括:
计算获得每一所述音频帧的梅尔倒谱系数;
则,所述根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量,具体包括:
根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度、所述频谱对比度和所述梅尔倒谱系数,获得每一所述音频帧的特征量。
7.一种音频特征提取装置,其特征在于,所述装置包括:
音频帧获得模,用于按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1;
第一计算模块,用于计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
拟合模块,用于根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
频谱平坦度计算模块,用于根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
第二计算模块,用于将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
频谱对比度计算模块,用于根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
特征量获得模块,用于根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
提取模块,用于根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
8.一种音频分类模型的训练方法,其特征在于,所述方法包括:
构建音频分类初始模型;其中,所述音频分类初始模型对应的P种分类结果;
获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
将所述训练音频作为所述待提取音频,根据如权利要求1~6任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
对每一所述训练音频对应的音频特征进行标准化处理,并根据每一个标准化处理后的音频特征和匹配的所述分类标识,构建训练样本集;
根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
9.如权利要求8所述的音频分类模型的训练方法,其特征在于,每一所述训练音频对应的音频特征为:
Ai=[ai1,ai2,…,aiq]
其中,X为所述训练音频对应的音频特征;Ai为所述训练音频中的第i帧所述音频帧的特征量,1≤i≤M;q为所述特征量的元素个数,q>1;
则,所述对每一所述训练音频对应的音频特征进行标准化处理,具体包括:
根据以下公式,对每一所述训练音频对应的音频特征进行标准化处理:
其中,X'为标准化处理后的音频特征;A'i为经过标准化处理后的所述训练音频中的第i帧所述音频帧的特征量;ak-mean为所述训练音频的M帧音频帧的特征量中的第k个元素的平均值,1≤k≤q;std(ak)为所述训练音频的M帧音频帧的特征量中的第k个元素的方差。
10.一种电子设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求
1至6中任意一项所述的音频特征提取方法。

说明书全文

一种音频特征提取方法、装置、训练方法及电子设备

技术领域

[0001] 本发明涉及音频处理技术领域,尤其涉及一种音频特征提取方法、装置、训练方法及电子设备。

背景技术

[0002] 随着社会的发展,人成本昂贵等问题逐渐涌现,现今婴儿看护方面的消费成本或时间成本越来越高,诸如婴儿看护器等可识别婴儿哭声的看护产品或家用安防产品越来越受到家长的青睐。当看护产品或家用安防产品检测到婴儿哭声后,自动向看护人员或家长发出警示,以便于及时照看婴儿。
[0003] 在现有技术中,检测婴儿哭声时,通常是根据检测到的音频的能量特征来判断是否有婴儿哭声,当检测到的音频的能量特征与婴儿哭声的能量特征相吻合时,判定音频中有婴儿哭声,便向看护人员或家长发出警示。
[0004] 然而,检测环境往往比较复杂,可能存在周围环境的其他声音,则音频有可能存在不是婴儿哭声的环境噪声,而当其他声音的能量特征与婴儿哭声的能量特征相类似时,若仅通过音频的能量检测婴儿哭声,很有可能会将环境噪声作为婴儿哭声检测出来,检测准确度较低。

发明内容

[0005] 本发明实施例所要解决的技术问题在于,提供一种音频特征提取方法、装置、训练方法及电子设备,能够根据音频的拟合斜率、拟合截距、频谱对比度、频谱平坦度提取出音频特征,用于婴儿哭声等音频检测场景时,有利于多维度对音频精细检测,有利于提高音频检测的准确度。
[0006] 为了解决上述技术问题,第一方面,本发明提供了一种音频特征提取方法,所述方法包括:
[0007] 按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的长划分为M帧音频帧,M>1;
[0008] 计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
[0009] 根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
[0010] 根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
[0011] 将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
[0012] 根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
[0013] 根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
[0014] 根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
[0015] 进一步的,所述线性拟合算法为线性最小二乘算法,所述根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距,具体包括:
[0016] 从每一所述频谱的N个频域点中,选取所对应的频率位于预设频率范围内的频域点;
[0017] 基于线性最小二乘算法,对所选取的对应的频率位于预设频率范围内的频域点进行线性拟合,获得每一所述频谱对应的拟合斜率和拟合截距。
[0018] 进一步的,所述将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱,具体包括:
[0019] 将每一所述频谱划分为m段频谱带,分别对每一段所述频谱带进行K-L变换处理;
[0020] 根据以下公式,获得每一段经K-L变换处理后的频谱带所对应的对数频谱:
[0021] si(f″)=10×log10si(f′);
[0022] 其中,si(f′)为经K-L变换处理后的第i个频谱带,si(f″)为si(f′)所对应的对数频谱,1≤i≤m。
[0023] 进一步的,所述根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度,具体包括:
[0024] 对于每一段所述对数频谱,获取所述对数频谱的谱峰值和谱谷值,并计算所述谱峰值和所述谱谷值之间的峰谷差值;
[0025] 对于每一所述频谱,计算对应的m段所述对数频谱的m个所述峰谷差值的平均值,获得所述频谱的频谱对比度。
[0026] 进一步的,所述计算公式为:
[0027]
[0028] 其中,s(f)为所述频谱;Flatness(s(f))为频谱s(f)所对应的所述频谱平坦度;N为所述频谱所包含的频域点的数量,x(n)为频谱s(f)的第n个频域点的幅值。
[0029] 进一步的,所述方法还包括:
[0030] 计算获得每一所述音频帧的梅尔倒谱系数;
[0031] 则,所述根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量,具体包括:
[0032] 根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度、所述频谱对比度和所述梅尔倒谱系数,获得每一所述音频帧的特征量。
[0033] 为了解决上述技术问题,第二方面,本发明还提供了一种音频特征提取装置,所述装置包括:
[0034] 音频帧获得模,用于按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1;
[0035] 第一计算模块,用于计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
[0036] 拟合模块,用于根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
[0037] 频谱平坦度计算模块,用于根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
[0038] 第二计算模块,用于将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
[0039] 频谱对比度计算模块,用于根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
[0040] 特征量获得模块,用于根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
[0041] 提取模块,用于根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
[0042] 为了解决上述技术问题,第三方面,本发明还提供了一种音频分类模型的训练方法,所述方法包括:
[0043] 构建音频分类初始模型;其中,所述音频分类初始模型对应的P种分类结果;
[0044] 获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
[0045] 将所述训练音频作为所述待提取音频,根据如权利要求1~6任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
[0046] 对每一所述训练音频对应的音频特征进行标准化处理,并根据每一个标准化处理后的音频特征和匹配的所述分类标识,构建训练样本集;
[0047] 根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
[0048] 进一步的,每一所述训练音频对应的音频特征为:
[0049]
[0050] Ai=[ai1,ai2,…,aiq]
[0051] 其中,X为所述训练音频对应的音频特征;Ai为所述训练音频中的第i帧所述音频帧的特征量,1≤i≤M;q为所述特征量的元素个数,q>1;
[0052] 则,所述对每一所述训练音频对应的音频特征进行标准化处理,具体包括:
[0053] 根据以下公式,对每一所述训练音频对应的音频特征进行标准化处理:
[0054]
[0055]
[0056] 其中,X'为标准化处理后的音频特征;A'i为经过标准化处理后的所述训练音频中的第i帧所述音频帧的特征量;ak-mean为所述训练音频的M帧音频帧的特征量中的第k个元素的平均值,1≤k≤q;std(ak)为所述训练音频的M帧音频帧的特征量中的第k个元素的方差。
[0057] 为了解决上述技术问题,第四方面,本发明还提供了一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任意一项所述的音频特征提取方法。
[0058] 上述提供的一种音频特征提取方法、装置、训练方法及电子设备,能提取出包含有音频的拟合斜率、拟合截距、频谱平坦度、频谱对比度的音频特征,相比于仅有音频的能量的音频特征,本发明提取的音频特征能通过更多维度的信息区分不同音频。用于音频检测时,能够更好地将噪声和目标检测声音进行识别分类,有利于提高音频检测的准确度。例如用于婴儿哭声检测,能够更好地将环境噪声和婴儿声哭声进行识别分类,有利于提高婴儿哭声检测的准确度。附图说明
[0059] 图1是本发明提供的一种音频特征提取方法的一个优选实施例的流程示意图;
[0060] 图2是本发明提供的一种音频特征提取装置的一个优选实施例的结构示意图;
[0061] 图3是本发明提供的一种音频分类模型的训练方法的一个优选实施例的流程示意图;
[0062] 图4是本发明提供的一种电子设备的一个优选实施例的结构示意图。

具体实施方式

[0063] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0064] 实施例一
[0065] 本发明提供了一种音频特征提取方法,请参阅图1,图1是本发明提供的一种音频特征提取方法的一个优选实施例的流程示意图;具体的,所述方法包括:
[0066] S1、按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1;
[0067] S2、计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
[0068] S3、根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
[0069] S4、根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
[0070] S5、将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
[0071] S6、根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
[0072] S7、根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
[0073] S8、根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
[0074] 具体实施时,对于检测输入的音频,按照预设的窗口长度获取待提取音频,例如,按照5s的窗口长度截取每一段待提取音频,并将待提取音频按照预设的帧长划分为M帧音频帧,M>1,例如,将5s的待提取音频按照25ms的帧长度划分为至少200帧的音频帧;优选地,相邻的音频帧之间有重叠部分,例如相邻的音频帧之间有1/4帧长度的重叠,可以预见的,此时音频帧的数量将大于200。
[0075] 每一帧的音频帧会有若干个时域点,通过傅里叶变换计算,将时域点映射到频域,便计算得到每一帧音频帧对应的频谱;其中,频谱包括N个频域点。需要说明的是,优选采用快速傅里叶变换获得频谱,由于快速傅里叶变换获得频谱具有对称性,故此时N个频域点可以只选取频谱的前一半的频域点,即,若每一帧音频帧的时域点有C个,则N=C/2。
[0076] 基于线性拟合算法,对每一频谱的N个频域点进行线性拟合,获得每一频谱对应的拟合斜率和拟合截距;根据频谱和预设的计算公式,计算获得每一个频谱的频谱平坦度。
[0077] 进一步的,将每一个频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1。每一个频谱的频谱对比度均根据其对应的m段对数频谱计算获得。
[0078] 遍历所有的音频帧的频谱,便得到待提取音频的M帧音频帧的所有的拟合斜率、拟合截距、频谱平坦度和频谱对比度。根据音频帧的拟合斜率、拟合截距、频谱平坦度和频谱对比度,获得每一音频帧的特征量;根据M帧音频帧的特征量,提取出待提取音频的音频特征。
[0079] 本发明提供的一种音频特征提取方法,能提取出包含有音频的拟合斜率、拟合截距、频谱平坦度、频谱对比度的音频特征,相比于仅有音频的能量的音频特征,本发明提取的音频特征能通过更多维度的信息区分不同音频。用于音频检测时,能够更好地将噪声和目标检测声音进行识别分类,有利于提高音频检测的准确度。例如用于婴儿哭声检测,能够更好地将环境噪声和婴儿声哭声进行识别分类,有利于提高婴儿哭声检测的准确度。
[0080] 优选地,所述线性拟合算法为线性最小二乘算法,所述根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距,具体包括:
[0081] 从每一所述频谱的N个频域点中,选取所对应的频率位于预设频率范围内的频域点;
[0082] 基于线性最小二乘算法,对所选取的对应的频率位于预设频率范围内的频域点进行线性拟合,获得每一所述频谱对应的拟合斜率和拟合截距。
[0083] 在本实施例中,并不对频谱的所有的频域点进行拟合,而是选取出位于预设频率范围的频域点进行线性拟合,预设频率范围根据目标检测音频设定,例如音频特征用于检测婴儿哭声时,由于婴儿哭声的频率有一定的范围,故仅针对音频中在该预设频率范围内的信号进行拟合,例如设置预设频率范围为250HZ~600HZ,以提取出音频特征用于婴儿哭声检测。通过线下最小二乘算法进行线性模拟,获得每一帧音频帧对应的拟合斜率和拟合截距。
[0084] 优选地,所述将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱,具体包括:
[0085] 将每一所述频谱划分为m段频谱带,分别对每一段所述频谱带进行K-L变换处理;
[0086] 根据以下公式,获得每一段经K-L变换处理后的频谱带所对应的对数频谱:
[0087] si(f″)=10×log10si(f′)  (1);
[0088] 其中,si(f′)为经K-L变换处理后的第i个频谱带,si(f″)为si(f′)所对应的对数频谱,1≤i≤m。
[0089] 在本实施例中,通过K-L变换消除不同频谱带之间的相关性,使得不同频谱带范围内的频谱互不相关,以使每一频谱带对应的峰谷差值都能单独反映在该频谱带的频谱对比度,平均后获得频谱的频谱对比度。
[0090] 具体的,假设获得的频谱为s(f),si(f)为s(f)中的第i个频谱带,1≤i≤m,求解频谱的平均值为u,则K-L变换获得的协方差矩阵为:
[0091] C=E[(s(f)-u)(s(f)-u)T]  (2)
[0092] 求解协方差矩阵的特征值λi和特征向量φi:
[0093] Cφi=λiφi
[0094] 则对频谱s(f)进行K-L变换处理后变为F:
[0095] F=φT(s(f)-u)
[0096] 其中,φ=[φ1,φ2,…,φm]。
[0097] 便可从F中获得每一频谱带si(f)进行K-L变换后的频谱。再通过上述公式(2)获得每一频谱带对应的对数频谱。
[0098] 优选地,所述根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度,具体包括:
[0099] 对于每一段所述对数频谱,获取所述对数频谱的谱峰值和谱谷值,并计算所述谱峰值和所述谱谷值之间的峰谷差值;
[0100] 对于每一所述频谱,计算对应的m段所述对数频谱的m个所述峰谷差值的平均值,获得所述频谱的频谱对比度。
[0101] 在本实施例中,通过m段对数频谱的m个峰谷差值的平均值来做为频谱的频谱对比度。
[0102] 优选地,所述计算公式为:
[0103]
[0104] 其中,s(f)为所述频谱;Flatness(s(f))为频谱s(f)所对应的所述频谱平坦度;N为所述频谱所包含的频域点的数量,x(n)为频谱s(f)的第n个频域点的幅值。
[0105] 本实施例通过上述计算公式计算获得频谱的频谱平坦度。
[0106] 优选地,所述方法还包括:
[0107] 计算获得每一所述音频帧的梅尔倒谱系数;
[0108] 则,所述根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量,具体包括:
[0109] 根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度、所述频谱对比度和所述梅尔倒谱系数,获得每一所述音频帧的特征量。
[0110] 在本实施例中,音频的音频特征还包括了梅尔倒谱系数,进一步增加音频特征的信息维度,进一步有利于提高音频识别分类的准确度。
[0111] 本发明提供的一种音频特征提取方法,具体实施时,按照预设的窗口长度获取待提取音频,并将待提取音频按照预设的帧长划分为M帧音频帧,M>1;计算每一音频帧对应的频谱;其中,频谱包括N个频域点;根据每一频谱的N个频域点,基于线性拟合算法获得每一频谱对应的拟合斜率和拟合截距;根据频谱和预设的计算公式,计算获得每一频谱的频谱平坦度;将每一频谱划分为m段频谱带,并计算获得每一段频谱带对应的对数频谱;m>1;根据每一频谱对应的m段对数频谱,获得每一频谱的频谱对比度;根据每一音频帧的拟合斜率、拟合截距、频谱平坦度和频谱对比度,获得每一音频帧的特征量;根据M帧音频帧的特征量,提取出待提取音频的音频特征。
[0112] 本发明提供的一种音频特征提取方法,能提取出包含有音频的拟合斜率、拟合截距、频谱平坦度、频谱对比度的音频特征,相比于仅有音频的能量的音频特征,本发明提取的音频特征能通过更多维度的信息区分不同音频。用于音频检测时,能够更好地将噪声和目标检测声音进行识别分类,有利于提高音频检测的准确度。例如用于婴儿哭声检测,能够更好地将环境噪声和婴儿声哭声进行识别分类,有利于提高婴儿哭声检测的准确度。
[0113] 实施例二
[0114] 本发明还提供了一种音频特征提取装置,请参阅图2,图2是本发明提供的一种音频特征提取装置的一个优选实施例的结构示意图;具体的,所述装置包括:
[0115] 音频帧获得模块11,用于按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1;
[0116] 第一计算模块12,用于计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
[0117] 拟合模块13,用于根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
[0118] 频谱平坦度计算模块14,用于根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
[0119] 第二计算模块15,用于将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
[0120] 频谱对比度计算模块16,用于根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
[0121] 特征量获得模块17,用于根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
[0122] 提取模块18,用于根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
[0123] 优选地,所述拟合模块13具体用于:
[0124] 从每一所述频谱的N个频域点中,选取所对应的频率位于预设频率范围内的频域点;
[0125] 基于线性最小二乘算法,对所选取的对应的频率位于预设频率范围内的频域点进行线性拟合,获得每一所述频谱对应的拟合斜率和拟合截距。
[0126] 优选地,所述第二计算模块15具体用于:
[0127] 将每一所述频谱划分为m段频谱带,分别对每一段所述频谱带进行K-L变换处理;
[0128] 根据以下公式,获得每一段经K-L变换处理后的频谱带所对应的对数频谱:
[0129] si(f″)=10×log10si(f′)  (1);
[0130] 其中,si(f′)为经K-L变换处理后的第i个频谱带,si(f″)为si(f′)所对应的对数频谱,1≤i≤m。
[0131] 优选地,所述频谱对比度计算模块16具体用于:
[0132] 对于每一段所述对数频谱,获取所述对数频谱的谱峰值和谱谷值,并计算所述谱峰值和所述谱谷值之间的峰谷差值;
[0133] 对于每一所述频谱,计算对应的m段所述对数频谱的m个所述峰谷差值的平均值,获得所述频谱的频谱对比度。
[0134] 优选地,所述计算公式为:
[0135]
[0136] 其中,s(f)为所述频谱;Flatness(s(f))为频谱s(f)所对应的所述频谱平坦度;N为所述频谱所包含的频域点的数量,x(n)为频谱s(f)的第n个频域点的幅值。
[0137] 优选地,所述装置还包括第三计算模块,所述第三计算模块具体用于:
[0138] 计算获得每一所述音频帧的梅尔倒谱系数;
[0139] 则,所述特征量获得模块17具体用于:
[0140] 根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度、所述频谱对比度和所述梅尔倒谱系数,获得每一所述音频帧的特征量。
[0141] 本发明提供的一种音频特征提取装置,能提取出包含有音频的拟合斜率、拟合截距、频谱平坦度、频谱对比度的音频特征,相比于仅有音频的能量的音频特征,本发明提取的音频特征能通过更多维度的信息区分不同音频。用于音频检测时,能够更好地将噪声和目标检测声音进行识别分类,有利于提高音频检测的准确度。例如用于婴儿哭声检测,能够更好地将环境噪声和婴儿声哭声进行识别分类,有利于提高婴儿哭声检测的准确度。
[0142] 需要说明的是,本发明实施例提供的所述音频特征提取装置用于执行上述实施例所述的音频特征提取方法的步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
[0143] 本领域技术人员可以理解,所述音频特征提取装置的示意图仅仅是音频特征提取装置的示例,并不构成对音频特征提取装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述音频特征提取装置还可以包括输入输出设备、网络接入设备、总线等。
[0144] 实施例三
[0145] 本发明还提供了一种音频分类模型的训练方法,请参阅图3,图3是本发明提供的一种音频分类模型的训练方法的一个优选实施例的流程示意图;具体的,所述方法包括:
[0146] S9、构建音频分类初始模型;其中,所述音频分类初始模型对应的P种分类结果;
[0147] S10、获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
[0148] S11、将所述训练音频作为所述待提取音频,根据如上述实施例一提供的任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
[0149] S12、对每一所述训练音频对应的音频特征进行标准化处理,并根据每一个标准化处理后的音频特征和匹配的所述分类标识,构建训练样本集;
[0150] S13、根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
[0151] 本发明提供的一种音频分类模型的训练方法,根据上述实施例提供的音频特征提取方法提取每一训练音频对应的音频特征,根据该音频特征训练获得的音频分类模型,能够用于检测分类音频,能够提高音频分类的准确度。
[0152] 需要说明的是,当实际检测音频时,将输入的音频也按照上述实施例提供的音频特征提取方法提取音频特征,然后对音频特征进行标准化处理,再输入音频分类模型进行处理分类,获得分类结果。P>1。
[0153] 优选地,本发明的音频分类模型可以是SVM模型,若音频分类模型为SVM模型,则具体训练时,可以将训练样本集的训练音频划分为K份,每次选取一份进行训练,一共训练K次,获得一个空间超平面用于音频分类,此时,P=2。
[0154] 优选地,每一所述训练音频对应的音频特征为:
[0155]
[0156] Ai=[ai1,ai2,…,aiq]
[0157] 其中,X为所述训练音频对应的音频特征;Ai为所述训练音频中的第i帧所述音频帧的特征量,1≤i≤M;q为所述特征量的元素个数,q>1;
[0158] 则,所述对每一所述训练音频对应的音频特征进行标准化处理,具体包括:
[0159] 根据以下公式,对每一所述训练音频对应的音频特征进行标准化处理:
[0160]
[0161]
[0162] 其中,X'为标准化处理后的音频特征;A'i为经过标准化处理后的所述训练音频中的第i帧所述音频帧的特征量;ak-mean为所述训练音频的M帧音频帧的特征量中的第k个元素的平均值,1≤k≤q;std(ak)为所述训练音频的M帧音频帧的特征量中的第k个元素的方差。
[0163] 本发明通过上述公式(3)和(4)对音频特征进行标准化处理。
[0164] 需要说明的是,本发明实施例提供的所述一种音频分类模型的训练方法与上述实施例提供的音频特征提取方法具有相同或相应的技术特征,两者的工作原理和有益效果相类似,因而不再赘述。
[0165] 实施例四
[0166] 本发明还提供了一种电子设备,请参阅图4,图4是本发明提供的一种电子设备的一个优选实施例的结构示意图;具体的,所述电子设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例一提供的任意一项所述的音频特征提取方法。
[0167] 具体的,该电子设备中的处理器、存储器均可以是一个或者多个,电子设备可以是电脑、手机、平板等可以进行声音检测的设备,若音频特征用于检测婴儿哭声时,所述电子设备也可以时婴儿看护器等设备。
[0168] 本实施例的电子设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述实施例提供的音频特征提取方法中的步骤,例如图1所示的步骤S1、按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如实现音频帧获得模块11,用于按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1。
[0169] 示例性的,所述计算机程序可以被分割成一个或多个模块/单元(如图4所示的计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备中的执行过程。例如,所述计算机程序可以被分割成音频帧获得模块11、第一计算模块12、拟合模块13、频谱平坦度计算模块14、第二计算模块15、频谱对比度计算模块16、特征量获得模块17和提取模块18,各模块具体功能如下:
[0170] 音频帧获得模块11,用于按照预设的窗口长度获取待提取音频,并将所述待提取音频按照预设的帧长划分为M帧音频帧,M>1;
[0171] 第一计算模块12,用于计算每一所述音频帧对应的频谱;其中,所述频谱包括N个频域点,N>1;
[0172] 拟合模块13,用于根据每一所述频谱的N个频域点,基于线性拟合算法获得每一所述频谱对应的拟合斜率和拟合截距;
[0173] 频谱平坦度计算模块14,用于根据所述频谱和预设的计算公式,计算获得每一所述频谱的频谱平坦度;
[0174] 第二计算模块15,用于将每一所述频谱划分为m段频谱带,并计算获得每一段所述频谱带对应的对数频谱;m>1;
[0175] 频谱对比度计算模块16,用于根据每一所述频谱对应的m段所述对数频谱,获得每一所述频谱的频谱对比度;
[0176] 特征量获得模块17,用于根据每一所述音频帧的所述拟合斜率、所述拟合截距、所述频谱平坦度和所述频谱对比度,获得每一所述音频帧的特征量;
[0177] 提取模块18,用于根据M帧所述音频帧的特征量,提取出所述待提取音频的音频特征。
[0178] 所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
[0179] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述电子设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0180] 其中,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例提供的音频特征提取方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述任一实施例提供的音频特征提取方法的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0181] 需要说明的是,上述电子设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图4结构示意图仅仅是上述电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
[0182] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈