首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际检索单位 / 附加费 / 异议 / 一种基于深度变换特征的高速公路异常音频事件分类方法

一种基于深度变换特征的高速公路异常音频事件分类方法

阅读:612发布:2020-11-19

专利汇可以提供一种基于深度变换特征的高速公路异常音频事件分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于深度变换特征的高速公路异常音频事件分类方法,首先采集高速公路异常音频事件样本,然后划分为训练集和测试集;接着分别对训练集和测试集音频事件样本进行预加重、分 帧 、 加窗 处理,且取前后2帧构成上下文音频数据 块 ;从上述音频数据块中提取声学特征拼接成特征矢量;将特征矢量输入深度自编码网络提取深度变换特征;然后输入长短时记忆网络分类器,辨识各类异常音频事件。上述深度自编码网络特征提取器与长短时记忆网络分类器都包括训练步骤和测试步骤。本发明采用的深度变换特征是各传统声学特征的融合与变换,具有更好的区分性和鲁棒性,在对高速公路复杂音频中的异常音频事件进行分类时能取得更佳的分类效果。,下面是一种基于深度变换特征的高速公路异常音频事件分类方法专利的具体信息内容。

1.一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的方法包括下列步骤:
S1、数据准备,利用录音设备在高速公路采集包含异常音频事件的音频数据并进行人工标注,然后将上述音频数据划分为训练数据集和测试数据集;
S2、预处理,分别对训练数据和测试数据进行预加重、分加窗,取前后2帧组成上下文音频数据
S3、声学特征提取,对预处理后的音频数据做声学特征提取,包括梅尔滤波器组、Gabor滤波器组和常Q倒谱系数,并将上述三种特征拼接成一个声学特征矢量;
S4、深度变换特征提取,构建深度自编码网络,将上述声学特征矢量输入深度自编码网络,基于最小误差准则确定深度自编码网络参数,深度自编码网络输出层的输出是对输入层的输入声学特征矢量的重构,深度自编码网络瓶颈层的输出即为深度变换特征;
S5、异常音频事件分类,将上述深度变换特征输入已经训练好的长短时记忆网络分类器,得到异常音频事件的分类结果。
2.根据权利要求1所述的一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的步骤S1中数据准备包括以下步骤:
S1.1、利用录音设备采集音频数据:将录音设备安放在高速公路中间的隔离栏,音频数据的采样频率为16KHz,量化位数为8bit;
S1.2、音频数据标注:三人或三人以上对音频数据进行人工标注,对于存在异议的标注,按少数服从多数的原则确定最终的标注结果;
S1.3、音频数据划分:将标注后的音频数据随机划分为训练集和测试集,其中训练集占
80%,测试集占20%。
3.根据权利要求1所述的一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的步骤S2中预处理包括以下步骤:
S2.1、预加重:采用系统函数为H(z)的滤波器对音频数据进行滤波,且:
H(z)=1-μz-1,
其中μ为常数,取值为0.98;
S2.2、分帧:将预加重后的音频数据进行分帧操作,音频帧帧长为25毫秒,帧移为10毫秒;
S2.3、加窗:将分帧后的音频数据与窗函数ω(n)相乘,窗函数ω(n)为汉明窗:
其中,N表示帧长,帧长即为采样点个数,且N=25ms×16KHz=400;
S2.4、构造上下文音频数据块:选取音频帧的前后各2帧作为上下文,组成一个5帧的音频帧数据块。
4.根据权利要求1所述的一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的步骤S3中声学特征提取包括以下步骤:
S3.1、梅尔滤波器组特征提取,具体步骤如下:
S3.1.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
S3.1.2、采用梅尔频率滤波器组对上述线性频谱Xt(k)进行滤波得到梅尔频谱,梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
-1 b/1125
B (b)=700(e -1),
第p帧音频信号的梅尔滤波器组特征F(p)为:
F(p)=Xt(p)Hm(p)0≤m<M;
S3.2、Gabor滤波器组特征提取,具体步骤如下:
S3.2.1、Gabor滤波器,Gabor滤波器组由一组两维的Gabor滤波器组成,Gabor滤波器函数定义如下:
Sω(x)=exp(jωx),
其中k表示频率索引,n表示帧索引,k0表示载波频率,n0表示时间帧的中心,ωk表示谱调制频率,ωn表示时间调制频率,vk和vn分别表示载波在频域和时域维数的半周期数,φ表示一个加性的全局相位,b表示频率带宽;
S3.2.2、Gabor滤波器组特征提取,具体步骤如下:
S3.2.2.1、梅尔谱变换:对第t帧音频信号xt(n)作离散傅里叶变换得到线性频谱X(k),再将线性频谱X(k)变换为对数幅度梅尔谱Xm(k):
其中,N为帧长,F(k,m)表示第m阶梅尔滤波器组的第k个分量,M为梅尔滤波器个数;
S3.2.2.2、利用Gabor滤波器滤波:将对数Mel谱系数Xm(k)输入两维的Gabor滤波器,取Gabor滤波器输出的实部,得到第p帧的Gabor滤波器组特征Gabor(p):
其中,Re(·)表示取函数实部,Xm(·)表示对数梅尔谱系数,G(·)表示Garbor滤波器函数;
S3.2.2.3、将Gabor滤波器组应用到每个Mel滤波器得到一个高维的特征表示,选用23个Mel滤波器和41个Gabor滤波器,则Gabor滤波器的输出有23*41=943维,对Gabor滤波器的输出作二次抽样得到311维的Gabor滤波器组特征;
S3.3、常Q倒谱系数特征提取,具体步骤如下:
S3.3.1、对第t帧音频信号xt(n)进行常Q变换,得到常Q频谱:
其中,k=1,2,...,K表示频率索引, 是ak的共轭,Nk表示窗函数的长度, 表示向下取整,
其中,fs表示采样频率,fk表示索引为k时的频率, 表示相移,ω(·)表示窗函数,f1表示最低频率,B表示带宽;
S3.3.2、计算常Q频谱的能量谱|XCQ(k)|2,对能量谱取对数,得到对数能量谱log(XCQ(k)|2),再进行离散余弦变换,得到第p帧音频信号的常Q倒谱系数CQCC(p):
其中,L为最大离散频率,XCQ(k)为常Q频谱;
S3.4、特征拼接:将梅尔滤波器组特征,Gabor滤波器组特征,常Q倒谱系数特征拼接成一个声学特征矢量:v=[F(p),Gabor(p),CQCC(p)]。
5.根据权利要求1所述的一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的步骤S4中深度变换特征提取包括以下步骤:
S4.1、构建深度自编码网络的子网络:深度自编码网络由编码子网络和解码子网络两部分组成,上述两个子网络的重叠部分为瓶颈层,瓶颈层的输出即为深度变换特征;
对于单层编码子网络:
YEO=f(Winv+bin),
其中v为输入的声学特征矢量,YEO为编码子网络输出,Win为编码子网络权重矩阵,bin为编码子网络偏差矢量,f(·)为激活函数,选取Relu函数,其表达式为:
其中xin为激活函数的输入;
对于单层解码子网络:
y=f(WoutYEO+bout),
其中YEO为解码子网络输入,Wout为解码子网络权重矩阵,bout为解码子网络偏差矢量,f(·)为激活函数,选取Relu函数,y为整个网络的输出;
定义损失函数:
其中v为声学特征矢量,y为整个网络输出;
S4.2、训练深度自编码网络:训练目标使损失函数MSE尽量小,得到网络权重矩阵和偏差矢量参数,然后将提取好的声学特征矢量输入深度自编码网络,得到深度变换特征。
6.根据权利要求1所述的一种基于深度变换特征的高速公路异常音频事件分类方法,其特征在于,所述的步骤S5中异常音频事件分类包括以下步骤:
S5.1、构建并训练长短时记忆网络:定义网络损失函数:
其中K为音频事件类别数,zk为第k类音频事件的标注值,yk为第k类音频事件的输出概率,网络训练目标为最小化损失函数ψ;
S5.2、输出分类结果:训练好长短时记忆网络分类器后,将测试集样本的深度变换特征输入长短时记忆网络分类器,得到每一类音频事件的输出概率,输出概率最大的那一类即为判决结果。

说明书全文

一种基于深度变换特征的高速公路异常音频事件分类方法

技术领域

[0001] 本发明涉及音频信号处理与机器学习技术领域,具体涉及一种基于深度变换特征的高速公路异常音频事件分类方法。

背景技术

[0002] 随着人们生活平的提高,私家车的数量急剧增长,给高速公路安全高效地运营增大了压,亟需一种能够自动区分高速公路上的正常事件与异常事件的方法。高速公路情况比较复杂,各种异常情况均有可能发生,传统基于视频监控的方法难以全面高效地应对各种异常突发情况。
[0003] 传统的音频事件分类方法大多采用梅尔频率倒谱系数、感知线性预测系数等单一声学特征。鉴于高速公路异常音频事件背景音强、类内差异大、类间差异小等特点,单个传统声学特征无法有效刻画各音频事件之间的差异,本发明组合多个声学特征并采用深度神经网络进行特征的深度融合与变换,旨在聚集各声学特征的优势并进一步挖掘各声学特征潜在特质,得到更具区分性和抗噪性的深度变换特征。

发明内容

[0004] 本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于深度变换特征的高速公路异常音频事件分类方法,包括如下步骤,首先准备数据,采集高速公路异常音频事件样本并将异常音频事件样本划分为训练集和测试集;接着预处理,分别对训练集和测试集音频事件样本进行预加重、分加窗处理,且取前后2帧构成上下文音频数据;从上述音频数据块中提取声学特征,主要包括:梅尔滤波器组,Gabor滤波器组,常Q倒谱系数,将上述三种特征拼接成声学特征矢量并输入深度自编码网络提取深度变换特征;然后将上述深度变换特征输入长短时记忆网络分类器,辨识各类异常音频事件。上述深度自编码网络特征提取器与长短时记忆网络分类器都包括训练步骤和测试步骤。本发明采用的深度变换特征是各传统声学特征的融合与变换,具有更好的区分性和鲁棒性,在对高速公路复杂音频中的异常音频事件进行分类时,能取得更佳的分类效果。
[0005] 本发明的目的可以通过采取如下技术方案达到:
[0006] 一种基于深度变换特征的高速公路异常音频事件分类方法,所述的方法包括下列步骤:
[0007] S1、数据准备,利用录音设备在高速公路采集包含异常音频事件的音频数据并进行人工标注,然后将上述音频数据划分为训练数据集和测试数据集;
[0008] S2、预处理,分别对训练数据和测试数据进行预加重、分帧、加窗,取前后2帧组成上下文音频数据块;
[0009] S3、声学特征提取,对预处理后的音频数据做声学特征提取,包括梅尔滤波器组、Gabor滤波器组和常Q倒谱系数,并将上述三种特征拼接成一个声学特征矢量;
[0010] S4、深度变换特征提取,构建深度自编码网络,将上述声学特征矢量输入深度自编码网络,基于最小误差准则确定深度自编码网络参数,深度自编码网络输出层的输出是对输入层的输入声学特征矢量的重构,深度自编码网络瓶颈层的输出即为深度变换特征;
[0011] S5、异常音频事件分类,将上述深度变换特征输入已经训练好的长短时记忆网络分类器,得到异常音频事件的分类结果。
[0012] 进一步地,所述的步骤S1中数据准备包括以下步骤:
[0013] S1.1、利用录音设备采集音频数据:将录音设备安放在高速公路中间的隔离栏,音频数据的采样频率为16KHz,量化位数为8bit;
[0014] S1.2、音频数据标注:三人或三人以上对音频数据进行人工标注,对于存在异议的标注,按少数服从多数的原则确定最终的标注结果;
[0015] S1.3、音频数据划分:将标注后的音频数据随机划分为训练集和测试集,其中训练集占80%,测试集占20%。
[0016] 进一步地,所述的步骤S2中预处理包括以下步骤:
[0017] S2.1、预加重:采用系统函数为H(z)的滤波器对音频数据进行滤波,且:
[0018] H(z)=1-μz-1,
[0019] 其中μ为常数,取值为0.98;
[0020] S2.2、分帧:将预加重后的音频数据进行分帧操作,音频帧帧长为25毫秒,帧移为10毫秒;
[0021] S2.3、加窗:将分帧后的音频数据与窗函数ω(n)相乘,窗函数ω(n)为汉明窗:
[0022]
[0023] 其中,N表示帧长,帧长即为采样点个数,且N=25ms×16KHz=400;
[0024] S2.4、构造上下文音频数据块:选取音频帧的前后各2帧作为上下文,组成一个5帧的音频帧数据块。
[0025] 进一步地,所述的步骤S3中声学特征提取包括以下步骤:
[0026] S3.1、梅尔滤波器组特征提取,具体步骤如下:
[0027] S3.1.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
[0028]
[0029] S3.1.2、采用梅尔频率滤波器组对上述线性频谱Xt(k)进行滤波得到梅尔频谱,梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
[0030]
[0031] 其中,0≤m<M,f(m)定义如下:
[0032]
[0033] 其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
[0034] B-1(b)=700(eb/1125-1),
[0035] 第p帧音频信号的梅尔滤波器组特征F(p)为:
[0036] F(p)=Xt(p)Hm(p) 0≤m<M;
[0037] S3.2、Gabor滤波器组特征提取,具体步骤如下:
[0038] S3.2.1、Gabor滤波器,Gabor滤波器组由一组两维的Gabor滤波器组成,Gabor滤波器函数定义如下:
[0039]
[0040] Sω(x)=exp(jωx),
[0041]
[0042] 其中k表示频率索引,n表示帧索引,k0表示载波频率,n0表示时间帧的中心,ωk表示谱调制频率,ωn表示时间调制频率,vk和vn分别表示载波在频域和时域维数的半周期数,φ表示一个加性的全局相位,b表示频率带宽;
[0043] S3.2.2、Gabor滤波器组特征提取,具体步骤如下:
[0044] S3.2.2.1、梅尔谱变换:对第t帧音频信号xt(n)作离散傅里叶变换得到线性频谱X(k),再将线性频谱X(k)变换为对数幅度梅尔谱Xm(k):
[0045]
[0046]
[0047] 其中,N为帧长,F(k,m)表示第m阶梅尔滤波器组的第k个分量,M为梅尔滤波器个数;
[0048] S3.2.2.2、利用Gabor滤波器滤波:将对数Mel谱系数Xm(k)输入两维的Gabor滤波器,取Gabor滤波器输出的实部,得到第p帧的Gabor滤波器组特征Gabor(p):
[0049]
[0050] 其中,Re(·)表示取函数实部,Xm(·)表示对数梅尔谱系数,G(·)表示Garbor滤波器函数;
[0051] S3.2.2.3、将Gabor滤波器组应用到每个Mel滤波器得到一个高维的特征表示,选用23个Mel滤波器和41个Gabor滤波器,则Gabor滤波器的输出有23*41=943维,对Gabor滤波器的输出作二次抽样得到311维的Gabor滤波器组特征;
[0052] S3.3、常Q倒谱系数特征提取,具体步骤如下:
[0053] S3.3.1、对第t帧音频信号xt(n)进行常Q变换,得到常Q频谱:
[0054]
[0055] 其中,k=1,2,...,K表示频率索引, 是ak的共轭,Nk表示窗函数的长度, 表示向下取整,
[0056]
[0057]
[0058]
[0059] 其中,fs表示采样频率,fk表示索引为k时的频率, 表示相移,ω(·)表示窗函数,f1表示最低频率,B表示带宽;
[0060] S3.3.2、计算常Q频谱的能量谱|XCQ(k)|2,对能量谱取对数,得到对数能量谱log(XCQ(k)|2),再进行离散余弦变换,得到第p帧音频信号的常Q倒谱系数CQCC(p):
[0061]
[0062] 其中,L为最大离散频率,XCQ(k)为常Q频谱;
[0063] S3.4、特征拼接:将梅尔滤波器组特征,Gabor滤波器组特征,常Q倒谱系数特征拼接成一个声学特征矢量:v=[F(p),Gabor(p),CQCC(p)]。
[0064] 进一步地,所述的步骤S4中深度变换特征提取包括以下步骤:
[0065] S4.1、构建深度自编码网络的子网络:深度自编码网络由编码子网络和解码子网络两部分组成,上述两个子网络的重叠部分为瓶颈层,瓶颈层的输出即为深度变换特征;
[0066] 对于单层编码子网络:
[0067] YEO=f(Winv+bin),
[0068] 其中v为输入的声学特征矢量,YEO为编码子网络输出,Win为编码子网络权重矩阵,bin为编码子网络偏差矢量,f(·)为激活函数,选取Relu函数,其表达式为:
[0069]
[0070] 其中xin为激活函数的输入;
[0071] 对于单层解码子网络:
[0072] y=f(WoutYEO+bout),
[0073] 其中YEO为解码子网络输入,Wout为解码子网络权重矩阵,bout为解码子网络偏差矢量,f(·)为激活函数,选取Relu函数,y为整个网络的输出;
[0074] 定义损失函数:
[0075]
[0076] 其中v为声学特征矢量,y为整个网络输出;
[0077] S4.2、训练深度自编码网络:训练目标使损失函数MSE尽量小,得到网络权重矩阵和偏差矢量参数,然后将提取好的声学特征矢量输入深度自编码网络,得到深度变换特征。
[0078] 进一步地,所述的步骤S5中异常音频事件分类包括以下步骤:
[0079] S5.1、构建并训练长短时记忆网络:定义网络损失函数:
[0080]
[0081] 其中K为音频事件类别数,zk为第k类音频事件的标注值,yk为第k类音频事件的输出概率,网络训练目标为最小化损失函数ψ;
[0082] S5.2、输出分类结果:训练好长短时记忆网络分类器后,将测试集样本的深度变换特征输入长短时记忆网络分类器,得到每一类音频事件的输出概率,输出概率最大的那一类即为判决结果。
[0083] 本发明根据高速公路典型的异常事件(撞车、翻车、紧急制动、轮胎打滑、爆胎等)的特点(出现各种震欲聋的声响),基于音频特征提取与变换对高速公路上的各类异常事件进行分类辨识,有效弥补了目前基于视频监控方法的不足。
[0084] 本发明相对于现有技术具有如下的优点及效果:
[0085] 1、将长短时记忆网络应用于高速公路异常音频事件分类,相比于传统的支持向量机、K邻近等分类器效果更佳。
[0086] 2、不采用传统单一的梅尔频率倒谱系数、感知预测系数等声学特征,而采用梅尔滤波器组,Gabor滤波器组和常Q倒谱系数的组合特征,并采用深度自编码网络对上述组合特征进行融合变换,得到更能有效刻画异常音频事件的时频特性差异的深度变换特征,分类效果更佳。附图说明
[0087] 图1是本发明中公开的一种基于深度变换特征的高速公路异常音频事件分类方法的流程步骤图。

具体实施方式

[0088] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0089] 实施例
[0090] 图1是基于深度变换特征的高速公路异常音频事件分类方法的一个实施例的框图,它主要包括以下过程:
[0091] S1、数据准备:利用录音设备在高速公路采集包含异常音频事件的音频数据并进行人工标注,然后将上述音频数据划分为训练数据集和测试数据集;具体步骤包括:
[0092] S1.1、利用录音设备采集音频数据:将录音设备安放在高速公路中间的隔离栏,音频数据的采样频率为16KHz,量化位数为8bit;
[0093] S1.2、音频数据标注:三人或三人以上对音频数据进行人工标注,对于存在异议的标注,按少数服从多数的原则确定最终的标注结果;
[0094] S1.3、音频数据划分:将标注后的音频数据随机划分为训练集和测试集,其中训练集占80%,测试集占20%。
[0095] S2、预处理:分别对训练数据和测试数据进行预加重、分帧、加窗,取前后2帧作为上下文;具体步骤包括:
[0096] S2.1、预加重:采用系统函数为H(z)的滤波器对音频数据进行滤波,且:
[0097] H(z)=1-μz-1,
[0098] 其中μ为常数,取值为0.98;
[0099] S2.2、分帧:将预加重后的音频数据进行分帧操作,音频帧帧长为25毫秒,帧移为10毫秒;
[0100] S2.3、加窗:将分帧后的音频数据与窗函数相乘,窗函数为汉明窗ω(n),[0101]
[0102] 其中,N表示帧长,帧长即为采样点个数,且N=25ms×16KHz=400;
[0103] S2.4、构造上下文音频数据块:选取音频帧的前后各2帧作为上下文组成一个5帧的音频帧数据块。
[0104] S3、声学特征提取:对预处理后的数据做声学特征提取,主要包括梅尔滤波器组,Gabor滤波器组,常Q倒谱系数,将上述三种特征拼接成声学特征矢量;具体步骤如下:
[0105] S3.1、梅尔滤波器组特征提取,具体步骤如下:
[0106] S3.1.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
[0107]
[0108] S3.1.2、采用梅尔频率滤波器组对上述线性频谱Xt(k)进行滤波得到梅尔频谱,其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
[0109]
[0110] 其中,0≤m<M,f(m)定义如下:
[0111]
[0112] 其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
[0113] B-1(b)=700(eb/1125-1),
[0114] 第p帧音频信号的梅尔滤波器组特征F(p)为:
[0115] F(p)=Xt(p)Hm(p) 0≤m<M;
[0116] S3.2、Gabor滤波器组特征提取,具体步骤如下:
[0117] S3.2.1、Gabor滤波器:Gabor滤波器组由一组两维的Gabor滤波器组成,Gabor滤波器函数定义如下:
[0118]
[0119] Sω(x)=exp(jωx),
[0120]
[0121] 其中k表示频率索引,n表示帧索引,k0表示载波频率,n0表示时间帧的中心,ωk表示谱调制频率,ωn表示时间调制频率,vk和vn分别表示载波在频域和时域维数的半周期数,φ表示一个加性的全局相位,b表示频率带宽;
[0122] S3.2.2、Gabor滤波器组特征提取,具体步骤如下:
[0123] S3.2.2.1、梅尔谱变换:对第t帧音频信号xt(n)作离散傅里叶变换得到线性频谱X(k),再将线性频谱X(k)变换为对数幅度梅尔谱Xm(k):
[0124]
[0125]
[0126] 其中,N为帧长,F(k,m)表示第m阶梅尔滤波器组的第k个分量,M为梅尔滤波器个数;
[0127] S3.2.2.2、采用Gabor滤波器滤波:将对数Mel谱系数Xm(k)输入两维的Gabor滤波器,取Gabor滤波器输出的实部,得到第p帧的Gabor滤波器组特征:
[0128]
[0129] 其中Re(·)表示取函数实部,Xm(·)表示对数梅尔谱系数,G(·)表示Garbor滤波器函数;
[0130] S3.2.2.3、将Gabor滤波器组应用到每个Mel滤波器得到一个高维的特征表示,选用23个Mel滤波器和41个Gabor滤波器,则Gabor滤波器的输出有23*41=943维,对Gabor滤波器的输出作二次抽样得到311维的Gabor滤波器组特征;
[0131] S3.3、常Q倒谱系数特征提取,具体步骤如下:
[0132] S3.3.1、对第t帧音频信号xt(n)进行常Q变换,得到常Q频谱:
[0133]
[0134] 其中,k=1,2,...,K表示频率索引, 是ak的共轭,Nk表示窗函数的长度, 表示向下取整,
[0135]
[0136]
[0137]
[0138] 其中fs表示采样频率,fk表示索引为k时的频率, 表示相移,ω(·)表示窗函数,f1表示最低频率,B表示带宽;
[0139] S3.3.2、计算常Q频谱的能量谱|XCQ(k)|2,对能量谱取对数,得到对数能量谱log(XCQ(k)|2),再进行离散余弦变换,得到第p帧音频信号的常Q倒谱系数CQCC(p):
[0140]
[0141] 其中,L为最大离散频率,XCQ(k)为常Q频谱;
[0142] S3.4、特征拼接:将梅尔滤波器组特征,Gabor滤波器组特征,常Q倒谱系数特征拼接成一个声学特征矢量:v=[F(p),Gabor(p),CQCC(p)]。
[0143] S4、深度变换特征提取:构建深度自编码网络,将声学特征矢量输入深度自编码网络,深度自编码网络的输出是对输入声学特征矢量的重构,基于最小误差准则确定网络参数,深度自编码网络瓶颈层的输出即为深度变换特征;具体步骤如下:
[0144] S4.1、构建深度自编码网络的子网络:深度自编码网络由编码子网络和解码子网络两部分组成,上述两个子网络的重叠部分为瓶颈层,瓶颈层的输出即为深度变换特征;
[0145] 对于单层编码子网络:
[0146] YEO=f(Winv+bin),
[0147] 其中,v为输入的声学特征矢量,YEO为编码子网络输出,Win为编码子网络权重矩阵,bin为编码子网络偏差矢量,f(·)为激活函数,一般选取Relu函数,其表达式为:
[0148]
[0149] 其中,xin为激活函数的输入;
[0150] 对于单层解码子网络:
[0151] y=f(WoutYEO+bout),
[0152] 其中YEO为解码子网络输入,Wout为解码子网络权重矩阵,bout为解码子网络偏差矢量,f(·)为激活函数,选取Relu函数,y为整个网络的输出;
[0153] 定义损失函数:
[0154]
[0155] 其中v为声学特征矢量,y为整个网络输出;
[0156] S4.2、训练深度自编码网络:训练目标使损失函数MSE尽量小,得到网络权重矩阵和偏差矢量参数,然后将提取好的声学特征矢量输入深度自编码网络,得到深度变换特征。
[0157] S5、异常音频事件分类:将上述深度变换特征输入已经训练好的长短时记忆网络分类器,得到各音频事件的分类结果;具体步骤如下:
[0158] S5.1、构建并训练长短时记忆网络:为了得到更好的分类结果,构建的长短时记忆网络节点数为400,学习率为0.001,网络迭代次数为3000次,展开步数为10,网络训练算法采用沿着时间的反向传播算法,
[0159] 定义网络损失函数:
[0160]
[0161] 其中,K为音频事件类别数,zk为第k类音频事件的标注值,yk为第k类音频事件的输出概率,网络训练目标为最小化损失函数ψ;
[0162] S5.2、输出分类结果:训练好长短时记忆网络分类器后,将测试集样本的深度变换特征输入长短时记忆网络分类器,得到每一类音频事件的输出概率,输出概率最大的那一类即为判决结果。
[0163] 综上所述,本实施例中公开的高速公路异常音频事件分类方法首先准备数据,采集高速公路异常音频事件样本,然后将异常音频事件样本划分为训练集和测试集;接着预处理,分别对训练集和测试集音频事件样本进行预加重、分帧、加窗处理,且取前后2帧构成上下文音频数据块;从上述音频数据块中提取声学特征,主要包括:梅尔滤波器组(Mel Filter Bank,MFB),Gabor滤波器组(Gabor Filter Bank,GFB),常Q倒谱系数(Constant Q Cepstral Coefficient,CQCC),再将上述三种特征拼接成特征矢量;将上述特征矢量输入深度自编码网络提取深度变换特征;然后将上述深度变换特征输入长短时记忆网络(Long Short Term Memory Network,LSTMN)分类器,辨识各类异常音频事件。上述深度自编码网络特征提取器与长短时记忆网络分类器都包括训练步骤(训练数据集作为输入)和测试步骤(测试数据集作为输入)。本发明采用的深度变换特征是各传统声学特征的融合与变换,具有更好的区分性和鲁棒性,在对高速公路复杂音频中的异常音频事件进行分类时能取得更佳的分类效果。
[0164] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈