一种面向重叠声音事件检测的音频高层语义特征提取方法及
系统
技术领域
[0001] 本
发明涉及复杂音频的重叠声音事件处理技术领域,特别是
一种面向重叠声音事件检测的音频高层语义特征提取方法及系统。
背景技术
[0002] 音频分为简单音频和复杂音频。简单音频指那些只包含一种音频事件的音频,如纯语音、脚步声等。复杂音频指包含多种音频事件的音频,如电影里面时间稍长的一段音频,可能包含枪声、语音、音乐等,且这些音频事件之间可能在时间上有重叠。
[0003] 声音事件检测所使用的声音特征大多沿用语音
信号在时频域、
倒谱域和频域的特征,也有同时基于时频域、倒谱域和频域的特征进行多种特征融合。总结DCASE参赛的方法来看,最常用的声音事件特征包括梅尔
能量、
梅尔频率倒谱系数和线性预测倒谱系数等。
[0004] 梅尔能量特征将线性
频谱映射到基于听觉
感知的Mel非线性频谱中,一般频率转换到Mel频率计算公式为:
[0005]
[0006] 提取该特征时,先将
声音信号经过预加重、分
帧和
加窗处理后,计算其快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱,再使用一组三
角形带通
滤波器所组成的梅尔刻度滤波器对
功率谱使用向量乘法,最后计算得到梅尔能量特征。
[0007] 然而,传统的物理特征提取技术应用与重叠声音事件检测时,大都需要从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费
力,计算量大。
发明内容
[0008] 有鉴于此,本发明的目的是提出一种面向重叠声音事件检测的音频高层语义特征提取方法及系统,将传统音频物理特征变换为高层语义特征,可以提高后续检测的
精度。
[0009] 本发明采用以下方案实现:一种面向重叠声音事件检测的音频高层语义特征提取方法,具体包括以下步骤:
[0010] 步骤S1:构建音频文件
训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;
[0011] 步骤S2:构建CBG深度
卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;
[0012] 步骤S3:对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出,以便后续对相应声音
片段包含的多种声音事件进行检测。
[0013] 进一步地,步骤S1具体为:
[0014] 步骤S11:构建音频高层语义特征提取网络的训练数据集;
[0015] 步骤S12:对音频文件每隔1.2秒切分一个音频片段,对每一个音频片段标注其包含的多种声音事件;
[0016] 步骤S13:对每个音频片段,按照帧长40ms、帧移20ms的方式得到61个音频帧,逐帧计算梅尔能量特征,每帧提取123维的梅尔能量特征,合并形成61帧123×1维大小的浅层梅尔能量特征序列,构成输入矩阵。
[0017] 进一步地,所述训练数据集采用数据集TUT-SED 2016Home(Home)、TUT-SED 2016Residential(Resi)和TUT-SED 2017Street(Street)。
[0018] 进一步地,步骤S2具体为:
[0019] 步骤S21:构建CBG深度卷积神经网络,该CBG深度卷积神经网络包括3层;第一层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充采用的方式为same,再通过大小为1×5的最大
池化层降低特征维度;第二层与第三层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,并通过大小为1×2的最大池化层降低特征维度;
[0020] 步骤S22:把步骤S1构建好的61帧123×1维大小的浅层梅尔能量特征序列输入构建好的CBG深度卷积神经网络,进行网络训练,每个音频片段经由CBG深度卷积神经网络后得到61×768的高层语义特征。
[0021] 进一步地,步骤S3具体为,对于给定的音频文件,每隔61帧,提取相应底层物理特征输入CBG卷积网络,得到按顺序输出的61×768维大小的高层语义特征。
[0022] 本发明还提供了一种面向重叠声音事件检测的音频高层语义特征提取系统,包括
存储器与处理器,所述存储器中存储有能够被处理器运行的
计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0023] 本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0024] 与
现有技术相比,本发明有以下有益效果:本发明通过对音频文件进行预处理,具体包括等时长音频片段切分和等时长音频帧切分,逐帧计算梅尔能量特征,并合并形成序列的特征表示。然后借助卷积结构的特征提取能力,将传统音频物理特征变换为高层语义特征,能够有效提高后续检测的精度。
附图说明
[0025] 图1为本发明
实施例的方法流程示意图。
[0026] 图2为本发明实施例的CBG深度卷积神经网络的结构图。
具体实施方式
[0027] 下面结合附图及实施例对本发明做进一步说明。
[0028] 应该指出,以下详细说明都是示例性的,旨在对本
申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
[0029] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本
说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0030] 如图1所示,本实施例提供了一种面向重叠声音事件检测的音频高层语义特征提取方法,具体包括以下步骤:
[0031] 步骤S1:构建音频文件训练数据集,针对训练集中的不同场景的音频文件,选取梅尔能量特征构成输入矩阵;
[0032] 步骤S2:构建CBG深度卷积神经网络,将步骤S1得到的输入矩阵输入CBG深度卷积神经网络中,进行训练;
[0033] 步骤S3:对给定的音频文件,提取其梅尔能量特征,输入训练好的CBG深度卷积神经网络中,得到高层语义特征输出,以便后续对相应声音片段包含的多种声音事件进行检测。
[0034] 在本实施例中,步骤S1具体为:
[0035] 步骤S11:构建音频高层语义特征提取网络的训练数据集;
[0036] 步骤S12:对音频文件每隔1.2秒切分一个音频片段,对每一个音频片段标注其包含的多种声音事件;
[0037] 步骤S13:对每个音频片段,按照帧长40ms、帧移20ms的方式得到61个音频帧,逐帧计算梅尔能量特征,每帧提取123维的梅尔能量特征,合并形成61帧123×1维大小的浅层梅尔能量特征序列,构成输入矩阵。
[0038] 在本实施例中,所述训练数据集采用数据集TUT-SED 2016Home(Home)、TUT-SED 2016Residential(Resi)和TUT-SED 2017Street(Street)。本实施例运用了Home、Resi和Street数据集,都是真实环境下的音频记录,各自包含10个,12个和24个音频文件。每个音频文件声音长度为3-5分钟,双声道“.wav”格式,
采样率为44.1kHz,量化精度为24位。每个音频文件每隔1.2秒切分为一个音频片段,并且标记该音频片段包含的多个声音事件。所有音频片段组成本方法的数据集,其中训练集,测试集所用音频片段数量的比例分别为3:1,使用4折交叉验证。
[0039] 在本实施例中,步骤S2具体为:
[0040] 步骤S21:构建CBG深度卷积神经网络,该CBG深度卷积神经网络包括3层;第一层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充采用的方式为same,再通过大小为1×5的最大池化层降低特征维度;第二层与第三层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,并通过大小为1×2的最大池化层降低特征维度;
[0041] 步骤S22:把步骤S1构建好的61帧123×1维大小的浅层梅尔能量特征序列输入构建好的CBG深度卷积神经网络,进行网络训练,每个音频片段经由CBG深度卷积神经网络后得到61×768的高层语义特征。
[0042] 在本实施例中,步骤S3具体为,对于给定的音频文件,每隔61帧,提取相应底层物理特征输入CBG卷积网络,得到按顺序输出的61×768维大小的高层语义特征。
[0043] 本实施例还提供了一种面向重叠声音事件检测的音频高层语义特征提取系统,包括存储器与处理器,所述存储器中存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0044] 本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0045] 特别的,接下来本实施例以包含Home数据集的“a031.wav”、“b030.wav”,Resi数据集的“a003.wav”、“a013.wav”,Street数据集的“b093.wav”、“b098.wav”音频文件为例,给出训练的具体步骤:
[0046] 步骤1:实验的数据集,都是真实环境下的音频记录,各自包含10个,12个和24个音频文件。每个音频文件声音长度为3-5分钟,双声道“.wav”格式,采样率为44.1kHz,量化精度为24位。对音频文件每隔1.2秒切分为一个音频片段,标记该音频片段包含的音频事件类型;
[0047] 对1.2秒时长的音频片段逐帧计算梅尔能量特征,帧长40ms,帧移20ms,每帧123维特征。61个音频帧逐帧提取特征,构成神经网络的输入矩阵,矩阵大小为61×123×1。
[0048] 步骤2:构建CBG深度卷积神经网络,把固定帧数矩阵输入CBG深度卷积神经网络,再对深度卷积神经网络进行训练。构建如图2所示的CBG深度卷积神经网络,深度卷积神经网络共有3层。第一层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,再通过大小为1×5的最大池化层降低特征维度。第二、三层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,并通过大小为1×2的最大池化层降低特征维度,得到61×768抽象特征。
[0049] 以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单
修改、等同变化与改型,仍属于本发明技术方案的保护范围。