首页 / 专利库 / 数学与统计 / 倒谱 / 一种基于音频特征融合的杂交神经网络车型识别方法

一种基于音频特征融合的杂交神经网络车型识别方法

阅读:914发布:2020-05-08

专利汇可以提供一种基于音频特征融合的杂交神经网络车型识别方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及车型识别技术,具体是一种基于音频特征融合的杂交神经网络车型识别方法。本发明解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:步骤一:对待训练车型的音频 信号 进行随机破坏:从破坏后的车辆 音频信号 中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上 叠加 环境噪声;步骤二:构建杂交神经网络;步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练;步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中。本发明适用于车型识别。,下面是一种基于音频特征融合的杂交神经网络车型识别方法专利的具体信息内容。

1.一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
2.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分加窗
所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;
所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;
所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;
所述融合特征的维数为65维。
3.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;
所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;
所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;
所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;
所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;
所述丢失层I的参数如下:输入丢失比例为0.5;
所述长短时神经网络层的参数如下:输出维数为32;
所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;
所述丢失层II的参数如下:输入丢失比例为0.5;
所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;
所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。
4.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为
1。
5.根据权利要求2所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:分帧时,帧长为128,帧移为64;加窗时,窗长为128。

说明书全文

一种基于音频特征融合的杂交神经网络车型识别方法

技术领域

[0001] 本发明涉及车型识别技术,具体是一种基于音频特征融合的杂交神经网络车型识别方法。

背景技术

[0002] 车型识别是智能交通领域的重要研究方向。传统的车型识别技术主要通过采集车辆图片信息来实现车型识别。然而实践表明,传统的车型识别技术在应用于复杂的照明和天气环境下时,往往难以清晰准确地获取车辆图片信息,由此导致识别准确率低。基于此,有必要发明一种基于音频特征融合的杂交神经网络车型识别方法,以解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。

发明内容

[0003] 本发明为了解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题,提供了一种基于音频特征融合的杂交神经网络车型识别方法。
[0004] 本发明是采用如下技术方案实现的:一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
[0005] 与传统的车型识别技术相比,本发明所述的一种基于音频特征融合的杂交神经网络车型识别方法无需采集车辆图片信息,而是通过对车辆音频信号进行特征提取和融合及通过融合后的特征对杂交神经网络进行训练,实现了车型识别,由此彻底避免了照明和天气环境对识别结果的影响,从而大幅提高了识别准确率。
[0006] 本发明有效解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题,适用于车型识别。附图说明
[0007] 图1是本发明中步骤一的流程示意图。

具体实施方式

[0008] 一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
[0009] 所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分加窗;所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;
所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;
所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;
所述融合特征的维数为65维。
[0010] 所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;
所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;
所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;
所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;
所述丢失层I的参数如下:输入丢失比例为0.5;
所述长短时神经网络层的参数如下:输出维数为32;
所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;
所述丢失层II的参数如下:输入丢失比例为0.5;
所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;
所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。
[0011] 所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为1。
[0012] 分帧时,帧长为128,帧移为64;加窗时,窗长为128。
[0013] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈