首页 / 专利库 / 电脑编程 / 算法 / 一种改进的录音设备识别算法

一种改进的录音设备识别算法

阅读:412发布:2024-01-09

专利汇可以提供一种改进的录音设备识别算法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种改进的录音设备识别 算法 ,构建模型一和模型二,模型一包括双向 门 循环神经网络层、单向门循环神经网络层和注意 力 层,模型二包括卷积层、跳跃连接层和全局平均 池化 层,对待检测的音频 信号 进行分 帧 和预处理,提取 音频信号 的多维帧级特征作为模型一的输入、梅尔 频谱 特征作为模型二的输入,并将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。本发明的识别算法保留了音频信号的时序特性,通过增加注意力机制、跳跃连接结构和隐藏单元拼接方法等方式,最终得到优质的录音设备相关的特征参数,提高了录音设备的识别效果和模型的鲁棒性。,下面是一种改进的录音设备识别算法专利的具体信息内容。

1.一种改进的录音设备识别算法,其特征在于,包括以下步骤:
步骤S1、对待检测的音频信号进行分和预处理;
步骤S2、构建模型一,模型一包括顺序设置的双向循环神经网络层、单向门循环神经网络层和注意层,提取步骤S1中信号的多维帧级特征作为模型一的输入;
步骤S3、构建模型二,模型二包括顺序设置的第一卷积层、第二卷积层、第三卷积层、跳跃连接层、第四卷积层和全局平均池化层,提取步骤S1中信号的梅尔频谱特征作为模型二的输入;
步骤S4、将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。
2.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S2中提取72维帧级特征,通过模型一处理后,输出1000维的特征向量
3.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S3中,第一卷积层的输出结果与第三卷积层的输出结果进行叠加,作为第三卷积层的最终输出。
4.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S1中,对音频信号进行分帧,帧长为1024,帧移25%,并对信号进行加Hanning窗处理,提取出多维帧级特征。
5.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S1中,对音频信号进行分帧,帧长为1024,帧移25%;对每帧数据计算FFT,FFT点数为2048;再通过具有80个子带滤波器的梅尔滤波器组计算得到对数梅尔频谱图。
6.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S2中,多维帧级特征包括短时过零率、均方根能量、基频、谱质心、频谱扩散、频谱熵、频谱通量、共振峰频率、一阶差分梅尔倒谱系数、二阶差分梅尔倒谱系数、线性预测系数、Bark频率倒谱系数。
7.根据权利要求1所述的一种改进的录音设备识别算法,其特征在于:所述步骤S2中,注意力层的输出s表述为类别概率分布的P(v|x,q)期望:
其中,输入序列为 相应的请求为q。

说明书全文

一种改进的录音设备识别算法

技术领域

[0001] 本发明涉及录音设备技术领域,具体涉及一种改进的录音设备识别算法。

背景技术

[0002] 声音是人类最自然的交流工具。随着音频技术的日渐成熟,音频已被广泛于社会生活的各个方面。不同品牌的录音设备厂商一般会采用不同的数字信号处理方法和电路进行录音,这些方法的不同会导致音频信号中包含区别于其他录音设备的特征。因此,通过分析音频信号能够在一定程度上识别出录音设备。在司法案件中,常有相关人员声称用某种设备录制了证据,因此判定私录音频的录制设备是司法有关部亟待解决的问题。
[0003] 随着机器学习深度学习技术的发展,研究者们提出了多种有效地机器学习和深度学习识别模型。2007年Christian Kraetzer等人结合时域和频域混合特征识别麦克设备,实验采用朴素贝叶斯等分类器进行验证,最终取得了75.99%的识别率。2009年Robert Buchholz利用朴素贝叶斯、逻辑回归以及支持向量机作为分类器对麦克风进行分类,模型的特征输入为音频的傅里叶系数。2011年达钊等验证了音频中的基音频率、共振峰频率和MFCC在录音设备识别过程中的有效性。2012年Cemal Hanilc提取音频的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征,采用支持向量机作为模型分类器,对14种不同的电话设备进行识别,识别率达到了96.42%。2014年Vandana Pandey发现音频的功率谱密度函数能够在一定程度上区别麦克风设备。同年,Ling Zou等人证明了利用MFCC和幂归一化倒谱系数(power-normalized cepstral coefficients,PNCC)可以有效区分录音设备。
[0004] 从目前的研究情况看,专门针对录音设备识别的研究相对较少。首先是录音设备特征数据库的不足,随着4G时代的到来,市场上的手机品牌和信号不断增加,现有的数据库没有及时进行更新。其次是录音设备特征参数的提取,录音设备识别中一般采用语音识别相关的特征,并非专门用于录音设备识别。最后是录音设备识别模型,已有的录音设备识别模型皆为语音识别或说话人识别中表现优异的模型,参数设置和模型设计并没有专门针对录音设备特点进行改进。

发明内容

[0005] 发明目的:为了克服现有技术中存在的不足,本发明提供一种改进的录音设备识别算法,其能够克服现有技术中录音设备识别率较低且泛化性能较差的问题,能够有效识别当前市场上使用率较高的手机和电脑设备。
[0006] 技术方案:为实现上述目的,本发明采用如下技术方案:
[0007] 一种改进的录音设备识别算法,其特征在于,包括以下步骤:
[0008] 步骤S1、对待检测的音频信号进行分和预处理;
[0009] 步骤S2、构建模型一,模型一包括顺序设置的双向门循环神经网络层、单向门循环神经网络层和注意层,提取步骤S1中信号的多维帧级特征作为模型一的输入;
[0010] 步骤S3、构建模型二,模型二包括顺序设置的第一卷积层、第二卷积层、第三卷积层、跳跃连接层、第四卷积层和全局平均池化层,提取步骤S1中信号的梅尔频谱特征作为模型二的输入;
[0011] 步骤S4、将模型一和模型二的输出特征进行拼接融合,分类并得出识别结果。
[0012] 优选地,所述步骤S2中提取72维帧级特征,通过模型一处理后,输出1000维的特征向量
[0013] 优选地,所述步骤S3中,第一卷积层的输出结果与第三卷积层的输出结果进行叠加,作为第三卷积层的最终输出。
[0014] 优选地,所述步骤S1中,对音频信号进行分帧,帧长为1024,帧移25%,并对信号进行加Hanning窗处理,提取出多维帧级特征。
[0015] 优选地,所述步骤S1中,对音频信号进行分帧,帧长为1024,帧移25%;对每帧数据计算FFT,FFT点数为2048;再通过具有80个子带滤波器的梅尔滤波器组计算得到对数梅尔频谱图。
[0016] 优选地,所述步骤S2中,多维帧级特征包括短时过零率、均方根能量、基频、谱质心、频谱扩散、频谱熵、频谱通量、共振峰频率、一阶差分梅尔倒谱系数、二阶差分梅尔倒谱系数、线性预测系数、Bark频率倒谱系数。
[0017] 优选地,所述步骤S2中,注意力层的输出s表述为类别概率分布的P(v|x,q)期望:
[0018]
[0019] 其中,输入序列为 相应的请求为q。
[0020] 有益效果:本发明的改进的录音设备识别算法,具有以下优点:
[0021] 1)、将信号的帧级特征引入到录音设备识别算法中,保留了音频信号的时序特性;
[0022] 2)、增加注意力机制将高层特征按照重要性进行加权求和,最终得到优质的录音设备相关的特征参数,以提高模型的鲁棒性;
[0023] 3)、通过加入跳跃连接结构改进标准卷积神经网络模型,进一步提升模型的性能;
[0024] 4)、采用隐藏单元拼接方法实现最终的模型融合,此方法可以提高录音设备识别的识别效果和模型的鲁棒性,具有良好的应用前景。附图说明
[0025] 图1为本发明的改进的录音设备识别算法的模型结构示意图。

具体实施方式

[0026] 下面结合附图对本发明作更进一步的说明。
[0027] 如图1所示,本发明的改进的录音设备识别算法模型,具体算法,包括以下步骤:步骤(1)、每条音频提取72维的帧级特征参数作为模型一的输入。由于音频信号在较短时间内是相对稳定的,而在长时间是非平稳的,所以进行分帧,本次发明中帧长为1024。为让两帧之间过渡变得平滑,必须使两帧之间有重叠,重叠率为25%。由于分帧会引起谱泄漏,于是对信号进行加Hanning窗处理。
[0028] 最后进行特征提取。对每一帧信号提取72维特征,特征为:短时过零率、均方根能量、基频、谱质心、频谱扩散、频谱熵、频谱通量、共振峰频率、一阶差分梅尔倒谱系数、二阶差分梅尔倒谱系数、线性预测系数,Bark频率倒谱系数,具体参数如表1。然后将这些特征按帧组合在一起,每帧共有72维的语音特征,而每帧数据之间的先后关系亦保留了原始音频信号的时序信息。最终获得的特征维度是(帧数*72),而帧数是随原始音频长度而动态变化的,解决了固定维度的特征与变化的语音长度之间的矛盾。
[0029] 表1
[0030]
[0031]
[0032] 步骤(2)、构建模型一:利用一层双向门循环单元、一层单向门循环单元和一层注意力层构造模型一。循环神经网络可以很好的处理时序信号,注意力机制可以自主学习时序信号的特征,将循环神经网络和注意力机制相结合能够有效挖掘时序信号的特征参数。模型一采用一层双向门循环单元、一层单向门循环单元和一层注意力层,模型的输入为72维帧级特征。
[0033] 注意力机制(注意力)的原理是模拟人类的视觉注意力机制。假设输入序列为相应的请求为q,标准的注意力机制原理为使用一个函数f(xi,q)计算一个q和xi之间的对齐得分ai。q关于x的所有对齐得分记为a=(a1,a2,…,an),最后使用一个软最大化函数将a映射成类别概率分布P(v|x,q),当v=i时代表根据q选择xi的概率,如以下公式:
[0034]
[0035] 公式2将注意力的输出s表述为类别概率分布的P(v|x,q)期望:
[0036]
[0037] 注意力机制可以为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征,提高模型的鲁棒性。模型输出一个1000维的特征向量,与模型二的输出进行叠加,最后进行分类。
[0038] 步骤(3)、每条音频提取梅尔频谱作为模型二的输入。首先对音频信号样本进行分帧,帧长为1024,帧移25%;其次对每帧数据计算FFT,FFT点数为2048;再次,利用具有80个子带滤波器的梅尔滤波器组计算得到对数梅尔频谱图。
[0039] 步骤(4)、构建模型二:模型二的输入为步骤(3)中获得的梅尔频谱,模型二前三层均为卷积层,加上跳跃连接,再连接一层卷积和一层全局平均池化,将第一层卷积层的输出结果与第三层卷积层的输出结果进行叠加,构成了第三层最终的特征。
[0040] 步骤(5):模型一包括一层双向门循环单元、一层单向门循环单元和一层注意力层,最终提取一条1000维的高层特征;模型二前三层均为卷积层,加上跳跃连接,再连接一层卷积和一层全局平均池化,最终提取一条1000维的高层特征。将两个模型的输出特征进行拼接融合,最终进行分类。
[0041] 表2不同模型识别率对比
[0042] 模型 支撑向量机 循环神经网络 标准卷积神经网络 模型融合平均识别率 81% 82.3% 81.5% 87.5%
[0043] 综上所述,本发明的改进的录音设备识别算法,准确率可达到87.5%。其特点在于:1)模型融合结构提升了系统的鲁棒性;2)提取帧级特征能够有效挖掘音频中的录音设备信息;3)利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征;4)利用跳跃连接操作抽取底层特征。因此,在实际应用中,能够有效地根据检测音频信号区分当前市场上使用率较高的手机和电脑等不同的录音设备。本发明能够克服传统录音设备识别模型识别率较低的问题。此方法可以提高录音设备识别的识别效果和模型的鲁棒性,具有良好的应用前景。
[0044] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈