首页 / 专利库 / 信号处理 / 信号处理 / 音频信号处理 / 音频分割 / 一种音频文件的缺陷检测方法及相关设备

一种音频文件的缺陷检测方法及相关设备

阅读:372发布:2020-05-17

专利汇可以提供一种音频文件的缺陷检测方法及相关设备专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种音频文件的 缺陷 检测方法及相关设备,其中,所述方法包括:获取待检测的音频文件的原始时间序列,并提取原始时间序列的特征图片集合,特征图片集合包括至少一个特征图片;根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果,检测结果指示特征图片是否存在缺陷,当检测结果指示特征图片存在缺陷时,检测结果包括特征图片的缺陷 位置 和缺陷类型;根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。采用本发明实施例,可以在确定音频文件存在缺陷的前提下,进一步确定缺陷的种类和缺陷在音频文件中出现的位置。,下面是一种音频文件的缺陷检测方法及相关设备专利的具体信息内容。

1.一种音频文件的缺陷检测方法,其特征在于,包括:
获取待检测的音频文件的原始时间序列,并提取所述原始时间序列的特征图片集合,所述特征图片集合包括至少一个特征图片;
根据训练后的缺陷检测模型,对各个所述特征图片进行检测,获得各个所述特征图片的检测结果,所述检测结果指示所述特征图片是否存在缺陷,当所述检测结果指示所述特征图片存在缺陷时,所述检测结果包括所述特征图片的缺陷位置和缺陷类型;
根据各个所述特征图片的检测结果,确定对所述待检测的音频文件的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测的音频文件的原始时间序列,并提取所述原始时间序列的特征图片集合,包括:
对所述原始时间序列进行频域处理,获得所述原始时间序列对应的频谱特征,所述频谱特征为复数值集合;
对所述复数值集合进行运算,获得所述复数值集合对应的频谱增益集合;
根据采样率和快速傅里叶变换长,计算频域帧长;
根据所述频谱增益集合和所述频域帧长,获得所述特征图片集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述频谱增益集合和所述频域帧长,获得所述特征图片集合,包括:
以所述频域帧长为分割周期对所述频谱增益集合进行分割,获得至少一个频域特征集合;
将目标频域特征集合转换为目标特征图片,获得所述特征图片集合,所述目标频域特征集合为所述至少一个频域特征集合中的任一频域特征集合,所述目标特征图片为所述至少一个特征图片中的一个特征图片。
4.根据权利要求1所述的方法,其特征在于,所述根据训练后的缺陷检测模型,对各个所述特征图片进行检测,获得各个所述特征图片的检测结果之前,所述方法还包括:
获取缺陷音频文件的原始时间序列,并提取所述缺陷音频文件的原始时间序列的特征图片集合;
对所述缺陷音频文件的特征图片集合中的缺陷数据进行标注,所述缺陷数据包括所述缺陷音频文件的缺陷位置和所述缺陷音频文件的缺陷类型;
根据预设的检测算法搭建缺陷检测模型;
将所述缺陷音频文件的缺陷位置、所述缺陷音频文件的缺陷类型和所述缺陷音频文件的特征图片集合输入所述缺陷检测模型,对所述缺陷检测模型进行训练,获得所述训练后的缺陷检测模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述缺陷音频文件的缺陷位置、所述缺陷音频文件的缺陷类型和所述缺陷音频文件的特征图片集合输入所述缺陷检测模型,对所述缺陷检测模型进行训练,获得所述训练后的缺陷检测模型之前,所述方法还包括:
将所述缺陷音频文件的缺陷位置、所述缺陷音频文件的缺陷类型和所述缺陷音频文件的特征图片集合关联存储。
6.根据权利要求1所述的方法,其特征在于,所述训练后的缺陷检测模型包括训练得到的预测数据和训练得到的模型权重;
所述根据训练后的缺陷检测模型,对各个所述特征图片进行检测,获得各个所述特征图片的检测结果,包括:
对各个所述特征图片进行预处理,获得各个预处理后的特征图片;
将各个所述预处理后的特征图片输入所述训练后的缺陷检测模型;
根据所述训练得到的预测数据和所述训练得到的模型权重对各个所述预处理后的特征图片进行检测,获得检测结果。
7.根据权利要求6所述的方法,其特征在于,所述预测数据包括预测缺陷类型和预测缺陷位置,所述预测缺陷类型是根据所述缺陷检测模型对所述缺陷音频文件的缺陷类型训练得到的,所述预测缺陷位置是根据所述缺陷检测模型对所述缺陷音频文件的缺陷位置训练得到的。
8.根据权利要求1所述的方法,其特征在于,所述根据各个所述特征图片的检测结果,确定对所述待检测的音频文件的检测结果,包括:
当各个所述特征图片的检测结果中的任一个检测结果指示所述检测结果对应的特征图片存在缺陷时,确定所述待检测的音频文件存在缺陷;
当各个所述特征图片的检测结果均指示各个所述特征图片不存在缺陷时,确定所述待检测的音频文件不存在缺陷。
9.一种检测设备,其特征在于,包括:
存储器,用于存储计算机程序
处理器,调用所述存储器中的所述计算机程序,用于执行如权利要求1-8任一项所述的音频文件的缺陷检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的音频文件的缺陷检测方法。

说明书全文

一种音频文件的缺陷检测方法及相关设备

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种音频文件的缺陷检测方法及相关设备。

背景技术

[0002] 在将音频文件上传至媒体播放器(例如QQ音乐播放器)之前,往往需要对音频文件进行检测,以阻止有缺陷问题的音频文件上传。目前,一般采用基于数字信号处理的方式对音频文件进行缺陷检测,具体实施方式为:提取音频文件的有关特征,以频域特征为主,其他特征(例如时域特征)为辅;根据人工设置的特征阈值对音频文件的有关特征进行检测,以判断该音频文件是否存在缺陷。
[0003] 在采用基于数字信号处理的方式对音频文件进行缺陷检测的过程中,提取音频文件的有关特征时,通过对音频文件进行频域变换和时域变换,能够提取到的音频文件的有关特征是有限的,进而根据人工设置的特征阈值对音频文件的有关特征进行检测时获得的检测结果也是有限的。通过该方式只能判断音频文件是否存在缺陷,而不能进一步确定缺陷的种类,也不能确定缺陷在音频文件中出现的位置

发明内容

[0004] 本发明实施例提供了一种音频文件的缺陷检测方法及相关设备,可以在确定音频文件存在缺陷的前提下,进一步确定缺陷的种类和缺陷在音频文件中出现的位置。
[0005] 第一方面,本发明实施例提供了一种音频文件的缺陷检测方法,该方法包括:
[0006] 获取待检测的音频文件的原始时间序列,并提取原始时间序列的特征图片集合,特征图片集合包括至少一个特征图片;根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果,检测结果指示特征图片是否存在缺陷,当检测结果指示特征图片存在缺陷时,检测结果包括特征图片的缺陷位置和缺陷类型;根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。
[0007] 在该技术方案中,检测设备可以对获取到的待检测的音频文件的原始时间序列进行处理,提取原始时间序列的特征图片集合,特征图片集合中包括至少一个特征图片;提取到原始时间序列的特征图片集合后,检测设备可以通过训练后的缺陷检测模型对特征图片集合中的各个特征图片进行检测,获得各个特征图片的检测结果,进而根据各个特征图片的检测结果,获得待检测的音频文件的检测结果,其中,若特征图片的检测结果指示该特征图片存在缺陷,则检测结果包括缺特征图片的缺陷位置和缺陷类型,进而检测设备可以根据各个特征图片的检测结果,在确定待检测的音频文件存在缺陷的情况下,进一步确定待检测的音频文件的缺陷类型和缺陷在待检测的音频文件中出现的位置。
[0008] 在一种实现方式中,获取待检测的音频文件的原始时间序列,并提取原始时间序列的特征图片集合的具体实施方式为:对原始时间序列进行频域处理,获得原始时间序列对应的频谱特征,频谱特征为复数值集合;对复数值集合进行运算,获得复数值集合对应的频谱增益集合;根据采样率和快速傅里叶变换长,计算频域帧长;根据频谱增益集合和频域帧长,获得特征图片集合。
[0009] 在一种实现方式中,根据频谱增益集合和频域帧长,获得特征图片集合的具体实施方式为:以频域帧长为分割周期对频谱增益集合进行分割,获得至少一个频域特征集合;将目标频域特征集合转换为目标特征图片,获得特征图片集合,目标频域特征集合为至少一个频域特征集合中的任一频域特征集合,目标特征图片为至少一个特征图片中的一个特征图片。
[0010] 在一种实现方式中,根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果之前,获取缺陷音频文件的原始时间序列,并提取缺陷音频文件的原始时间序列的特征图片集合;对缺陷音频文件的特征图片集合中的缺陷数据进行标注,缺陷数据包括缺陷音频文件的缺陷位置和缺陷音频文件的缺陷类型;根据预设的检测算法搭建缺陷检测模型;将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型。
[0011] 在一种实现方式中,将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型之前,将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合关联存储。
[0012] 在一种实现方式中,训练后的缺陷检测模型包括训练得到的预测数据和训练得到的模型权重;根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果的具体实施方式为:对各个特征图片进行预处理,获得各个预处理后的特征图片;将各个预处理后的特征图片输入训练后的缺陷检测模型;根据训练得到的预测数据和训练得到的模型权重对各个预处理后的特征图片进行检测,获得检测结果。
[0013] 在一种实现方式中,预测数据包括预测缺陷类型和预测缺陷位置,预测缺陷类型是根据缺陷检测模型对缺陷音频文件的缺陷类型训练得到的,预测缺陷位置是根据缺陷检测模型对缺陷音频文件的缺陷位置训练得到的。
[0014] 在一种实现方式中,根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果的具体实施方式为:当各个特征图片的检测结果中的任一个检测结果指示检测结果对应的特征图片存在缺陷时,确定待检测的音频文件存在缺陷;当各个特征图片的检测结果均指示各个特征图片不存在缺陷时,确定待检测的音频文件不存在缺陷。
[0015] 第二方面,本发明实施例提供了一种检测设备,该设备具有实现第一方面所述的音频文件的缺陷检测方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。
[0016] 在一种实现方式中,该检测设备包括:获取单元、提取单元、检测单元、确定单元。其中,获取单元,用于获取待检测的音频文件的原始时间序列;提取单元,用于提取原始时间序列的特征图片集合,特征图片集合包括至少一个特征图片;检测单元,用于根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果,检测结果指示特征图片是否存在缺陷,当检测结果指示特征图片存在缺陷时,检测结果包括特征图片的缺陷位置和缺陷类型;确定单元,用于根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。
[0017] 第三方面,本发明实施例提供了一种检测设备,该检测设备包括存储器和处理器,其中,存储器,用于存储计算机程序;处理器,调用存储器中存储的计算机程序,用于执行上述第一方面所述的音频文件的缺陷检测方法。
[0018] 第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储为检测设备所用的计算机程序,其包含用于执行上述第一方面所涉及的程序指令。
[0019] 在本发明实施例中,检测设备对音频文件的原始时间序列进行特征转换,转换为特征图片集合,将对音频文件的原始时间序列的检测转换为对特征图片集合中的各个特征图片的检测,可以在确定音频文件存在缺陷的前提下,进一步确定缺陷的种类和缺陷在音频文件中出现的位置;同时,对特征图片集合中的各个特征图片进行检测的模型,是检测设备通过缺陷音频文件的缺陷数据对缺陷检测模型训练得到的,检测设备使用SSD算法和深度学习框架搭建缺陷检测模型,可以有效提高对音频文件进行缺陷检测时的准确率。附图说明
[0020] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1为本发明实施例提供的一种音频文件的缺陷检测方法的流程示意图;
[0022] 图2为本发明实施例提供的另一种音频文件的缺陷检测方法的流程示意图;
[0023] 图3为本发明实施例提供的一种缺陷音频文件的特征图片的示意图;
[0024] 图4为本发明实施例提供的一种检测设备的结构示意图;
[0025] 图5为本发明实施例提供的一种检测设备的结构示意图。

具体实施方式

[0026] 下面结合本发明实施例中的附图对本发明实施例进行描述。
[0027] 目前,在媒体播放器(例如QQ音乐播放器)中存在大量缺陷音频文件,同时缺陷音频文件也在源源不断地上传至媒体播放器。缺陷音频文件的缺陷种类繁多,例如,缺陷音频文件的种类有噪声类(例如喀嚓声、突发噪声、直流偏置、电流声、嘶声)、静音类(例如短空白、长空白)、品质类(假双声道、频谱过低)、音量类(例如音量过大、音量过小、长溢出)等等,这些缺陷通过人主观感受很容易辨别,缺陷音频文件的存在降低了媒体播放器中的音频质量,因此,需要对媒体播放器中以及即将上传至媒体播放器的音频文件进行检测,以便于从媒体播放器中挑选出缺陷音频文件,同时阻止缺陷音频文件上传至媒体播放器,以提升媒体播放器的音频质量。
[0028] 一般采用基于数字信号处理的方式对音频文件进行缺陷检测,具体实施方式为:提取音频文件的有关特征,以频域特征为主,其他特征(例如时域特征)为辅;根据人工设置的特征阈值对音频文件的有关特征进行检测,以判断该音频文件是否存在缺陷。在采用基于数字信号处理的方式对音频文件进行缺陷检测的过程中,提取音频文件的有关特征时,通过对音频文件进行频域变换和时域变换,能够提取到的音频文件的有关特征是有限的,进而根据人工设置的特征阈值对音频文件的有关特征进行检测时获得的检测结果也是有限的。通过该方式只能判断音频文件是否存在缺陷,而不能进一步确定缺陷的种类,也不能确定缺陷在音频文件中出现的位置。
[0029] 为了解决上述问题,本发明实施例对音频文件的原始时间序列进行特征转换,转换为特征图片,将对音频文件的原始时间序列的检测转换为对特征图片的检测。本发明实施例将针对图片的目标检测算法应用于对音频文件的特征图片的检测,并且使用深度学习的方式对音频文件的特征图片进行检测,提出了一种音频文件的缺陷检测方法及相关设备。
[0030] 其中,本发明实施例使用的目标检测算法为单帧检测器(Single Shot Detector,SSD)算法,SSD算法是机器视觉中目标检测领域优秀的算法,是一种直接预测目标类别和边界框的算法,该算法主要的网络结构基于传统的图像分类网络,例如VGG,ResNet等,本发明实施例对此不作限定;本发明实施例使用的深度学习框架为TensorFlow,TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(Machine Learning,ML)算法的编程实现。
[0031] 通过本发明实施例,可以将音频文件的原始时间序列转换为特征图片集合,将对音频文件的原始时间序列的检测转换为对音频文件的原始时间序列对应的特征图片集合中的各个特征图片的检测,在使用SSD算法对特征图片进行检测的过程中,可以在确定音频文件存在缺陷的前提下,进一步确定缺陷的种类和缺陷在音频文件中出现的位置,提高了检测结果的准确率和召回率,从而媒体播放器可以根据检测结果挑选出媒体播放器中的缺陷音频文件,同时阻止缺陷音频文件上传至媒体播放器。
[0032] 请参见图1,图1是本发明实施例提供的一种音频文件的缺陷检测方法的流程示意图,该方法包括但不限于如下步骤:
[0033] 步骤S101:检测设备获取待检测的音频文件的原始时间序列。
[0034] 具体的,检测设备可以获取媒体播放器中待检测的音频文件的原始时间序列,也可以获取待上传至媒体播放器的待检测的音频文件的原始时间序列,获取到待检测的音频文件的原始时间序列后,检测设备可以对获取到的待检测的音频文件的原始时间序列进行检测,获得检测结果。
[0035] 在一种实现方式中,检测设备可以为媒体服务器,媒体服务器可以向媒体播放器获取媒体播放器中待检测的音频文件的原始时间序列,也可以向媒体播放器获取待上传至媒体播放器的待检测的音频文件的原始时间序列,媒体服务器可以对获取到的待检测的音频文件进行检测,获得检测结果后,媒体服务器可以将检测结果发送至媒体播放器。
[0036] 可选的,检测设备也可以为媒体播放器,媒体播放器可以获取媒体服务器中待检测的音频文件的原始时间序列,也可以获取待上传至媒体服务器的待检测的音频文件的原始时间序列,媒体播放器可以对获取到的待检测的音频文件进行检测,获得检测结果后,媒体播放器可以将检测结果发送至媒体服务器。
[0037] 可选的,检测设备还可以为计算机、手机、车载终端等设备,本发明实施对此不作限定,计算机、手机、车载终端等设备可以获取媒体播放器中待检测的音频文件的原始时间序列,也可以获取待上传至媒体播放器的待检测的音频文件的原始时间序列,并对获取到的待检测的音频文件的原始时间序列进行检测,获得检测结果。
[0038] 步骤S202:检测设备提取原始时间序列的特征图片集合。
[0039] 具体的,检测设备获取到待检测的音频文件的原始时间序列后,可以提取原始时间序列的特征图片集合,原始时间序列的特征图片集合可以包括至少一个特征图片,检测设备提取原始时间序列的特征图片集合的实施方式可以为:检测设备使用高通滤波器对待检测的音频文件的原始时间序列进行滤波处理,滤除低频干扰信号,获得滤波后的原始时间序列;检测设备对滤波后的原始时间序列进行频域处理,获得原始时间序列对应的频谱特征,频谱特征为复数值集合;检测设备对复数值集合进行运算,获得复数值集合对应的频谱增益集合;检测设备根据采样率和快速傅里叶变换帧长,计算频域帧长;检测设备根据频谱增益集合和频域帧长,获得特征图片集合。
[0040] 具体的,检测设备可以对滤波后的原始时间序列进行频域处理,获得滤波后的原始时间序列对应的频谱特征,频谱特征为复数值集合,具体实施方式可以为:检测设备使用梅尔滤波器组(Mel-Filter Banks)对滤波后的原始时间序列进行频域处理,获得滤波后的原始时间序列对应的Mel频谱特征,Mel频谱特征为复数值集合,滤波后的原始时间序列中,每一帧对应一个复数值,构成滤波后的原始时间序列对应的复数值集合,其中,梅尔滤波器组是一组非线性分布的滤波器组,它在低频部分分布密集,高频部分分布稀疏,这样的分布能够更好地满足人耳的听觉特性。例如,检测设备使用梅尔滤波器组对滤波后的原始时间序列进行频域处理,获得滤波后的原始时间序列对应的Mel频谱特征,Mel频谱特征为复数值集合S,S为{S1,S2,…,Sn},即滤波后的原始时间序列包括n帧,每一帧对应一个复数值,复数值集合包含n个复数值,需要说明的是,复数值集合包含n个复数值仅用于示例,并不构成对本发明实施例的限定,复数值S1为(a,b),复数值S1为(a,b)表示实部为a,虚部为b的一个Mel频谱特征。
[0041] 具体的,检测设备可以对复数值集合进行运算,获得复数值集合对应的频谱增益集合,具体实施方式可以为:检测设备根据公式“10×log10(S'/ref)”对滤波后的原始时间序列对应的Mel频谱特征即复数值集合中的每一个复数值进行运算,获得复数值集合对应的频谱增益集合,由滤波后的原始时间序列包括n帧,每一帧对应一个复数值可知,滤波后的原始时间序列中的每一帧对应一个频谱增益,构成滤波后的原始时间序列对应的频谱增益集合,其中,S'为复数值集合中的每一个复数值的模的平方,ref为复数值集合中的复数值的最大值。例如,滤波后的原始时间序列对应的Mel频谱特征即复数值集合S为{S1,S2,…,Sn},则复数值集合对应的频谱增益集合db为{db1,db2,…,dbn},复数值S1与频谱增益db1对应,复数值S2与频谱增益db2对应等等,复数值S1为(a,b),复数值集合S中的复数值的最大值为c,检测设备根据公式“10×log10(S'/ref)”对复数值S1进行计算,获得复数值S1对应的频谱增益db1为“10×log10((a2+b2)/c)”。
[0042] 具体的,检测设备可以根据采样率和快速傅里叶变换帧长,计算频域帧长,具体实施方式可以为:采样率为d,快速傅里叶变换帧长为e,截取时间为f,检测设备根据公式“floor((f×d)/e)”,对采样率、截取时间、快速傅里叶变换帧长进行运算,获得频域帧长。其中,floor表示对公式“(f×d)/e”计算得到的值向下取整的结果。例如,采样率为45帧每秒,快速傅里叶变换帧长为3帧,截取时间为1秒,检测设备根据公式“floor((f×d)/e)”计算得到的频域帧长为15。
[0043] 具体的,检测设备可以根据频谱增益集合和频域帧长,获得特征图片集合,具体实施方式可以为:检测设备以频域帧长为分割周期对所述频谱增益集合进行分割,获得至少一个频域特征集合;检测设备将目标频域特征集合转换为目标特征图片,获得特征图片集合,目标频域特征集合为至少一个频域特征集合中的任意一个频域特征集合,目标特征图片为至少一个特征图片中的一个特征图片,其中,检测设备通过colormap函数将目标频域特征集合转化为目标特征图片。例如,检测设备对复数值集合中的每一个复数值进行运算后,获得复数值集合对应的频谱增益集合,频谱增益集合中包括300个频谱增益,即滤波后的原始时间序列包括300帧,根据采样率45帧每秒和快速傅里叶变换帧长3帧,按照1秒的截取时间计算得到的频域帧长为15,以频域帧长15为分割周期,对频谱增益集合进行分割,以第1-15帧对应的频谱增益构成的集合为第一频域特征集合,以第16-30帧对应的频谱增益构成的集合为第二频谱特征集合,以第31-45帧对应的频谱增益构成的集合为第三频域特征集合等等,获得至少一个频域特征集合;检测设备通过colormap函数将第一频域特征集合转化为第一特征图片,将第二频域特征集合转化为第二特征图片,将第三频域特征集合转化为第三特征图片等等,获得滤波后的原始时间序列对应的特征图片集合。
[0044] 通过这种方式,检测设备将待检测的音频文件的原始时间序列转换为对应的特征图片集合,在对待检测的音频文件的原始时间序列进行检测的过程中,除对待检测的音频文件的原始时间序列的时域特征和频域特征进行检测外,还可以对待检测的音频文件的原始时间序列对应的特征图片进行检测,通过对待检测的音频文件的原始时间序列进行多种方式的检测,可以获取到个更加多样的检测结果。
[0045] 步骤S203:检测设备根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果。
[0046] 具体的,检测设备获得待检测的音频文件的原始时间序列对应的各个特征图片后,可以根据训练后的缺陷检测模型对各个特征图片进行检测,获得各个特征图片的检测结果,其中,缺陷检测模型的训练过程请参见图2所示实施例的具体描述,本发明实施例不再赘述。
[0047] 在一种实现方式中,训练后的缺陷检测模型可以包括训练得到的预测数据和训练得到的模型权重,检测设备根据训练后的缺陷检测模型对各个特征图片进行检测的具体实施方式可以为:检测设备对各个特征图片进行预处理,获得各个预处理后的特征图片,其中,检测设备对各个特征图片进行预处理的方式可以为调整特征图片的大小、随机变换特征图片的色彩、对特征图片进行随机翻转等等,本发明实施例对此不作限定;检测设备可以将各个预处理后的特征图片输入训练后的缺陷检测模型;检测设备可以根据训练得到的预测数据和训练得到的模型权重对预处理后的特征图片进行检测,获得检测结果,检测结果指示各个特征图片是否存在缺陷,当检测结果指示各个特征图片存在缺陷时,检测结果可以包括各个特征图片的缺陷位置和缺陷类型。
[0048] 其中,预测数据包括预测缺陷类型和预测缺陷位置,预测缺陷类型是根据缺陷检测模型对缺陷音频文件的缺陷类型训练得到的,预测缺陷位置是根据缺陷检测模型对所述缺陷音频文件的缺陷位置训练得到的。
[0049] 通过这种方式,检测设备可以将待检测的音频文件的原始时间序列对应的特征图片集合输入训练后的缺陷检测模型,根据训练后的缺陷检测模型,对特征图片集合中的各个特征图片进行检测,获得对各个特征图片的检测结果,该检测结果不仅可以指示各个特征图片是否存在缺陷,还可以指示存在缺陷的特征图片的缺陷位置和缺陷类型。
[0050] 步骤S204:检测设备根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。
[0051] 具体的,检测设备可以根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果,当各个特征图片的检测结果中的任意一个检测结果指示该检测结果对应的特征图片存在缺陷时,确定待检测的音频文件存在缺陷;当各个特征图片的检测结果均指示各个特征图片不存在缺陷时,确定待检测的音频文件不存在缺陷。
[0052] 在一种实现方式中,检测设备可以为媒体服务器,媒体服务器将待检测的音频文件的检测结果发送至媒体播放器,媒体播放器可以根据检测结果对待检测的音频文件进行处理,若媒体服务器确定该待检测的音频文件存在缺陷,则媒体播放器将该待检测的音频文件从媒体播放器中删除或阻止该待检测的音频文件上传至媒体播放器;若媒体服务器确定该待检测的音频文件不存在缺陷,则媒体播放器将该待检测的音频文件在媒体播放器中保留或将该待检测的音频文件上传至媒体播放器。
[0053] 可选的,检测设备也可以为媒体播放器,媒体播放器将检测结果发送至媒体服务器,媒体服务器可以根据检测结果对待检测的音频文件进行处理,若媒体播放器确定该待检测的音频文件存在缺陷,则媒体服务器将该待检测的音频文件从媒体服务器中删除或阻止该待检测的音频文件上传至媒体服务器;若媒体播放器确定该待检测的音频文件不存在缺陷,则媒体服务器将该待检测的音频文件在媒体服务器中保留或将该待检测的音频文件上传至媒体服务器。
[0054] 可选的,检测设备还可以为计算机、手机、车载终端等设备,本发明实施对此不作限定,计算机、手机、车载终端等设备将待检测的音频文件的检测结果发送至媒体播放器,媒体播放器可以根据检测结果对待检测的音频文件进行处理,若计算机、手机、车载终端等设备确定该待检测的音频文件存在缺陷,则媒体播放器将该待检测的音频文件从媒体播放器中删除或阻止该待检测的音频文件上传至媒体播放器;若计算机、手机、车载终端等设备确定该待检测的音频文件不存在缺陷,则媒体播放器将该待检测的音频文件在媒体播放器中保留或将该待检测的音频文件上传至媒体播放器。
[0055] 通过本发明实施例,检测设备获取到待检测的音频文件的原始时间序列后,可以提取原始时间序列的特征图片集合,将对待检测的音频文件的原始时间序列的检测,转换为对提取到的原始时间序列的特征图片集合的检测,若待检测的音频文件为缺陷音频文件,则提取到的原始时间序列的特征图片集合中包括缺陷数据,检测设备对该原始时间序列的特征图片集合的检测结果不仅可以指示该待检测的音频文件为缺陷音频文件,还可以指示该待检测的音频文件中的缺陷类型和缺陷在音频文件中出现的位置。
[0056] 请参见图2,图2是本发明实施例提供的另一种音频文件的缺陷检测方法的流程示意图,该方法包括但不限于如下步骤:
[0057] 步骤S201:检测设备获取缺陷音频文件的原始时间序列。
[0058] 本发明实施例步骤S201中检测设备获取缺陷音频文件的原始时间序列的执行过程与图1所示实施例步骤S101中检测设备获取待检测的音频文件的原始时间序列的执行过程相同,具体执行过程可参见图3所示实施例中步骤S101的具体描述,本发明实施例不再赘述。
[0059] 步骤S202:检测设备提取缺陷音频文件的原始时间序列的特征图片集合。
[0060] 本发明实施例步骤S202中检测设备提取缺陷音频文件的原始时间序列的特征图片集合的执行过程与图1所示实施例步骤S101中检测设备提取原始时间序列的特征图片集合的执行过程相同,具体执行过程可参见图1所示实施例中步骤S101的具体描述,本发明实施例不再赘述。
[0061] 步骤S203:检测设备对缺陷音频文件的特征图片集合中的缺陷数据进行标注。
[0062] 具体的,检测设备获取到缺陷音频文件的原始时间序列,并提取缺陷音频文件的原始时间序列的特征图片集合后,可以从缺陷音频文件的特征图片集合中挑选出有缺陷的特征图片,并对有缺陷的特征图片的的缺陷数据进行标注,其中,缺陷数据可以包括缺陷音频文件的缺陷位置和缺陷音频文件的缺陷类型,缺陷音频文件的缺陷位置可以包括缺陷左上点的坐标位置(xmin,ymin)和右下角点的坐标位置(xmax,ymax),缺陷音频文件的缺陷类型可以包括噪声类、静音类、品质类、音量类等等,本发明实施例对此不做限定,不同类别的缺陷在特征图片中的特征不同。
[0063] 如图3所示,图3为本发明实施例提供的一种缺陷音频文件的特征图片的示意图,图3所示的特征图片为缺陷特征图片,两个长方形框框住的部分为缺陷特征图片的缺陷数据,第一个缺陷数据包括缺陷左上角点的坐标位置(xmin1,ymin1)、缺陷右下角点的坐标位置(xmax1,ymax1)和缺陷类型“噪声类”,第二个缺陷数据包括缺陷左上角点的坐标位置(xmin2,ymin2)、缺陷右下角点的坐标位置(xmax2,ymax2)和缺陷类型“品质类”。
[0064] 步骤S204:检测设备根据预设的检测算法搭建缺陷检测模型。
[0065] 具体的,检测设备获取缺陷音频文件的原始时间序列,提取缺陷音频文件的原始时间序列的特征图片集合并对缺陷音频文件的特征图片集合中的缺陷数据进行标注后,可以根据预设的检测算法搭建缺陷检测模型。
[0066] 在一种实现方式中,预设的检测算法可以为SSD算法,检测设备根据SSD算法搭建缺陷检测模型的具体实现方式可以为:检测设备使用卷积神经网络(Convolutional Neural Networks,CNN)单元搭建基于SSD算法的缺陷检测模型的主要网络结构;检测设备定义目标损失函数,在之后的训练过程中,检测设备可以通过梯度下降算法最小化该目标损失函数,从而学习和训练卷积神经网络中的权重,并将学习得到的最优权重作为训练得到的模型权重。
[0067] 步骤S205:检测设备将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型。
[0068] 具体的,检测设备根据预设的检测算法搭建缺陷检测模型后,检测设备可以将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型,其中,预测数据包括预测缺陷类型和预测缺陷位置,预测缺陷类型是根据缺陷检测模型对缺陷音频文件的缺陷类型训练得到的,预测缺陷位置是根据所述缺陷检测模型对所述缺陷音频文件的缺陷位置训练得到的。
[0069] 在一种实现方式中,检测设备在将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型之前,检测设备可以使用深度学习框架将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合关联存储,以便于在训练过程中,检测设备可以按照批量大小将关联存储的缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合一起输入缺陷检测模型,其中,深度学习框架可以为TensorF low。例如,检测设备在将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型之前,可以将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合按照protocol的通用协议格式tfrecord关联存储,以便于在训练过程中,检测设备可以按照批量大小将按照protocol的通用协议格式tfrecord关联存储的缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合一起输入缺陷检测模型。
[0070] 通过这种方式,检测设备将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合按照protocol的通用协议格式tfrecord关联存储,可以使得在对缺陷检测模型进行训练的过程中,更加方便地按照批量大小将关联存储的数据输入缺陷检测模型。
[0071] 在一种实现方式中,在将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练的过程中,可以通过调节缺陷检测模型中的超参数,使得缺陷检测模型中的模型权重得到充分地学习和训练,其中,缺陷检测模型中的超参数可以为学习率、训练样本数量、批量大小、得分阈值或IOU阈值等等,本发明实施例对此不做限定。
[0072] 通过这种方式,检测设备在将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练的过程中,可以通过调节模型中的超参数,使得陷检测模型中的模型权重得到充分地学习和训练,以获得最优缺陷检测模型,以便在使用该最优缺陷检测模型对待检测的音频文件进行检测时,获得更加准确地检测结果。
[0073] 通过本发明实施例,检测设备可以获取缺陷音频文件的原始时间序列,提取缺陷音频文件的原始时间序列的特征图片集合,对缺陷音频文件的特征图片集合中的缺陷位置和缺陷类型进行标注,并基于深度学习框架、SSD算法,对缺陷音频文件的缺陷位置和缺陷类型进行训练,获得训练后的缺陷检测模型。
[0074] 请参见图4,图4是本发明实施例提供的一种检测设备的结构示意图,该检测设备40用于执行图1-图2对应的方法实施例中检测设备所执行的步骤,该检测设备40可包括:
[0075] 获取单元401,用于获取待检测的音频文件的原始时间序列;
[0076] 提取单元402,用于提取原始时间序列的特征图片集合,特征图片集合包括至少一个特征图片;
[0077] 检测单元403,用于根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果,检测结果指示特征图片是否存在缺陷,当检测结果指示特征图片存在缺陷时,检测结果包括特征图片的缺陷位置和缺陷类型;
[0078] 确定单元404,用于根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。
[0079] 在一种实现方式中,该检测设备40还可以包括:
[0080] 处理单元405,用于对原始时间序列进行频域处理,获得原始时间序列对应的频谱特征,频谱特征为复数值集合;
[0081] 计算单元406,用于对复数值集合进行运算,获得复数值集合对应的频谱增益集合;
[0082] 计算单元406,还用于根据采样率和快速傅里叶变换帧长,计算频域帧长。
[0083] 在一种实现方式中,该检测设备40还可以包括:
[0084] 处理单元405,还用于以频域帧长为分割周期对频谱增益集合进行分割,获得至少一个频域特征集合;
[0085] 转换单元407,用于将目标频域特征集合转换为目标特征图片,获得特征图片集合,目标频域特征集合为至少一个频域特征集合中的任一频域特征集合,目标特征图片为至少一个特征图片中的一个特征图片。
[0086] 在一种实现方式中,该检测设备40还可以包括:
[0087] 获取单元401,还用于获取缺陷音频文件的原始时间序列;
[0088] 提取单元402,还用于提取缺陷音频文件的原始时间序列的特征图片集合;
[0089] 标注单元408,用于对缺陷音频文件的特征图片集合中的缺陷数据进行标注,缺陷数据包括缺陷音频文件的缺陷位置和缺陷音频文件的缺陷类型;
[0090] 搭建单元409,用于根据预设的检测算法搭建缺陷检测模型;
[0091] 训练单元410,用于将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合输入缺陷检测模型,对缺陷检测模型进行训练,获得训练后的缺陷检测模型。
[0092] 在一种实现方式中,该检测设备40还可以包括:
[0093] 存储单元411,用于将缺陷音频文件的缺陷位置、缺陷音频文件的缺陷类型和缺陷音频文件的特征图片集合关联存储。
[0094] 在一种实现方式中,该检测设备40还可以包括:
[0095] 处理单元405,还用于对各个特征图片进行预处理,获得各个预处理后的特征图片;
[0096] 检测单元403,具体用于根据训练得到的预测数据和训练得到的模型权重对各个预处理后的特征图片进行检测,获得检测结果。
[0097] 需要说明的是,图4对应的实施例中未提及的内容以及各个单元执行步骤的具体实现方式可参见图1-图2所示实施例以及前述内容,这里不再赘述。
[0098] 在一种实现方式中,图4中的各个单元所实现的相关功能可以结合处理器与存储器来实现。参见图5,图5是本发明实施例提供的一种检测设备的结构示意图,该检测设备50包括处理器501和存储器502,所述处理器501和所述存储器502通过一条或多条通信总线连接。
[0099] 处理器501被配置为支持检测设备50执行图1-图2所述方法中检测设备相应的功能。该处理器501可以是中央处理器(Central Processing Unit,CPU),网络处理器(Network Processor,NP),硬件芯片或者其任意组合。
[0100] 存储器502用于存储程序代码等。存储器502可以包括易失性存储器(volatile memory),例如随机存取存储器(Random Access Memory,RAM);存储器602也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器602还可以包括上述种类的存储器的组合。
[0101] 处理器501可以调用存储器502中存储的程序代码以执行以下操作:
[0102] 获取待检测的音频文件的原始时间序列,并提取原始时间序列的特征图片集合,特征图片集合包括至少一个特征图片;
[0103] 根据训练后的缺陷检测模型,对各个特征图片进行检测,获得各个特征图片的检测结果,检测结果指示特征图片是否存在缺陷,当检测结果指示特征图片存在缺陷时,检测结果包括特征图片的缺陷位置和缺陷类型;
[0104] 根据各个特征图片的检测结果,确定对待检测的音频文件的检测结果。
[0105] 进一步地,处理器501还可以与存储器502相配合,执行图1-图2所示实施例中检测设备对应的操作,具体可参见方法实施例中的描述,在此不再赘述。
[0106] 本发明实施例还提供一种计算机可读存储介质,可以用于存储图5所示实施例中检测设备50中处理器501所调用的计算机程序指令,其中包含用于执行上述实施例中为检测设备所设计的程序。
[0107] 上述计算机可读存储介质包括但不限于快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD),固态硬盘(Solid-State Drive,SSD)。
[0108] 本发明实施例中还提供一种计算机程序产品,该计算机程序产品被计算机设备运行时,可以执行上述图1-图2实施例中为检测设备所设计的音频文件的缺陷检测方法。
[0109] 本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
专业技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0110] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL)等)或无线(例如红外、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
[0111] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈