首页 / 技术领域 / 音频分类 / 专利数据
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
141 利用使用音频持续时间的机器学习模型进行的音频分类 CN201780085711.5 2017-04-28 CN110249320A 2019-09-17 S·巴里塔卡; M·S·阿瑟瑞亚
一种音频信号分类器,所述音频信号分类器包括用于从音频信号中提取元数据的特征提取器,所述元数据定义所述音频信号的多个特征,所述特征提取器用于生成包括所述音频信号的所选择的特征的特征向量,所选择的特征包括所述音频信号的持续时间,并且每个所选择的特征具有特征值。一种机器学习模型,所述机器学习模型被训练成基于所述特征向量将所述音频信号分类为多个音频信号类别中的一个音频信号类别。所述机器学习模型用于基于所述特征值提供多个类别值,每个类别值与所述多个音频信号类别中的一个音频信号类别相对应,所述多个类别值共同指示所述音频信号的类别。
142 从单音音频信号分离音频信源的神经网络分类器 CN200680041405.3 2006-10-03 CN101366078A 2009-02-11 D·V·施穆克
发明提供了一种神经网络分类器,其可以对下混合到单一单音音频信号的多个任意且预先未知的音频信源进行分离和分类。这是通过将该单音音频信号分离成多个基线(可能交叠),对这些帧加窗,提取每帧内的多个描述性特征,以及采用预训练的非线性神经网络作为分类器来实现的。每个神经网络输出表明单音音频信号的每个基线帧内的预定类型的音频信源的存在。神经网络分类器非常适于广泛变化的信号和信源参数、信源的时域和频域交叠以及实际生活信号中的回响和遮挡。分类器输出能够用作前端以形成多个音频信道用于源分离算法(例如,ICA)或用作后处理算法的参数(例如,对音乐进行分类,跟踪信源,为导航目的产生音频索引,以及重新混合安全性和监控、电话和无线通信以及电视会议)。
143 一种音频分类模型的训练和垃圾音频识别方法和装置 CN202010746077.9 2020-07-29 CN111816170A 2020-10-23 周立峰; 姚泽平; 李雨珂; 杨卫强; 朱浩齐
申请公开了一种音频分类模型的训练和垃圾音频识别方法和装置,属于人工智能技术领域,该方法包括,获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络控递归单元和注意机制构建的音频分类模型;分别提取每一音频样本片段的音频特征向量;基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型。接收针对待识别音频的识别请求;根据识别请求,将待识别音频进行切分,获得多个音频片段;采用音频分类模型,分别识别出每一音频片段的第一音频类别;基于各音频片段的第一音频类别,获得待识别音频的识别结果。这样,降低了人力成本和时间成本,提高了音频审核效率。
144 音频的特征提取方法、音频的分类方法和相关装置 CN201310255746.2 2013-06-24 CN104240719B 2018-01-12 谢志明; 潘晖; 潘石柱; 张兴明; 傅利泉; 朱江明; 吴军; 吴坚
发明公开了一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。该方法包括:获得音频,并针对获得的每个音频执行下述操作:按照预先设置的分规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。
145 音频的特征提取方法、音频的分类方法和相关装置 CN201310255746.2 2013-06-24 CN104240719A 2014-12-24 谢志明; 潘晖; 潘石柱; 张兴明; 傅利泉; 朱江明; 吴军; 吴坚
发明公开了一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。该方法包括:获得音频,并针对获得的每个音频执行下述操作:按照预先设置的分规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。
146 应用于音频监控的音频场景分类方法、装置以及设备 CN202011506902.4 2020-12-18 CN112562727B 2024-04-26 黄真明; 陆春亮; 王毅
发明公开了一种应用于音频监控的音频场景分类方法、装置以及设备,本发明的构思在于针对现有音频场景分类方式耗时且浪费资源的问题,从两个方面解决,一方面是基于处理时效性,实时针对每一个音频分段进行质量研判,保证只对有效音频片段进行检测,并且是以音频片段作为处理单位,一旦检测出分类结果便终止对其他可用片段的处理,这样可以大幅减少不必要的检测过程;另一方面,利用RNN架构的特点在场景类型检测过程中无需再保存各音频片段的信息,仅需要将前一步处理结果作为后续处理的输入,这样可以充分节约资源空间。由此可见,本发明既能够保证处理时效,又能够使系统轻量化,从而可以灵活适用于各种规模的音频监控应用环境。
147 一种音频分类模型的训练和垃圾音频识别方法和装置 CN202010746077.9 2020-07-29 CN111816170B 2024-01-19 周立峰; 姚泽平; 李雨珂; 杨卫强; 朱浩齐
申请公开了一种音频分类模型的训练和垃圾音频识别方法和装置,属于人工智能技术领域,该方法包括,获取多个音频样本片段和相应的音频类别标签,以及基于卷积神经网络,控递归单元和注意机制构建的音频分类模型;分别提取每一音频样本片段的音频特征向量;基于各音频特征向量和相应的音频类别标签,对音频分类模型进行训练,获得训练好的音频分类模型。接收针对待识别音频的识别请求;根据识别请求,将待识别音频进行切分,获得多个音频片段;采用音频分类模型,分别识别出每一音频片段的第一音频类别;基于各音频片段的第一音频类别,获得待识别音频的识别结果。这样,降低了人力成本和时间成本,提高了音频审核效率。
148 音频分类方法、音频搜索方法、计算机设备和程序产品 CN202210899320.X 2022-07-28 CN115269909A 2022-11-01 陆劲鸿
申请涉及一种音频分类方法、音频搜索方法、计算机设备和计算机程序产品。通过基于曲库中所有歌曲的音频特征将曲库中歌曲进行聚类处理得到多个歌曲分组,在多个分组中确定存在目标歌曲的第一目标歌曲分组和第二目标歌曲分组,分别获取目标歌曲与第一目标歌曲分组中标准歌曲的第一相似度和目标歌曲与第二目标歌曲分组中标准歌曲的第二相似度,基于第一相似度和第二相似度对第一目标歌曲分组和第二目标歌曲分组重新分组。相较于传统的根据音频交集进行合并的方式,本方案通过基于目标歌曲在其所在的各个目标歌曲分组中各自的相似度对第一目标歌曲分组和第二目标歌曲分组进行重新分组,令在搜索时减少推送重复音频,提高了音频分类的准确度。
149 一种人声音频识别模型训练方法、音频分类方法和系统 CN202011436155.1 2020-12-10 CN112397075A 2021-02-23 贾杨; 夏龙; 吴凡; 张金阳; 张兆元; 郭常圳
申请提供一种人声音频识别模型训练方法、音频分类方法和系统。其中,人声音频识别模型训练方法,包括:获得训练音频中的子音频的时频二维图,并作为神经网络的输入得到子音频属于特定分类的概率值;利用所述子音频属于特定分类的概率值与预设的子音频的分类优化神经网络参数,使神经网络得到的子音频所述属于特定分类的概率值向所述预设的子音频分类收敛。采用本发明提供的方法能够识别人声音频的分类。
150 一种音频特征提取方法和装置、训练方法及音频分类方法 CN201911057463.0 2019-10-31 CN110853671A 2020-02-28 陈英博
发明公开了一种音频特征提取方法和装置、训练方法及音频分类方法,提取方法包括:按照预设的窗口长度获取待提取音频;待提取音频包括M音频帧;计算每一音频帧对应的频谱,并对每一频谱进行分析,获得每一音频帧对应的基频;计算每一基频的k倍频率;根据每一音频帧对应的所述k倍频率和频谱,确定每一音频帧对应的k倍频率点;根据每一k倍频率点和预设的局部半径,从每一频谱中确定每一音频帧对应的特征频率点;将每一特征频率点对应的频率作为每一音频帧对应的特征频率,并根据M帧音频帧对应的特征频率,提取出待提取音频的音频特征。本发明能够提取出反映音频的周期性特点的音频特征,能用于对具有周期性特点的音频进行识别或分类。
151 基于音频信号特性分类的无参考音频质量评价方法和系统 CN201410196690.2 2014-05-09 CN103957216B 2017-10-03 胡瑞敏; 杨玉红; 王衍业; 谢松波; 董少龙; 余洪江; 高丽; 王晓晨; 涂卫平; 高戈
发明提供了一种基于音频信号特性分类的无参考音频质量评价方法和系统,包括步骤:步骤1,基于有参考音频质量评价模型建立训练模型,采用机器学习获取不同类型音频信号的音频质量与网络参数的关系,即无参考音频质量评价模型;步骤2,在音频信号网络传输中,将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型,获得当前音频质量。本发明对不同类型信号采用不同的质量评价关系式进行质量评价,能更真实地反映用户体验。
152 基于音频信号特性分类的无参考音频质量评价方法和系统 CN201410196690.2 2014-05-09 CN103957216A 2014-07-30 胡瑞敏; 杨玉红; 王衍业; 谢松波; 董少龙; 余洪江; 高丽; 王晓晨; 涂卫平; 高戈
发明提供了一种基于音频信号特性分类的无参考音频质量评价方法和系统,包括步骤:步骤1,基于有参考音频质量评价模型建立训练模型,采用机器学习获取不同类型音频信号的音频质量与网络参数的关系,即无参考音频质量评价模型;步骤2,在音频信号网络传输中,将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型,获得当前音频质量。本发明对不同类型信号采用不同的质量评价关系式进行质量评价,能更真实地反映用户体验。
153 一种基于原型分类器的完全小样本类别增量音频分类方法 CN202311755262.4 2023-12-19 CN117831570A 2024-04-05 李艳雄; 司永洁; 曹文昌; 李佳龙
发明公开了一种基于原型分类器的完全小样本类别增量音频分类方法,步骤如下:从输入音频样本提取对数梅尔谱;初始化自注意卷积神经网络,包括表征提取器、原型分类器和原型自适应模基础环节,采用小样本学习和伪增量情境训练方法分别训练表征提取器和原型自适应模块;从基础环节音频类别训练样本提取表征并计算同类别表征均值作为原型并更新原型分类器;在增量环节采用原型自适应模块先获取各增量类原型,然后对所有原型进行自适应调整,再更新原型分类器;测试时,采用所有已知类别测试样本评测模型性能。本发明方法在所有环节都采用小样本学习训练模型,利用较少的训练样本有效解决模型对增量类过拟合和对旧类遗忘的问题。
154 分类模型训练方法、音频分类方法、装置、介质及设备 CN202010255326.4 2020-04-02 CN111460214B 2024-04-19 王康; 何怡; 许凌
本公开涉及一种分类模型训练方法、音频分类方法、装置、介质及设备。所述方法包括:获取初始音频分类模型,所述初始音频分类模型基于属于常用语种的多个第一音频训练得到;获取属于非常用语种的多个第二音频,并确定每一所述第二音频的语言特征和所属语种;根据所述第二音频所属语种的总数,对所述初始音频分类模型中的全连接层进行设置,以获得中间音频分类模型;将所述第二音频的语言特征作为模型输入数据、并将所述第二音频所属语种作为模型输出数据,对所述中间音频分类模型进行训练,以获得目标音频分类模型。这样,能够提升对非常用语种识别、分类的准确性,解决非常用语种的少样本所导致的模型效果不佳、准确率低的问题。
155 分类模型生成方法、音频分类方法、装置、介质及设备 CN202310270885.6 2023-03-16 CN116364066A 2023-06-30 何珂鑫; 贾少勇; 何怡; 马泽君
本公开涉及一种分类模型生成方法、音频分类方法、装置、介质及设备。音频分类模型包括音频表征提取模和分类器,方法包括:获取新类音频样本和新类音频样本的参考类别;采用至少一个预训练模型中的每一预训练模型分别提取新类音频样本的第一音频表征;通过将新类音频样本作为音频表征提取模块的输入,将基于每一第一音频表征和音频表征提取模块输出的第二音频表征得到的拼接音频表征作为分类器的输入,将参考类别作为分类器的目标输出的方式进行模型训练,以得到音频分类模型。由此,可提升非常见音频分类任务的分类效果。分类模型的模型结构无需与预训练模型的模型结构保持一致,可采用最适合非常见音频的分类模型结构,进一步提升分类效果。
156 音频分类模型的训练方法、分类方法、装置及设备 CN202310237681.2 2023-03-03 CN116959429A 2023-10-27 冯鑫
申请公开了一种音频分类模型的训练方法、分类方法、装置及设备,涉及人工智能领域。包括:对样本音频进行特征提取,得到样本音频的样本音频特征;将样本音频特征输入音频分类模型进行n层分类,得到n个预测结果,其中,不同预测结果基于音频分类模型中不同分层输出的微元信息分类得到,n为正整数,且n≥2;对n个预测结果进行加权投票,得到音频预测标签,音频预测标签用于指示预测到的样本音频所属的类别;基于音频预测标签与样本音频对应的真实标签间的差异,训练音频分类模型。本申请实施例中,通过融合多个分层对应分类结果的方式,有助于提高音频分类的准确性。
157 分类模型训练方法、音频分类方法、装置、介质及设备 CN202010255326.4 2020-04-02 CN111460214A 2020-07-28 王康; 何怡; 许凌
本公开涉及一种分类模型训练方法、音频分类方法、装置、介质及设备。所述方法包括:获取初始音频分类模型,所述初始音频分类模型基于属于常用语种的多个第一音频训练得到;获取属于非常用语种的多个第二音频,并确定每一所述第二音频的语言特征和所属语种;根据所述第二音频所属语种的总数,对所述初始音频分类模型中的全连接层进行设置,以获得中间音频分类模型;将所述第二音频的语言特征作为模型输入数据、并将所述第二音频所属语种作为模型输出数据,对所述中间音频分类模型进行训练,以获得目标音频分类模型。这样,能够提升对非常用语种识别、分类的准确性,解决非常用语种的少样本所导致的模型效果不佳、准确率低的问题。
158 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法 CN200580030599.2 2005-11-22 CN101023467A 2007-08-22 大塚功; 雷古纳赞·拉达克里希南; 阿贾伊·迪瓦卡瑞恩
一种方法提炼多媒体内容的标记的训练数据音频分类。第一组音频分类器是利用具有对应于一组音频特征的标记的训练数据集的标记音频训练的。标记的训练数据集的每个音频帧利用该第一组音频分类器分类,以产生提炼后的训练数据集。第二组音频分类器是利用提炼后的训练数据集的音频帧获得的,且精彩部分是利用该第二组音频分类器从未标记的音频帧提取的。
159 基于剪枝蒸馏的低复杂度音频场景分类方法 CN202411497019.1 2024-10-24 CN119397475A 2025-02-07 钱彦旻; 韩冰
发明公开了一种基于剪枝蒸馏的低复杂度音频场景分类方法,该分类方法包括如下步骤:1.利用重参数技术构建Rep‑Mobile模型,将加入的不同形状的卷积核通过零值补全成原始3×3卷积核形状,通过等价转换将BatchNorm层中的线性映射合并至卷积核的偏置值,将不同的卷积核进行线性加和合并至一个主分支;2.利用多个教师模型融合蒸馏策略,对学生模型进行知识蒸馏,通过蒸馏损失和分类损失共同指导学生模型的优化;3.利用迭代剪枝策略,将单步剪枝压缩为多次小步,降低参数的间隔。本发明能够在不增加参数量和计算量的情况下,大幅提升分类准确率;实现计算资源节约、增强模型泛化能,模型大小显著减小且计算效率提升。
160 基于多头注意的弱监督音频分类方法及系统 CN202411022619.2 2024-07-29 CN118553266B 2024-10-11 姜兴华; 蒋泽锋; 王磊
发明公开了一种基于多头注意的弱监督音频分类方法及系统,属于音频处理和深度学习技术领域。获取智能外呼系统呼叫失败时的音频历史数据,并标注弱监督标签,再进行预处理,对预处理后的音频历史数据进行梅尔频谱计算,得到梅尔频谱表示,提取得到频谱中的局部模式和相关性,进行降采样,并加入预处理后的音频历史数据中每一音频数据的位置信息,得到中间输出;基于多头注意力机制网络和分类网络获得音频的分类结果;并对两个网络的参数更新,获得预训练的多头注意力机制网络和分类网络;利用获得的网络对待分类的音频进行分类,识别得到呼叫失败的原因。本发明可以根据具体需求进行调整和优化,适用于各种规模的音频处理任务。
QQ群二维码
意见反馈