241 |
一种不确定性引导的少样本类增量音频分类方法及装置 |
CN202411873452.0 |
2024-12-18 |
CN119811423A |
2025-04-11 |
许可乐; 徐齐胜; 高梓健; 朱谦; 冯大为; 丁博; 窦勇 |
本发明涉及一种不确定性引导的少样本类增量音频分类方法及装置。所述方法包括:采用掩码技术重构音频样本,生成掩码音频样本,通过特征提取器获取掩码音频样本的音频特征后,将音频特征输入至Dropout随机分类器获取预测矩阵。基于核范数评估预测矩阵的不确定性,以获取类别对应的重要性权重。将音频样本与新增音频样本输入至特征提取器进行音频特征提取,以通过随机分类器对提取的音频特征进行分类,输出当前样本类别对应的预测结果。根据重要性权重调整预测结果与音频样本之间的类别原型损失函数后,对随机分类器进行联合调优,得到优化的少样本类增量学习模型。采用本方法能够提高少样本量音频信号情况下的音频分类精度。 |
242 |
基于因果隐马尔可夫模型的音频分类方法及相关设备 |
CN202411664673.7 |
2024-11-20 |
CN119446193A |
2025-02-14 |
潘怡霖; 李佳冰; 张娅婷; 田卓然 |
本申请适用于人工智能技术领域,提供了一种基于因果隐马尔可夫模型的音频分类方法及相关设备,所述方法包括:通过Opensmile在预设音频数据集中提取各个音频数据的初始特征集;按预设规则对所述初始特征集进行筛选,得到预设目标特征集;根据所述目标特征集和与所述目标特征集对应的属性信息对预设因果隐马尔可夫模型进行训练,得到目标因果隐马尔可夫模型;通过Opensmile获取待识别音频数据的待识别特征集,并按所述预设规则对所述待识别特征集进行筛选,得到待识别目标特征集;将所述待识别目标特征集输入所述目标因果隐马尔可夫模型,得到与所述待识别音频数据对应的识别结果。 |
243 |
音频情感分类方法、装置、计算机设备及存储介质 |
CN202411374914.4 |
2024-09-29 |
CN119418723A |
2025-02-11 |
郑喜民; 蒋林轩; 舒畅; 陈又新 |
本发明公开了音频情感分类方法、装置、计算机设备及存储介质,涉及数据处理技术领域及金融科技领域,其中,通过获取待情感分类的目标音频数据;对所述目标音频数据进行特征提取,得到MFCC特征;计算所述MFCC特征的一阶导数和二阶导数,并将所述一阶导数和所述二阶导数与所述MFCC特征进行拼接,得到3D MFCC特征;基于所述3D MFCC特征,通过音频情感分类模型对所述目标音频数据进行情感分类。本发明通过先处理得到目标音频数据的3D MFCC特征,再通过音频情感分类模型对于3D MFCC特征的处理而实现对目标音频数据的情感分类,从而本发明可在保证音频情感分类准确性的同时,还可降低计算成本、提高处理效率。 |
244 |
音频分类方法、模型的训练方法、系统、设备和介质 |
CN202411316560.8 |
2024-09-20 |
CN119274581A |
2025-01-07 |
梁昌城 |
本发明涉及一种音频分类方法、模型的训练方法、系统、设备和介质。训练方法包括:获取扩展音频集和与之对应的音频标签集;将扩展音频集输入至训练好的原始模型,提取生成的参照原始类别标签和原始特征;将扩展音频集输入至扩展模型,提取生成的原始类别标签和/或新增类别标签以及与原始模型相同网络层生成的扩展特征;基于原始类别标签和参照原始类别标签的差异度,扩展特征和原始特征的差异度,原始类别标签、新增类别标签与音频标签集中对应音频标签的差异度,更新扩展模型的参数,并将训练好的扩展模型作为音频分类模型。本发明改善了扩展模型在学习新类别时可能出现的知识遗忘问题,同时增强了其对新增类别的学习能力。 |
245 |
使用HDMI音频元数据来执行源分类的装置、存储介质和方法 |
CN202080052514.5 |
2020-06-12 |
CN114207606B |
2024-12-27 |
R·E·泰勒 |
本公开涉及使用HDMI音频元数据来执行源分类的装置、存储介质和方法。示例装置包括元数据提取器,所述元数据提取器用于:从HDMI元数据提取音频编码参数的值,所述HDMI元数据是从媒体设备的被监测的HDMI端口获得的,所述HDMI元数据对应于从被监测的HDMI端口输出的媒体;将所提取的所述音频编码参数的值映射到一组定义的UEC中的第一唯一编码类(UEC),所述一组定义的UEC中的不同UEC对应于能够被包括在所述HDMI元数据中的所述音频编码参数的可能的值的不同组合;以及基于被映射到所述第一UEC的一个或更多个可能的媒体源来识别与从所述HDMI端口输出的所述媒体相对应的媒体源。 |
246 |
一种基于分类的风电机组叶片音频故障检测方法 |
CN202111673492.7 |
2021-12-31 |
CN114352486B |
2024-12-20 |
吴娇; 雷红涛; 李刚; 张苑; 任毅 |
本发明提供一种基于分类的风电机组叶片音频故障检测方法,解决现有风电叶片监测技术存在检测成本高、不易安装、结构复杂、部署耗时长、易受环境影响的问题。方法包括步骤1)获取开源音频数据集和叶片音频数据集,叶片音频数据集包括训练集和测试集;2)提取训练集中每个音频数据的梅尔频谱、梅尔频率倒谱系数和色度特征;3)构建音频故障检测分类网络模型,将开源音频数据集送入网络模型中进行预训练,再将训练集中音频数据的梅尔频谱、梅尔频率倒谱系数和色度特征,送入模型中进行分类检测训练,使用测试集对音频故障检测分类网络模型中进行测试;4)将待测叶片音频输入音频故障检测分类网络模型中,获得待测叶片音频的分类检测结果。 |
247 |
一种基于特征解耦和对比学习的音频分类方法及装置 |
CN202411131516.X |
2024-08-18 |
CN119132331A |
2024-12-13 |
林毅; 熊一璠; 郭东岳; 杨慧 |
本发明公开了一种基于特征解耦和对比学习的音频分类方法及装置,包括以下步骤:步骤1:获取音频文件以及其对应标签信息,并进行预处理将音频文件转换为波形数据;步骤2:构建音频分类模型,将预处理数据传入进行前向传播,模型具体包含特征提取模块、重构解耦模块以及对比分类模块,其中特征提取模块主要负责将输入音频信息提取为目标粗粒度信息和非目标粗粒度信息;重构解耦模块则根据目标信息与非目标信息的互信息上界结合重构实现信息解耦精细化。本发明能够在有效识别音频中的目标信息的同时,实现兼具精确度和鲁棒性的分类效果。 |
248 |
基于卷积神经网络的时频双域音频分类方法与系统 |
CN202210560557.5 |
2022-05-23 |
CN114913872B |
2024-11-22 |
何萍; 李泽正; 徐晓华; 朱磊 |
本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统,首先对音频进行处理,得到音频的梅尔频谱图;然后基于梅尔频谱图的时间轴和频率轴计算,分别构造音色特征矩阵和时间特征矩阵,连接组成时频双域特征矩阵;再将其输入时频双域注意力模块进行信道加权和最大池化,最终得到音频的时频双域特征向量并将其输入分类器,得到音频的预测标签,之后计算预测标签和真实标签之间的损失,进行反向传播最小化损失。本发明通过加入监督性息,解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷;时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题,进一步提高了音频分类的准确性。 |
249 |
信号分类方法和装置以及使用其的音频编码方法和装置 |
CN201911345336.0 |
2015-02-24 |
CN110992965B |
2024-09-03 |
朱基岘; 安东·维克托罗维奇·普罗夫; 康斯坦丁·谢尔盖耶维奇·奥斯波夫 |
公开了一种信号分类方法和装置以及使用其的音频编码方法和装置。本发明涉及了一种音频编码,更具体地,涉及一种能够减小由于编码模式切换而导致的延迟同时提高重建的声音的质量的信号分类方法和装置以及使用所述信号分类方法和装置的音频编码方法和装置。所述信号分类方法可包括以下操作:将当前帧分类为语音信号和音乐信号中的一个;基于从多个帧获得的特征参数,确定对当前帧进行分类的结果是否包含错误;并且依据确定的结果,修正对当前帧进行分类的结果。通过基于修正参数修正音频信号的初始分类结果,本发明能够确定针对音频信号的特征的最优编码模式并且能够防止帧之间的频繁的编码模式切换。 |
250 |
一种基于卷积循环神经网络的音乐音频分类方法 |
CN202011038361.7 |
2020-09-28 |
CN112199548B |
2024-07-19 |
王振宇; 高雨轩 |
本发明公开了一种基于卷积循环神经网络的音乐音频分类方法,所述方法包括以下步骤:S1、对音乐的音频进行标注得到音乐标注数据集;S2、对数据集采用音乐数据增强方法对训练数据进行增强;S3、将数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;S4、构建基于卷积循环神经网络的音乐音频分类模型;S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;S6、输入音乐对应的梅尔声谱,对音乐的标签进行预测。本发明所述的方法能提高网络对声谱特征的提取能力,得到更好的音乐整体特征表示,从而提高音乐音频分类的准确性。 |
251 |
一种基于音频的活动分类方法、装置、终端及存储介质 |
CN202410549014.2 |
2024-05-06 |
CN118351876A |
2024-07-16 |
何志海; 吴昊; 李静; 欧阳健 |
本发明所提供的一种基于音频的活动分类方法、装置、终端及存储介质,通过对待分类的初始音频数据进行滤波,得到音频特征数据;将所述音频特征数据划分为若干音频片段,将各个所述音频片段输入已训练的活动分类模型中,得到各个音频片段对应的活动分类结果;其中,所述活动分类模型利用多头注意力机制捕捉所述音频片段的不同特征。本申请实施例通过对音频数据进行分类,并借助多头注意力机制的多个头部捕捉音频的不同特征,以有效识别行为类别,由于音频能够设置在任何位置,因此,将采集的各个位置的音频进行活动分类,即可了解被监测人的全部行为活动,避免了被监测人发生突发状况时无法及时被发现的问题。 |
252 |
基于深度学习音频分类的电影高光自动剪辑方法 |
CN202311602466.4 |
2023-11-28 |
CN117612516A |
2024-02-27 |
柯仕诚; 何旭峰; 田建国; 顾月薪 |
本发明公开了一种基于深度学习音频分类的电影高光自动剪辑方法,包括以下步骤:S1,基于AudioSet公开数据集,训练音频识别深度学习模型;S2,对待处理的电影以16000的采样率提取音频信号;S3,对提取的音频信号以64000长度作为采样窗口,以32000长度作为采样间隔进行采样;S4,对每个采样间隔用音频识别深度学习模型进行推理,将得到的结果按照分类进行保存;S5,按类别将结果整合,映射到电影帧数上,重叠部分取平均值;S6,按照阈值对S5结果做0‑1赋值;S7,将响应为1的部分作为高光片段计算对应的起始时间与结束时间,同时将每个片段内对应S5的分数取平均作为高光评分;S8,基于高光片段时间信息进行片段剪辑并输出。 |
253 |
演唱音频分类方法及计算机程序产品、服务器、存储介质 |
CN202010614700.5 |
2020-06-30 |
CN111782864B |
2023-11-07 |
周宇; 林森 |
本申请实施例公开了一种演唱音频分类方法及计算机程序产品、服务器、存储介质,包括:从演唱音频的人声基频序列中获取演唱音频中第i句歌词对应的人声基频子序列;从演唱音频的参考基频序列中获取演唱音频中第i句歌词对应的参考基频子序列;基于演唱音频中第i句歌词对应的人声基频子序列与参考基频子序列,确定人声基频子序列与参考基频子序列之间的最优匹配映射关系,最优匹配映射关系包括人声基频匹配子序列和参考基频匹配子序列;基于人声基频匹配子序列和参考基频匹配子序列确定第i句歌词的旋律匹配度,基于每一句歌词的旋律匹配度得到演唱音频的分类结果。采用本申请,可以提升演唱音频分类结果的准确性,提高用户发布音频作品的意愿。 |
254 |
基于文本信息的音频分类方法、装置、设备及介质 |
CN202310652068.7 |
2023-06-02 |
CN116680436A |
2023-09-01 |
葛建帮; 李嘉豪; 高良心; 黄凌云 |
本申请涉及人工智能技术领域,提出一种基于文本信息的音频分类方法、装置、电子设备及存储介质,所述方法包括:将获取到的音频数据转换为音频文本以获取音频分词数据集;筛选分词数据集以构建音频关键词表;基于音频文本和音频关键词表构建文本句索引数据集;基于文本句索引数据集训练自定义文本分类模型;依据经过训练的自定义文本分类模型获取目标音频的文本信息特征;依据集成学习模型对音频特征和文本信息特征进行筛选以获取音频分类显著特征;基于音频分类显著特征和集成学习模型对目标音频进行分类。本申请通过综合音频数据的音频特征和文本特征,同时在文本中融入关键词的方式来对音频数据进行分类,可以有效提高对音频分类的准确度。 |
255 |
基于数据驱动的有监督字典学习音频分类方法、系统及介质 |
CN202110988214.4 |
2021-08-26 |
CN113807408B |
2023-08-22 |
陈真; 邱小群; 向友君; 张淘珊 |
本发明公开了一种基于数据驱动的有监督字典学习音频分类方法、系统及介质。该方法包括:确定样本集类别数;利用输入的样本及其对应的类标签训练特定类字典;利用已训练的字典得出输入样本的稀疏编码,并将稀疏编码作为特征,训练SVM分类器;利用已训练的字典和已训练的SVM分类器对输入样本进行分类,输出预测标签。本发明通过每个类学习一个字典来实现最小化类内均匀性,最大化类的可分性,提高稀疏性以控制信号在字典上分解的复杂性,同时最小化基于类的重构错误,并提高字典的成对正交性。本发明能够广泛应用于多个场景中,如计算听觉场景识别和音乐和弦识别;其在数据集上的测试也相对稳定,泛化能力表现优秀。 |
256 |
一种基于神经网络中间层特征滤波的音频信号分类方法 |
CN201811572720.X |
2018-12-21 |
CN111354373B |
2023-05-12 |
张鹏远; 陈航艇; 颜永红 |
本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。 |
257 |
音频场景分类模型生成方法、装置、设备以及存储介质 |
CN202010479961.0 |
2020-05-29 |
CN111653290B |
2023-05-02 |
夏晶; 李曙鹏; 高晨昊; 吕海军; 徐彬彬; 施恩; 谢永康 |
本申请公开了音频场景分类模型生成方法、装置、设备以及存储介质,涉及深度学习技术领域。方法包括:基于多个音频样本生成多个频谱图集合;基于多个频谱图集合,生成多个样本数据集;基于多个样本数据集,对待训练的音频场景分类模型进行训练,得到训练后的音频场景分类模型;其中,基于多个频谱图集合中的第一频谱图集合,生成第一样本数据集的过程包括:对第一频谱图集合中的每两个相邻的频谱图进行拼接处理,得到多个新的频谱图;将得到的多个新的频谱图加入第一频谱图集合中,并将第一频谱图集合和第一音频场景标签作为第一样本数据集,第一音频场景标签为生成第一频谱图集合的音频样本对应的音频场景标签。本申请提高音频场景预测的准确率。 |
258 |
一种音频分类识别方法、系统、计算机及可读存储介质 |
CN202310323314.4 |
2023-03-30 |
CN116030800A |
2023-04-28 |
邱晓健; 连峰; 邱正峰; 崔韧; 吴鼎元 |
本发明提供了一种音频分类识别方法、系统、计算机及可读存储介质,方法包括获取音频的训练音频数据与分类音频数据;对训练音频数据与分类音频数据进行预处理;分别对第一梅尔频谱图与第二梅尔频谱图进行语义分割重组;分别对第一频谱特征与第二频谱特征分别进行多维度卷积降维处理;第一降维特征输入预设CNN神经网络识别模型中进行训练,将第二降维特征输入预设CNN神经网络识别模型进行分类识别,以输出与分类音频数据对应的分类标签。本发明通过对梅尔频谱图进行语义分割重组,以提高模型分类的准确性,同时采用多维度卷积降维的方式对频谱特征进行处理,以进一步提高模型分类的准确性。 |
259 |
一种带有音频标识的照片分类方法、查找方法和装置 |
CN202110875258.6 |
2021-07-30 |
CN113704529B |
2023-03-24 |
颜忠生 |
本申请提供一种带有音频标识的照片分类方法和照片查找方法,所述照片分类方法包括:获取第一照片以及所述第一照片对应的一个或多个音频标识,每个所述音频标识对应所述第一照片的一个音频片段,音频片段记录第一照片在生成过程中的音频环境内容;根据所述一个或多个音频标识在图库中查找是否有与所述第一照片相匹配的照片;如果是,则所述相匹配的照片为目标照片,确定所述第一照片与所述目标照片为同类照片,并通过有声相册显示所述同类照片,所述有声相册中包含所述第一照片和所述目标照片,有效地对不同照片进行分类,把相似度较高的照片归为一类,便于后续对同类照片的快速查找,本方法提高了照片分类的效率,节约查找照片的耗时。 |
260 |
音频的分类方法、装置、终端及计算机可读存储介质 |
CN201811456608.X |
2018-11-30 |
CN111261174B |
2023-02-17 |
陈家旭; 陈凯; 谢迪; 浦世亮 |
本公开是关于一种音频的分类方法、装置、终端及计算机可读存储介质,涉及目标分类领域。该方法包括:对第一音频样本数据集中的第一音频样本进行混合,得到第二音频样本数据集,并可以确定第二音频样本数据集中的每个第二多标签音频样本的标签。然后通过每个第二多标签音频样本以及每个第二多标签音频样本的标签,训练得到第一音频分类模型。因此,当需要对待分类的目标音频样本进行分类时,可以通过第一音频分类模型对目标音频样本进行分类。由于该第一音频分类模型是通过多标签音频样本训练得到的,因此,通过第一音频分类模型可以对多标签音频进行分类,提高了对多标签音频进行分类的准确性。 |