首页 / 技术领域 / 音频分类 / 专利数据
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
121 音频信号分类处理方法、装置及设备 CN201310274580.9 2013-07-02 CN104282315B 2017-11-24 许丽净
发明提供一种音频信号分类处理方法、装置及设备,其中方法包括:获取音频信号中待分类中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项;根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项,确定所述音频信号中待分类帧为音乐信号,或确定所述音频信号中待分类帧为语音信号。本发明提供的技术方案,能够提高音频信号的分类正确率。
122 一种音频数据分类方法及装置 CN201310254043.8 2013-06-24 CN104239372B 2017-09-12 谢志明; 潘晖; 潘石柱; 张兴明; 傅利泉; 朱江明; 吴军; 吴坚
发明公开了一种音频数据分类方法,用以解决现有技术中存在的处理快慢不同的音频数据序列时,分类处理效果不好的问题。通过本发明实施例提供的技术方案,由于对同一段未知类别的音频数据序列进行了至少两次划分,得到了长短不一的多个音频数据子序列,从而相当于提高了该未知类别的音频数据序列的适应性,使之能够适用于分类器的训练样本中较快音频数据占比比较高,以及分类器的训练样本中较慢音频数据占比比较高的等不同情况。从而这样的方法适用性更广,对于快慢节奏不同的音频数据有较好的鲁棒性。
123 使用分类器将音频话语映射至动作 CN201380052230.6 2013-06-26 CN104704556B 2017-05-17 P·J·莫雷诺门吉巴; M·詹舍; F·比亚迪
所公开的实施例涉及使用分类器将话语映射至动作。一种说明性方法包括由计算设备接收音频话语;基于该话语确定文本串;基于该文本串确定串特征矢量;接收传感器数据;基于该传感器数据确定传感器特征矢量;从分类器集合中选择目标分类器,其中基于该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征的确定而选择该目标分类器;并且由该计算设备发起对应于该目标分类器的目标动作。
124 一种音频信号分类方法和装置 CN201310339218.5 2013-08-06 CN104347067B 2017-04-12 王喆
发明实施例公开了一种音频信号分类方法和装置,用于对输入的音频信号进行分类,该方法包括:根据当前音频的声音活动性,确定是否获得当前音频帧的频谱波动并存储于频谱波动存储器中,其中,所述频谱波动表示音频信号的频谱的能量波动;根据音频帧是否为敲击音乐或历史音频帧的活动性,更新频谱波动存储器中存储的频谱波动;根据频谱波动存储器中存储的频谱波动的部分或全部有效数据的统计量,将所述当前音频帧分类为语音帧或者音乐帧。
125 音频环境分类的系统和方法 CN201380058948.6 2013-10-25 CN104781875B 2016-11-02 里昂纳德·亨利·葛罗科普
发明揭示分类音频环境的系统和方法。在一个实施例中,一种分类音频环境的方法包括根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据,计算所述经取样音频数据的特征,根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符,以及根据第三时间间隔使用所述经取样音频数据的所述特征更新音频环境模型。
126 一种音频文件的分类方法及装置 CN201610512234.3 2016-06-30 CN105895110A 2016-08-24 黄瑛; 兰细鹏; 胡明清; 王涛
发明实施例公开了一种音频文件的分类方法及装置,预先将音乐进行分类,并获得每一类音乐的语谱图;方法包括:针对待分类的目标音频文件,获得所述目标音频文件的语谱图;根据所述目标音频文件的语谱图以及所述每一类音乐的语谱图的相似性,确定所述目标音频文件的类别。利用本发明实施例,实现了通过语谱图对音频文件进行分类。
127 一种音频数据分类方法及装置 CN201410817745.7 2014-12-24 CN104462537A 2015-03-25 杨晓昊
发明实施例公开了一种音频数据分类方法及装置,一种音频数据分类方法包括:获得待识别类别的第一音频数据;按照预设的加窗算法,在第一音频数据的音频时间轴上进行加窗;对每个窗内的音频数据提取一个MFCC特征向量;将每个MFCC特征向量矢量量化为一个一维的第一特征值;按照预设的直方图绘制算法,对所有第一特征值进行计算,得到第一音频数据的第一直方图;将第一直方图与预设的各个音频类别音频数据对应的直方图特征模板进行相似度计算,得到与第一直方图相似度最大的第一直方图特征模板;该特征模板的音频类别即为第一音频数据的音频类别。与现有技术相比,本发明的技术方案提高了音频数据分类的准确度和速度。
128 一种音频分类方法及装置 CN201310358878.8 2013-08-16 CN104091594A 2014-10-08 赵伟峰
发明实施例提供一种音频分类方法及装置,其中的方法可包括:对待分类的音频文件进行Pitch检测,获得所述音频文件的Pitch序列;根据所述Pitch序列,查找所述音频文件的主音;根据所述音频文件的主音,对所述音频文件进行调式检测以确定所述音频文件的类别。本发明可降低音频文件的分类成本,提高分类效率,提升智能性。
129 一种音频文件的分类方法及装置 CN201310135223.4 2013-04-18 CN104090876A 2014-10-08 赵伟峰; 李深远; 张李伟; 陈剑锋
发明公开一种音频文件的分类方法及装置,其中的方法可包括:构建待分类的音频文件的Pitch序列;根据所述音频文件的Pitch序列,计算所述音频文件的特征向量;根据所述音频文件的特征向量,对所述音频文件进行分类。本发明可实现音频文件的自动分类,降低分类成本,提高分类效率、分类灵活性和智能性。
130 一种实现数字音频自动分类的方法 CN201410120865.1 2014-03-27 CN103854646A 2014-06-11 陈科; 李世旭
发明公开了一种实现数字音频自动分类的方法,该方法具体包括:对音频信号进行预处理,所述预处理包括:预加重处理、分处理以及加窗处理;提取音频特征,所述音频特征包括:频谱质心、扩频、频谱平坦度、频谱变迁参数、短时能量、基音频率以及Mel频率倒谱系数(MFCC)和MFCC一阶差分;根据音频特征进行检索分类,找到相似音频。本发明克服了现有技术中通过采用单一的音频特征对音频进行检索所带来的误差问题,并且其计算过程简单,易于在现实中进行应用,检索的效率较高。
131 音频信号的分类方法及装置 CN201010160326.2 2010-04-26 CN102237085B 2013-08-14 许丽净; 杜正中; 张清
发明实施例公开了一种音频信号的分类方法和装置。该分类方法包括:获得待分类音频信号音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。该分类方法算法复杂度低,分类准确性较高,适用性较广。
132 音频信号的分类识别方法及装置 CN201010512505.8 2010-10-11 CN102446506B 2013-06-05 金剑; 刘贵忠; 顿玉洁; 杜正中
申请实施例公开了一种音频信号的分类识别方法及装置,所述方法包括:获取一音频信号,对所述一帧音频信号进行预处理;通过预处理的结果对所述一帧音频信号之前的音频片段进行更新,生成包含所述一帧音频信号的当前音频片段;从所述当前音频片段中提取分类特征低短时能量比LSTER和跳跃能量比JSTER;根据所述分类特征识别所述一帧音频信号的类型,得到初始分类结果。本申请实施例中每次对一帧音频信号进行识别,由于音频信号的长度远远小于音频片段,因此延时性能极大提高,提高了音频处理的实时性能;通过LSTER和JSTER两个分类特征对音频信号进行识别,增加了音频信号识别的准确性,降低了音频信号识别的复杂度。
133 音频信号的分类识别方法及装置 CN201010512505.8 2010-10-11 CN102446506A 2012-05-09 金剑; 刘贵忠; 顿玉洁; 杜正中
申请实施例公开了一种音频信号的分类识别方法及装置,所述方法包括:获取一音频信号,对所述一帧音频信号进行预处理;通过预处理的结果对所述一帧音频信号之前的音频片段进行更新,生成包含所述一帧音频信号的当前音频片段;从所述当前音频片段中提取分类特征低短时能量比LSTER和跳跃能量比JSTER;根据所述分类特征识别所述一帧音频信号的类型,得到初始分类结果。本申请实施例中每次对一帧音频信号进行识别,由于音频信号的长度远远小于音频片段,因此延时性能极大提高,提高了音频处理的实时性能;通过LSTER和JSTER两个分类特征对音频信号进行识别,增加了音频信号识别的准确性,降低了音频信号识别的复杂度。
134 音频信号的分类方法及装置 CN201010160326.2 2010-04-26 CN102237085A 2011-11-09 许丽净; 杜正中; 张清
发明实施例公开了一种音频信号的分类方法和装置。该分类方法包括:获得待分类音频信号音调特征;根据该音调特征值判定所述待分类音频信号的类型,输出音乐信号或语音信号的初步判定结果;对当前进行初始边界分析,获得当前帧边界信息;利用分界信息对待编码帧的初始分类结果进行平滑处理,输出待编码帧的分类结果。该分类方法算法复杂度低,分类准确性较高,适用性较广。
135 用于对音频数据进行分类的方法 CN200680008774.2 2006-03-15 CN101142622A 2008-03-12 T·肯普; Y·H·林; M·T·里古伊罗
提供了一种用于对音频数据(AD)进行分类的方法。针对音频数据(AD)的给定片段,产生所述给定音频数据(AD)在情绪空间(M)内的位置定位,并将该位置与比较情绪空间位置(CL)相比较。作为该比较的结果,比较数据(CD)被产生,并作为关于所述给定音频数据(AD)的分类结果被提供。
136 一种具有自定义功能的音频检测分类方法 PCT/CN2014/091959 2014-11-22 WO2015124006A1 2015-08-27 杨毅

一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练样本首先按照类型分为若干类训练样本(101,102,103),针对每类训练样本(101,102,103)进行特征提取(104),并训练与其对应的高斯混合模型(105,106,107)及其参数,得到一个全局高斯混合模型(202);进一步将其他训练样本(201)作为新的训练样本,对全局高斯混合模型(202)进行参数更新得到一个局部模型(204);最后对测试样本(301)提取特征(302),输入局部模型分类器(303),并对结果进行平滑(304)和输出。本方法通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了系统性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别人机交互等多种机器学习领域。

137 音频分类方法、装置、智能设备和存储介质 PCT/CN2018/115544 2018-11-15 WO2019109787A1 2019-06-13 程亮; 甄德聪

一种音频分类方法、装置、智能设备和存储介质。所述方法包括:获取待分类音频文件(S11);对待分类音频文件的音频信号进行处理,生成表示第一音频特征的输入向量(S12),第一音频特征为所述待分类音频文件对应的音频特征;将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型(S13);通过所述神经网络模型分析所述输入向量,生成所述待分类音频文件的分类结果(S14)。该方法能够突破现有技术的局限性,提高对待分类音频文件进行分类的准确度和效率。

138 一种人声音频识别模型训练方法、音频分类方法和系统 CN202011436155.1 2020-12-10 CN112397075B 2024-05-28 贾杨; 夏龙; 吴凡; 张金阳; 张兆元; 郭常圳
申请提供一种人声音频识别模型训练方法、音频分类方法和系统。其中,人声音频识别模型训练方法,包括:获得训练音频中的子音频的时频二维图,并作为神经网络的输入得到子音频属于特定分类的概率值;利用所述子音频属于特定分类的概率值与预设的子音频的分类优化神经网络参数,使神经网络得到的子音频所述属于特定分类的概率值向所述预设的子音频分类收敛。采用本发明提供的方法能够识别人声音频的分类。
139 一种音频特征提取方法和装置、训练方法及音频分类方法 CN201911057463.0 2019-10-31 CN110853671B 2022-05-06 陈英博
发明公开了一种音频特征提取方法和装置、训练方法及音频分类方法,提取方法包括:按照预设的窗口长度获取待提取音频;待提取音频包括M音频帧;计算每一音频帧对应的频谱,并对每一频谱进行分析,获得每一音频帧对应的基频;计算每一基频的k倍频率;根据每一音频帧对应的所述k倍频率和频谱,确定每一音频帧对应的k倍频率点;根据每一k倍频率点和预设的局部半径,从每一频谱中确定每一音频帧对应的特征频率点;将每一特征频率点对应的频率作为每一音频帧对应的特征频率,并根据M帧音频帧对应的特征频率,提取出待提取音频的音频特征。本发明能够提取出反映音频的周期性特点的音频特征,能用于对具有周期性特点的音频进行识别或分类。
140 应用于音频监控的音频场景分类方法、装置以及设备 CN202011506902.4 2020-12-18 CN112562727A 2021-03-26 黄真明; 陆春亮; 王毅
发明公开了一种应用于音频监控的音频场景分类方法、装置以及设备,本发明的构思在于针对现有音频场景分类方式耗时且浪费资源的问题,从两个方面解决,一方面是基于处理时效性,实时针对每一个音频分段进行质量研判,保证只对有效音频片段进行检测,并且是以音频片段作为处理单位,一旦检测出分类结果便终止对其他可用片段的处理,这样可以大幅减少不必要的检测过程;另一方面,利用RNN架构的特点在场景类型检测过程中无需再保存各音频片段的信息,仅需要将前一步处理结果作为后续处理的输入,这样可以充分节约资源空间。由此可见,本发明既能够保证处理时效,又能够使系统轻量化,从而可以灵活适用于各种规模的音频监控应用环境。
QQ群二维码
意见反馈