音频分类方法、装置及可读存储介质专利检索-贝叶斯网络人工智能专利检索查询-专利查询网

音频分类方法、装置及可读存储介质

阅读：828发布：2020-05-12

专利汇可以提供音频分类方法、装置及可读存储介质专利检索，专利查询，专利分析的服务。并且本发明实施例公开了一种音频分类方法、装置及可读存储介质，该方法包括：根据播单日志信息构建音频播单画像系统；根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。本发明实施例在实施过程中，通过音频播单画像系统，根据播单的历史表现，能够对于播单内的新音频进行自动分类，实现海量音频资源的快速处理，同时具备自学习性，节省人力资源和服务器资源。，下面是音频分类方法、装置及可读存储介质专利的具体信息内容。

权利要求

1.一种音频分类方法，其特征在于，包括：
根据播单日志信息构建音频播单画像系统；
根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。
2.根据权利要求1所述的音频分类方法，其特征在于所述的根据音频播单画像系统训练音频分类生成模型，完成音频类别分类包括：对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到音频播单画像系统中。
3.根据权利要求1所述的音频分类方法，其特征在于所述的根据播单日志信息构建音频播单画像系统包括：采集音频播单服务端日志信息；基于所述日志信息，采用数据挖掘方法挖掘音频播单数据信息；将所述音频播单数据信息进行信息的合并与聚类，形成音频播单画像系统。
4.根据权利要求3所述的音频分类方法，其特征在于所述的音频播单数据信息包括：播单的创建时间和/或播单的创作者和/或播单中各个音频的上传时间和/或播单中各个音频的所属分类。
5.根据权利要求1所述的音频分类方法，其特征在于所述的根据音频播单画像系统训练音频分类生成模型，完成音频类别分类的过程包括：
根据音频播单画像系统的数据信息，生成特征向量；
采用朴素贝叶斯与长短期记忆网络的融合模型为分类模型；
分类模型预测音频类别的概率分布，概率最高的类别确定为所述音频的类别。
6.根据权利要求5所述的音频分类方法，其特征在于所述的根据音频播单画像系统的数据信息，生成特征向量包括：根据音频播单画像系统数据信息生成播单中各个音频类型序列特征向量和根据音频播单画像系统数据信息生成播单中音频类型概率分布特征向量。
7.根据权利要求6所述的音频分类方法，其特征在于所述的根据音频播单画像系统数据信息生成播单中各个音频类型序列特征向量的过程为：
按照时间，将播单中的音频按照时间进行排序，生成播单中音频产生时间序列；设置时间序列窗，作为模型的参数；
根据时间序列窗把播单音频类别时间序列生成训练模型特征数据，将特征数据转化为特征向量。
8.根据权利要求6所述的音频分类方法，其特征在于所述的根据音频播单画像系统数据信息生成播单中音频类型概率分布特征向量的过程为：针对于每个播单新音频序列的每个时间点，统计该时间点前该播单内上传的每个类别音频的频率。
9.一种音频分类装置，其特征在于，包括：
音频播单画像系统生成模块，用于根据播单日志信息构建音频播单画像系统；音频分类生成模型训练模块，用于根据根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。
10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8任意一项所述音频分类方法的步骤。

说明书全文

音频分类方法、装置及可读存储介质

技术领域

[0001] 本发明涉及音频数据智能处理技术领域，具体涉及一种音频分类方法、装置及可读存储介质。

背景技术

[0002] 随着互联网行业的飞速发展，人们越来越多的在互联网各大平台获取信息。各种信息通过文字、声音、视频等各种方式，搭载各种平台满足用户的各方面对于信息的需求。声音作为最主要的信息载体以及人们获取外界信息的最重要的渠道之一，扮演着越来越重要的角色。由于声音不可见的特殊性，通过播单整合声音是人们获取各种声音信息最主要的方式。对于音频内容的判断以及分类，是各大音频平台对于音频内容最重要的处理方式之一。

[0003] 现阶段，对于音频的分类方法，一般的方案为：

[0004] 第一：人工进行分类，通过人工的方式，完成音频相关的分类；

[0005] 第二：通过算法的方式，对于音频内容智能分类，一般智能分类按照如下步骤进行：

[0006] (1)：音频内容信息预处理，剔除音频噪音等干扰信息；

[0007] (2)：对于音频内容进行特征提取；

[0008] (3)：根据提取的特征对音频进行分类；

[0009] 上述两种方式主要的不足为：

[0010] 第一：占用大量人力，及计算资源、存储资源等计算机资源；

[0011] 第二：特征分类算法扩展性不足，只能针对于预先设计好的分类，对于新分类没办法很好的完成适应；

[0012] 第三：整体系统不具备自我学习，自我扩展能力。

发明内容

[0013] 本发明实施例的目的是提供一种音频分类方法、装置及可读存储介质。本发明实施例在使用过程中通过播单画像系统，根据播单的历史表现，能够对于播单内的新音频进行自动分类，实现海量音频资源的快速处理，同时具备自学习性，节省人力资源和服务器资源。

[0014] 为解决上述的技术问题，本发明实施例采用以下技术方案：

[0015] 提供了一种音频分类方法，包括：

[0016] 根据播单日志信息构建音频播单画像系统；

[0017] 根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。

[0018] 可选的，所述的根据音频播单画像系统训练音频分类生成模型，完成音频类别分类包括：对于分类错误的数据进行人工标记以及人工分类，并且将相关数据更新到音频播单画像系统中。

[0019] 可选的，所述的根据播单日志信息构建音频播单画像系统包括：采集音频播单服务端日志信息；基于所述日志信息，采用数据挖掘方法挖掘音频播单数据信息；将所述音频播单数据信息进行信息的合并与聚类，形成音频播单画像系统。

[0020] 可选的，所述的音频播单数据信息包括：播单的创建时间和/或播单的创作者和/或播单中各个音频的上传时间和/或播单中各个音频的所属分类。

[0021] 可选的，所述的5、根据音频播单画像系统训练音频分类生成模型，完成音频类别分类的过程包括：

[0022] 根据音频播单画像系统的数据信息，生成特征向量；

[0023] 采用朴素贝叶斯与长短期记忆网络的融合模型为分类模型；

[0024] 分类模型预测音频类别的概率分布，概率最高的类别确定为所述音频的类别。

[0025] 可选的，所述的根据音频播单画像系统的数据信息，生成特征向量包括：根据音频播单画像系统数据信息生成播单中各个音频类型序列特征向量和根据音频播单画像系统数据信息生成播单中音频类型概率分布特征向量。

[0026] 可选的，所述的根据音频播单画像系统数据信息生成播单中各个音频类型序列特征向量的过程为：

[0027] 按照时间，将播单中的音频按照时间进行排序，生成播单中音频产生时间序列；

[0028] 设置时间序列窗，作为模型的参数；

[0029] 根据时间序列窗把播单音频类别时间序列生成训练模型特征数据，将特征数据转化为特征向量。

[0030] 可选的，所述的根据音频播单画像系统数据信息生成播单中音频类型概率分布特征向量的过程为：针对于每个播单新音频序列的每个时间点，统计该时间点前该播单内上传的每个类别音频的频率。

[0031] 本发明实施例还提供一种音频分类装置，包括：

[0032] 音频播单画像系统生成模块，用于根据播单日志信息构建音频播单画像系统；

[0033] 音频分类生成模型训练模块，用于根据根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。

[0034] 本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现所述音频分类方法的各个步骤。

[0035] 本发明实施例提供了一种音频分类方法、装置及可读存储介质，播单作为人们日常使用音频的最重要的方式，从播单的构建者来说，短期内一个播单内的音频分类不会出现变更，如相声类型的播单，大部分的内容应该都是相声类目的，音乐类的播单，内容应该都是音乐分类。通过音频播单画像系统，根据播单的历史表现，能够对于播单内的新音频进行自动分类，实现海量音频资源的快速处理，同时具备自学习性，节省人力资源和服务器资源。附图说明

[0036] 为了更清楚地说明本实施例中的技术方案，下面将对现有技术和实施例中所小使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0037] 图1为本发明实施例提供的一种音频分类方法的流程示意图。

[0038] 图2为本发明实施例提供的一种音频分类方法的算法流程示意图。

[0039] 图3为本发明实施例提供的一种音频分类装置的结构示意图。

具体实施方式

[0040] 本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

[0041] 本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

[0042] 下面结合附图及实施例对本发明的具体实施方式进行详细描述。

[0043] 请参照图1和图2，图1为本发明实施例提供的一种音频分类方法的流程示意图。图2为本发明实施例提供的一种音频分类方法的算法流程示意图。

[0044] 该方法包括：

[0045] S11：根据播单日志信息构建音频播单画像系统；

[0046] 具体的，根据播单日志信息构建音频播单画像系统，该画像系统用来描述播单内的音频的详细信息，以及播单与音频内容之间的关系。

[0047] 需要说明的是，根据播单日志信息构建音频播单画像系统的过程为：

[0048] S111：采集播单相关服务端日志信息；

[0049] S112：基于采集到的日志信息，采用数据挖掘的方法，至少挖掘如下信息：

[0050] (1)：播单的创建时间；

[0051] (2)：播单的创作者；

[0052] (3)：播单中各个音频的上传时间；

[0053] (4)：播单中各个音频的所属分类；

[0054] S113：将挖掘好的信息，根据播单的唯一标识，进行信息的合并与聚类，形成音频播单画像系统。

[0055] S12：根据音频播单画像系统训练音频分类生成模型，完成音频类别分类；

[0056] 需要说明的是，本实施中根据音频播单画像系统训练音频分类生成模型，完成音频类别分类是基于音频播单画像系统，采用深度学习算法，主要特征为播单历史上传的节目及分类信息、播单内音频上传频率，采用KNN算法，完成音频类别分类。

[0057] 具体的，根据音频播单画像系统训练音频分类生成模型，完成音频类别分类的过程为：

[0058] S121、根据音频播单画像系统相关信息，生成特征向量。需要说明的是，本实施例中算法中使用如下两种特征向量：

[0059] (1)：播单中各个音频类型序列特征；

[0060] (2)：播单中音频类型概率分布特征；

[0061] 具体的，生成播单中音频类型序列特征向量和label的方式为：

[0062] (1)：按照时间，将播单中的音频按照时间进行排序，生成播单中节目产生时间序列；

[0063] (2)：设置时间序列窗口M，M作为模型的超级参数。

[0064] (3)：根据时间窗把播单节目类别时间序列生成训练模型特征数据，特征具体的，将特征数据转化为特征向量的方式如下：

[0065] Ti为该播单第i个节目上传的时间点，Si为该播单第i个节目，L(Xi)为节目Si的类别。

[0066] 序列数据

[0067]时间点节目类别
T1 L(X1)
T2 L(X2)
… …
Tn L(Sn)

[0068] 特征数据：

[0069]Feature1 Feature2 … Featurek label
L(X1) L(X2) …. L(Xk+1) L(Xk+2)

[0070] 具体的，生成播单音频概率分布特征和label的方式为：

[0071] 针对于每个播单新音频序列的每个时间点，统计该时间点前该播单内上传的每个类别音频的频率，label为该时间点对应的节目的类别。

[0072] 播单音频序列生成音频概率特征的格式如下表：

[0073] Feature1 Feature2 … Featurek labelN1/S N2/S Nk/S O(X1)

[0074] 其中，Ni为音频Xi上传时间点之前播单内所有节目中类别i的数量。S为节目x上传时间点之前，播单内节目总量。O(Si)为Si的类别的oneshot编码。

[0075] S122、音频分类训练模型采用bayes(朴素贝叶斯)与lstm(长短期记忆网络)的融合模型，融合方式为stacking。bayes用于提取类别概率分布特征，lstm用于提取时间序列波动规律。

[0076] 具体的，本实施例中音频分类模型训练方法包括：

[0077] S1221、所有由时间序列生成的训练数据平均分为两组，第一组为lstm模型训练数据，第二组为DNN模型训练数据。使用第一组数据训练lstm模型。

[0078] S1222、lstm模型训练方法为：训练lstm时把序列数据转化为序列特征向量，对于每条训练数据序列，向网络逐条输入序列中的每条特征向量，网络最终把数据序列映射为一个二维特征向量，二维特征向量经softmax函数映射为每个节目类别的概率分布，把概率分布与真实概率分布对比，通过损失函数计算损失，把损失反向传播迭代更新参数。

[0079] S1223、使用第二组训练数据训练DNN模型。对于每条训练数据，生成类别概率分布特征和序列特征，把类别概率分布特征输入贝叶斯模型，贝叶斯模型使用的数据为第一组训练数据。把序列特征输入步骤S1222中训练的lstm模型。拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码。使用拼接特征作为新特征，训练dnn模型。

[0080] 需要说明的是，本实施例中所述Stacking公式如下：

[0081] D1＝{xi,yi},i＝[1,m]

[0082]

[0083]

[0084] t1(xi)为数据xi的概率分布特征向量，t2(xi)为数据xi的序列特征向量。h1为贝叶斯算法，h2为lstm,h3为dnn。

[0085] S123、本实施例中分类训练模型预测方法为：

[0086] S1231、使用所有历史数据生成贝叶斯模型。计算当前播单内节目概率分布向量。通过贝叶斯模型根据该数据预测播单内的下一个节目的类别概率分布。

[0087] S1232、使用最近k个时间点数据生成时间序列特征向量，k与步骤S121中k的取值相同。输入步骤S1222中训练的lstm，得到下一个节目的类别概率分布。

[0088] S1233、使用步骤S122中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量，把拼接的特征向量输入步骤S1222中训练的dnn模型，最终输出的onehot编码为模型预测类别的概率分布，概率最高的类别为模型预测下一个音频的类别。

[0089] 需要说明的是，为了使音频分类训练模型具有更好的自学习性，节省人力资源和服务器资源。本实施例还包括以下步骤：

[0090] S124、对音频分类训练模型进行迭代优化。具体的，包括以下步骤：

[0091] S1241、对于每个播单，取全量该播单历史上传节目数据，字段包括上传节目时间和节目类别。生成该播单节目概率分布特征和播单节目序列特征。使用全量数据训练lstm和dnn模型。

[0092] S1242、播单有新节目时，人工对节目分类，当发现人工分类与模型分类不同，把该数据作为错误样本存入数据库。定时使用数据库中的错误样本微调模型，模型的错误率低于阈值后，可以省去人工分类，把模型自动化使用。

[0093] 其中，步骤S1242包括：

[0094] S12421、产品以及用户通过反馈渠道，反馈给系统，对于分类错误的音频。

[0095] S12422、系统自动将更新后的音频分类更新到播单画像，完成分类错误的矫正。

[0096] 当然，本发明实施例中不仅限于采用上述方法对音频类别进行智能分类，也可以采用其他的方法实现。具体采用哪种方法本发明实施例对此不做限定。

[0097] 在上述实施例的基础上，本发明实施例相应的提供了一种音频分类装置，具体请参照图3。该装置包括：

[0098] 音频播单画像系统生成模块，用于根据播单日志信息构建音频播单画像系统；

[0099] 音频分类生成模型训练模块，用于根据根据音频播单画像系统训练音频分类生成模型，完成音频类别分类。

[0100] 需要说明的是，本发明实施例具有与上述实施例中音频分类方法相同的有益效果，并且对于本发明实施例中所涉及到的音频分类方法的具体介绍请参照上述实施例，本申请在此不再赘述。

[0101] 在上述实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现所述音频分类方法的步骤。

[0102] 需要说明的是，本发明实施例具有与上述实施例中音频分类方法相同的有益效果，并且对于本发明上述实施例中所涉及到的音频分类方法的具体介绍请参照上述实施例，本申请在此不再赘述。

[0103] 还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0104] 专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

[0105] 结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

[0106] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

标题	发布/更新时间	阅读量
一种用于餐饮后厨的智能巡查方法	2020-05-08	690
基于动态贝叶斯网络的模糊PLS建模方法	2020-05-11	104
突变数据识别方法、训练方法、处理装置及存储介质	2020-05-12	549
一种一次回风空调系统中传感器误差的在线识别与修复方法	2020-05-08	485
基于知识图谱的智能扫地机行为决策方法及智能扫地机	2020-05-12	301
一种云服务合成方法、云服务器和云服务合成系统	2020-05-11	221
音频分类方法、装置及可读存储介质	2020-05-12	828
利用生成技术快速增材设计的框架	2020-05-12	189
一种基于局部朴素贝叶斯的标签角色链路预测算法	2020-05-08	794
一种基于红外图像的劣化绝缘子识别诊断方法及其装置	2020-05-11	340

音频分类方法、装置及可读存储介质

音频分类方法、装置及可读存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：