多媒体文件处理方法以及装置专利检索-音频分割音频信号处理信号处理信号处理专利检索查询-专利查询网

多媒体文件处理方法以及装置

阅读：839发布：2020-05-15

专利汇可以提供多媒体文件处理方法以及装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种多媒体文件处理方法以及装置。其中，该方法包括：通过训练得到的卷积神经网络模型确定多媒体文件的文件内容，根据文件内容对多媒体文件进行标识，得到携带有类别标签的多媒体文件，根据类别标签对多媒体文件进行分类，达到了对多媒体文件进行准确识别并进行分类的目的。本发明解决了由于相关技术中需要依赖用户手工对多媒体文件进行处理分类，而导致对多媒体文件的处理效率低的技术问题。，下面是多媒体文件处理方法以及装置专利的具体信息内容。

权利要求

1.一种多媒体文件处理方法，其特征在于，包括：
通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；
根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；
根据所述类别标签对所述多媒体文件进行分类。
2.根据权利要求1所述的方法，其特征在于，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：
在所述多媒体文件为图片文件的情况下，对所述图片文件中的图像进行图像分割，得到多个图像块；
基于第一卷积神经网络模型确定所述多个图像块的类别以及所述多个图像块之间的关系；
根据所述多个图像块的类别以及所述多个图像块之间的关系确定所述图片文件的图像内容。
3.根据权利要求1所述的方法，其特征在于，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：
在所述多媒体文件为音频文件的情况下，获取所述音频文件中的音调、音色以及响度；
基于第二卷积神经网络模型根据所述音调、音色以及响度确定所述音频文件的音频内容；
根据所述音频内容确定所述音频文件的声源。
4.根据权利要求1所述的方法，其特征在于，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：
在所述多媒体文件为视频文件的情况下，获取所述视频文件中的全部视频帧；
基于第三卷积神经网络模型确定各个视频帧的内容，以及所述全部视频帧中每两个相邻视频帧的关联关系；
根据所述各个视频帧的内容以及所述每两个相邻视频帧的关联关系确定所述视频文件的视频内容。
5.根据权利要求4所述的方法，其特征在于，基于第三卷积神经网络模型确定各个视频帧的内容包括：
基于第三卷积神经网络模型提取所述视频文件的运动特征和静态特征，得到对应于运动特征的预测得分和静态特征的预测得分；
根据所述运动特征的预测得分和所述静态特征的预测得分进行自适应学习融合权重；
根据自适应学习融合权重结果确定所述视频文件的视频内容。
6.根据权利要求1所述的方法，其特征在于，在根据所述类别标签对所述多媒体文件进行分类之后，所述方法还包括：
接收用户发出的查询指令；
获取所述查询指令中的类别标签；
根据所述类别标签查询对应的多媒体文件。
7.一种多媒体文件处理装置，其特征在于，所述装置包括：
确定单元，用于通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；
处理单元，用于根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；
分类单元，用于根据所述类别标签对所述多媒体文件进行分类。
8.根据权利要求7所述的装置，其特征在于，所述确定单元包括：
获取模块，用于在所述多媒体文件为视频文件的情况下，获取所述视频文件中的全部视频帧；
第一确定模块，用于基于第三卷积神经网络模型确定各个视频帧的内容，以及所述全部视频帧中每两个相邻视频帧的关联关系；
第二确定模块，用于根据所述各个视频帧的内容以及所述每两个相邻视频帧的关联关系确定所述视频文件的视频内容。
9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至6任一项中所述的多媒体文件处理方法。
10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任一项所述的多媒体文件处理方法。

说明书全文

多媒体文件处理方法以及装置

技术领域

[0001] 本发明涉及电子信息领域，具体而言，涉及一种多媒体文件处理方法以及装置。

背景技术

[0002] 在视频播放软件和新闻门户网站中，都已实现根据用户浏览历史自动推荐相关视频和新闻的功能应用。但就家庭存储系统来说，通过手机、摄像机、摄影机拍摄的照片、视频越来越多，而在电脑或移动终端的存储空间里，对上述影音文件的管理还主要依靠于用户自行分类存储，分类过程中，图片还可以一眼分辨其种类及代表的含义，而视频则需要依次打开，通过浏览完全部才能确定其内容种类，故分类过程费时费力，且不便于后续回味欣赏。

[0003] 针对上述的问题，目前尚未提出有效的解决方案。

发明内容

[0004] 本发明实施例提供了一种多媒体文件处理方法以及装置，以至少解决由于相关技术中需要依赖用户手工对多媒体文件进行处理分类，而导致对多媒体文件的处理效率低的技术问题。

[0005] 根据本发明实施例的一个方面，提供了一种多媒体文件处理方法，所述方法包括：通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；根据所述类别标签对所述多媒体文件进行分类。

[0006] 进一步地，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：在所述多媒体文件为图片文件的情况下，对所述图片文件中的图像进行图像分割，得到多个图像块；基于第一卷积神经网络模型确定所述多个图像块的类别以及所述多个图像块之间的关系；根据所述多个图像块的类别以及所述多个图像块之间的关系确定所述图片文件的图像内容。

[0007] 进一步地，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：在所述多媒体文件为音频文件的情况下，获取所述音频文件中的音调、音色以及响度；基于第二卷积神经网络模型根据所述音调、音色以及响度确定所述音频文件的音频内容；根据所述音频内容确定所述音频文件的声源。

[0008] 进一步地，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括：在所述多媒体文件为视频文件的情况下，获取所述视频文件中的全部视频帧；基于第三卷积神经网络模型确定各个视频帧的内容，以及所述全部视频帧中每两个相邻视频帧的关联关系；根据所述各个视频帧的内容以及所述每两个相邻视频帧的关联关系确定所述视频文件的视频内容。

[0009] 进一步地，基于第三卷积神经网络模型确定各个视频帧的内容包括：基于第三卷积神经网络模型提取所述视频文件的运动特征和静态特征，得到对应于运动特征的预测得分和静态特征的预测得分；根据所述运动特征的预测得分和所述静态特征的预测得分进行自适应学习融合权重；根据自适应学习融合权重结果确定所述视频文件的视频内容。

[0010] 进一步地，在根据所述类别标签对所述多媒体文件进行分类之后，所述方法还包括：接收用户发出的查询指令；获取所述查询指令中的类别标签；根据所述类别标签查询对应的多媒体文件。

[0011] 根据本发明实施例的另一方面，还提供了一种多媒体文件处理装置，所述装置包括：确定单元，用于通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；处理单元，用于根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；分类单元，用于根据所述类别标签对所述多媒体文件进行分类。

[0012] 进一步地，所述确定单元包括：获取模块，用于在所述多媒体文件为视频文件的情况下，获取所述视频文件中的全部视频帧；第一确定模块，用于基于第三卷积神经网络模型确定各个视频帧的内容，以及所述全部视频帧中每两个相邻视频帧的关联关系；第二确定模块，用于根据所述各个视频帧的内容以及所述每两个相邻视频帧的关联关系确定所述视频文件的视频内容。

[0013] 根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行如上所述的多媒体文件处理方法。

[0014] 根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如上所述的多媒体文件处理方法。

[0015] 在本发明实施例中，通过卷积神经网络模型确定多媒体文件的文件内容，根据文件内容对多媒体文件进行标识，得到携带有类别标签的多媒体文件，根据类别标签对多媒体文件进行分类，达到了对多媒体文件进行准确识别并进行分类的目的，从而提高了对多媒体文件的处理效率的技术效果，进而解决了由于相关技术中需要依赖用户手工对多媒体文件进行处理分类，而导致对多媒体文件的处理效率低的技术问题。附图说明

[0016] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0017] 图1是根据本发明实施例的一种可选的多媒体文件处理方法的流程示意图；

[0018] 图2是根据本发明实施例的一种可选的多媒体文件处理装置的结构示意图。

具体实施方式

[0019] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0020] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0021] 实施例1

[0022] 在对本发明实施例的技术方案中，可以应用于移动终端、电脑PC端以及云端数据库中，针对移动终端、电脑以及云端数据库中存储的多媒体文件。其中，多媒体文件包括图片、音频以及视频等文件。

[0023] 根据本发明实施例，提供了一种多媒体文件处理方法，如图1所示，该方法包括：

[0024] S101，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；

[0025] S102，根据文件内容对多媒体文件进行标识，得到携带有类别标签的多媒体文件；

[0026] S103，根据类别标签对多媒体文件进行分类。

[0027] 本发明实施例的技术方案中，卷积神经网络模型是通过预先给出的一定数量的训练数据训练得到的，训练数据的类型包括：图片、音频以及视频数据等数据，通过进行训练数据的训练，卷积神经网络模型可以确定多媒体文件的内容等。

[0028] 需要说明的是，在本发明实施例的技术方案中，通过多媒体文件的文件内容确定多媒体文件的类别标签，其中，类别标签可以包括但不限于：时间、多媒体文件中所包含的不同的目标人物、多媒体文件中文件内容的主题等待，以上仅是一种示例，在此不做任何限定。

[0029] 通过本发明实施例，采用卷积神经网络模型确定多媒体文件的文件内容，根据文件内容对多媒体文件进行标识，得到携带有类别标签的多媒体文件，根据类别标签对多媒体文件进行分类，达到了对多媒体文件进行准确识别并进行分类的目的，从而提高了对多媒体文件的处理效率的技术效果，进而解决了由于相关技术中需要依赖用户手工对多媒体文件进行处理分类，而导致对多媒体文件的处理效率低的技术问题。

[0030] 作为一种优选地技术方案，在本发明实施例中，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括但不限于：在多媒体文件为图片文件的情况下，对图片文件中的图像进行图像分割，得到多个图像块；基于第一卷积神经网络模型确定多个图像块的类别以及多个图像块之间的关系；根据多个图像块的类别以及多个图像块之间的关系确定图片文件的图像内容。

[0031] 在此需要说明的是，在本发明实施例中，通过一定数量的训练数据训练得出的卷积神经网络模型可以是通过图片、音频以及视频的训练数据训练得出的卷积神经网络模型，通过该卷积神经网络模型，可以根据输入的多媒体文件直接确定多媒体文件的文件类别以及文件内容。而作为另一种实施方案，卷积神经网络模型也可以是分别通过图片训练数据、音频训练数据以及视频训练数据单独训练得到的，例如由图片训练数据训练得到的第一卷积神经网络模型，在对多媒体文件进行文件内容识别时，调用第一卷积神经网络模型，可以直接获取图片文件的文件内容。此外，还可以包括由音频训练数据训练得到的第二卷积神经网络模型，以及由视频训练数据训练得到的第三卷积神经网络模型。

[0032] 在具体的应用场景中，在多媒体文件为图片文件的情况下，基于第一卷积神经网络模型对图片文件进行识别，通过首先将图片文件中的图像分割得到多个图像块，然后基于第一卷积神经网络模型确定该图片文件中多个图像块的类别以及多个图像块之间的关系，即辨识出图像中各部分的类别和关系，然后辨识出图片文件的图像内容。

[0033] 作为一种优选地技术方案，在本发明实施例中，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括但不限于：在多媒体文件为音频文件的情况下，获取音频文件中的音调、音色以及响度；基于第二卷积神经网络模型根据音调、音色以及响度确定音频文件的音频内容；根据音频内容确定音频文件的声源。

[0034] 在具体的应用场景中，通过音频的识别要素：音调、音色以及响度，然后将音频文件的音调、音色以及响度等输入至第二卷积神经网络模型中，然后确定音频文件的音频内容，然后根据音频内容确定音频为文件的声源，音频文件的声源包括但不限于音频发声人员等。

[0035] 作为一种优选地技术方案，在本发明实施例中，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容包括但不限于：在多媒体文件为视频文件的情况下，获取视频文件中的全部视频帧；基于第三卷积神经网络模型确定各个视频帧的内容，以及全部视频帧中每两个相邻视频帧的关联关系；根据各个视频帧的内容以及每两个相邻视频帧的关联关系确定视频文件的视频内容。具体的，依靠基于深度学习的第三卷积神经网络的视频辨识系统可以通过视频的运动特征和静态特征，辨识出视频文件中各个视频帧的内容和上下帧的关联关系，从而辨识出视频中的内容。

[0036] 进一步地，作为一种优选地技术方案，在本发明实施例中，基于第三卷积神经网络模型确定各个视频帧的内容包括：基于第三卷积神经网络模型提取视频文件的运动特征和静态特征，得到对应于运动特征的预测得分和静态特征的预测得分；根据运动特征的预测得分和静态特征的预测得分进行自适应学习融合权重；根据自适应学习融合权重结果确定视频文件的视频内容。具体的，在视频文件的文件内容辨识过程中中，利用训练得到的第三卷积神经网络模型，提取视频文件中的运动特征和静态特征，并通过运动-静态协同学习优化运动特征和静态特征的表示，最终输出与运动特征和静态特征对应的两种预测得分；利用对应于运动特征的预测得分和对应于静态特征的预测得分，对于每个视频文件的视频内容类别自适应地学习融合权重，并根据得到的权重预测视频文件所属的视频内容。通过运动-静态协同学习和各类视频自适应权重学习提高了视频分类的准确率。

[0037] 作为一种优选地技术方案，在本发明实施例中，在根据所述类别标签对所述多媒体文件进行分类之后，所述方法还包括但不限于：接收用户发出的查询指令；获取所述查询指令中的类别标签；根据所述类别标签查询对应的多媒体文件。在具体的应用场景中，用户的查询指令包括但不限于：接收用户发送的电子信息、语音指令等。通过接收用户发出的查询指令，获取查询指令的类别标签，例如通过接收用户的语音指令，获取语音指令中的类别标签“人物A”，则根据该类别标签“人物A”来获取携带有“人物A”的多媒体文件，其中多媒体文件可以为“人物A”的图片文件、音频文件以及视频文件等。

[0038] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

[0039] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

[0040] 实施例2

[0041] 根据本发明实施例，还提供了一种用于实施上述多媒体文件处理方法的多媒体文件处理装置，如图2所示，该装置包括：

[0042] 1)确定单元201，用于通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；

[0043] 2)处理单元202，用于根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；

[0044] 3)分类单元203，用于根据所述类别标签对所述多媒体文件进行分类。

[0045] 作为一种优选地实施方案，在本发明实施例中，所述确定单元201包括：

[0046] 1)获取模块，用于在所述多媒体文件为视频文件的情况下，获取所述视频文件中的全部视频帧；

[0047] 2)第一确定模块，用于基于第三卷积神经网络模型确定各个视频帧的内容，以及所述全部视频帧中每两个相邻视频帧的关联关系；

[0048] 3)第二确定模块，用于根据所述各个视频帧的内容以及所述每两个相邻视频帧的关联关系确定所述视频文件的视频内容。

[0049] 可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

[0050] 实施例3

[0051] 根据本发明实施例，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行如上所述的多媒体文件处理方法。

[0052] 可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

[0053] S1，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；

[0054] S2，根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；

[0055] S3，根据所述类别标签对所述多媒体文件进行分类。

[0056] 可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0057] 可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

[0058] 实施例4

[0059] 根据本发明实施例，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行如上所述的多媒体文件处理方法。

[0060] 可选地，在本实施例中，该处理器还包括存储介质，其中存储介质被设置为存储用于执行以下步骤的程序代码：

[0061] S1，通过训练得到的卷积神经网络模型确定多媒体文件的文件内容；

[0062] S2，根据所述文件内容对所述多媒体文件进行标识，得到携带有类别标签的多媒体文件；

[0063] S3，根据所述类别标签对所述多媒体文件进行分类。

[0064] 可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

[0065] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0066] 上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

[0067] 在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0068] 在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

[0069] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0070] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0071] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
升级文件处理、装置及终端	2020-05-12	335
音频处理方法、装置、终端和计算机可读存储介质	2020-05-12	194
资源请求处理、鉴权请求处理及鉴权方法、系统及装置	2020-05-11	946
一种便携式帕金森病运动迟缓监测干预装置及方法	2020-05-11	503
文章推荐方法、装置、设备及存储介质	2020-05-13	600
图像处理方法、装置、计算机存储介质及电子设备	2020-05-08	549
在native层实现无缝录像的方法、装置及终端设备	2020-05-08	161
沉浸式情景互动体验仿真系统	2020-05-13	735
一种书写内容的识别方法及电子设备	2020-05-08	65
一种基于深度模糊森林的情绪识别方法	2020-05-11	169

多媒体文件处理方法以及装置

多媒体文件处理方法以及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：