一种智能化制作短视频的方法专利检索-情感计算人工智能专利检索查询-专利查询网

一种智能化制作短视频的方法

阅读：571发布：2020-05-08

专利汇可以提供一种智能化制作短视频的方法专利检索，专利查询，专利分析的服务。并且本发明是一种智能化制作短视频的方法，该方法包括以下步骤：第一步：根据主题选择合适的视频素材；第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效；第三步：为输出视频添加合适的背景音乐。本发明的优点：1)整个系统是全自动智能化系统，几乎不需要人工干预，节省了人力；2)该方法适用范围广，适用于不同的视频类型和音乐类型，可通过调节训练数据集提高正确率；3)该方法扩展性好，可添加数据集通过不断训练更新，可满足用户更多的领域和专业的需求。，下面是一种智能化制作短视频的方法专利的具体信息内容。

权利要求

1.一种智能化制作短视频的方法，其特征是该方法包括以下步骤：
第一步：根据主题选择合适的视频素材；
第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效；
第三步：为输出视频添加合适的背景音乐。
2.如权利要求1所述的一种智能化制作短视频的方法，其特征是所述的第一步：根据主题选择合适的视频素材，
通过输入目标物+情感的方式描述主题，表达所需要创作的短视频的主题，在视频库里面寻找到符合要求的视频集，寻找策略如下：
首先，根据所属行业和专业领域，通过深度学习，训练一个视频特征提取模块，后面接用于实体检测和情感分类的完全连接层的模型，基于相关数据集，训练出一个视频情感预测模型和视频实体检测模型；以此模型预测创建视频库的实体标签数据库和情感标签数据库；
然后，根据输入的主题标签进行匹配寻找符合要求的前n个视频组成一个视频素材集，所述的视频数目n根据希望呈现的短视频类型不同而定。
3.如权利要求2所述的一种智能化制作短视频的方法，其特征是所述的实体标签数据库通过模型将视频数据库中的所有视频进行实体标签打标，按大于某个百分比的实体标签标注，所述的情感标签数据库为每个视频标定情感标签。
4.如权利要求1所述的一种智能化制作短视频的方法，其特征是所述的第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效，
按照所寻找的视频素材集与主题的匹配度进行排序，并根据所需时长t，按照比例在每一个视频中截取所需时长t1、t2、t3、t4、t5，……，前一个视频时长不够则从后一个视频中补，最后时长不够则从未完全截取的最符合主题的视频中补，再对所有视频按照最相关的放中间、按相关性以此往外排的原则进行视频拼接并添加特效。
5.如权利要求4所述的一种智能化制作短视频的方法，其特征是所述的第二步通过ffmpeg完成，在每一个视频中截取所需时长时根据所需输出的视频总时长和需求而定。
6.如权利要求1所述的一种智能化制作短视频的方法，其特征是所述的第三步：为输出视频添加合适的背景音乐，
构建和训练一个基于视频内容的跨模态音乐检索模型，利用视频和音频基于情感主题配对的数据库，进行跨模态视频-音乐检索模型的训练，并根据第二步输出的短视频在自主准备的音乐库中搜索出符合该视频的音乐，根据视频时长剪切出合适的音乐片段。
7.如权利要求6所述的一种智能化制作短视频的方法，其特征是所述的第三步具体包括：
1)建立跨模态音乐检索模型的过程如下：通过在线众包注释平台为视频数据集和音频数据集，通过若干标注策略进行注释标注，得到足够的训练视频-音乐对和测试数据对，指的是训练数据集和测试数据集、非真实数据；基于以上音频数据集，通过深度学习，训练出一个音频情感预测模型，利用第一步所训练出的视频情感预测模型，根据所述的众包注释平台给出的视频-音乐训练数据集和测试数据集，进行联合训练，得到一个跨模态视频-音乐检索模型；
2)根据音乐时长T1·s和所需视频的时长T2·s剪切出合适的音乐时长策略如下，T1、T2的单位为s：
判断视频时长及音乐类型是纯音乐或歌曲，
音乐类型是纯音乐时，如果T1＞T2，则检测符合条件的节拍起始点T3，然后输出[T3-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，音乐类型是纯音乐时，如果T1≤T2，则音乐不合适，
音乐类型是歌曲时，如果T1＞120，则检测歌曲中副歌部分的节拍起始点T4，然后输出[T4-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，音乐类型是歌曲时，如果T1≤120，则按照音乐类型为纯音乐的处理逻辑处理。
8.如权利要求7所述的一种智能化制作短视频的方法，其特征是所述的在线众包注释平台为Figure-eight，所述的视频数据集为Cowen2017、27中情感标签，所述的音频数据集为AudioSet、7中情感标签，所述的标注策略包括是否表达同一种情感。
9.如权利要求7所述的一种智能化制作短视频的方法，其特征是所述的纯音乐的节拍起始点T3使用现有的库实现，检测歌曲中副歌部分的节拍起始点T4使用现有分析音乐结构的现有库；
输出的音乐片段比所需的时长多5s，用于进行音乐开头和结尾时淡化处理预留量；
当音乐不合适时，选择跨模态视频-音乐检索结果的次符合条件的音乐再次计算；
当出现T3或T4的位置到音乐结尾小于T2+5时，则选择音乐起始位置或者节拍节点位置的前面符合时长要求的节拍节点。
10.如权利要求9所述的一种智能化制作短视频的方法，其特征是所述的T3使用的现有的库为pyhub，所述的T4使用的现有库为pychorus。

说明书全文

一种智能化制作短视频的方法

技术领域

[0001] 本发明涉及的是一种智能化制作短视频的方法，属于多媒体信息技术领域。

背景技术

[0002] 随着移动设备的发展和普及，使得越来越多的人可以随手拍摄短视频，社交平台的交流和更新由原来的文字传播渐渐转变为音视频传播。这一现象使得短视频的制作需求越来越广泛，人才需求量日益增大。但是，人才的培养和视频制作的经验是需要沉淀、需要时间积累的。另一方面，由于新媒体信息传播的主题范围很广泛，大量碎片化的新媒体素材(视频片段、音乐等)游荡在新媒体系统中，并零散的分布在整个网络或者用户数据库中，这在某种程度上对视频制作者了解全部的新媒体系统信息产生了很大的障碍。因此，如何能够快速定位所需素材并智能化的制作出符合主题需求的短视频成为了这一时代激化的重大需求。

[0003] 现有技术中，绝大部分的视频制作仍然依靠人工去挑选符合主题的素材，并将这些素材进行合理的剪辑，加特效、字幕以及背景音乐，进而输出视频。以上这些操作，大部分必须依靠制作者丰富的经验和知识储备来选择合适且新颖的素材去完成视频制作。

发明内容

[0004] 本发明提出的是一种智能化制作短视频的方法，其目的旨在克服现有技术存在的上述不足，实现有效全自动智能化快速制作短视频，几乎无需人工干预，节省人力，增大适用范围，提高扩展性，满足各种需求。

[0005] 本发明的技术解决方案：一种智能化制作短视频的方法，该方法包括以下步骤：

[0006] 第一步：根据主题选择合适的视频素材；

[0007] 第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效；

[0008] 第三步：为输出视频添加合适的背景音乐。

[0009] 优选的，所述的第一步：根据主题选择合适的视频素材，

[0010] 通过输入目标物+情感的方式描述主题，表达所需要创作的短视频的主题，在视频库里面寻找到符合要求的视频集，寻找策略如下：

[0011] 首先，根据所属行业和专业领域，通过深度学习，训练一个视频特征提取模块，后面接用于实体检测和情感分类的完全连接层的模型，基于相关数据集，训练出一个视频情感预测模型和视频实体检测模型；以此模型预测创建视频库的实体标签数据库和情感标签数据库；

[0012] 然后，根据输入的主题标签进行匹配寻找符合要求的前n个视频组成一个视频素材集，所述的视频数目n根据希望呈现的短视频类型不同而定。

[0013] 优选的，所述的实体标签数据库通过模型将视频数据库中的所有视频进行实体标签打标，按大于某个百分比的实体标签标注，所述的情感标签数据库为每个视频标定情感标签，所述的视频数目n根据希望呈现的短视频类型不同而定。

[0014] 优选的，所述的第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效，

[0015] 按照所寻找的视频素材集与主题的匹配度进行排序，并根据所需时长t，按照比例在每一个视频中截取所需时长t1、t2、t3、t4、t5，……，前一个视频时长不够则从后一个视频中补，最后时长不够则从未完全截取的最符合主题的视频中补，再对所有视频按照最相关的放中间、按相关性以此往外排的原则进行视频拼接并添加特效。

[0016] 优选的，是所述的第二步通过ffmpeg完成，在每一个视频中截取所需时长时根据所需输出的视频总时长和需求而定。

[0017] 优选的，所述的第三步：为输出视频添加合适的背景音乐，

[0018] 构建和训练一个基于视频内容的跨模态音乐检索模型，利用视频和音频基于情感主题配对的数据库，进行跨模态视频-音乐检索模型的训练，并根据第二步输出的短视频在自主准备的音乐库中搜索出符合该视频的音乐，根据视频时长剪切出合适的音乐片段。

[0019] 优选的，所述的第三步具体包括：

[0020] 1)建立跨模态音乐检索模型的过程如下：通过在线众包注释平台为视频数据集和音频数据集，通过若干标注策略进行注释标注，得到足够的训练视频-音乐对和测试数据对，指的是训练数据集和测试数据集、非真实数据；基于以上音频数据集，通过深度学习，训练出一个音频情感预测模型，利用第一步所训练出的视频情感预测模型，根据所述的众包注释平台给出的视频-音乐训练数据集和测试数据集，进行联合训练，得到一个跨模态视频-音乐检索模型。

[0021] 2)根据音乐时长T1和所需视频的时长T2剪切出合适的音乐时长策略如下，T1、T2的单位为s：

[0022] 判断视频时长及音乐类型是纯音乐或歌曲，

[0023] 音乐类型是纯音乐时，如果T1＞T2，则检测符合条件的节拍起始点T3，然后输出[T3-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，[0024] 音乐类型是纯音乐时，如果T1≤T2，则音乐不合适，

[0025] 音乐类型是歌曲时，如果T1＞120，则检测歌曲中副歌部分的节拍起始点T4，然后输出[T4-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，[0026] 音乐类型是歌曲时，如果T1≤120，则按照音乐类型为纯音乐的处理逻辑处理。

[0027] 优选的，所述的在线众包注释平台为Figure-eight，所述的视频数据集为Cowen2017、27中情感标签，所述的音频数据集为AudioSet、7中情感标签，所述的标注策略包括是否表达同一种情感。

[0028] 优选的，所述的纯音乐的节拍起始点T3使用现有的库实现，检测歌曲中副歌部分的节拍起始点T4使用现有分析音乐结构的现有库；

[0029] 输出的音乐片段比所需的时长多5s，用于进行音乐开头和结尾时淡化处理预留量；

[0030] 当音乐不合适时，选择跨模态视频-音乐检索结果的次符合条件的音乐再次计算；

[0031] 当出现T3或T4的位置到音乐结尾小于T2+5时，则选择音乐起始位置或者节拍节点位置的前面符合时长要求的节拍节点。

[0032] 优选的，所述的T3使用的现有的库为pyhub，所述的T4使用的现有库为pychorus。

[0033] 本发明的优点：1)整个系统是全自动智能化系统，几乎不需要人工干预，节省了人力；

[0034] 2)该方法适用范围广，适用于不同的视频类型和音乐类型，可通过调节训练数据集提高正确率；

[0035] 3)该方法扩展性好，可添加数据集通过不断训练更新，可满足用户更多的领域和专业的需求。附图说明

[0036] 图1是本发明中根据音乐时长和所需视频的时长剪切出合适的音乐时长策略图。

具体实施方式

[0037] 下面结合实施例和具体实施方式对本发明作进一步详细的说明。

[0038] 实施例

[0039] 一种智能化制作短视频的方法，该方法包括以下步骤：

[0040] 第一步：根据主题选择合适的视频素材。

[0041] 用户可通过输入目标物+情感的方式描述的主题，例如(猫+温馨)，表达所需要创作的短视频的主题，在视频库里面寻找到符合要求的视频集。寻找策略如下：

[0042] 首先，用户需要根据自己的行业和专业领域，通过深度学习，训练一个视频特征提取模块，后面接用于实体检测和情感分类的完全连接层的模型，基于相关数据集，训练出一个视频情感预测模型和视频实体检测模型。以此模型预测创建自己视频库的实体标签数据库(通过模型将用户视频数据库中的所有视频进行实体标签打标，可按大于某个百分比的实体标签标注，如60％猫、50％老虎这种方式)和情感标签数据库(为每个视频标定情感标签)。

[0043] 然后，根据用户输入的主题标签进行匹配寻找符合要求的前n(比如10)个视频组成一个视频素材集。注意：此处的视频数目n可根据用户希望呈现的短视频类型不同而定。

[0044] 第二步：将所选视频素材合理的进行裁剪拼接，并在拼接处添加特效。

[0045] 按照所寻找的视频素材集与主题的匹配度进行排序，并根据用户所需时长t，按照比例在每一个视频中截取所需时长t1、t2、t3、t4、t5，……，如符合要求的视频集5个，用户所需时长10分钟，可按照10％(1分钟)、15％(1.5分钟)、20％(2分钟)、25％(2.5分钟)、30％(3分钟)截取视频段，前一个视频时长不够则从后一个视频中补，最后时长不够则从未完全截取的最符合主题的视频中补，再对所有视频按照最相关的放中间、按相关性以此往外排的原则进行视频拼接并添加特效，可通过ffmpeg完成。注意：上述中截取每个视频段的时长根据所需输出的视频总时长和用户需求而定。

[0046] 第三步：为输出视频添加合适的背景音乐。

[0047] 构建和训练一个基于视频内容的跨模态音乐检索模型。利用视频和音频基于情感主题配对的数据库，进行跨模态视频-音乐检索模型的训练，并根据第二步输出的短视频在用户自己准备的音乐库中搜索出符合该视频的音乐，根据视频时长剪切出合适的音乐片段。具体的：

[0048] 1)建立跨模态音乐检索模型的过程如下：通过在线众包注释平台(如Figure-eight等)为视频数据集(如Cowen2017，27中情感标签)和音频数据集(如AudioSet，7中情感标签)，通过一些标注策略(如是否表达同一种情感等问题)进行注释标注，得到足够的训练视频-音乐对和测试数据对。此处指的是训练数据集和测试数据集，不是用户自己的真实数据。基于以上音频数据集，通过深度学习，训练出一个音频情感预测模型，利用第一步所训练出的视频情感预测模型，根据以上众包注释平台给出的视频-音乐训练数据集和测试数据集，进行联合训练，得到一个跨模态视频-音乐检索模型。

[0049] 2)如图1所示，根据音乐时长T1(s)和所需视频的时长T2(s)剪切出合适的音乐时长策略如下：

[0050] 判断视频时长及音乐类型是纯音乐或歌曲，

[0051] 音乐类型是纯音乐时，如果T1＞T2，则检测符合条件的节拍起始点T3，然后输出[T3-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，[0052] 音乐类型是纯音乐时，如果T1≤T2，则音乐不合适，

[0053] 音乐类型是歌曲时，如果T1＞120，则检测歌曲中副歌部分的节拍起始点T4，然后输出[T4-5，T2]音乐片段，然后进行音乐开头和结尾各淡化处理2.5s，然后得出结论，[0054] 音乐类型是歌曲时，如果T1≤120，则按照音乐类型为纯音乐的处理逻辑处理。

[0055] 其中，

[0056] (1)检测纯音乐的节拍起始点可以使用现有的库实现(如：pyhub)，检测歌曲中副歌部分也有现有分析音乐结构的现有库(如:pychorus)。

[0057] (2)输出的音乐片段比所需的时长多5s，是为了进行音乐开头和结尾时淡化处理预留量。

[0058] (3)当音乐不合适时，选择跨模态视频-音乐检索结果的次符合条件的音乐再次计算。

[0059] (4)当出现纯音乐起始节拍节点或者歌曲副歌节拍节点的位置到音乐结尾小于T2+5时，则选择纯音乐起始点或者节拍节点位置的前面符合时长要求的节拍节点。

[0060] 以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

标题	发布/更新时间	阅读量
一种听写报读音频的生成方法、电子设备及存储介质	2020-05-08	583
一种基于领域对抗的语音情感识别方法及装置	2020-05-12	553
数据分析方法、设备及存储介质	2020-05-08	55
价值系统	2020-05-12	291
基于虚拟现实的孤独症早期筛查评估系统及方法	2020-05-08	174
评价数据处理方法、装置、介质和计算机设备	2020-05-11	780
基于情感词典的财经新闻中细粒度实体的情感分析方法	2020-05-11	543
一种基于情感识别的老人陪护机器人子系统	2020-05-08	589
在对话中生成响应	2020-05-12	298
基于多维相似度的推荐系统及其方法	2020-05-11	115

一种智能化制作短视频的方法

一种智能化制作短视频的方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：