短视频制作系统、方法、电子设备及可读存储介质专利检索-视频流媒体流多媒体工具与应用专利检索查询-专利查询网

短视频制作系统、方法、电子设备及可读存储介质

阅读：782发布：2020-05-08

专利汇可以提供短视频制作系统、方法、电子设备及可读存储介质专利检索，专利查询，专利分析的服务。并且本发明提供一种短视频制作系统、方法、电子设备及可读介质，包括专业摄像设备、硬件连接模块、移动终端和服务器，硬件连接模块分别与专业摄像设备和移动终端相连，移动终端还与服务器相连。硬件连接模块，用于接收专业摄像设备拍摄的实时视频信号，并对实时视频信号进行预处理形成实时视频流；移动终端，用于接收用户短视频制作请求，并根据短视频制作请求将实时视频流制作形成源视频，并将源视频上传至服务器；服务器，用于接收源视频，并将源视频进行预定处理形成短视频。本发明打通了从专业摄像设备到短视频之间的通路，提供了一种高效、简洁、智能、低成本的使用专业摄像设备拍摄并制作短视频的解决方案。，下面是短视频制作系统、方法、电子设备及可读存储介质专利的具体信息内容。

权利要求

1.一种短视频制作系统，其特征在于，包括专业摄像设备、硬件连接模块、移动终端和服务器，所述硬件连接模块分别与所述专业摄像设备和所述移动终端相连，所述移动终端还与所述服务器相连，其中，
所述硬件连接模块，用于接收所述专业摄像设备拍摄的实时视频信号，并对所述实时视频信号进行预处理形成实时视频流；
所述移动终端，用于接收用户短视频制作请求，并根据所述短视频制作请求将所述实时视频流制作形成源视频，并将所述源视频上传至服务器；
所述服务器，用于接收所述源视频，并将所述源视频进行预定处理形成短视频。
2.根据权利要求1所述的短视频制作系统，其特征在于，所述硬件连接模块包括输入接口、硬件解码芯片和输出接口，所述输入接口分别与所述专业摄像设备和所述硬件解码芯片相连，所述输出接口分别与所述硬件解码芯片和所述移动终端相连。
3.根据权利要求2所述的短视频制作系统，其特征在于，所述专业摄像设备具有SDI或HDMI数字视频输出接口，所述输入接口采用SDI或HDMI数字视频输入接口。
4.根据权利要求1至3中任意一项所述的短视频制作系统，其特征在于，所述服务器包括分析模块、选择模块、渲染模块和用户喜好分析模块，其中，
所述分析模块，用于对所述源视频进行深度分析，以提取所述源视频中的多维度特征，以及基于所述多维度特征识别出所述源视频的视频场景；
所述选择模块，用于根据所述多维度特征，从预先存储的数据库中选择相匹配的渲染方案，所述渲染方案包括相匹配的制片策略、背景音乐、视频特效和字幕中的至少一者；
所述渲染模块，用于根据所述渲染方案对所述源视频进行渲染，以获得所述短视频；
所述用户喜好分析模块，用于收集用户对所述短视频的操作反馈，并基于所述操作反馈建立用户喜好模型，所述用户喜好模型的输出值用于选择所述渲染方案。
5.根据权利要求4所述的短视频制作系统，其特征在于，所述用户喜好分析模块包括用户喜好信息收集子模块、用户喜好模型训练子模块，其中，
所述用户喜好信息收集子模块，用于收集用户对所述短视频的操作信息；
所述用户喜好模型训练子模块，用于对所述用户喜好信息收集子模块收集到的所述操作信息进行训练，以得到用户喜好模型，所述用户喜好模型的输出值包括通用用户喜好权重和个体用户喜好权重，所述通用用户喜好权重和所述个体用户喜好权重均包括规则喜好权重和音乐风格喜好权重。
6.根据权利要求5所述的短视频制作系统，其特征在于，所述选择模块包括制片策略选择子模块、音乐选择子模块、视频特效选择子模块和字幕选择子模块，其中，所述制片策略选择子模块，用于：
根据所述多维度特征和所述视频场景，从数据库中选择可用的制片策略，并根据第一预设规则对各可用制片策略进行打分，选择打分最高的制片策略作为目标制片策略，所述第一预设规则包括根据所述多维度信息与所述制片策略的相融度以及相应的规则喜好权重进行计算；
所述音乐选择子模块，用于：
根据所述目标制片策略和所述音乐风格喜好权重，从所述数据库中选取相匹配的目标背景音乐；
根据所述目标背景音乐的节奏点和段落信息，将所述源视频中符合所述目标制片策略规则的可用片段进行摆放，获得粗剪时间线集合，所述粗剪时间线集合包括所有符合摆放规则的粗剪时间线，并对各粗剪时间线进行相符度打分，选择打分最高的粗剪时间线作为初始时间线；
所述视频特效选择子模块，用于：
根据所述制片策略和所述初始时间线从所述数据库中选择相匹配的目标视频特效；
将所述目标视频特效应用到所述初始时间线上，并根据所述目标背景音乐的节奏点信息修改视频特效关键点位置，获得第一剪辑时间线；
所述字幕选择子模块，用于：
根据所述制片策略和所述初始时间线从所述数据库中选择相匹配的目标字幕方案，并将所述目标字幕方案应用到所述第一剪辑时间线上，获得目标剪辑时间线；
所述渲染模块，用于根据所述目标剪辑时间线，利用渲染引擎进行渲染叠加，获得所述短视频。
7.根据权利要求4所述的短视频制作系统，其特征在于，
所述分析模块，还用于根据所述源视频的音量信息和语音信息识别出所述源视频的同期声段落；
所述渲染模块，还用于在所述同期声段落处淡化或取消背景音乐的音量，以获得所述短视频。
8.根据权利要求6所述的短视频制作系统，其特征在于，所述选择模块还包括调色策略选择子模块，用于对所述源视频进行色调分析，并根据色调分析结果从预设的调色策略数据库中选择相匹配的目标调色策略。
9.一种短视频制作方法，其特征在于，包括：
接收专业摄像设备拍摄的实时视频信号，并对所述实时视频信号进行预处理形成实时视频流；
接收用户短视频制作请求，并根据所述短视频制作请求将所述实时视频流制作形成源视频，并将所述源视频上传至服务器；
接收所述源视频，并将所述源视频进行预定处理形成短视频。
10.一种电子设备，其特征在于，包括：
一个或多个处理器；
存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求9中所述的短视频制作方法。

说明书全文

短视频制作系统、方法、电子设备及可读存储介质

技术领域

[0001] 本发明属于视频制作技术领域，具体涉及一种短视频制作系统、方法、电子设备及可读存储介质。

背景技术

[0002] 5G时代的到来，将大大促进“短视频”消费市场。而目前市场上的“短视频”类型，还是以“泛娱乐”类型的手机自拍自制的短视频为主。一方面，普通消费者需要制作更精良、画面和内容更好的短视频产品；另一方面，大量的专业摄影师和专业视频制作团队，也希望把自己的作品以“短视频”的形式进行呈现，为自己的品牌吸引流量。

[0003] 但是，由于缺乏合适的制作工具，这些专业摄影师只能使用传统的制作工艺：拍摄完毕后，先从专业摄影器材中导出视频素材到电脑上，然后聘请专业剪辑师，使用专业非编软件，将拍摄的视频素材进行剪辑加工、配乐美化，制作成短视频，最后将制作好的短视频分发到各个短视频平台中。上述的传统工艺流程，存在着如下的不足：1、操作复杂。需要导出素材、非编编辑等等。2、耗时较长。通常需要摄影师在一整天的拍摄工作结束后，才能有时间导出素材，再进行编辑，无法做到类似手机那样的“即刻拍摄、即刻分享”。3、成本较高。需要聘请专业剪辑师进行剪辑，有额外的人工成本。

[0004] 为了更快地进行短视频的制作，降低视频剪辑的门槛，市场上出现了很多运行于手机等移动平台的视频制作工具软件。使用这些软件时，需要首先把专业摄影器材中导出的视频素材再通过电脑导入到手机中。在这个环节中，很多专业器材拍摄的视频格式并不能被手机所支持，还需要使用电脑上的其他软件进行视频格式转换。转换后的素材再导入到手机中，无形中增加了很多的工作量。

[0005] 导入到手机之后，这些手机app还需要用户自己进行素材片段截取、顺序摆放、特效选取、音乐叠加等各种剪辑操作，需要用户具备一定的视频剪辑技术水平。虽然手机app的出现，一定程度上提高了用户在户外等场合工作时的便利程度，但仍然对用户提出了较高的视频剪辑技术要求。这就导致短视频成片的质量，很大程度上取决于用户的剪辑技术水平。

[0006] 用户编辑好之后，需要在手机上进行视频渲染。手机较弱的运算能力，也制约了视频画面质量和渲染速度，一定程度上影响短视频成片的最终质量。

发明内容

[0007] 本发明旨在至少解决现有技术中存在的技术问题之一，提供一种短视频制作系统、方法、电子设备及可读存储介质。

[0008] 本发明的第一个方面提供一种短视频制作系统，包括专业摄像设备、硬件连接模块、移动终端和服务器，所述硬件连接模块分别与所述专业摄像设备和所述移动终端相连，所述移动终端还与所述服务器相连，其中，

[0009] 所述硬件连接模块，用于接收所述专业摄像设备拍摄的实时视频信号，并对所述实时视频信号进行预处理形成实时视频流；

[0010] 所述移动终端，用于接收用户短视频制作请求，并根据所述短视频制作请求将所述实时视频流制作形成源视频，并将所述源视频上传至服务器；

[0011] 所述服务器，用于接收所述源视频，并将所述源视频进行预定处理形成短视频。

[0012] 可选地，所述硬件连接模块包括输入接口、硬件解码芯片和输出接口，所述输入接口分别与所述专业摄像设备和所述硬件解码芯片相连，所述输出接口分别与所述硬件解码芯片和所述移动终端相连。

[0013] 可选地，所述专业摄像设备具有SDI或HDMI数字视频输出接口，所述输入接口采用SDI或HDMI数字视频输入接口。

[0014] 可选地，所述服务器包括分析模块、选择模块、渲染模块和用户喜好分析模块，其中，

[0015] 所述分析模块，用于对所述源视频进行深度分析，以提取所述源视频中的多维度特征，以及基于所述多维度特征识别出所述源视频的视频场景；

[0016] 所述选择模块，用于根据所述多维度特征，从预先存储的数据库中选择相匹配的渲染方案，所述渲染方案包括相匹配的制片策略、背景音乐、视频特效和字幕中的至少一者；

[0017] 所述渲染模块，用于根据所述渲染方案对所述源视频进行渲染，以获得所述短视频；

[0018] 所述用户喜好分析模块，用于收集用户对所述短视频的操作反馈，并基于所述操作反馈建立用户喜好模型，所述用户喜好模型的输出值用于选择所述渲染方案。

[0019] 可选地，所述用户喜好分析模块包括用户喜好信息收集子模块、用户喜好训练子模块，其中，

[0020] 所述用户喜好信息收集子模块，用于收集用户对所述短视频的操作信息；

[0021] 所述用户喜好训练子模块，用于对所述用户喜好信息收集子模块收集到的所述操作信息进行训练，以得到用户喜好模型，所述用户喜好模型的输出值包括通用用户喜好权重和个体用户喜好权重，所述通用用户喜好权重和所述个体用户喜好权重均包括规则喜好权重和音乐风格喜好权重。

[0022] 可选地，所述选择模块包括制片策略选择子模块、音乐选择子模块、视频特效选择子模块和字幕选择子模块，其中，

[0023] 所述制片策略选择子模块，用于：

[0024] 根据所述多维度特征和所述视频场景，从数据库中选择可用的制片策略，并根据第一预设规则对各可用制片策略进行打分，选择打分最高的制片策略作为目标制片策略，所述第一预设规则包括根据所述多维度信息与所述制片策略的相融度以及相应的规则喜好权重进行计算；

[0025] 所述音乐选择子模块，用于：

[0026] 根据所述目标制片策略和所述音乐风格喜好权重，从所述数据库中选取相匹配的目标背景音乐；

[0027] 根据所述目标背景音乐的节奏点和段落信息，将所述源视频中符合所述目标制片策略规则的可用片段进行摆放，获得粗剪时间线集合，所述粗剪时间线集合包括所有符合摆放规则的粗剪时间线，并对各粗剪时间线进行相符度打分，选择打分最高的粗剪时间线作为初始时间线；

[0028] 所述视频特效选择子模块，用于：

[0029] 根据所述制片策略和所述初始时间线从所述数据库中选择相匹配的目标视频特效；

[0030] 将所述目标视频特效应用到所述初始时间线上，并根据所述目标背景音乐的节奏点信息修改视频特效关键点位置，获得第一剪辑时间线；

[0031] 所述字幕选择子模块，用于：

[0032] 根据所述制片策略和所述初始时间线从所述数据库中选择相匹配的目标字幕方案，并将所述目标字幕方案应用到所述第一剪辑时间线上，获得目标剪辑时间线；

[0033] 所述渲染模块，用于根据所述目标粗剪视频和所述目标剪辑时间线，利用渲染引擎进行渲染叠加，获得所述短视频。

[0034] 可选地，所述分析模块，还用于根据所述源视频的音量信息和语音信息识别出所述源视频的同期声段落；

[0035] 所述渲染模块，还用于在所述同期声段落处淡化或取消背景音乐的音量，以获得所述短视频。

[0036] 可选地，所述选择模块还包括调色策略选择子模块，用于对所述源视频进行色调分析，并根据色调分析结果从预设的调色策略数据库中选择相匹配的目标调色策略。

[0037] 本发明的第二方面提供一种短视频制作方法，包括：

[0038] 接收专业摄像设备拍摄的实时视频信号，并对所述实时视频信号进行预处理形成实时视频流；

[0039] 接收用户短视频制作请求，并根据所述短视频制作请求将所述实时视频流制作形成源视频，并将所述源视频上传至服务器；

[0040] 接收所述源视频，并将所述源视频进行预定处理形成短视频。

[0041] 本发明的第三个方面提供一种电子设备，包括：

[0042] 一个或多个处理器；

[0043] 存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据本发明的第二个方面提供的短视频制作方法。

[0044] 本发明实施例的短视频制作系统、方法、电子设备及可读介质，包括专业摄像设备、硬件连接模块、移动终端和服务器，所述硬件连接模块分别与所述专业摄像设备和所述移动终端相连，所述移动终端还与所述服务器相连。所述硬件连接模块，用于接收所述专业摄像设备拍摄的实时视频信号，并对所述实时视频信号进行预处理形成实时视频流；所述移动终端，用于接收用户短视频制作请求，并根据所述短视频制作请求将所述实时视频流制作形成源视频，并将所述源视频上传至服务器；所述服务器，用于接收所述源视频，并将所述源视频进行预定处理形成短视频。本发明打通了从专业摄像设备到短视频之间的通路，提供了一种高效、简洁、智能、低成本的使用专业摄像设备拍摄并制作短视频的解决方案。附图说明

[0045] 图1为本发明第一实施例的一种短视频制作系统的结构示意图；

[0046] 图2为本发明第二实施例的一种短视频制作系统的硬件连接模块的结构示意图；

[0047] 图3为本发明第三实施例的一种短视频制作系统的服务器的组成示意框图；

[0048] 图4为图3中的服务器的用户偏好分析模块的组成示意框图；

[0049] 图5为图3中的服务器的分析模块的组成示意框图；图6为图3中的服务器的选择模块的组成示意框图；

[0050] 图7为本发明第四实施例的一种短视频制作方法的流程示意图；

[0051] 图8为本发明第五实施例的一种短视频制作方法的流程示意图。

具体实施方式

[0052] 为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

[0053] 以下为本实施方案中涉及到的一些专业名词的解释：

[0054] 专业摄像设备：指具备较大面积的感光芯片、使用可更换镜头、可拍摄较高码率视频、通常用于专业影像创作的摄影摄像设备，包括但不限于各品牌的单反相机、微单相机、摄像机等。

[0055] 云计算：云是对网络、互联网的一种比喻说法；云计算是对基于互联网的网络通信、数据处理、数据存储服务的总称，是一种架构在包括但不限于通信网络、服务器、存储设备、应用软件等软硬件设施基础上的，可以按需提供的、便捷的、高效的、可显著降低业务成本的、简单易用的网络计算服务。

[0056] AI(人工智能)：计算机通过一系列数据处理算法，实现对各种数据的特征提取、归类、对比、模型建立、模型再学习等功能，在特定工作流程中可以取代人工进行高效精准的数据处理工作，或完成人工所无法完成的数据处理工作。

[0057] 视频制作：指使用专用的视频制作软件，把使用摄影器材拍摄得到的视频素材进行剪辑、加工、调色、配音、添加字幕和特效等处理，得到最终成片的过程。

[0058] 短视频：指时长在10～60秒范围内的视频节目。

[0059] 码率：是视频或音频文件(或视频或音频数据流)的数据量衡量单位，其意义是记录单位时间长度(每秒)的视频或音频所使用的bit位数，以bps(bit per second，比特每秒)为单位，常用的衍生单位有kbps(千比特每秒，＝1000bps)、Mbps(兆比特每秒，＝1000000bps，＝1000kbps)。固定的网络带宽下，码率数值越大，传输该视频或音频文件所需的时间就会越长。存储相同时长的视频或音频，使用更高的码率，将占用更多的存储空间。

[0060] 压缩格式：指视频或音频数据的压缩标准。未经压缩的视频或音频数据，将占用非常大的存储空间，且不适合通过网络进行传输。在保持较好的画面或音频质量的情况下，通过一些专用的数学算法，可以减少未经压缩的视频或音频数据中的数据冗余度，保留人眼和人耳最敏感的成分，丢弃不敏感的成分，从而达到降低数据量的目的。所使用的数学算法，称之为压缩格式。常用的视频压缩格式包括：MPEG-1，MPEG-2，MPEG-4，H.263,H.264,H.265,WMV,VC-3等；常用的音频压缩格式有MPEG-1Layer3,AAC,WMA,AC3,FLAC等。

[0061] 文件格式：指视频或音频数据按照一定的压缩格式进行压缩后，再按照特定的文件格式存储为文件。常用的视频文件格式包括：avi,mp4,wmv,rmvb,mov,flv,mxf,vob,mpeg等，常用的音频文件格式包括wav,mp3,wma,ac3等。

[0062] 剪辑：指使用专用的视频编辑软件，对拍摄的视频源素材进行片段截取、位置排列、播放速度调整、片段衔接效果调整等处理，生成一个初级样片的过程。

[0063] 调色：指使用专用的视频编辑软件或调色软件，对拍摄的视频源素材或者经剪辑后生成的初片进行画面色彩调整，从而提高色彩还原度、提高画质，达到成片标准的过程。

[0064] 后期制作：指专业人员使用专用的软件工具，对拍摄的视频源素材进行剪辑、调色等工序，最终生成成片的过程。

[0065] 制片策略：是一套数据集合，包括但不限定于视频样片、镜头描述数据、拍摄说明脚本、后期制作操作说明(如剪辑说明、调色说明、特效说明等)等；制片策略可作用于从拍摄到后期制作的全过程。

[0066] 时间线：后期制作用语，指在专业的剪辑软件中，把源素材中截取出来的有用的片段，按时间先后顺序和画面前后遮挡关系，排列成二维的轨道状结构，称之为一条时间线。

[0067] 镜头：指内容和画面连续的一组帧序列，通常情况下，一个镜头内部需要保持取经主体不变，描述的事件是连贯的。

[0068] 转场：后期制作用语，指相邻两个不同的镜头需要做切换。切换时使用的画面效果称之为转场特效。常用的转场特效有硬切(无任何效果，直接切换)、淡入淡出、划像等。

[0069] 特效：后期制作用语，指应用于一个镜头内部，或者两个镜头之间的一组特殊的画面效果，用于加强视频画面的生动性和美观度。

[0070] 制片策略：服务器自动制作短视频时，依据所制作的短视频的不同的场景，有不同的镜头选取、镜头节奏控制、背景音乐选择、特效选择、字幕选择等的规则。这些规则组合起来，称为一种“制片策略”。

[0071] 视频场景：指视频内容上的分类，例如婚礼、旅行、生日、会议、活动、比赛等等。

[0072] 如图1所示，本发明的第一方面提供一种短视频制作系统100，包括专业摄像设备110、硬件连接模块120、移动终端130和服务器140。硬件连接模块120分别与专业摄像设备
110和移动终端130相连，移动终端130还与服务器140相连。其中，硬件连接模块120，用于接收专业摄像设备110拍摄的实时视频信号，并对实时视频信号进行预处理形成实时视频流。
移动终端130，用于接收用户短视频制作请求，并根据短视频制作请求将实时视频流制作形成源视频，并将源视频上传至服务器。服务器140，用于接收源视频，并将源视频进行预定处理形成短视频。本发明的短视频制作系统100，打通了从专业摄像设备到短视频之间的通路，提供了一种高效、简洁、智能、低成本的使用专业摄像设备拍摄并制作短视频的解决方案。

[0073] 如图2所示，硬件连接模块120包括输入接口121、硬件解码芯片122和输出接口123，输入接口121分别与专业摄像设备110和硬件解码芯片122相连，输出接口123分别与硬件解码芯片122和移动终端130相连。

[0074] 专业摄像设备110具有SDI或HDMI数字视频输出接口，输入接口采用SDI或HDMI数字视频输入接口。

[0075] 具体地，本发明中所提到的专业摄像设备110可以为专业的单反相机、摄像机等设备，其可提供高质量的视频拍摄功能，具备SDI或HDMI数字视频输出接口，硬件连接模块120需要通过SDI或HDMI接口来输入视频信号。用户可自行在市场上进行采购，只需要能够提供SDI或HDMI数字视频输出接口，即可在本发明所述系统中使用。

[0076] 具体地，硬件连接模块120通过SDI或HDMI数字图像输入输出接口121来获取专业摄像设备110输出的视频信号，并带有硬件编解码芯片122，对输入信号进行实时的重新编码。硬件连接模块120还带有实时视频流输出接口123，为不同的手机提供不同的连接接口，例如为iPhone手机提供Lightening接口、为Android手机提供USB接口等，也可以提供Wi-Fi连接链路，用于与iPhone或Android系统的移动终端进行无线数据传输，以将重新编码的实时视频流传输给移动终端130。为方便用户户外工作，硬件连接模块120还内置有可充电电池和专业摄像设备的安装接口等。硬件连接模块120可由第三方硬件厂商根据相应的技术指标进行定制生产。

[0077] 移动终端130的接收硬件连接模块120传输的实时视频流，并由用户指定需要上传的视频片段，将其实时编码为视频素材文件，上传至服务器140。同时，接收服务器140的通知信息，在服务器140完成短视频制作之后，将制作的短视频成片下载到移动终端130中，也可以分享至社交软件或其他视频分享平台中。需要说明的是，移动终端130可以为手机App，也可是专门定制的终端设备，本发明并未对此进行限定，本领域技术人员可根据需要进行选择与应用。此外，本发明实施例的移动终端130还支持用户在移动终端130中对短视频进行预览、下载、分享、打分等操作。

[0078] 本发明实施例的短视频制作系统100，利用硬件连接模块120和移动客户端130，连接专业摄像设备110和服务器140，可以为专业摄影师等专业从业人员提供完整、便捷、智能、低成本的具有专业质感的短视频的生产系统。

[0079] 服务器指一组服务器集群，部署在云服务器集群中。为用户提供视频素材存储、AI视频分析、将视频素材组成短视频时间线、将时间线渲染输出为短视频、短视频下载等服务。

[0080] 具体地，如图3所示，服务器140包括分析模块141、选择模块142、渲染模块143和用户喜好分析模块144。其中，分析模块141，用于对源视频进行深度分析，以提取源视频中的多维度特征，以及基于多维度特征识别出源视频的视频场景。选择模块142，用于根据多维度特征，从预先存储的数据库中选择相匹配的渲染方案，渲染方案包括相匹配的制片策略、背景音乐、视频特效和字幕中的至少一者。渲染模块143，用于根据渲染方案对源视频进行渲染，以获得短视频。用户喜好分析模块144，用于收集用户对短视频的操作反馈，并基于操作反馈建立用户喜好模型，用户喜好模型的输出值用于选择渲染方案。

[0081] 如图4所示，用户喜好分析模块144包括用户喜好信息收集子模块144a、用户喜好模型训练子模块144b。

[0082] 用户喜好信息收集子模块144a，用于收集用户对短视频的操作信息。收集到的操作数据可以包括：用户预览成片时成片是否播放完毕、成片是否被反复播放、用户是否下载了成片、用户是否分享了成片以及用户对成片的满意度评分等。

[0083] 用户喜好模型训练子模块144b，用于对用户喜好信息收集子模块144a收集到的操作信息进行训练，以得到用户喜好模型。用户喜好模型的输出值包括通用用户喜好权重和个体用户喜好权重，通用用户喜好权重和个体用户喜好权重均包括规则喜好权重和音乐风格喜好权重。

[0084] 具体地，用户信息收集子模块144a可以收集用户在移动终端130上的一些操作，反馈给服务器140。服务器140上的用户喜好模型训练子模块144b，将这些信息进行整理、归纳、脱敏，形成模型，用于调整制片策略中的各个打分的权重，以及选择背景音乐时的权重，以使生成的短视频更符合用户喜好。

[0085] 具体地，用户喜好模型训练子模块144b，可将用户喜好模型分为两级：

[0086] 第一级：将所有用户的信息集中起来，放到一个模型中进行训练，得到大多数用户对于不同的制片策略中的各个规则的喜好权重，以及对于音乐风格的喜好权重，即通用用户喜好权重；

[0087] 第二级：对每个用户建立一个模型，得到这个用户在制片策略所包含的各规则以及音乐风格的喜好权重，即个体用户喜好权重。

[0088] 对于通用用户喜好权重和个体用户喜好权重的使用策略，可进行如下设置：选择制片策略及选择背景音乐生成初剪时间线时，不同的用户将会采用不同的权重叠加：对于新用户，系统对其喜好数据收集的较少，则更加偏向第一级模型的权重；对于老用户，则更加偏向第二级模型的权重。

[0089] 用户喜好分析模块144，通过收集用户对于短视频成片的行为反馈，建立用户喜好模型，可以在选取制作策略、选取背景音乐和组成短视频时间线时作为参考，并调整制作策略选取时的各项打分依据的权重，调整背景音乐选取时的打分依据的权重，让服务器更加智能。随着用户的不断使用，可以制作出更加适合用户喜好的短视频。

[0090] 如图5所示，分析模块141包括源视频深度分析子模块141a以及视频场景识别子模块141b。

[0091] 具体地，源视频深度分析子模块141a对上传的源视频逐一进行深度分析，提取多维度的特征，包括：

[0092] 1、基于深度学习的场景分类，例如分为“人物”、“风景”、“照片”、“其他”等分类。可人工分类或自动分类，减轻分类的工作强度，提高分类效率；

[0093] 2、人脸识别：识别视频画面中的人脸及其大小、位置、性别、情绪等；

[0094] 3、人体特征识别：识别人物的发型、饰物、衣着颜色及人物在画面中的运动速度等；

[0095] 4、行为识别：识别画面中的人物是否在拥抱、接吻、手拉手、站立、坐着等；

[0096] 5、特定场景识别：识别是否是沙滩、草地、夜空等场景；

[0097] 6、音量检测：计算视频同期声的音量变化，得知静音段和非静音段，以便在保留视频同期声时，选择正确的同期声段落；

[0098] 7、语音识别：识别视频同期声中是否有清晰语音，并尽可能转换为文字；

[0099] 8、清晰度识别：计算画面的清晰度，以便选取相对更加清晰的片段；

[0100] 9、抖动识别及反抖动处理：计算画面的抖动率，以便选择相对更加稳定的片段，并根据抖动的类型(上下抖动、左右抖动、随机抖动、大幅度晃动等)采取必要的反抖动处理，优化视频的稳定度；

[0101] 10、色调分析：计算画面的整体色调，以便根据后续选择的制片策略和背景音乐的风格，选取合适的颜色滤镜进行调色；

[0102] 11、构图和景别识别：计算画面的整体构图，分析画面的景别(远景、近景、特写等)，以便在后续制作中，合理安排素材的排列顺序，使得成片视频的节奏更精彩，以及应用合适的视频特效；

[0103] 12、镜头运动识别：计算画面的镜头运动类型(水平平移、垂直平移、拉远、拉近、旋转等)以及运动的速度，以便在后续制作中，合理安排素材的排列顺序。

[0104] 视频场景识别子模块141b，根据源视频深度分析子模块141a的分析结果，综合场景分类结果、人体特征、行为识别、特定场景识别、语音识别的结果，判断出最接近的视频场景，例如婚礼、旅行、生日、会议、活动、比赛等。

[0105] 如图6所示，选择模块142包括制片策略选择子模块142_1、音乐选择子模块142_2、视频特效选择子模块142_3和字幕选择子模块142_4。

[0106] 制片策略选择子模块142_1，根据多维度特征和视频场景，从数据库中选择可用的制片策略，并根据第一预设规则对各可用制片策略进行打分，选择打分最高的制片策略作为目标制片策略，第一预设规则包括根据多维度信息与制片策略的相融度以及相应的规则喜好权重进行计算。

[0107] 具体地，本发明的制片策略为一组规则的组合。这些规则包括但不限于：(1)背景音乐风格和节奏的选择规则。(2)不同的背景音乐的段落，对于源素材的场景、景别、画面运动方向和速度、人物在画面中的运动速度、镜头时长等的要求。(3)人物镜头和风景及其他镜头的配比关系、摆放位置关系。(4)各个不同景别的镜头的摆放位置关系。(5)画面冷暖色调的处理规则，即应该把画面处理成冷色调或者暖色调，以及处理力度等。(6)画面明暗色调的处理规则，即应该把画面处理成明亮或黯淡的色调，以及处理力度等。冷暖色掉和明暗色调，有助于调整短片的节奏和增强情绪表达。(7)挑选“关键镜头”的依据，以及“关键镜头”的摆放位置、镜头长度控制规则。所谓“关键镜头”，就是指符合当前视频场景的主题、可以充分突出背景音乐的风格的镜头，例如人物面部特写、人物行为的特写、风景的全景、风景的特写等。(8)符合场景主题及音乐风格的可用的视频特效及其特效参数组合。

[0108] 具体地，可利用下述规则及步骤对制片策略进行打分，以选取得分最高的策略：

[0109] 步骤一：计算源视频深度分析子模块141a得到的源视频多维度特征信息与制片策略的相融度得分Sa。其中，Sa的计算维度包括但不限于：(a)源素材的人物镜头、风景镜头、其他镜头和照片镜头的个数和总可用时长；(b)远景、中景、近景和特写镜头的个数和可用时长；(c)冷色调、中性色调和暖色调的镜头个数和可用时长；(d)明亮、中等和黯淡的色调的镜头个数和可用时长；(e)可用于“关键镜头”的个数和时长；(f)不同的画面运动方向和运动速度的镜头的个数和时长。

[0110] 上述各项的统计数据，与制片策略库的各项要求的最低值、最优值和最高值进行比较并计算一个相符度得分，并叠加以各个条件的权重，加权求和，得到Sa。

[0111] 步骤二、以上述各项评分为基础，叠加用户喜好模型输出的权重，计算得分Sb。

[0112] 步骤三、将Sa和Sb再叠加各自的权重，得到最终的评分S。

[0113] 选择好目标制片策略之后，就可以在目标制片策略的指导下，执行后续的步骤。

[0114] 音乐选择子模块142_2，根据目标制片策略和音乐风格喜好权重，从数据库中选取相匹配的目标背景音乐。根据目标背景音乐的节奏点和段落信息，将源视频中符合目标制片策略规则的可用片段进行摆放，获得粗剪时间线集合，粗剪时间线集合包括所有符合摆放规则的粗剪时间线，并对各粗剪时间线进行相符度打分，选择打分最高的粗剪时间线作为初始时间线。

[0115] 具体地，本发明实施例的服务器140预置有丰富的背景音乐库，并提取背景音乐的节奏点和段落信息。对音乐进行段落划分，可以划分为起始、发展、高潮、结尾段落，但不是每首背景音乐都具备完整的四个段落，部分音乐可能只具备其中的某些段落。不同的段落，对于镜头的个数、镜头的景别、画面运动速度、使用人物镜头还是风景镜头，具有不同的要求和不同的适合程度。

[0116] 本发明根据目标制片策略，参考用户对音乐的喜好，从背景音乐库中选择相符度较高的背景音乐作为目标背景音乐，然后获取目标背景音乐的节奏点和段落信息。

[0117] 首先，根据目标背景音乐的音乐节奏点和段落信息，以及目标制片策略中规定的对于不同段落的镜头选取规则，将源视频中的可用片段，摆放在合适的段落中。需要说明的是，此处的摆放可以有多种摆放方式，其中，一种可选的实施方式是穷举符合规则的各种摆放方式。然后，对各种摆放方式进行相符度打分，选取得分最高的摆放方式，作为初始时间线。具体处理步骤可如下：

[0118] 步骤一、根据节奏点分布和段落信息，结合目标制片策略中规定的段落选取规则，可以将各个源素材分配到各个段落中。这个分配方案可能不唯一，称之为分配方案集合A。在分配到段落的过程中，目标制片策略可以规定这个段落接收源素材的分类的优先级。根据此优先级，即可得到各个分配方案的分配得分S0；

[0119] 步骤二、各个段落中，根据节奏点信息和此段落中的源素材的个数，确定各个镜头的切点。需要说明的是，每个段落中的切点方案也可能不唯一。对于每个段落Pn，n为段落序号，得到每个段落的切点方案集合BPn。对于分配方案集合A中的每个分配方案，都将得到一个每个段落的切点方案集合BPn(Am)，其中Am是第m个段落分配方案。对于每个段落的切点方案，其切点的参考位置就是目标背景音乐的节奏点。而节奏点定义有“强节奏点”和“弱节奏点”，有不同的优先级。此时可以根据此优先级，得到每种分配方案的节奏点得分S1；

[0120] 步骤三、综合步骤一和步骤二两步得到的每个段落分配方案中的每个切点方案，可以组合得到k个的切点及镜头分配方案Tk。

[0121] 步骤四、对Tk中的每个镜头的长度进行处理。需要说明的是，切点方案决定了每个镜头在最终成片中的长度t，但这个长度往往不等于源素材的长度。因此，在本发明的制片策略中，采用如下方式进行处理：

[0122] 方式一、从源素材中选取长度t的片段，不做变速，用于成片；

[0123] 方式二、如果源素材的可用长度小于t，则对源素材做慢动作变速，或者抽帧、重复帧处理，延长源素材的表现时间，用于成片；

[0124] 方式三、如果源素材的可用长度大于t，则对源素材做快动作变速，或者抽帧处理，将源素材的时长压缩在t内，用于成片。

[0125] 并且，在不同的制片策略，会对这三种处理方式有不同的优先级定义，或者在另一种实施方式中，只允许使用其中的某些方式。其中，如果需要从源素材中选取一部分片段用于成片，则选取时，还需要使用一个长度为t的时间窗口，以一定的步长ts，对源素材可用段进行加窗扫描，计算被窗口框住的每种可能选择的片段的得分，选取最高得分的片段加以使用。此打分成为S2。

[0126] 具体地，打分依据包括但不限定于：

[0127] a)画面运动的平稳度：画面运动越平稳的，得分越高；

[0128] b)画面清晰度，越清晰的得分越高；

[0129] c)如有人物，则人脸越清晰，得分越高；

[0130] d)景别、冷暖、明暗调、画面运动方向、画面运动速度等与制片策略的相符程度；

[0131] 制片策略会对上述三种时长处理方式有不同的优先级。据此优先级，可以得到时长处理得分S3。需要说明的是，如果需要做慢动作或快动作，制片策略中也会规定其快慢动作变换曲线的形状。

[0132] 经过上述4个步骤的处理，即可得到时长符合成片时长要求的初始时间线集合T。并且，综合上述得到的S0、S1、S2、S3打分，可以得到初始时间线集合T中的每个时间线的打分S。选取其中得分最高的作为初始时间线。如果最高分有得分相同者，则在最高分中随机选择一个作为初始时间线。

[0133] 视频特效选择子模块142_3，根据制片策略和初始时间线从数据库中选择相匹配的目标视频特效。将目标视频特效应用到初始时间线上，并根据目标背景音乐的节奏点信息修改视频特效关键点位置，获得第一剪辑时间线。

[0134] 具体地，目标视频特效包括镜头特效和转场特效，镜头特效应用于各个镜头，转场特效应用于前一个镜头和后一个镜头相转换的位置。本发明实施例中，在制片策略预置有若干组可用的视频特效方案及其适用条件和优先级。根据初始时间线的镜头组成情况和目标背景音乐的风格，选择最合适的视频特效方案并应用到初始时间线上。同时，根据目标背景音乐的节奏点，微调视频特效的关键点位置，使特效的变化效果更加贴近目标背景音乐的节奏。

[0135] 字幕选择子模块142_4，根据制片策略和初始时间线从数据库中选择相匹配的目标字幕方案，并将目标字幕方案应用到第一剪辑时间线上，获得目标剪辑时间线。

[0136] 具体地，字幕包括可以字幕的底图、LOGO、文字、图形、动画等信息。本发明实施例中，在制片策略中预置有若干套可选择的字幕方案及其适用条件和优先级。根据初始时间线的镜头组成情况和目标背景音乐的风格，选择一套最合适的字幕方案，并应用于第一剪辑时间线上。

[0137] 渲染模块143，用于根据目标剪辑时间线，利用渲染引擎进行渲染叠加，获得短视频。

[0138] 分析模块141，还用于根据源视频的音量信息和语音信息识别出源视频的同期声段落。相应地，渲染模块143在同期声段落处淡化或取消背景音乐的音量。

[0139] 如图6所示，选择模块142还包括调色策略选择子模块142_5，用于对源视频进行色调分析，并根据色调分析结果从预设的调色策略中选择相匹配的目标调色策略。可以采取自动选择方式，也可以在移动客户端由客户自己选择调色策略。

[0140] 本发明的短视频制作系统100，打通了专业摄像设备与互联网的壁垒，让专业摄像设备拍摄的视频，可以快速地生成具备较高画质、效果丰富、风格流行的短视频成片。本发明基于AI技术，对用户上传的源视频进行多维度的深度分析，并针对不同的视频应用场景，采取不同的制片策略，经过智能化、自动化的处理，可以短时间内，生成高质量的短视频成片。此外，方案可以收集用户对于成片的一些操作反馈，从而建立两级用户喜好模型，使得方案可以进行自我进化，制作出更加符合用户喜好的短视频成片。

[0141] 如图7所示，本发明的第二方面提供一种短视频制作方法S100，该短视频制作方法可以应用于前文记载的短视频制作系统，具体可以参考前文相关记载，在此不作赘述。短视频制作方法S100包括：

[0142] 步骤S110、接收专业摄像设备拍摄的实时视频信号，并对实时视频信号进行预处理形成实时视频流；

[0143] 步骤S120、接收用户短视频制作请求，并根据短视频制作请求将实时视频流制作形成源视频，并将源视频上传至服务器；

[0144] 步骤S130、接收源视频，并将源视频进行预定处理形成短视频。

[0145] 具体地，如图8所示，短视频制作方法S100包括如下步骤：

[0146] 对源素材进行深度分析，包括：基于深度学习的场景分类、人脸识别、人体特征识别、行为识别、特定场景识别、音量识别、清晰度识别、抖动识别及抖动处理、色调分析、构图和景别识别、镜头运动识别和语音识别等；

[0147] 根据源素材的元数据判断视频场景；

[0148] 根据视频场景和用户喜好选择制片策略；

[0149] 选择合适的背景音乐，摆放源素材，形成初始时间线；

[0150] 选择合适的视频特效；

[0151] 选择合适的字幕；

[0152] 渲染输出短视频成片；

[0153] 收集用户反馈，生成用户喜好模型。

[0154] 本发明的短视频制作方法S100,打通了从专业摄像设备到短视频之间的通路，提供了一种高效、简洁、智能、低成本的使用专业摄像设备拍摄并制作短视频的方法。

[0155] 本发明的第三方面提供一种电子设备，包括：

[0156] 一个或多个处理器；存储单元，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，能使得一个或多个处理器实现根据本发明第二方面提供的短视频制作方法。

[0157] 本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时能实现根据本发明第二方面提供的短视频制作方法。

[0158] 其中，计算机可读介质可以是本发明的装置、设备、系统中所包含的，也可以是单独存在。

[0159] 其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

[0160] 其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

[0161] 可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

标题	发布/更新时间	阅读量
调节视频码率的方法和装置	2020-05-08	801
一种基于CPU的8K超高清视频高速编码方法	2020-05-08	269
全景视频处理方法及系统	2020-05-08	252
场景联动方法及场景联动系统	2020-05-08	688
一种多路视频合成的方法及装置	2020-05-08	864
多媒体视频流总结系统及流程	2020-05-08	321
人机交互式软件录屏方法	2020-05-08	564
处理直播内容的方法、装置、系统	2020-05-08	77
基于动态模式分解的运动检测方法、终端设备及计算机可读存储介质	2020-05-08	828
一种受前面帧目标信息约束的相关滤波目标跟踪算法	2020-05-08	841

短视频制作系统、方法、电子设备及可读存储介质

短视频制作系统、方法、电子设备及可读存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：