多媒体资源合成方法、装置、电子设备及存储介质专利检索-音频分割音频信号处理信号处理信号处理专利检索查询-专利查询网

多媒体资源合成方法、装置、电子设备及存储介质

阅读：379发布：2020-05-16

专利汇可以提供多媒体资源合成方法、装置、电子设备及存储介质专利检索，专利查询，专利分析的服务。并且本公开是关于一种多媒体资源合成方法、装置、电子设备及存储介质，本公开方法包括：对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。，下面是多媒体资源合成方法、装置、电子设备及存储介质专利的具体信息内容。

权利要求

1.一种多媒体资源合成方法，其特征在于，包括：
对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；
根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；
对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。
2.根据权利要求1所述的方法，其特征在于，所述节拍参数至少包括所述目标音频素材的各节拍点位置；
所述根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度，包括：
从所述目标视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材；
根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度。
3.根据权利要求2所述的方法，其特征在于，所述根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度，包括：
根据所述节拍点位置对应的节拍间隔以及对应的所述视频素材的播放时长，确定变速比率；
如果所述变速比率小于预设阈值，丢弃所述视频素材中至少一个视频帧，来增加所述视频素材的原始播放速度，得到设置后的所述播放速度；
如果所述变速比率大于预设阈值，在所述视频素材插入至少一个视频帧，来降低所述视频素材的原始播放速度，得到设置后的所述播放速度。
4.根据权利要求3所述的方法，其特征在于，
所述丢弃所述视频素材中至少一个视频帧，包括：
获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；
获取所述视频总帧数减去所述目标帧数的差值，得到对应的丢失帧数；
根据所述丢弃帧数与所述视频总帧数，确定丢弃帧位置；
根据所述丢弃帧位置，从所述视频帧中丢弃所述丢弃帧数的所述视频帧；
或者，所述插入所述视频素材中至少一个视频帧，包括：
获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；
获取所述目标帧数减去所述视频总帧数的差值，得到对应的插入帧数；
根据所述插入帧数与所述视频总帧数，确定插入帧位置；
根据所述插入帧位置，从所述视频帧中插入所述插入帧数的所述视频帧。
5.根据权利要求2所述的方法，其特征在于，从所述视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材，包括：
接收配置信息，并根据所述配置信息确定与每个所述节拍点对应的视频素材。
6.根据权利要求1所述的方法，其特征在于，所述对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合包括：
获取所述目标音频素材中各音频帧的音频能量值；
根据所述各音频帧的音频能量值，确定所述节拍参数；
根据所述节拍参数分割所述目标音频素材，得到所述子音频素材集合。
7.根据权利要求1所述的方法，其特征在于，所述对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源包括：
将所述子音频素材集合中的子音频素材的音频码流，以及所述目标视频素材集合中与所述子音频素材对应的视频素材的视频码流，进行合流封装得到所述多媒体资源。
8.一种多媒体资源合成装置，其特征在于，包括：
处理单元，被配置为执行对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；
设置单元，被配置为执行根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；
合成单元，被配置为执行对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。
9.一种电子设备，其特征在于，包括：
处理器；
用于存储所述处理器可执行指令的存储器；
其中，所述处理器被配置为执行所述指令，以实现如权利要求1至权利要求7中任一项所述的多媒体资源合成方法。
10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的多媒体资源合成方法。

说明书全文

多媒体资源合成方法、装置、电子设备及存储介质

技术领域

[0001] 本公开涉及多媒体技术领域，尤其涉及一种多媒体资源合成方法、装置、电子设备及存储介质。

背景技术

[0002] 在视频后期制作流程，视频剪辑作为首要流程，PC(Personal Computer，个人计算机)端的后期编辑软件提供良好的操控以及编辑视窗，而在手机APP(APPlication，应用程序)编辑软件，由于屏幕限制无法展开编辑轨道上视频或音频素材缩放，因此无法精确定位剪辑点与音乐的匹配，最终剪辑得到的视频容易出现视频内容和音乐节奏不对应的情况。发明内容

[0003] 本公开提供一种多媒体资源合成方法、装置、电子设备及存储介质，以至少解决相关技术中剪辑得到的视频容易出现视频内容和音乐节奏不对应的问题。本公开的技术方案如下：

[0004] 根据本公开实施例的第一方面，提供一种多媒体资源合成方法，包括：

[0005] 对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；

[0006] 根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；

[0007] 对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。

[0008] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0009] 所述根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度，包括：

[0010] 从所述目标视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材；

[0011] 根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度。

[0012] 在一种可选的实施方式中，所述根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度，包括：

[0013] 根据所述节拍点位置对应的节拍间隔以及对应的所述视频素材的播放时长，确定变速比率；

[0014] 如果所述变速比率小于预设阈值，丢弃所述视频素材中至少一个视频帧，来增加所述视频素材的原始播放速度，得到设置后的所述播放速度；

[0015] 如果所述变速比率大于预设阈值，在所述视频素材插入至少一个视频帧，来降低所述视频素材的原始播放速度，得到设置后的所述播放速度。

[0016] 在一种可选的实施方式中，所述丢弃所述视频素材中至少一个视频帧，包括：

[0017] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0018] 获取所述视频总帧数减去所述目标帧数的差值，得到对应的丢失帧数；

[0019] 根据所述丢弃帧数与所述视频总帧数，确定丢弃帧位置；

[0020] 根据所述丢弃帧位置，从所述视频帧中丢弃所述丢弃帧数的所述视频帧；

[0021] 或者，所述插入所述视频素材中至少一个视频帧，包括：

[0022] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0023] 获取所述目标帧数减去所述视频总帧数的差值，得到对应的插入帧数；

[0024] 根据所述插入帧数与所述视频总帧数，确定插入帧位置；

[0025] 根据所述插入帧位置，从所述视频帧中插入所述插入帧数的所述视频帧。

[0026] 在一种可选的实施方式中，从所述视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材，包括：

[0027] 接收配置信息，并根据所述配置信息确定与每个所述节拍点对应的视频素材。

[0028] 在一种可选的实施方式中，所述对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合包括：

[0029] 获取所述目标音频素材中各音频帧的音频能量值；

[0030] 根据所述各音频帧的音频能量值，确定所述节拍参数；

[0031] 根据所述节拍参数分割所述目标音频素材，得到所述子音频素材集合。

[0032] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0033] 所述根据所述各音频帧的音频能量值，确定所述节拍参数，包括：

[0034] 将音频能量值大于设定阈值的音频帧的位置候选节拍点位置；

[0035] 选取至少一个所述候选节拍点位置作为所述目标音频素材的节拍点位置。

[0036] 在一种可选的实施方式中，所述选取至少一个所述候选节拍点位置作为所述目标音频素材的节拍点位置的步骤，包括：

[0037] 根据预设的时间间隔将所述目标音频素材划分为多段音频子素材；

[0038] 针对任意一段音频子素材，若所述音频子素材包含的音频帧的位置中有候选节拍点位置，则选取所述音频子素材中的至少一个候选节拍点位置作为所述目标音频素材的节拍点位置；

[0039] 若所述音频子素材包含的音频帧的位置中没有候选节拍点位置，则从所述音频子素材包含的音频帧的位置中，选取至少一个音频帧的位置作为所述目标音频素材的节拍点位置。

[0040] 在一种可选的实施方式中，所述选取所述音频子素材中的至少一个候选节拍点位置作为所述目标音频素材的节拍点位置的步骤，包括：

[0041] 根据预设的所述音频子素材对应的第一位置数量，从所述音频子素材中选取部分或全部候选节拍点位置作为所述目标音频素材的节拍点位置。

[0042] 在一种可选的实施方式中，所述从所述音频子素材中选取部分或全部候选节拍点位置作为所述目标音频素材的节拍点位置的步骤，包括：

[0043] 若所述音频子素材中的候选节拍点位置的数量小于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置，以及从所述音频子素材包含的其它音频帧的位置中选取部分或全部音频帧的位置作为所述目标音频素材的节拍点位置；或

[0044] 若所述音频子素材中的候选节拍点位置的数量等于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置；或

[0045] 若所述音频子素材中的候选节拍点位置的数量大于所述第一位置数量，则从所述音频子素材中选取音频能量值最大的所述第一位置数量个候选节拍点位置作为所述目标音频素材的节拍点位置。

[0046] 在一种可选的实施方式中，所述从所述音频子素材包含的音频帧的位置中，选取至少一个音频帧的位置作为所述目标音频素材的节拍点位置的步骤，包括：

[0047] 从所述音频子素材中选取音频能量值最大的第二位置数量个音频帧的位置作为所述目标音频素材的节拍点位置；或

[0048] 从所述音频子素材中随机选取第二位置数量个音频帧的位置所述目标音频素材的节拍点位置。

[0049] 在一种可选的实施方式中，所述对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源包括：

[0050] 将所述子音频素材集合中的子音频素材的音频码流，以及所述目标视频素材集合中与所述子音频素材对应的视频素材的视频码流，进行合流封装得到所述多媒体资源。

[0051] 根据本公开实施例的第二方面，提供一种多媒体资源合成装置，包括：

[0052] 处理单元，被配置为执行对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；

[0053] 设置单元，被配置为执行根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；

[0054] 合成单元，被配置为执行对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。

[0055] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0056] 所述设置单元具体被配置为执行：

[0057] 从所述目标视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材；

[0058] 根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度。

[0059] 在一种可选的实施方式中，所述设置单元具体被配置为执行：

[0060] 根据所述节拍点位置对应的节拍间隔以及对应的所述视频素材的播放时长，确定变速比率；

[0061] 如果所述变速比率小于预设阈值，丢弃所述视频素材中至少一个视频帧，来增加所述视频素材的原始播放速度，得到设置后的所述播放速度；

[0062] 如果所述变速比率大于预设阈值，在所述视频素材插入至少一个视频帧，来降低所述视频素材的原始播放速度，得到设置后的所述播放速度。

[0063] 在一种可选的实施方式中，所述设置单元具体被配置为执行：

[0064] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0065] 获取所述视频总帧数减去所述目标帧数的差值，得到对应的丢失帧数；

[0066] 根据所述丢弃帧数与所述视频总帧数，确定丢弃帧位置；

[0067] 根据所述丢弃帧位置，从所述视频帧中丢弃所述丢弃帧数的所述视频帧；

[0068] 或者，所述设置单元具体被配置为执行：

[0069] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0070] 获取所述目标帧数减去所述视频总帧数的差值，得到对应的插入帧数；

[0071] 根据所述插入帧数与所述视频总帧数，确定插入帧位置；

[0072] 根据所述插入帧位置，从所述视频帧中插入所述插入帧数的所述视频帧。

[0073] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0074] 接收配置信息，并根据所述配置信息确定与每个所述节拍点对应的视频素材。

[0075] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0076] 获取所述目标音频素材中各音频帧的音频能量值；

[0077] 根据所述各音频帧的音频能量值，确定所述节拍参数；

[0078] 根据所述节拍参数分割所述目标音频素材，得到所述子音频素材集合。

[0079] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0080] 所述处理单元具体被配置为执行：

[0081] 将音频能量值大于设定阈值的音频帧的位置候选节拍点位置；

[0082] 选取至少一个所述候选节拍点位置作为所述目标音频素材的节拍点位置。

[0083] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0084] 根据预设的时间间隔将所述目标音频素材划分为多段音频子素材；

[0085] 针对任意一段音频子素材，若所述音频子素材包含的音频帧的位置中有候选节拍点位置，则选取所述音频子素材中的至少一个候选节拍点位置作为所述目标音频素材的节拍点位置；

[0086] 若所述音频子素材包含的音频帧的位置中没有候选节拍点位置，则从所述音频子素材包含的音频帧的位置中，选取至少一个音频帧的位置作为所述目标音频素材的节拍点位置。

[0087] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0088] 根据预设的所述音频子素材对应的第一位置数量，从所述音频子素材中选取部分或全部候选节拍点位置作为所述目标音频素材的节拍点位置。

[0089] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0090] 若所述音频子素材中的候选节拍点位置的数量小于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置，以及从所述音频子素材包含的其它音频帧的位置中选取部分或全部音频帧的位置作为所述目标音频素材的节拍点位置；或

[0091] 若所述音频子素材中的候选节拍点位置的数量等于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置；或

[0092] 若所述音频子素材中的候选节拍点位置的数量大于所述第一位置数量，则从所述音频子素材中选取音频能量值最大的所述第一位置数量个候选节拍点位置作为所述目标音频素材的节拍点位置。

[0093] 在一种可选的实施方式中，所述处理单元具体被配置为执行：

[0094] 从所述音频子素材中选取音频能量值最大的第二位置数量个音频帧的位置作为所述目标音频素材的节拍点位置；或

[0095] 从所述音频子素材中随机选取第二位置数量个音频帧的位置所述目标音频素材的节拍点位置。

[0096] 在一种可选的实施方式中，所述合成单元具体被配置为执行：

[0097] 将所述子音频素材集合中的子音频素材的音频码流，以及所述目标视频素材集合中与所述子音频素材对应的视频素材的视频码流，进行合流封装得到所述多媒体资源。

[0098] 根据本公开实施例的第三方面，提供一种电子设备，包括：

[0099] 处理器；

[0100] 用于存储所述处理器可执行指令的存储器；

[0101] 其中，所述处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的多媒体资源合成方法。

[0102] 根据本公开实施例的第四方面，提供一种非易失性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例第一方面中任一项所述的多媒体资源合成方法。

[0103] 根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。

[0104] 在本公开实施例中，根据目标音频素材的节拍参数将目标音频素材进行分割后得到多个子音频素材，根据节拍参数设置目标视频素材集合中每个视频素材的播放速度，使得目标视频素材集合中的视频素材精准适配音乐的节奏，因而根据子音频素材集合和目标视频素材集合合成后得到的多媒体资源中，视频内容能适配音频素材的节奏，获取更好的影音效果。

[0105] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明

[0106] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0107] 图1是根据一示例性实施例示出的一种多媒体资源合成方法的流程图；

[0108] 图2是根据一示例性实施例示出的一种候选节拍点的示意图；

[0109] 图3是根据一示例性实施例示出的第一种节拍点设置的示意图；

[0110] 图4是根据一示例性实施例示出的第二种节拍点设置的示意图；

[0111] 图5是根据一示例性实施例示出的一种节拍点设置的用户界面示意图；

[0112] 图6是根据一示例性实施例示出的一种音视频对应的剪辑示意图；

[0113] 图7是根据一示例性实施例示出的一种音频打点及自动剪辑变速的完整方法的流程图；

[0114] 图8是根据一示例性实施例示出的一种多媒体资源合成装置的框图；

[0115] 图9是根据一示例性实施例示出的一种电子设备的框图；

[0116] 图10是根据一示例性实施例示出的一种终端的框图。

具体实施方式

[0117] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0118] 需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

[0119] 下面对文中出现的一些词语进行解释：

[0120] 1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

[0121] 2、本公开实施例中术语“电子设备”可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

[0122] 3、本公开实施例中术语“转场”是指：每个段落(构成电视片的最小单位是镜头，一个个镜头连接在一起形成的镜头序列)都具有某个单一的、相对完整的意思，如表现一个动作过程，表现一种相关关系，表现一种含义等等。它是电视片中一个完整的叙事层次，就像戏剧中的幕，小说中的章节一样，一个个段落连接在一起，就形成了完整的电视片。因此，段落是电视片最基本的结构形式，电视片在内容上的结构层次是通过段落表现出来的。而段落与段落、场景与场景之间的过渡或转换，就叫做转场。

[0123] 4、本公开实施例中术语“FFT(Fast Fourier Transformation，快速傅立叶变换)”是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。

[0124] 5、本公开实施例中术语“音轨”指在音序器软件中看到的一条一条的平行"轨道"。每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。

[0125] 本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义。

[0126] 随着多媒体技术的发展，对音视频剪辑的要求越来越高。在相关技术中，若要在视频中添加音乐，以使音乐会跟随视频画面的切换而变更节奏，达到音乐与视频相配合的目的，一般需要人工打点进而剪辑音乐，才能达到音乐与视频相配合的效果。然而人工剪辑音乐效率低，不容易找准切割点。即，人工剪辑音乐对剪辑师的专业技术要求高，不然剪辑得到的视频容易出现视频内容和音乐节奏不搭的情况，影响视频的质量。

[0127] 鉴于此，本公开实施例提供一种多媒体资源合成方法、装置、电子设备及存储介质，根据目标音频素材的节拍参数将目标音频素材进行分割后得到多个子音频素材，根据节拍参数设置目标视频素材集合中每个视频素材的播放速度，使得目标视频素材集合中的视频素材精准适配音乐的节奏，因而根据子音频素材集合和目标视频素材集合合成后得到的多媒体资源中，视频内容能适配音频素材的节奏，获取更好的影音效果。

[0128] 图1是根据一示例性实施例示出的一种多媒体资源合成方法的流程图，如图1所示，包括以下步骤。

[0129] 在步骤S11中，对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；

[0130] 在步骤S12中，根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；

[0131] 在步骤S13中，对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。

[0132] 通过上述方案，根据目标音频素材的节拍参数将目标音频素材进行分割后得到多个子音频素材，根据节拍参数设置目标视频素材集合中每个视频素材的播放速度，使得目标视频素材集合中的视频素材精准适配音乐的节奏，因而根据子音频素材集合和目标视频素材集合合成后得到的多媒体资源中，视频内容能适配音频素材的节奏，获得更好的影音效果。

[0133] 在本公开实施例中，需要确定目标音频素材的节拍参数，进而则可根据节拍参数将目标音频素材分割得到包含多个子音频素材的子音频素材集合。

[0134] 在确定目标音频素材的节拍参数时，具体的：获取目标音频素材中各音频帧的音频能量值；根据各音频帧的音频能量值确定节拍参数。

[0135] 其中，节拍参数指节拍的间隔，或者音频的时长，或者节拍点等，其中节拍点也可以称作分割点、剪辑点等。

[0136] 下面主要以节拍参数包括目标音频素材的各节拍点位置为例进行详细介绍。

[0137] 一种可选的实施方式为，将音频能量值大于设定阈值的音频帧的位置候选节拍点位置；选取至少一个候选节拍点位置作为目标音频素材的节拍点位置。

[0138] 在一种可选的实施方式中，确定候选节拍点位置时，通过对目标音频素材进行波形分析，逐帧提取音频能量值，将音频能量值大于设定阈值的音频帧的位置候选节拍点位置。

[0139] 其中，确定各音频帧的位置音频能量值的具体过程如下：

[0140] 假设当前帧为第n帧，第一步，计算当前帧能量的绝对值：

[0141] X(n)＝FFT(x(n))；

[0142] 其中，x(n)为音频波形信号，通过FFT将音频波形信号转换到频域得到X(n)；

[0143] POW_X(n)＝sum(X(n)[k]^2)；

[0144] 其中，POW_X(n)表示第n帧的能量，sum()是用于累积一帧信号的频谱能量的，k是频率序号；

[0145] 第二步，计算当前帧能量的相对值：

[0146] POW_X0(n)＝POW_X(n)/POW_X_Average(n)；

[0147] 其中，POW_X_Average(n+1)＝POW_X_Average(n)*a+POW_X(n)*(1-a)，这个公式是用滑动平均的方法来计算短时平均能量的；a是0-1之间的系数，由经验值获得。POW_X_Average(n)是第n帧的短时平均能量，POW_X(n)是第一步中计算得到的第n帧的能量。

[0148] 在本公开实施例中，提供了一种根据当前帧信号能量绝对值和短时平均能量的比值来计算当前帧是否有节拍的可能性的方式，如果音频能量的相对值比较大，就认为是一个候选节拍点位置，也就是说POW_X0(n)越大可能性越大。可以根据经验值设置一个门限，也就是设定阈值，把POW_X0(n)超过门限的音频帧所在的位置设置为候选节拍点位置，时间记录为Ti，能量相对值作为节拍强度记为Si，所有候选节拍点位置存为一个图数组[Ti，Si]，i＝0～Nd-1；Nd为候选节拍点位置的个数。

[0149] 可选的，若目标音频素材包含的音频帧中没有候选节拍点位置，也就是说大于设定阈值的POW_X0(n)的个数为0，因而针对该目标音频素材，则在确定节拍点位置时的方式有很多种，下面列举两种：

[0150] 在本公开实施例中，若目标音频素材包含的音频帧所在的位置中没有候选节拍点位置，也就是说大于设定阈值的POW_X0(n)的个数为0，因而针对该目标音频素材，则在确定节拍点位置时的方式有很多种，下面列举两种：

[0151] 方式一、从该目标音频素材包含的音频帧中选取音频能量值最大的R个音频帧，将该R个音频帧所在的位置作为该目标音频素材的节拍点位置，R为正整数。

[0152] 例如设定阈值为20，目标音频素材1共有10个音频帧，其中音频能量值依次为：11、12、13、10、10、10、14、15、15、14，都小于设定阈值，若R＝5，则可选取音频能量值最大的前5个音频帧所在的位置，也就是第3帧和第7～10帧所在的位置作为该目标音频素材的节拍点位置。

[0153] 方式二、从该目标音频素材包含的音频帧中随机选取R个音频帧，将该R个音频帧所在的位置作为该目标音频素材的节拍点位置，R为正整数。

[0154] 在本公开实施例中，若目标音频素材包含的音频帧所在的位置中有候选节拍点位置，则在确定该目标音频素材的节拍点位置时，则可从候选节拍点位置中选取至少一个音频帧的位置作为该目标音频素材的节拍点位置。

[0155] 其中，在从候选节拍点位置中选取至少一个作为目标音频素材的节拍点位置时，可以选取全部候选节拍点位置；若候选节拍点位置较多或者候选节拍点位置比较密集时，也可从中选取部分候选节拍点位置。具体选取方式有很多种，下面主要列举两种方式：

[0156] 方式一、从该目标音频素材包含的候选节拍点位置对应的音频帧中，选取音频能量值最大的第二位置数量S个音频帧，将这S个音频帧所在的位置作为该目标音频素材的节拍点位置，S为正整数。

[0157] 例如设定阈值为20，目标音频素材2共有20个音频帧，其中音频能量值大于设定阈值的为第11帧～第20帧，这10帧音频帧的音频能量值依次为：22、22、23、20、20、20、24、25、25、24，若S＝5，则可选取音频能量值最大的前5个音频帧，也就是第13帧和第17～20帧，将这个5帧音频帧所在的位置作为该目标音频素材的节拍点位置。

[0158] 方式二、从该目标音频素材包含的候选节拍点位置中，随机选取S个音频帧所在的位置，作为该目标音频素材的节拍点位置，S为正整数。

[0159] 在目标音频素材包含候选节拍点位置的情况下，考虑到可能会存在某些时间段候选节拍点位置很密集的情况，该情况下可以设置一个预设的时间间隔，通过预设的时间间隔将目标音频素材划分为多段音频子素材，针对每一段音频子素材，再从中选取节拍点位置。

[0160] 在一种可选的实施方式中，将目标音频素材按照预设的时间间隔划分为多个音频子素材时，可在确定该目标音频素材的候选节拍点位置之后，在根据候选节拍点位置选择该目标音频素材的节拍点位置之前，对该目标音频素材进行划分，之后再根据候选节拍点位置选择节拍点位置；或者是，在根据候选节拍点位置选择节拍点位置时，对该目标音频素材进行划分等。

[0161] 例如，预设的时间间隔为2秒，目标音频素材4总时长为10秒，则可将目标音频素材4划分为5段音频子素材，如图2所示，将该目标音频素材划分为5段音频子素材。

[0162] 其中，音频子素材1中有6个候选节拍点位置，音频子素材2中有4个候选节拍点位置，音频子素材3中有3个候选节拍点位置，音频子素材4中没有候选节拍点位置，音频子素材5中有2个候选节拍点位置。

[0163] 在目标音频素材包含多段音频子素材的情况下，针对任意一段音频子素材，若音频子素材包含候选节拍点位置，则从音频子素材包含的候选节拍点位置中选取至少一个候选节拍点位置作为目标音频素材的节拍点位置；若音频子素材不包含候选节拍点位置，则从音频子素材包含的音频帧所在的位置中选取至少一个位置作为目标音频素材的节拍点位置。

[0164] 例如，音频子素材1、2、3、5中包含候选节拍点位置；针对这4个音频子素材中的任意一段，则可从该音频子素材的候选节拍点位置中选取至少一个作为目标音频素材4的节拍点位置；由于音频子素材4的音频帧所在的位置中没有候选节拍点位置，因而可从音频子素材4的音频帧的位置中选取至少一个位置作为目标音频素材4的节拍点位置。

[0165] 在一种可选的实施方式中，针对包含候选节拍点位置的音频子素材，从该音频子素材包含的候选节拍点位置中选取至少一个候选节拍点位置作为目标音频素材的节拍点位置的方式有很多种，下面列举两种：

[0166] 方式一、确定音频子素材对应的节拍点位置的第一位置数量M，根据M值从音频子素材包含的候选节拍点位置中选取部分或全部作为目标音频素材的节拍点位置，M为正整数。

[0167] 需要说明的是，该方式下，针对不同的音频子素材，确定的M值可能不同，也就是随机节拍的形式，例如音频子素材1对应的M为1，音频子素材2对应的M为2，音频子素材3对应的M为3，音频子素材5对应的M为5。

[0168] 此时，针对任意一段音频子素材，假设该音频子素材包含的候选节拍点位置的数量为Md，则在根据M值从音频子素材中候选节拍点位置的音频帧的位置中选取部分或全部作为目标音频素材的节拍点位置时，不同的M与Md的大小关系对应不同的选择方式。

[0169] 选择方式一、若音频子素材中候选节拍点位置的音频帧的位置的数量Md小于M，则将音频子素材包含的候选节拍点位置全部作为目标音频素材的节拍点位置，以及从音频子素材包含的其它音频帧所在的位置中，选取部分位置作为目标音频素材的节拍点位置。

[0170] 以音频子素材5为例，由于音频子素材5中只包含1个候选节拍点位置，也就是Md＝1，而M＝5，所以，除了将候选节拍点位置作为目标音频素材4的节拍点位置之外，还需要再从音频子素材5包含的其它音频帧所在的位置中再选取4个位置作为目标音频素材4的节拍点位置。

[0171] 选择方式二、若音频子素材包含的候选节拍点位置的数量等于M，则将音频子素材包含的候选节拍点位置全部作为目标音频素材的节拍点位置。

[0172] 以音频子素材3为例，由于音频子素材3中只包含3个候选节拍点位置，也就是Md＝3，且M＝3，所以，则将音频子素材3中所有的候选节拍点位置作为目标音频素材4的节拍点位置。

[0173] 选择方式三、若音频子素材包含的候选节拍点位置的数量大于M，则从音频子素材包含的候选节拍点位置中，选取音频能量值最大的M个候选节拍点所在的位置作为目标音频素材的节拍点位置。

[0174] 以音频子素材1为例，由于音频子素材1中包含6个候选节拍点位置，也就是Md＝6，而M＝1，所以，则可从这6个候选节拍点位置中选取音频能量值最大的一个作为目标音频素材4的节拍点位置。

[0175] 假设，这6个候选节拍点位置对应的音频帧的音频能量值按照从大到小的顺序依次为：26、25、25、24、23、22，则音频能量值最大的一个即音频能量值为26的音频帧，因而音频能量值为26的音频帧所在的位置作为候选节拍点位置。

[0176] 同样地，以音频子素材2为例，由于音频子素材2中包含4个候选节拍点位置，也就是Md＝4，而M＝2，所以，则可从这4个候选节拍点位置中选取音频能量值最大的两个音频帧所在的位置，作为目标音频素材4的节拍点位置。

[0177] 假设，这4个候选节拍点位置对应的音频帧的音频能量值按照从大到小的顺序依次为：25、24、23、22，则音频能量值最大的两个音频帧即音频能量值为25和音频能量值为24的两个音频帧。

[0178] 方式二、从音频子素材包含的候选节拍点位置中随机选取N个作为目标音频素材的节拍点位置，N为正整数。

[0179] 需要说明的是，该方式下，针对不同的音频子素材，N的大小一致，也就是平均节拍的形式，假设N为2，则在音频子素材1、音频子素材2、音频子素材3、音频子素材5包含的候选节拍点位置中各随机选取2个作为目标音频素材4的节拍点位置。

[0180] 在本公开实施例中，确定最大的音频能量值时，可以按照从小到大或者从大到小的顺序将各音频帧的音频能量值进行排序，根据排序结果确定即可。

[0181] 在一种可选的实施方式中，针对不包含候选节拍点位置的音频子素材，从音频子素材包含的音频帧所在的位置中选取至少一个位置作为目标音频素材的节拍点位置的方式有很多种，下面列举两种：

[0182] 方式一、确定音频子素材对应的节拍点位置的数量M，从音频子素材包含的音频帧中选取音频能量值最大的M个音频帧，将这M个音频帧所在的位置作为目标音频素材的节拍点位置，M为正整数。

[0183] 需要说明的是，该方式下，针对不同的音频子素材，确定的M值可能不同，同样适用于随机节拍的形式。

[0184] 以目标音频素材4的音频子素材4为例，假设确定M＝4，则从音频子素材4包含的音频帧的位置中选取音频能量值最大的4个音频帧的位置作为目标音频素材4的节拍点位置。

[0185] 方式二、从音频子素材包含的音频帧的位置中随机选取N个音频帧的位置作为目标音频素材的节拍点位置，N为正整数。

[0186] 需要说明的是，该方式下，针对不同的音频子素材，N的大小一致，同样适用于平均节拍的形式。

[0187] 以目标音频素材4的音频子素材4为例，假设确定N＝2，则从音频子素材4包含的音频帧的位置中随机选取2个音频帧的位置作为目标音频素材4的节拍点位置。

[0188] 上述方法，在确定实际的节拍点位置时是根据目标音频素材的波形来确定的，从各音频帧的位置中选取音频能量值大于设定阈值的音频帧的位置候选节拍点位置，进而从候选节拍点位置中选择实际的节拍点位置，实现了自动打点，不需要再通过播放音乐在编辑轨道上完成打点，提高了打点的效率，并且通过音频能量值实现自动打点，不再需要人工标记节拍点位置，提高了打点的精确度。

[0189] 需要说明的是，本公开实施例中所列举的选取目标音频素材的节拍点位置的方式只是举例说明，任何一种选取目标音频素材节拍点位置的方式都适用于本公开实施例。

[0190] 如图3所示，为本公开实施例提供的一种采用随机节拍的形式确定目标音频素材4的节拍点位置一种可选的情况，图中音频子素材1中有一个节拍点位置，音频子素材2中有两个节拍点位置，音频子素材3中有三个节拍点位置，音频子素材4中有四个节拍点位置，音频子素材5中有五个节拍点位置，各子素材中的节拍点位置的数量较随机。

[0191] 如图4所示，为本公开实施例提供的一种采用平均节拍的形式确定目标音频素材4的节拍点位置一种可选的情况，图中各音频子素材中都只有2个节拍点位置。可选的，在各音频子素材选取2个音频帧的位置时，可以尽可能使得所选取的节拍点位置之间的时间间隔尽可能一致等。

[0192] 如图5所示为本公开实施例提供的一种UI(User Interface，用户界面)示意图。其中图5表示的是某一目标音频素材的波形示意图，其中波形上较浅颜色的实线即表示打点标识，也就是确定的节拍点位置的标记。

[0193] 在本公开实施例中，基于上述实施方式确定目标音频素材的节拍点位置之后，根据节拍点位置可以将目标音频素材划分为多个子音频素材，如图6所示为本公开实施例提供的一种根据三个节拍点位置将目标音频素材划分为4个子音频素材的一种可选的情况。

[0194] 其中，本公开实施例中的子音频素材和音频子素材不同，其中子音频素材是根据目标音频素材的节拍点位置对目标音频素材进行划分后确定的，而音频子素材是在确定目标音频素材的节拍点位置之前，根据设定的预设的时间间隔对目标音频素材划分得到的。

[0195] 在本公开实施例中，确定目标音频素材的节拍点位置之后，则可导入视频素材，也就是将视频素材添加到视频素材集合中，将视频素材匹配节拍点位置，确定与目标音频素材中每段子音频素材对应的视频素材。其中，将子音频素材与视频素材进行匹配时，针对任意一个子音频素材，从视频素材集合中确定与子音频素材对应的视频素材，其中视频素材集合中包含至少一个视频素材。

[0196] 将子音频素材与视频素材进行匹配时，可以根据用户输入的配置信息，根据配置信息确定每个节拍点对应的视频素材，也就是确定每个子音频素材对应的视频素材。

[0197] 其中，配置信息可以是用户选择的子音频素材和视频素材的对应关系，或者是用户选择的视频素材的排列顺序等。

[0198] 在一种可选的实施方式中，也可以根据对导入的视频素材的排序确定每个节拍点对应的视频素材。对导入的视频素材进行排序时，可以按照导入视频素材时的顺序，或者是随机排序后的顺序，或者是用户选择的顺序等方式。之后可在视频素材之间的片段过渡设置转场，例如设置为默认类型，默认添加一种转场；或不添加转场等；然后将视频素材自动静音；再根据视频素材的排列顺序，确定各子音频素材对应的视频素材。

[0199] 其中，根据视频素材的排列顺序，从视频素材集合中确定与子音频素材对应的视频素材时的方法有很多种，下面列举几种：

[0200] 方法一、根据视频素材加入到视频素材集合的顺序，从视频素材集合中确定与子音频素材对应的视频素材；

[0201] 方法二、根据对象选择视频素材的顺序，从视频素材集合中确定与子音频素材对应的视频素材；

[0202] 其中，对象选择视频素材的顺序是指用户根据自己的意愿自行调节设置的顺序。

[0203] 方法三、根据随机对视频素材集合中的视频素材进行排序后的顺序，从视频素材集合中确定与子音频素材对应的视频素材。

[0204] 在一种可选的实施方式中，设置根据音乐长度匹配，如果音乐长度20s，节拍点位置为23个，可将目标音频素材划分为24个子音频素材，但是视频素材只有20个，视频素材不够的情况下可自动分段补充，或者自由随机重复分配等。

[0205] 也就是说，若视频素材集合中视频素材的数量小于子音频素材的数量，则需要在视频素材与子音频素材匹配之前，对视频素材进行补充，下面介绍几种补充方式：

[0206] 方式一、从视频素材集合中选取至少一个视频素材进行复制，并将复制后的视频素材加入到视频素材集合中，以使视频素材集合中视频素材的数量不小于子音频素材的数量。

[0207] 例如，将20秒的目标音频素材划分为24个子音频素材后，前20个子音频素材对应的视频素材是之前导入的，最后4个子音频素材对应的视频素材可以是将子音频素材1～4复制后得到的，等。

[0208] 其中，确定前20个子音频素材对应的视频素材时，假设20个视频素材的排序为：视频素材1、视频素材2、视频素材3、视频素材4…，一种可选的匹配方式为，视频素材1匹配子音频素材1、视频素材2匹配子音频素材2、视频素材3匹配子音频素材3等。

[0209] 方式二、将视频素材集合中的至少一个视频素材分割为多个视频素材，以使分割后视频素材集合中视频素材的数量不小于子音频素材的数量。

[0210] 假设，某视频素材的时间很长时，可将视频素材进行分割后再与子音频素材匹配，将视频素材中的主要内容剪辑出来后，根据视频素材排序与前20个子音频素材匹配，剩余的4个子音频素材可匹配之前进行过剪辑的视频素材中的其他片段。例如视频素材1较长，被剪辑为了5个片段，其中片段2是最主要的部分，与子音频素材1匹配，之后的子音频素材21～24则可匹配视频素材1中的其他片段等。

[0211] 在本申请实施例中，与子音频素材对应的视频素材可以是预先导入的，也可以是对预先导入的视频素材分割后得到的片段，或者是直接复制某一预先导入的视频素材等得到的。其中剪辑视频素材时可以根据视频素材的内容等自动剪辑，也可以是人为剪辑等。其中自动剪辑时可以依据视频素材的内容、清晰度等来实现。

[0212] 在确定每个节拍点位置对应的视频素材后，根据每个节拍点位置对应的节拍间隔，设置对应的视频素材的播放速度。一种可选的实施方式为，一个子音频素材对应一个视频素材。针对任意一个子音频素材，假设分割得到该子音频素材时对应的节拍点位置的节拍间隔为ATi，与该子音频素材对应的视频素材的播放时长为VTi，其中i代表打点素材序号，则容易得到变速比率为Ri＝ATi/VTi，也就是子音频素材的节拍间隔与视频素材的播放时长的比值。

[0213] 其中，若视频素材是将一个长视频分割为多个片段的情况下得到的，则该视频素材的播放时长则是指该视频素材对应的片段的时长，将该片段看作是与子音频素材对应的视频素材，例如子音频素材1对应的视频素材1中的片段2的播放时长。

[0214] 具体的，在根据各节拍点位置的节拍间隔设置视频素材的播放速度时可分为以下几种情况：

[0215] 情况一、子音频素材的节拍间隔小于视频素材的播放时长，也就是Ri<1。

[0216] 如图6所示，其中的视频素材1的播放时长大于分割得到子音频素材1的节拍间隔；视频素材3的播放时长大于子音频素材3的节拍间隔。

[0217] 该情况下需要缩短视频素材的播放时长，其中缩短视频素材的播放时长的方式有很多种，下面列举两种：

[0218] 缩短方式一、直接提高视频素材的播放速度。

[0219] 具体的，将视频素材的播放速度调整至正常速度的1/Ri倍。

[0220] 例如，i＝0时，子音频素材1的时长为AT0＝2秒，视频素材1的播放时长为VT0＝2.5秒，R0＝0.8<1，因而则可调整视频素材1的播放速度为原来的1.25倍，即采用1.25倍速播放视频素材1，这样调整后视频素材1的播放时长也为2秒。

[0221] 同理，i＝2时，子音频素材3的时长为AT0＝2秒，视频素材3的播放时长为VT0＝2.5秒，R2＝0.8<1，因而则可调整视频素材1的播放速度为原来的1.25倍，即采用1.25倍速播放视频素材3，这样调整后视频素材3的播放时长也为2秒。

[0222] 缩短方式二、丢弃视频素材中的至少一个视频帧。

[0223] 其中，丢弃帧位置可以根据丢弃帧的帧号，视频帧的具体播放时间点等确定，插入帧时也是同理。下面主要以帧号表示帧位置为例进行介绍：

[0224] 可选的，通过下列方式确定需要丢弃的视频帧的帧号：

[0225] X＝Ni/(Ni-Ni*Ri)*n；

[0226] 其中，X为需要丢弃的视频帧的帧号，Ri为子音频素材的节拍间隔与视频素材的播放时长的比值，Ni为视频素材的视频总帧数，N为正整数，N的取值范围为[1，Ni-Ni*Ri]，Ni-Ni*Ri为丢弃帧数。

[0227] 假设视频素材播放时长为VTi，该视频素材共有Ni帧，变速后的目标帧数为Mi＝Ni*Ri，则在Ni>Mi，需要丢弃Ni–Mi帧，丢弃的帧号可以是Ni/(Ni-Mi)*n，N＝1～(Ni-Mi)。

[0228] 例如，i＝0时，视频素材1播放时长为VT0＝2.5秒，该视频素材共有N0＝30帧，调整播放时长后的帧数为M0＝N0*R0＝24帧，则需要丢弃N0–M0＝6帧，丢弃的帧号可以是X＝N0/(N0-M0)*n，N∈[1，6]。

[0229] 例如，N＝1时，X＝30/6*1＝5；N＝2时，X＝30/6*2＝10；N＝2时，X＝15；N＝4时，X＝20；N＝5时，X＝25；N＝6时，X＝30。

[0230] 也就是说，需要丢弃的6帧分别为第5帧、第10帧、第15帧、第20帧、第25帧、第30帧。

[0231] i＝2时同理。

[0232] 情况二、子音频素材的节拍间隔大于视频素材的播放时长，也就是Ri>1。

[0233] 如图6所示，其中的视频素材2的播放时长小于子音频素材2的节拍间隔。

[0234] 该情况下需要增加视频素材的播放时长。

[0235] 增加方式一、直接降低视频素材的播放速度。

[0236] 具体的，将视频素材的播放速度调整至正常速度的1/Ri倍，通过该方式调整后视频素材的播放速度与子音频素材的播放速度相同。

[0237] 例如，i＝1时，子音频素材2的时长为AT1＝2秒，视频素材2的播放时长为VT1＝1秒，R1＝2>1，因而则可调整视频素材2的播放速度为原来的2倍，即采用2倍速播放视频素材2，这样调整后视频素材2的播放时长也为2秒。

[0238] 增加方式二、在视频素材中增加至少一个视频帧。

[0239] 可选的，通过下列方式确定需要增加的视频帧的帧号：

[0240] Y＝Ni/(Ni*Ri-Ni)*n；

[0241] 其中，Y为需要复制的视频帧的帧号，Ri为子音频素材的节拍间隔与视频素材的播放时长的比值，Ni为视频素材的视频总帧数，N为正整数，N的取值范围为[1，Ni*Ri-Ni]，Ni*Ri-Ni为插入帧数。

[0242] 假设视频素材播放时长为VTi，该视频素材共有Ni帧，变速后的目标帧数为Mi＝Ni*Ri，则在Ni

[0243] 例如，i＝1时，视频素材1播放时长为VT1＝1秒，该视频素材共有N1＝12帧，调整播放时长后的帧数为M1＝N1*R1＝24帧，则需要增加M1-N1＝12帧，丢弃的帧号可以是Y＝N1/(M1-N1)*n，N∈[1，12]。

[0244] 例如，N＝1时，X＝12/12*1＝1；N＝2时，X＝12/12*2＝2；N＝2时，X＝3；N＝4时，X＝4；…。

[0245] 也就是说，需要增加的12帧分别为第1帧～第12帧。

[0246] 情况三、子音频素材的节拍间隔等于视频素材的播放时长，也就是Ri＝1。

[0247] 如图6所示，其中的视频素材4的播放时长等于子音频素材4的播节拍间隔，该情况下无需调整视频素材的播放速度，也就是说视频素材4的播放速度可以保持不变，也无需丢弃帧或增加帧。

[0248] 需要说明的是，在本公开实施例中，当计算得到的需要丢弃或增加的帧号不是正整数时，可以采用向上取整或向下取整等方式。

[0249] 例如，当X＝10/(10-10*0.6)*1＝2.5时，采用向上取整的方式X＝3，也就是丢弃第3帧；采用向下取整X＝2，也就是丢弃第2帧。

[0250] 在本公开实施例中，根据各节拍点位置对应的节拍间隔，设置对应的视频素材的播放速度之后，则可将子音频素材集合与目标视频素材集合进行合成，得到对应的多媒体资源。

[0251] 具体的，在进行多媒体资源合成时，实际是将子音频素材集合中的子音频素材的音频码流与相对应的视频素材的视频码流进行合流封装，最终得到多媒体资源，该多媒体资源中的视频内容能够视频音频素材的节奏，获得更好的影音效果。

[0252] 在一种可选的实施方式中，本公开实施例中的目标音频素材可以是一段音乐、录音等，也可以是对视频素材中的音频提取后得到的音频文件。

[0253] 例如，与视频编辑APP音频提取功能结合，当前视频编辑APP交互流程是先添加视频素材进行编辑后，进入配音选项导入本地视频素材提取音频文件。对于自动剪辑来说流程相反，需要首先选择音频或者要选择好提取音频的视频素材，获取BGM(Background Music，背景音乐)，这也是正规剪辑的操作流程(剪辑前先确定背景音)。

[0254] 在第一步完成音频选取后，对音频进行波形分析并设置打点标识，软件自动计算打点(或根据音乐节拍或根据波形频率确定用于分割的节拍点位置，也叫分割点、剪辑点等)。根据分割点大概数量选取需自动剪辑的视频素材，如果视频素材数量不够剪辑点可以将选取的素材自由随机重复分配，一一对应在分割点上(剪辑顺序可根据选择素材的顺序)。

[0255] 图7是根据一示例性实施例示出的一种音频打点及自动剪辑变速的完整方法流程图，具体包括以下步骤：

[0256] 步骤700、导入音频素材；

[0257] 步骤701、对音频素材进行波形分析，逐帧提取音频能量值；

[0258] 步骤702、将音频能量值大于设定阈值的音频帧作为候选节拍点；

[0259] 步骤703、根据参数设定，从候选节拍点中选择最终的节拍点；

[0260] 步骤704、导入视频素材；

[0261] 步骤705、对视频素材进行排序；

[0262] 步骤706、添加转场；

[0263] 步骤707、设置视频素材自动静音；

[0264] 步骤708、确定各段子音频素材对应的视频素材，其中子音频素材是根据节拍点对音频素材进行划分后得到的；

[0265] 步骤709、根据节拍间隔，调整与子音频素材对应的视频素材的播放速度。

[0266] 其中，步骤703中的参数设定指：音频区间、节拍点位置(由音频波形决定)、节拍随机\平均、打点标识、添加额外打点标识设置、最小时间距离等。

[0267] 其中音频区间可以通过目标音频素材的起始时刻和终止时刻确定。最后根据参数设定，选择最终的节拍：

[0268] 如果是随机节拍，或者是平均节拍时的节拍点位置的具体确定方式可参见上述实施例。

[0269] 由于本公开实施例中，根据目标音频素材的节拍参数将目标音频素材进行分割后得到多个子音频素材，根据节拍参数设置目标视频素材集合中每个视频素材的播放速度，使得目标视频素材集合中的视频素材精准适配音乐的节奏，因而根据子音频素材集合和目标视频素材集合合成后得到的多媒体资源中，视频内容能适配音频素材的节奏，获取更好的影音效果。

[0270] 需要说明的是，采用本公开实施例中的方式确定节拍点之后，还可以认为再进行调整等。

[0271] 图8是根据一示例性实施例示出的一种多媒体资源合成装置框图。参照图8，该多媒体资源合成装置800包括处理单元801，设置单元802和合成单元803。

[0272] 处理单元801，被配置为执行对目标音频素材进行处理，获取对应的节拍参数以及子音频素材集合；

[0273] 设置单元802，被配置为执行根据所述节拍参数，设置目标视频素材集合中每个视频素材的播放速度；

[0274] 合成单元803，被配置为执行对所述子音频素材集合和所述目标视频素材集合进行合成，得到对应的多媒体资源。

[0275] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0276] 所述设置单元802具体被配置为执行：

[0277] 从所述目标视频素材集合中，确定与每个所述节拍点位置对应的所述视频素材；

[0278] 根据每个所述节拍点位置对应的节拍间隔，设置对应的所述视频素材的播放速度。

[0279] 在一种可选的实施方式中，所述设置单元802具体被配置为执行：

[0280] 根据所述节拍点位置对应的节拍间隔以及对应的所述视频素材的播放时长，确定变速比率；

[0281] 如果所述变速比率小于预设阈值，丢弃所述视频素材中至少一个视频帧，来增加所述视频素材的原始播放速度，得到设置后的所述播放速度；

[0282] 如果所述变速比率大于预设阈值，在所述视频素材插入至少一个视频帧，来降低所述视频素材的原始播放速度，得到设置后的所述播放速度。

[0283] 在一种可选的实施方式中，所述设置单元802具体被配置为执行：

[0284] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0285] 获取所述视频总帧数减去所述目标帧数的差值，得到对应的丢失帧数；

[0286] 根据所述丢弃帧数与所述视频总帧数，确定丢弃帧位置；

[0287] 根据所述丢弃帧位置，从所述视频帧中丢弃所述丢弃帧数的所述视频帧；

[0288] 或者，所述设置单元802具体被配置为执行：

[0289] 获取所述视频素材的视频总帧数和所述变速比率的乘积，得到对应的目标帧数；

[0290] 获取所述目标帧数减去所述视频总帧数的差值，得到对应的插入帧数；

[0291] 根据所述插入帧数与所述视频总帧数，确定插入帧位置；

[0292] 根据所述插入帧位置，从所述视频帧中插入所述插入帧数的所述视频帧。

[0293] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0294] 接收配置信息，并根据所述配置信息确定与每个所述节拍点对应的视频素材。

[0295] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0296] 获取所述目标音频素材中各音频帧的音频能量值；

[0297] 根据所述各音频帧的音频能量值，确定所述节拍参数；

[0298] 根据所述节拍参数分割所述目标音频素材，得到所述子音频素材集合。

[0299] 在一种可选的实施方式中，所述节拍参数至少包括所述目标音频素材的各节拍点位置；

[0300] 所述处理单元801具体被配置为执行：

[0301] 将音频能量值大于设定阈值的音频帧的位置候选节拍点位置；

[0302] 选取至少一个所述候选节拍点位置作为所述目标音频素材的节拍点位置。

[0303] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0304] 根据预设的时间间隔将所述目标音频素材划分为多段音频子素材；

[0305] 针对任意一段音频子素材，若所述音频子素材包含的音频帧的位置中有候选节拍点位置，则选取所述音频子素材中的至少一个候选节拍点位置作为所述目标音频素材的节拍点位置；

[0306] 若所述音频子素材包含的音频帧的位置中没有候选节拍点位置，则从所述音频子素材包含的音频帧的位置中，选取至少一个音频帧的位置作为所述目标音频素材的节拍点位置。

[0307] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0308] 根据预设的所述音频子素材对应的第一位置数量，从所述音频子素材中选取部分或全部候选节拍点位置作为所述目标音频素材的节拍点位置。

[0309] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0310] 若所述音频子素材中的候选节拍点位置的数量小于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置，以及从所述音频子素材包含的其它音频帧的位置中选取部分或全部音频帧的位置作为所述目标音频素材的节拍点位置；或

[0311] 若所述音频子素材中的候选节拍点位置的数量等于所述第一位置数量，则将所述音频子素材中的全部候选节拍点位置作为所述目标音频素材的节拍点位置；或

[0312] 若所述音频子素材中的候选节拍点位置的数量大于所述第一位置数量，则从所述音频子素材中选取音频能量值最大的所述第一位置数量个候选节拍点位置作为所述目标音频素材的节拍点位置。

[0313] 在一种可选的实施方式中，所述处理单元801具体被配置为执行：

[0314] 从所述音频子素材中选取音频能量值最大的第二位置数量个音频帧的位置作为所述目标音频素材的节拍点位置；或

[0315] 从所述音频子素材中随机选取第二位置数量个音频帧的位置所述目标音频素材的节拍点位置。

[0316] 在一种可选的实施方式中，所述合成单元803具体被配置为执行：

[0317] 将所述子音频素材集合中的子音频素材的音频码流，以及所述目标视频素材集合中与所述子音频素材对应的视频素材的视频码流，进行合流封装得到所述多媒体资源。

[0318] 关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

[0319] 图9是根据一示例性实施例示出的一种电子设备900的框图，该装置包括：

[0320] 处理器910；

[0321] 用于存储所述处理器910可执行指令的存储器920；

[0322] 其中，所述处理器910被配置为执行所述指令，以实现本公开实施例中的多媒体资源合成方法。

[0323] 在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器920，上述指令可由电子设备900的处理器910执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

[0324] 在本公开实施例中，终端设备可以作为剪辑音频的操作平台或工具，以供用户使用。一般地，所切割的音频素材与相对应的视频素材相配合，在所切割的音频素材中插入视频素材时，视频画面将伴随着音乐节奏的变化而切换，达到音频和视频相配合的目的，有助于提升观赏者观看该视频的体验感。

[0325] 下面结合图10对所述终端1000的各个构成部件进行具体的介绍：

[0326] 在本公开实施例中，提供一种终端设备，其结构如图10所示，本公开实施例给出一种音频打点的终端1000，包括：射频(Radio Frequency，RF)电路1010、电源1020、处理器1030、存储器1040、输入单元1050、显示单元1060、摄像头1070、通信接口1080、以及无线保真(Wireless Fidelity，Wi-Fi)模块1090等部件。本领域技术人员可以理解，图10中示出的终端的结构并不构成对终端的限定，本公开实施例提供的终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

[0327] 下面结合图10对所述终端1000的各个构成部件进行具体的介绍：

[0328] 所述RF电路1010可用于通信或通话过程中，数据的接收和发送。特别地，所述RF电路1010在接收到基站的下行数据后，发送给所述处理器1030处理；另外，将待发送的上行数据发送给基站。通常，所述RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

[0329] 此外，RF电路1010还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

[0330] Wi-Fi技术属于短距离无线传输技术，所述终端1000通过Wi-Fi模块1090可以连接接入点(Access Point，AP)，从而实现数据网络的访问。所述Wi-Fi模块1090可用于通信过程中，数据的接收和发送。

[0331] 所述终端1000可以通过所述通信接口1080与其他终端实现物理连接。可选的，所述通信接口1080与所述其他终端的通信接口通过电缆连接，实现所述终端1000和其他终端之间的数据传输。

[0332] 由于在本公开实施例中，所述终端1000能够实现通信业务，向其他联系人发送信息，因此所述终端1000需要具有数据传输功能，即所述终端1000内部需要包含通信模块。虽然图10示出了所述RF电路1010、所述Wi-Fi模块1090、和所述通信接口1080等通信模块，但是可以理解的是，所述终端1000中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

[0333] 例如，当所述终端1000为手机时，所述终端1000可以包含所述RF电路1010，还可以包含所述Wi-Fi模块1090；当所述终端1000为计算机时，所述终端1000可以包含所述通信接口1080，还可以包含所述Wi-Fi模块1090；当所述终端1000为平板电脑时，所述终端1000可以包含所述Wi-Fi模块。

[0334] 所述存储器1040可用于存储软件程序以及模块。所述处理器1030通过运行存储在所述存储器1040的软件程序以及模块，从而执行所述终端1000的各种功能应用以及数据处理，并且当处理器1030执行存储器1040中的程序代码后，可以实现本公开实施例图1中的部分或全部过程。

[0335] 可选的，所述存储器1040可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、各种应用程序(比如通信应用)以及人脸识别模块等；存储数据区可存储根据所述终端的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及人脸信息模板)等。

[0336] 此外，所述存储器1040可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

[0337] 所述输入单元1050可用于接收用户输入的数字或字符信息，以及产生与所述终端1000的用户设置以及功能控制有关的键信号输入。

[0338] 可选的，输入单元1050可包括触控面板1051以及其他输入终端1052。

[0339] 其中，所述触控面板1051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板1051上或在所述触控面板1051附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，所述触控面板1051可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给所述处理器1030，并能接收所述处理器1030发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板1051。

[0340] 可选的，所述其他输入终端1052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

[0341] 所述显示单元1060可用于显示由用户输入的信息或提供给用户的信息以及所述终端1000的各种菜单。所述显示单元1060即为所述终端1000的显示系统，用于呈现界面，实现人机交互。

[0342] 所述显示单元1060可以包括显示面板1061。可选的，所述显示面板1061可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

[0343] 进一步的，所述触控面板1051可覆盖所述显示面板1061，当所述触控面板1051检测到在其上或附近的触摸操作后，传送给所述处理器1030以确定触摸事件的类型，随后所述处理器1030根据触摸事件的类型在所述显示面板1061上提供相应的视觉输出。

[0344] 虽然在图10中，所述触控面板1051与所述显示面板1061是作为两个独立的部件来实现所述终端1000的输入和输入功能，但是在某些实施例中，可以将所述触控面板1051与所述显示面板1061集成而实现所述终端1000的输入和输出功能。

[0345] 所述处理器1030是所述终端1000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在所述存储器1040内的软件程序和/或模块，以及调用存储在所述存储器1040内的数据，执行所述终端1000的各种功能和处理数据，从而实现基于所述终端的多种业务。

[0346] 可选的，所述处理器1030可包括一个或多个处理单元。可选的，所述处理器1030可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到所述处理器1030中。

[0347] 所述摄像头1070，用于实现所述终端1000的拍摄功能，拍摄图片或视频。所述摄像头1070还可以用于实现终端1000的扫描功能，对扫描对象(二维码/条形码)进行扫描。

[0348] 所述终端1000还包括用于给各个部件供电的电源1020(比如电池)。可选的，所述电源1020可以通过电源管理系统与所述处理器1030逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

[0349] 需要说明的是，本公开实施例处理器1030可以执行图9中处理器910的功能，存储器1040存储存储器920中的内容。

[0350] 本公开实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述任意一项多媒体资源合成方法或任意一项多媒体资源合成方法任一可能涉及的方法。

[0351] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

[0352] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

标题	发布/更新时间	阅读量
升级文件处理、装置及终端	2020-05-12	335
音频处理方法、装置、终端和计算机可读存储介质	2020-05-12	194
资源请求处理、鉴权请求处理及鉴权方法、系统及装置	2020-05-11	946
一种便携式帕金森病运动迟缓监测干预装置及方法	2020-05-11	503
文章推荐方法、装置、设备及存储介质	2020-05-13	600
图像处理方法、装置、计算机存储介质及电子设备	2020-05-08	549
在native层实现无缝录像的方法、装置及终端设备	2020-05-08	161
沉浸式情景互动体验仿真系统	2020-05-13	735
一种书写内容的识别方法及电子设备	2020-05-08	65
一种基于深度模糊森林的情绪识别方法	2020-05-11	169

多媒体资源合成方法、装置、电子设备及存储介质

多媒体资源合成方法、装置、电子设备及存储介质

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：