用于使外部内容适配视频流的方法、系统、装置和计算机程序产品专利检索-音轨数字音频文件资料储存系统专利检索查询-专利查询网

用于使外部内容适配视频流的方法、系统、装置和计算机程序产品

阅读：219发布：2020-05-08

专利汇可以提供用于使外部内容适配视频流的方法、系统、装置和计算机程序产品专利检索，专利查询，专利分析的服务。并且本公开属于使外部内容适配视频流的领域，且更确切地说，本公开涉及分析所述视频流以定义合适的叙事模式以及基于此叙事模式调适所述外部内容。，下面是用于使外部内容适配视频流的方法、系统、装置和计算机程序产品专利的具体信息内容。

权利要求

1.一种用于使外部内容适配具有一时间跨度的视频流的方法，所述视频流包括多个帧，每个帧包括像素，所述方法包括以下步骤：
计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：
比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，
使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，
使用所述FNM使外部内容适配所述视频流。
2.根据权利要求1所述的方法，进一步包括以下步骤：
在产生所述视频流的所述FNM之后：
比较所述第二多个差指示符与所述FNM，
确定所述第二多个差指示符当中存在连续差指示符子集，其中所述差指示符子集中的所有差指示符的值都至少比所述FNM中的对应值小一阈值，其中所述连续差指示符子集对应于所述视频流的子时间跨度，
另外基于所述视频流的所述子时间跨度的时间起点和时间结束点，使所述外部内容适配所述视频流。
3.根据权利要求1至2所述的方法，其中计算所述多个第二差指示符的步骤进一步包括以下步骤：比较所述第一多个差指示符中的每一个与预定阈值并在执行用所述严格递减函数卷积所述第一多个差指示符的步骤之前将低于所述预定阈值的任何差指示符设置为零。
4.根据权利要求1至3所述的方法，其中所述第一多个差指示符中的每个特定差指示符是通过计算两个后续帧的对应像素的RGB值之间的差并基于计算出的差计算所述特定差指示符来计算的。
5.根据权利要求1至4所述的方法，其中所述严格递减函数是指数衰减函数或线性递减函数。
6.根据权利要求5所述的方法，其中所述严格递减函数是在0.1-2.0秒之后降到其初始值的1％以下的指数衰减函数。
7.根据权利要求6所述的方法，其中所述指数衰减函数是在1秒之后降到其初始值的
1％以下的指数衰减函数。
8.根据前述权利要求中任一权利要求所述的方法，其中使用所述FNM使外部内容适配所述视频流的步骤是自动的。
9.根据前述权利要求中任一权利要求所述的方法，其中所述外部内容由预录制音乐组成。
10.根据权利要求9所述的方法，其中所述预录制音乐以多轨格式录制。
11.根据权利要求10所述的方法，其中使用所述FNM使外部内容适配所述视频流的步骤包括基于所述FNM使多轨音乐录制的音轨静音和解除静音。
12.根据权利要求10至11中任一权利要求所述的方法，其中使用所述FNM使外部内容适配所述视频流包括基于所述FNM对多轨音乐录制的音轨进行音量调整。
13.根据附属于权利要求2的权利要求10至12中任一权利要求所述的方法，其中另外基于所述视频流的所述子时间跨度的时间起点和时间结束点使所述外部内容适配所述视频流的步骤包括：基于所述时间起点和所述时间结束点，使多轨音乐录制的音轨静音和解除静音。
14.根据附属于权利要求2的权利要求10至13中任一权利要求所述的方法，其中另外基于所述视频流的所述子时间跨度的时间起点和时间结束点使所述外部内容适配所述视频流的步骤包括：基于所述时间起点和所述时间结束点，对多轨音乐录制的音轨进行音量调整。
15.根据前述权利要求中任一权利要求所述的方法，其中使所述预定可参数化函数拟合所述第二多个差指示符从而产生在所述视频流的所述时间跨度期间所述视频流的FNM的步骤是通过最小二乘拟合完成的。
16.一种用于使外部内容适配具有一时间跨度的视频流的系统，所述视频流包括多个帧，每个帧包括像素，所述系统包括连接到数据库的装置，所述数据库包括外部内容，其中所述装置包括处理器，所述处理器用于：
计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：
比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，
使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，
从所述数据库中选择外部内容，以及
使用所述FNM使选择的外部内容适配所述视频流。
17.一种具有指令的计算机程序产品，所述指令在由计算装置或系统执行时使所述计算装置或系统执行根据权利要求1至15中任一权利要求所述的方法。

说明书全文

用于使外部内容适配视频流的方法、系统、装置和计算机程序

产品

技术领域

[0001] 本公开属于使外部内容适配视频流的领域，且更确切地说，它涉及分析所述视频流以定义合适的叙事模式以及基于此叙事模式调适所述外部内容。

背景技术

[0002] 近年来，视频分享网站和服务(例如，YouTube、Vimeo、Flickr等)使得可以在线获取的视频数量激增。仅在YouTube上，每分钟就上传300小时的视频(在2016年)。毋庸置疑，在线上载的大部分视频都是业余人士制作的，也就是说，视频并不是由专业制作人制作的。因而，由于上传视频的用户缺乏经验、技能、软件、时间等，内容会强调或改善视频的观看者体验，所以在观看者播放视频时并没有音乐或覆叠动画等等，或者音乐或覆叠动画等是以较差的方式添加到视频中的。

[0003] 本公开正是处于这种情形中。附图说明

[0004] 现将参考附图描述实例实施例，在附图中：

[0005] 图1示出根据实施例的如何计算视频流中的后续帧之间的第一差指示符，

[0006] 图2通过实例示出在视频流的时间跨度期间的图1的差指示符的图形，

[0007] 图3示出根据实施例的两个不同的递减函数，

[0008] 图4通过实例示出第二多个差指示符的计算，

[0009] 图5示出根据实施例的预定可参数化函数，

[0010] 图6示出根据实施例的使图5的预定可参数化函数拟合图4的第二多个差指示符以及确定反高潮，

[0011] 图7示出根据实施例的将用于使外部内容适配视频流的经检测事件标记，

[0012] 图8通过实例示出可拟合图4的第二多个差指示符的多个预定可参数化函数，[0013] 图9通过实例示出图7的经检测事件标记如何用于使多轨音乐录制适配视频流，[0014] 图10示出根据实施例的用于使外部内容适配视频流的方法，

[0015] 图11示出实施图10的方法且连接到具有外部内容的数据库的装置。

[0016] 所有图都是示意性的，并且大体上只示出阐明本公开所需的部分，而其它部分可被省略或只是提到。除非另有指示，否则不同图中的相似参考标号是指相似部分。

具体实施方式

[0017] 考虑到上文，目标是提供用于使外部内容适配视频流的方法、系统、装置和计算机程序产品，它们可以通过从视频流导出可用于调适外部内容的参数来促进、简化对视频流的用户体验的增强并提高增强视频流的用户体验的可能性。

[0018] I.综述-使外部内容适配具有一时间跨度的视频流

[0019] 根据第一方面，实例实施例提出用于使外部内容适配视频流的方法、实施所述方法的装置、包括所述装置的系统以及用于实施所述方法的计算机程序产品。所提议的方法、装置、系统和计算机程序产品可大体上具有相同特征和优点。

[0020] 根据实例实施例，提供一种用于使外部内容适配具有一时间跨度的视频流的方法，所述视频流包括多个帧，每个帧包括像素，所述方法包括以下步骤：

[0021] -计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0022] ○比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0023] -通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0024] -使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，以及

[0025] -使用所述FNM使外部内容适配所述视频流。

[0026] 在本说明书的上下文中，术语“叙事模式”应该理解为模式，例如好莱坞模式(Hollywood Model)、弗赖塔格三角形(Freytag Triangle)、双弗赖塔格三角形(Double Freytag Triangle)、叙事弧(Narrative Arc)等。可以参数化的任何合适的叙事模式(例如，目标在于视频流内容的用户特定模式，如特定于进球得分的足球运动员的视频)都是适用的。参数化模式可以进行调适，使得例如叙事模式的前奏部分延长，或缩短双弗赖塔格三角形的低谷等等。

[0027] 在视频游戏中，音乐或其它外部内容通常适配于视频游戏的低级参数，例如如果英雄受伤，如果有许多敌人包围人物，如果它是在日间或夜间等，但是对于视频流来说，此类参数无法轻易提取出，至少不能自动提取出。为了促进外部内容自动或半自动适配于视频流，发明人已经认识到，可以将视频流的无限预看用作查找匹配视频流的合适叙事模式的优势。当合适的叙事模式已经被发现且匹配视频流时，这个模式可用于使外部内容(例如，音乐、动画、外部灯光等)适配视频流。概括地说，叙事模式表示观看者在看视频时可体验到的不同情感状态的模式。众所周知，此类情感不是瞬时的，而是累积式的。例如，当视频中出现令人兴奋的时刻时，观看者不会立即兴奋，实际上这是在视频的时间跨度内积累起来的一种累积效应。

[0028] 例如，依据图像帧的颜色空间/α空间，每个像素具有与它相关联的值。例如，如果图像帧在RGB/HSV/RGBA/CMYK颜色空间中，那么每个像素具有与此特定颜色空间相关联的值。应注意，并非所有与图像帧的像素相关联的值都必须用于计算所述第一多个差指示符。例如，根据一个实施例，在比较图像帧之间的对应像素值时，只能使用RGBA颜色空间中的像素的α值。

[0029] 通过首先计算第一多个差指示符，每个差指示符是后续帧之间的差的量度，例如是帧X和帧X+n的图像内容的变化的度量，然后用严格递减函数卷积这些量度来计算第二多个差指示符，所述第二多个差指示符的值可以捕捉情感是累积性的固有特征。因此，第二多个差指示符可被视为视频流的情绪指数的曲线。接着，使预定可参数化函数拟合第二多个差指示符(情绪指数曲线)，以产生描述在视频流的时间跨度期间视频流的叙事模式的函数FNM。然后可以一种有利方式将FNM用于使外部内容适配视频流。因此上述实施例是有利的，因为匹配所述特定视频流的FNM是自动产生的。

[0030] 根据一些实施例，所述方法进一步包括以下步骤：在产生视频流的FNM之后，[0031] -比较所述第二多个差指示符与所述FNM，

[0032] -确定所述第二多个差指示符当中存在连续差指示符子集，其中所述差指示符子集中的所有差指示符的值都至少比所述FNM中的对应值小一阈值，其中所述连续差指示符子集对应于所述视频流的子时间跨度，

[0033] -另外基于所述视频流的所述子时间跨度的时间起点和时间结束点，使所述外部内容适配所述视频流。

[0034] 在讲故事时，反高潮的使用是一种常用工具，可以在例如令人兴奋的时刻和令人失望的时刻之间进行突然转换(对观看者而言)。期望值提高，一切都已经建立好，然后突然发生了一些无聊或令人失望的事情。这可以包含在视频的任一点处，因而不容易映射到已知的叙事模式。在此实施例中，(视频流的)故事中的反高潮可以在视频流中自动找到，并且起点和结束点可用于调适外部内容。

[0035] 根据一些实施例，计算所述多个第二差指示符的步骤进一步包括以下步骤：比较所述第一多个差指示符中的每一个与预定阈值并在执行用严格递减函数卷积所述第一多个差指示符的步骤之前将低于所述预定阈值的任何差指示符设置为零。换句话说，只有视频流中的后续帧之间超过阈值的差用严格递减函数卷积来产生所述第二多个差指示符。因此，在产生视频流的情感指数时，帧之间的噪声和其它微小变化可以忽略。

[0036] 根据一些实施例，所述第一多个差指示符中的每个特定差指示符是通过计算两个后续帧的对应像素的RGB值之间的差并基于计算出的差计算所述特定差指示符来计算的。例如，可以使用像素的三个差值之间的平均差。

[0037] 根据一些实施例，严格递减函数是在0.1-2秒之后降到其初始值的1％以下的指数衰减函数。严格递减函数可以是例如在1秒之后降到其初始值的1％以下的指数衰减函数。差衰减时间可产生情感指数的不同“粒度”。较短时间意指更瞬时的情感，因为帧之间的未来变化(未来第一差指示符)没有得到足够考虑。

[0038] 根据一些实施例，使用FNM使外部内容适配视频流的步骤是自动的。这意味着使用一种算法来从FNM提取方面，并基于这一点自动调整外部内容。例如，在外部内容是来自例如放在显示视频流的显示器周围的灯的灯光的情况下，灯光可以基于视频流的情绪(FNM)而改变颜色。

[0039] 根据一些实施例，外部内容由预录制音乐组成。音乐可有利地用于增强观看者在观看视频流时的情感，并因此提高观看者的用户体验。

[0040] 根据一些实施例，预录制音乐以多轨格式录制。多轨格式增大了以简单的方式使外部内容适配视频流的FNM的可能性，因为音轨可以独立于多轨音乐录制中的其它音轨来接通/断开或进行音量调整。类似地，可向音轨子集应用音频效果，例如，向在反高潮阶段开始时突然静音的音轨应用长延时混响。

[0041] 根据一些实施例，使用FNM使外部内容适配视频流的步骤包括基于FNM使多轨音乐录制的音轨静音和解除静音。替代地或另外，使用FNM使外部内容适配视频流的步骤包括基于FNM对多轨音乐录制的音轨进行音量调整。一般来说，使用FNM使外部内容适配视频流的步骤包括基于FNM应用多轨音乐录制的音轨的不同音频效果。

[0042] 通过类似的方式，可以使用反高潮的起点和结束点来使外部内容适配视频流。例如，另外基于视频流的子时间跨度的时间起点和时间结束点使外部内容适配视频流的步骤包括基于时间起点和时间结束点使多轨音乐录制的音轨静音和解除静音。替代地或另外，另外基于视频流的子时间跨度的时间起点和时间结束点使外部内容适配视频流的步骤包括基于时间起点和时间结束点对多轨音乐录制的音轨进行音量调整。

[0043] 根据一些实施例，使预定可参数化函数拟合所述第二多个差指示符从而产生在视频流的时间跨度期间视频流的FNM的步骤是通过最小二乘拟合完成的。这是一种高效的使函数拟合(逼近)值曲线的方式。

[0044] 根据一些实施例，使多个预定可参数化函数拟合所述多个第二差指示符，其中所述方法进一步包括计算至少两个经拟合可参数化函数的拟合值以及选择具有最高拟合值的函数作为FNM。如上文所描述，存在多个已知FNM，每个FNM可以参数化为可参数化函数。此外，还可采用用户特定的可参数化函数，例如，针对特定风格的视频流的可参数化函数。换句话说，可以使用任何可参数化函数来产生FNM。

[0045] 根据一些实施例，使预定可参数化函数拟合所述多个第二差指示符的步骤进一步包括检测多个事件标记，每个事件标记对应于视频流的一个帧。例如，此类事件标记可包含“前奏开始”、“前奏结尾”、“渐进(build-up)开始”、“终曲开始”等。在此实施例中，无需考虑FNM在视频流的一时间点的实际值，实际上只要考虑叙事模式中视频流当前所处的阶段(例如，前奏、渐进、终曲、反高潮，还可称为“幕(act)”)。

[0046] 根据一些实施例，多轨音乐录制的音轨的静音和解除静音是基于检测到的事件标记。例如，在FNM的前奏期间，只播放鼓和第一把吉他，但是当渐进阶段开始时，所有音轨都解除静音。对于音量调整来说同样如此，因此音量调整可以基于检测到的事件标记。

[0047] 根据一些实施例，计算第一多个差指示符的步骤包括比较邻近帧之间的对应像素值。因而，差指示符的数目可以等于视频流的帧数目。根据其它实施例，使用每第n个帧来计算差指示符，使得第一差指示符的数目将为帧数目/n。

[0048] 根据一些实施例，比较后续帧的步骤包括计算对应像素的值之间的绝对差。因此，例如像素的RGB值相较于前一帧中的对应像素是增大还是减小并不重要。

[0049] 根据一些实施例，所述第二多个差指示符归一化成包括在0-1之间的值。这可以简化与可参数化函数的拟合，并且还使视频流之间的RGB值(32位、64位等)的不同范围归一化。

[0050] 根据一些实施例，对应像素是所述两个后续帧中具有同一指数值的像素。

[0051] 根据一些实施例，使外部内容适配视频流的步骤包括从外部内容数据库选择所述外部内容的步骤。例如，这可有助于解决外部内容的版权问题。

[0052] 根据一些实施例，所述方法进一步包括从多个预定可参数化函数选择所述预定可参数化函数的步骤。例如，如果视频流显示了一段篮球扣篮的运动剪辑，那么可以选择合适的可参数化函数。

[0053] 根据一些实施例，所述方法进一步包括提供供用户手动编辑FNM的功能性。

[0054] 根据一些实施例，所述方法进一步包括提供供用户手动编辑经拟合预定可参数化函数的功能性。

[0055] 根据一些实施例，所述方法进一步包括提供供用户手动编辑时间起点和时间结束点的功能性。因此可以手动编辑检测到的反高潮。

[0056] 在第二方面中，本发明提供一种实施用于使外部内容适配具有一时间跨度的视频流的方法的计算机程序产品，所述视频流包括多个帧，每个帧包括像素，所述方法包括以下步骤：

[0057] -计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0058] ○比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0059] -通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0060] -使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，以及

[0061] -使用所述FNM使外部内容适配所述视频流。

[0062] 在第三方面中，本发明提供一种用于使外部内容适配具有一时间跨度的视频流的装置，所述视频流包括多个帧，每个帧包括像素，所述装置包括处理器，所述处理器用于：

[0063] -计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0064] ○比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0065] -通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0066] -使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，以及

[0067] -使用所述FNM使外部内容适配所述视频流。

[0068] 换句话说，第三方面提供一种包括计算机可读存储媒体的计算机程序产品，所述计算机可读存储媒体具有在由具有处理能力的装置执行时用于实施第一方面的任何实施例的方法的指令。

[0069] 根据一些实施例，所述装置进一步包括适用于调适外部内容的计算机程序产品。例如，所述计算机程序产品可以是用于编辑音乐的软件，其中外部内容是音乐。

[0070] 在第四方面中，本发明提供一种用于使外部内容适配具有一时间跨度的视频流的系统，所述视频流包括多个帧，每个帧包括像素，所述系统包括连接到数据库的装置，所述数据库包括外部内容，其中所述装置包括处理器，所述处理器用于：

[0071] -计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0072] ○比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0073] -通过用严格递减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0074] -使预定可参数化函数拟合所述第二多个差指示符，由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，

[0075] -从所述数据库中选择外部内容，以及

[0076] -使用所述FNM使选择的外部内容适配所述视频流。

[0077] 第二、第三和第四方面大体上可具有与第一方面相同的特征和优点。

[0078] II.实例实施例

[0079] 图1通过实例示出如何计算包括多个帧102a-c的视频流102的第一多个差指示符106a-c。每个差指示符106a-c指示后续帧的像素的值之间的差。在图1的实例中，每个差指示符106a-c是通过比较视频流102中的邻近帧计算出的。在其它实施例中，只使用每第二个帧、每第三个帧、每第四个帧等等来计算差指示符。这可以降低本方法的计算复杂性。每个特定差指示符106a-c是通过比较两个后续帧之间的对应像素值(例如，差指示符106a是通过比较两个第一帧102a、102b之间的对应像素值来计算的)并基于比较计算所述特定差指示符来计算的。例如，差指示符106a可以通过以下操作来计算：

[0080] 1.读取视频流102的第二帧102b中的所有像素(或每隔一个像素、每第三个像素等等)。例如，基于RGB的视频流102可以产生每像素三个值。

[0081] 2.比较在1)中读取的像素的值与前一帧102a中的对应像素的值(即，对应像素值)。

[0082] 3.计算在1)和2)中读取的每个像素的绝对差104a。

[0083] 4.对在3)中计算出的所有像素的绝对差取平均值。

[0084] 任选地，将计算出的差指示符106a-c的值归一化为范围在0-1之间。

[0085] 在其它实施例中，只计算后续帧的对应像素之间的亮度或明度差，并以一种如上文所描述的相似的方式将其用于计算差指示符。

[0086] 图2示出计算出的第一多个差指示符106的曲线。根据一些实施例，所述第一多个差指示符中的每一个与预定阈值204相比较。对于具有高于阈值的值(例如，图2中的值202)的差指示符，不进行任何操作，这些差指示符将保持它们的值。但是，对于具有低于阈值204的值的差指示符，这些差指示符将在继续所述方法之前设置为零或某一其它恒定值。应注意，阈值204的使用是任选的。根据一些实施例，所述第一多个差指示符106将照原样使用，而不与任何阈值204比较。

[0087] 图4通过实例示出如何用严格递减函数302卷积404所述第一多个差指示符106以计算第二多个差指示符406。所述第二多个差指示符中的每个差指示符对应于视频流中的特定时间位置，即特定瞬时位置(specific temporal position)。如上文所描述，所述第二多个差指示符406的曲线可以视为在视频流的持续时间内的情感指数。通过使用用衰减函数卷积的如上文所描述的(基于后续帧之间的差计算出的)所述第一多个差指示符可以产生较高的情感指数，所述衰减函数在视频流中的帧之间产生累积指数、极频繁的剪切或颜色值的巨变。

[0088] 图3示出可在本公开的上下文中使用的严格递减函数302a-b的两个不同实例。左侧函数302a表示指数衰减函数302a。例如，指数衰减函数可以在0.1-2秒之后，例如在0.3、0.7、1、1.2、1.7或2秒之后，降到其初始值的1％以下。还可使用更长的例如5-10秒的时间跨度。根据其它实施例，递减函数是线性的，如在右侧函数302b中。

[0089] 图5通过实例示出可用于产生描述视频流的叙事模式的函数FNM的预定可参数化函数501。在图5的实例函数中，使用五个参数502a-e来确定函数的形态。我们具有前奏阶段，其长度由参数502a决定。接着，我们具有开始渐进阶段(上升动作(rising action)阶段)的急剧变化(由参数502b决定)，渐进阶段的长度由参数502c决定，音高由参数502d决定。最后，存在长度由参数502e决定的终曲阶段。图5中的预定可参数化函数501只是作为实例，在图8中示出其它实例，并且如上文所描述，可以采用任何合适的预定可参数化函数来产生如本文中所描述的FNM。

[0090] 接着，使图5中的预定可参数化函数501拟合所述第二多个差指示符406以产生FNM 600。这可以通过例如最小二乘拟合或一组值(即，所述第二多个差指示符406)和函数之间的任何其它合适的逼近算法来完成。此外，可以确定视频流中的反高潮601。这可以通过确定所述第二多个差指示符406当中存在连续差指示符子集来完成，其中差指示符子集中的所有差指示符的值都至少比FNM 501中的对应值小阈值606。根据上文，可以确定视频流的子时间跨度的时间起点602和时间结束点604，它们随后可用于使外部内容适配视频流。应注意，可能会检测到超过一个反高潮601。还应注意，FNM可包含类似于反高潮601的阶段。换句话说，一或多个反高潮的开始-结束点可以通过考虑含有它们的经扩展FNM来确定。结合图6论述的实施例涉及其中检测到不是FNM 501的部分的反高潮且其中反高潮的时间起点
602和时间结束点604随后可用于使外部内容适配视频流的实施例。

[0091] 根据一些实施例，使预定可参数化函数拟合所述多个第二差指示符的步骤进一步包括检测多个事件标记，每个事件标记对应于视频流的一个帧。图7通过实例示出此类标记。在图7中，示出了图7的FNM 600。在此实例中，检测到六个事件标记702a-f。因此，每个事件标记对应于视频流的一个时间点。第一事件标记702a标记前奏阶段的起点。当然，如果始终假设前奏阶段在视频流开始时(在0秒时)立即开始，那么这个事件标记可以省略。第二事件标记702b标记前奏阶段的结束点，同时标记渐进阶段的起点。第三事件标记702c标记反高潮601的时间起点。第四事件标记702d标记反高潮601的时间结束点。第五事件标记702e标记渐进阶段的结束点，同时标记终曲阶段的时间起点。第六事件标记702f标记终曲阶段的时间结束点。当然，如果始终假设终曲阶段在视频流结束时结束，那么这个事件标记可以省略。

[0092] 根据一些实施例，使多个预定可参数化函数501a-n拟合所述多个第二差指示符。这在图8中示出。接着，选择具有最高拟合值的经拟合可参数化函数501a-n作为FNM。此外，所确定的反高潮的数目可以是自适应的，例如，完全取决于根据上文可以发现的子跨度的数目，或者它可以是最大数目，例如，可以检测到最多一个、两个、五个等数目个反高潮。在此情况下，如果存在比最大数目多的反高潮，那么选择的反高潮可以基于反高潮的“深度”(例如，差指示符的子跨度比阈值低的程度)而选择，或基于子跨度的长度而选择。不同预定可参数化函数能够用于不同数目个反高潮。

[0093] 根据一些实施例，具有最高拟合值的多个FNM(例如，最靠前两个或最靠前三个等)作为选项显示给用户，用户能够根据喜好选择。在另一实施例中，使用此类最高拟合FNM将经调适外部内容的对应最终结果显示给用户，然后用户能够根据喜好选择。

[0094] 图9通过实例示出多轨音乐的调适可以如何基于图8中的检测到的事件标记来完成。应注意，音乐和多轨音乐用作外部内容仅仅是作为举例来说的。如上文清楚地阐述，还可以同等地使用其它类型的外部内容，例如动画、环境光等。

[0095] 在图9中，使用具有六个不同音轨的多轨音乐录制902。在前奏阶段期间，即，从事件标记702a到事件标记702b，只有低音音轨和两个鼓音轨中的第一个解除静音并以最大音量播放，其余音轨静音。在渐进阶段期间，也就是从事件标记702b到事件标记702e，第二鼓音轨和吉他音轨不断调整(增大)音量。电子琴音轨和声迹音轨同样如此，但是这两个音轨在反高潮期间(从事件标记702c到事件标记702d)静音。在反高潮阶段期间，低音音轨和第一鼓音轨处理成其中添加有延时和/或混响。在终曲阶段期间，也就是从事件标记702e到事件标记702f，所有音轨的音量都降低。

[0096] 根据一些实施例，使用FNM使外部内容适配视频流的步骤(例如，如图9中所示)是自动的。这意味着用一种算法进行调适外部内容的决策，例如，使特定音轨在特定时间点静音等等。根据其它实施例，FNN或FNM的检测到的事件标记导入到能够调适所使用的外部内容的软件中，例如数字音频工作站(DAW)。接着，在使多轨音乐录制适配视频流时，DAW的用户可使用导入的FNM/检测到的事件标记作为引导。

[0097] 根据上文可以清楚，使外部内容适配视频流可包括基于FNM使多轨音乐录制的音轨静音和解除静音。替代地或另外，使外部内容适配视频流可包括基于FNM对多轨音乐录制902的音轨进行音量调整。静音/解除静音和/或音量调整还可基于检测到的反高潮，即，基于视频流中对应于反高潮的子时间跨度的时间起点和时间结束点，在多轨音乐音轨上完成。可对外部内容执行其它类型的调适，例如向多轨音乐录制902的音轨添加例如混响或延时的效果。例如，其它实例包含改变音乐的节奏(所有音轨的或特定音轨的)，使得副歌正好在反高潮开始的时间点结束。并且，可以通过改变节奏来强调FNM的不同阶段，例如通过降低终曲阶段期间的节奏，或增加渐进阶段期间的节奏。

[0098] 图10通过实例示出用于使外部内容适配视频流的方法。所述方法包括计算S1002第一多个差指示符的步骤，每个差指示符指示后续帧的像素的值之间的差。接着，用严格递减函数卷积S1004所述第一多个差指示符以形成第二多个差指示符。在计算出所述第二多个差指示符之后，使预定可参数化函数拟合S1006所述第二多个差指示符，由此产生在视频流的时间跨度期间视频流的FNM，任选地，检测S1108反高潮。可以任选地从包括合适外部内容的数据库中选择S1010外部内容。可以购买外部内容来解决例如版权问题。最后，使外部内容适配S1012 FNM，和任选地适配检测到的反高潮。

[0099] 如本文中所描述的图10的方法可实施于计算机程序产品中。换句话说，一种计算机程序产品可包括计算机可读存储媒体，所述计算机可读存储媒体具有在由具有处理能力的装置执行时用于实施如本文中所描述的图10的方法的指令。此类装置在图11中示出，其中装置1102包括用于执行如本文中所描述的使外部内容适配视频流的方法的处理器1104。装置1102可进一步包括保存用于实施如本文中所描述的图10的方法的指令的存储器1106。
此外，装置可以提供供用户手动编辑FNM或供用户手动编辑经拟合预定可参数化函数或供用户手动编辑(反高潮的)时间起点和时间结束点的功能性。此类功能性可以通过用户界面
1108来提供。此外，装置进一步包括适用于调适外部内容的计算机程序产品，其中所述计算机程序产品可存储于存储器1106中，且其功能性可以通过用户界面1108提供给用户。根据一些实施例，外部内容还存储于存储器1106中。替代地或另外，装置1102可以通过网络1110连接到数据库1112，如图11中所示。数据库1112可包括供装置选择的外部内容。因而，装置
1102可以提供例如通过装置1102的用户界面1108从数据库1112中选择外部内容(例如，如呈多轨格式的音乐)的功能性。

[0100] III.等效物、扩展、替代方案和杂项

[0101] 在研究过上文的描述之后，所属领域的技术人员将清楚本公开的其它实施例。即使当前描述内容和附图公开了实施例和实例，但是本公开不限于这些具体实例。可以在不脱离本公开的范围的情况下做出许多修改和变化，本公开的范围由所附权利要求书限定。权利要求中出现的任何参考标号不应理解为限制它们的范围。

[0102] 另外，在研究过附图、公开内容和所附权利要求书后，技术人员在实践本公开时可以理解并实现所公开实施例的变型。在权利要求书中，词语“包括(comprising)”不排除其它元素或步骤且不定冠词“一(a)”或“一个(an)”不排除多个。在彼此不同的附属权利要求项中叙述某些措施这一单纯事实并不指示不能使用这些措施的组合来获得优势。

[0103] 上文公开的系统和方法可以实施为软件、固件、硬件或其组合。在硬件实施方案中，在以上描述中提及的任务在功能单元或级之间的划分不一定对应于划分到物理单元中；相反地，一个物理组件可具有多个功能性，且一个任务可以由数个物理组件合作实施。某些组件或所有组件可以实施为由数字信号处理器或微处理器执行的软件，或实施为硬件或专用集成电路。此类软件可以分布在计算机可读媒体上，所述计算机可读媒体可包括计算机存储媒体(或非暂时性媒体)和通信媒体(或暂时性媒体)。所属领域的技术人员都知道，术语计算机存储媒体包含在任何方法或技术中实施以存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性、可装卸式和非可装卸式媒体。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光盘存储装置、盒式磁带、磁带、磁盘存储装置或其它磁性存储装置，或可用于存储所要信息且可由计算机存取的任何其它媒体。此外，技术人员都知道，通信媒体通常体现计算机可读指令、数据结构、程序模块或调制数据信号中的其它数据，例如载波或其它传送机构，并且包含任何信息递送媒体。

[0104] 本发明的各个方面可从下面列举的实例实施例(EEE)了解：

[0105] 1.一种用于使外部内容适配具有一时间跨度的视频流的方法，所述视频流包括多个帧，每个帧包括像素，所述方法包括以下步骤：

[0106] 计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0107] 比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0108] 通过用衰减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0109] 使预定可参数化函数拟合所述第二多个差指示符，并由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，

[0110] 使用所述FNM使外部内容适配所述视频流。

[0111] 2.根据EEE 1所述的方法，进一步包括以下步骤：

[0112] 在产生所述视频流的所述FNM之后：

[0113] 比较所述第二多个差指示符与所述FNM，

[0114] 确定所述第二多个差指示符当中存在连续差指示符子集，其中所述差指示符子集中的所有差指示符的值都至少比所述FNM中的对应值小一阈值，其中所述连续差指示符子集对应于所述视频流的子时间跨度，

[0115] 另外基于所述视频流的所述子时间跨度的时间起点和时间结束点，使所述外部内容适配所述视频流。

[0116] 3.根据EEE 1至2所述的方法，其中计算所述多个第二差指示符的步骤进一步包括以下步骤：比较所述第一多个差指示符中的每一个与预定阈值并在执行用所述衰减函数卷积所述第一多个差指示符的步骤之前将低于所述预定阈值的任何差指示符设置为零。

[0117] 4.根据EEE 1至3所述的方法，其中所述第一多个差指示符中的每个特定差指示符是通过计算两个后续帧的对应像素的RGB值之间的差并基于计算出的差计算所述特定差指示符来计算的。

[0118] 5.根据EEE 1至4所述的方法，其中所述衰减函数是在0.1-2秒之后降到其初始值的1％以下的指数衰减函数。

[0119] 6.根据EEE 5所述的方法，其中所述衰减函数是在1秒之后降到其初始值的1％以下的指数衰减函数。

[0120] 7.根据前述EEE中任一EEE所述的方法，其中使用所述FNM使外部内容适配所述视频流的步骤是自动的。

[0121] 8.根据前述EEE中任一EEE所述的方法，其中所述外部内容由预录制音乐组成。

[0122] 9.根据EEE 8所述的方法，其中所述预录制音乐以多轨格式录制。

[0123] 10.根据EEE 9所述的方法，其中使用所述FNM使外部内容适配所述视频流的步骤包括基于所述FNM使多轨音乐录制的音轨静音和解除静音。

[0124] 11.根据EEE 9至10中任一EEE所述的方法，其中使用所述FNM使外部内容适配所述视频流包括基于所述FNM对多轨音乐录制的音轨进行音量调整。

[0125] 12.根据附属于EEE 2的EEE 9至11中任一EEE所述的方法，其中另外基于所述视频流的所述子时间跨度的时间起点和时间结束点使所述外部内容适配所述视频流的步骤包括：基于所述时间起点和所述时间结束点，使多轨音乐录制的音轨静音和解除静音。

[0126] 13.根据附属于EEE 2的EEE 9至12中任一EEE所述的方法，其中另外基于所述视频流的所述子时间跨度的时间起点和时间结束点使所述外部内容适配所述视频流的步骤包括：基于所述时间起点和所述时间结束点，对多轨音乐录制的音轨进行音量调整。

[0127] 14.根据前述EEE中任一EEE所述的方法，其中使所述预定可参数化函数拟合所述第二多个差指示符并由此产生在所述视频流的所述时间跨度期间所述视频流的FNM的步骤是通过最小二乘拟合完成的。

[0128] 15.根据前述EEE中任一EEE所述的方法，其中使多个预定可参数化函数拟合所述多个第二差指示符，其中所述方法进一步包括计算至少两个经拟合可参数化函数的拟合值以及选择具有最高拟合值的函数作为FNM。

[0129] 16.根据前述EEE中任一EEE所述的方法，其中使所述预定可参数化函数拟合所述多个第二差指示符的步骤进一步包括检测多个事件标记，每个事件标记对应于所述视频流的一个帧。

[0130] 17.根据附属于EEE 10的EEE 16所述的方法，其中所述多轨音乐录制的音轨的静音和解除静音是基于检测到的事件标记。

[0131] 18.根据前述EEE中任一EEE所述的方法，其中计算第一多个差指示符的步骤包括比较邻近帧之间的对应像素值。

[0132] 19.根据前述EEE中任一EEE所述的方法，其中比较后续帧的步骤包括计算对应像素的值之间的绝对差。

[0133] 20.根据前述EEE中任一EEE所述的方法，其中所述第二多个差指示符归一化成包括在0-1之间的值。

[0134] 21.根据前述EEE中任一EEE所述的方法，其中对应像素是所述两个后续帧中具有同一指数值的像素。

[0135] 22.根据前述EEE中任一EEE所述的方法，其中使外部内容适配所述视频流的步骤包括从外部内容数据库中选择所述外部内容的步骤。

[0136] 23.根据前述EEE中任一EEE所述的方法，进一步包括从多个预定可参数化函数中选择所述预定可参数化函数的步骤。

[0137] 24.根据前述EEE中任一EEE所述的方法，进一步包括提供供用户手动编辑所述FNM的功能性。

[0138] 25.根据前述EEE中任一EEE所述的方法，进一步包括提供供用户手动编辑经拟合预定可参数化函数的功能性。

[0139] 26.根据附属于EEE 2的先前EEE中任一EEE所述的方法，进一步包括提供供用户手动编辑所述时间起点和所述时间结束点的功能性。

[0140] 27.一种实施用于使外部内容适配具有一时间跨度的视频流的方法的计算机程序产品，所述视频流包括多个帧，每个帧包括像素，所述方法包括以下步骤：

[0141] 计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0142] 比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0143] 通过用衰减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0144] 使预定可参数化函数拟合所述第二多个差指示符，并由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，

[0145] 使用所述FNM使外部内容适配所述视频流。

[0146] 28.一种用于使外部内容适配具有一时间跨度的视频流的装置，所述视频流包括多个帧，每个帧包括像素，所述装置包括处理器，所述处理器用于：

[0147] 计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0148] 比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0149] 通过用衰减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0150] 使预定可参数化函数拟合所述第二多个差指示符，并由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，

[0151] 使用所述FNM使外部内容适配所述视频流。

[0152] 29.根据EEE 28所述的装置，其中所述装置进一步包括适用于调适外部内容的计算机程序产品。

[0153] 30.根据EEE 29所述的装置，其中所述外部内容是音乐。

[0154] 31.一种用于使外部内容适配具有一时间跨度的视频流的系统，所述视频流包括多个帧，每个帧包括像素，所述系统包括连接到数据库的装置，所述数据库包括外部内容，其中所述装置包括处理器，所述处理器用于：

[0155] 计算第一多个差指示符，每个差指示符指示后续帧的所述像素的值之间的差，其中计算所述第一多个差指示符中的每个特定差指示符包括：

[0156] 比较两个后续帧之间的对应像素值，并基于比较来计算所述特定差指示符，[0157] 通过用衰减函数卷积所述第一多个差指示符来计算第二多个差指示符，所述第二多个差指示符中的每个差指示符对应于所述视频流的特定时间位置，

[0158] 使预定可参数化函数拟合所述第二多个差指示符，并由此产生描述在所述视频流的所述时间跨度期间所述视频流的叙事模式的函数FNM，

[0159] 从所述数据库中选择外部内容，以及

[0160] 使用所述FNM使选择的外部内容适配所述视频流。

[0161] 32.一种具有指令的计算机程序产品，所述指令在由计算装置或系统执行时使所述计算装置或系统执行根据EEE 1至26中任一EEE所述的方法。

标题	发布/更新时间	阅读量
一种视频编辑方法、装置以及移动终端	2020-05-08	997
自动混音装置	2020-05-11	910
一种基于HTML5的不同帧率音视频的同步方法及装置	2020-05-08	646
视频配音方法、装置、终端及存储介质	2020-05-12	812
电子书配置背景音乐的方法和装置	2020-05-13	496
基于小波蚁群的声音和字幕精确对准系统	2020-05-13	891
用于将音频效果应用于音乐合辑的一个或多个音轨的方法	2020-05-12	350
媒体回放系统中的音频内容搜索	2020-05-11	783
视频关键字确定、视频检索方法及装置、存储介质、终端	2020-05-12	159
一种音乐教学辅助系统	2020-05-11	274

用于使外部内容适配视频流的方法、系统、装置和计算机程序产品

用于使外部内容适配视频流的方法、系统、装置和计算机程序

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：