生成视频摘要的方法专利检索-摘要国际申请第I章专利合作条约专利权专利检索查询-专利查询网

生成视频 摘要的方法

阅读：679发布：2020-05-12

专利汇可以提供生成视频摘要的方法专利检索，专利查询，专利分析的服务。并且一种生成至少包括视频序列(18)的内容信号的视频摘要的方法，包括基于内容信号的相应部分的特性的分析以及用于标识第一类别的分段(19-21)的至少第一准则集合，将视频序列(18)的分段分类为至少第一类别和第二类别之一。通过串接图像子序列(38-40)来形成图像序列 (37)，每一子序列(38-40)至少部分地基于所述第一类别的相应分段(19-21)，从而：在图像子序列(38-40)中的至少一个中，基于所述第一类别的相应分段(19-21)的运动图像被显示在第一类型窗口中。使得第二类别分段(25-27)的表示与图像序列(37)的至少一些图像一起在不同类型窗口(41，42)中显示。，下面是生成视频摘要的方法专利的具体信息内容。

权利要求

1.生成至少包括视频序列(18)的内容信号的视频摘要的方法，包括：
基于内容信号的相应部分的特性的分析以及用于标识第一类别的分段(19-21)的至少第一准则集合，将视频序列(18)的分段分类为至少第一类别和第二类别之一，以及
通过串接图像子序列(38-40)来形成图像序列(37)，每一子序列(38-40)至少部分地基于所述第一类别的相应分段(19-21)，从而：
在图像子序列(38-40)中的至少一个中，基于所述第一类别的相应分段(19-21)的运动图像被显示在第一类型窗口中，
所述方法还包括：使得第二类别分段(25-27)的表示与图像序列(37)的至少一些图像一起在不同类型窗口(41，42)中显示。
2.根据权利要求1的方法，其中，所述第二类别分段(25-27)的表示被包括在图像序列(37)中的至少一些中，从而第一类型窗口视觉上优于所述不同类型窗口(41，42)。
3.根据权利要求1或2的方法，其中，使得位于所述第一类别的两个分段(19-21)之间的所述第二类别分段(25-27)的表示与基于跟随所述第二类别分段(25-27)的所述第一类别的两个分段(19-21)之一的、图像子序列(38-40)中的至少一些一起显示。
4.根据权利要求2和3的方法，其中，不同类型窗口(41，42)被叠加在所述第一类型窗口的一部分上。
5.根据任一前述权利要求的方法，其中，基于所述内容信号的相应部分的分析以及用于标识所述第二类别分段(25-27)的至少第二准则集合来标识所述第二类别分段(25-27)。
6.根据权利要求5的方法，其中，至少部分地基于所述第一类别的两个分段(19-21)中的位置和内容的至少一个，在分离所述两个分段的区段内标识所述第二类别分段(25-27)。
7.根据任一前述权利要求的方法，其中，所述第二类别分段(25-27)的表示包括基于所述第二类别分段(25-27)的图像序列。
8.根据权利要求7的方法，包括：
将基于所述第二类别分段(25-27)的图像序列的长度调整为在长度上短于或等于基于使得与基于所述第二类别分段(25-27)的图像序列一起显示的所述第一类别的相应分段(19-21)的图像子序列(38-40)的长度。
9.生成至少包括视频序列(18)的内容信号的视频摘要的系统，包括：
输入，用于接收内容信号；
信号处理系统，用于基于内容信号的相应部分的特性的分析以及用于标识第一类别的分段(19-21)的至少第一准则集合，将视频序列(18)的分段分类为至少第一类别和第二类别之一，以及用于：
通过串接图像子序列(38-40)来形成图像序列(37)，每一子序列(38-40)至少部分地基于所述第一类别的相应分段(19-21)，从而：
在图像子序列中的至少一个中，基于所述第一类别的相应分段(19-21)的运动图像被显示在第一类型窗口中，
其中，所述系统被布置为：使得第二类别分段(25-27)的表示与图像序列(37)的至少一些图像一起在不同类型窗口(41，42)中显示。
10.根据权利要求9的系统，被配置为：执行根据权利要求1-8中的任一的方法。
11.对至少包括视频序列(18)的内容信号的视频摘要进行编码的信号，
其中，所述信号对图像子序列(38-40)的串接进行编码，每一子序列(38-40)至少部分地基于至少第一类别和第二类别中的第一类别视频序列(18)的相应分段，所述第一类别分段(19-21)可通过使用内容信号的相应部分的特性的分析以及用于标识所述第一类别分段(19-21)的第一准则集合而标识，以及
相应子序列(38-40)中基于所述第一类别分段(19-21)的运动图像显示在第一类型窗口中，
其中，所述信号包括：用于所述第二类别分段(25-27)的表示在不同类型的窗口(41，42)中与图像的子序列(38-40)的串接中的至少一些同时进行同步显示的数据。
12.根据权利要求11的信号，能够通过执行根据权利要求1-9中的任一的方法而获得。
13.计算机程序，包括：指令集合，其当并入机器可读介质中时能够使得具有信息处理能力的系统执行根据权利要求1-9中的任一的方法。

说明书全文

技术领域

本发明涉及一种生成至少包括视频序列的内容信号的视频摘要的方法。

本发明还涉及一种生成至少包括视频序列的内容信号的视频摘要的系统。

本发明还涉及一种对至少包括视频序列的内容信号的视频摘要进行编码的信号。

本发明还涉及一种计算机程序。

背景技术

WO 03/060914公开了一种用于使用压缩域中提取的运动活动的时间模式对压缩视频进行摘要的系统和方法。时间模式与音频特征(具体地说，音频音量的峰值)的时间位置相关。通过使用十分简单的规则，通过丢弃不关注的视频部分并且标识关注事件来生成摘要。
已知方法的问题在于，只能通过使用于选择关注事件的准则更严格来使摘要较小，结果是损失了摘要质量。

发明内容

本发明的目的在于提供一种在开始段落中提及的类型的方法、系统、信号和计算机程序，用于提供关于其信息内容被感觉为相对高质量的相对紧凑的摘要。
该目的通过根据本发明的方法而得以实现，所述方法包括：
基于内容信号的相应部分的特性的分析以及用于标识第一类别的分段的至少第一准则集合，将视频序列的分段分类为至少第一类别和第二类别之一，以及
通过串接图像子序列来形成图像序列，每一子序列至少部分地基于所述第一类别的相应分段，从而：
在图像子序列中的至少一个中，基于所述第一类别的相应分段的运动图像被显示在第一类型窗口中，
所述方法还包括：使得第二类别分段的表示与图像序列的至少一些图像一起在不同类型窗口中显示。
例如，类型方面的差异可以包括以下任一：不同几何显示格式、不同目标显示设备或不同屏幕位置。
通过基于内容信号的相应部分的特性的分析以及用于标识第一类别分段的至少第一准则集合而将视频序列分段分类为至少第一类别和第二类别之一，视频序列中的精彩场面得以检测。适当选取第一准则集合确保了它们可以与最有信息的分段对应，而不是与最有代表性或占优的分段。例如，基于用于第一类型分段的分类符的值适当选取准则将确保选择体育比赛中得分(精彩场面)时刻的分段，而不是选择表示运动场的分段(占优部分)。通过串接图像的子序列，每一子序列至少部分地基于第一类别的相应分段，确保了由精彩场面来确定图像序列的长度，使得摘要序列相对紧凑。通过提供将输入视频序列的其余分段分类为至少第二类别，并且通过将第二类别的分段的表示与图像序列中的至少一些一起显示，使得对视频序列进行摘要的图像序列更有信息。因为基于第一类别的相应分段的运动图像显示在第一类型窗口中，并且第二类别分段的表示显示在不同类型窗口中，所以对内容信号进行摘要的图像序列是紧凑并且相对高质量的。观众可以区分精彩场面与其它类型的摘要元素。
在实施例中，第二类别分段的表示被包括在图像序列的至少一些中，从而第一类型窗口视觉上优于所述不同类型窗口。
因此，相对紧凑的摘要可以显示在一个屏幕上，并且相对有信息。具体地说，不止是仅可以显示精彩场面，而且清楚的是，在已经做过摘要的视频序列中哪些是精彩场面，以及哪个表示是具有次级重要性的分段的表示。此外，因为第一类别分段通过子序列确定摘要的长度，所以图像序列的主导部分是连续的，而所述不同类型窗口无需如此。
在实施例中，使得位于所述第一类别的两个分段之间的所述第二类别分段的表示与基于跟随所述第二类别分段的所述第一类别的两个分段之一的、图像子序列中的至少一些一起显示。
因此，视频摘要根据目的在于在摘要中保持与已经做过摘要的视频序列中的时间顺序对应的时间顺序的规则而得以建立。效果在于，避免了混淆的摘要，即演变为并行显示的两个分离摘要。比之任何其它情况，该视频摘要也是更有信息的，因为位于两个第一类别分段之间的第二类别分段极有可能与这两个第一类别分段之一有关(即，显示引起在前面或后面第一类别分段中之前的反应或事件)。
在实施例中，所述不同类型窗口叠加在第一类型窗口的一部分上。
因此，可以使得第一类型窗口相对较大，并且至少部分地基于第一类别分段的图像子序列可以具有相对高的分辨率。倘若在适当位置叠加所述不同类型窗口，那么第二类型窗口中所提供的额外信息对与第一类别分段对应的信息并不带来实质性的损失。
在实施例中，第二类别分段是基于内容信号的相应部分的分析以及用于标识第二类别分段的至少第二准则集合而得以标识的。
效果在于，可以基于与用于选择第一类别分段的不同特性来选择第二类别分段。具体地说，例如，无需由视频序列的并非第一类别分段的所有其余部分来形成第二类别分段。显然，第二类别分段据此得以标识以及结合第二准则集合而使用的分析无需是与用于标识第一类别分段的分析相同的类型，尽管它可以是相同类型。
在变形方式中，至少部分地基于两个第一类别分段中的至少一个的位置和内容中的至少一个，在分离这两个分段的区段内标识第二类别分段。
因此，该方法能够检测显示对于最近的第一类别分段中的至少一个的反应或前面事件的第二类别分段(通常，视频序列的精彩场面得以进行摘要)。
在实施例中，第二类别分段的表示包括基于第二类别分段的图像序列。
效果在于，增加了与所显示的被进行摘要的视频序列的次级部分有关的信息量。
变形方式包括：将基于所述第二类别分段的图像序列的长度调整为在长度上短于或等于基于使得与基于所述第二类别分段的图像序列一起显示的所述第一类别的相应分段的图像子序列的长度。
效果在于，允许第一类别分段确定视频摘要的长度，并且在保持时间顺序的同时添加信息。
根据另一方面，根据本发明的用于生成至少包括视频序列的内容信号的视频摘要的系统包括：
输入，用于接收内容信号；
信号处理系统，用于基于内容信号的相应部分的特性的分析以及用于标识第一类别的分段的至少第一准则集合，将视频序列的分段分类为至少第一类别和第二类别之一，以及用于：
通过串接图像子序列来形成图像序列，每一子序列至少部分地基于所述第一类别的相应分段，从而：
在图像子序列中的至少一个中，基于所述第一类别的相应分段的运动图像被显示在第一类型窗口中，
其中，所述系统被布置为：使得第二类别分段的表示与图像序列的至少一些图像一起在不同类型窗口中显示。
在实施例中，所述系统配置为执行根据本发明的方法。
根据另一方面，根据本发明的对至少包括视频序列的内容信号的视频摘要进行编码的信号对图像子序列的串接进行编码，每一子序列至少部分地基于至少第一类别和第二类别中的第一类别视频序列的相应分段，所述第一类别分段可通过使用内容信号的相应部分的特性的分析以及用于标识所述第一类别分段的第一准则集合而标识，以及
相应子序列中基于所述第一类别分段的运动图像显示在第一类型窗口中，
其中，所述信号包括：用于所述第二类别分段的表示在不同类型的窗口中与图像的子序列的串接中的至少一些同时进行同步显示的数据。
该信号就其长度而言是相对紧凑并且有信息的内容信号的视频摘要。
在实施例中，可通过执行根据本发明的方法来获得所述信号。
根据本发明的另一方面，提供一种计算机程序，其包括指令集合，当并入机器可读介质时能够使得具有信息处理能力的系统执行根据本发明的方法。
附图说明
以下将参照附图来进一步详细解释本发明，其中：
图1示出用于生成并且显示视频摘要的系统；
图2是待进行摘要的视频序列的示意图；
图3是生成摘要的方法的流程图；以及
图4是视频摘要中所包括的图像序列的示意图。

具体实施方式

集成接收机解码器(IRD)1包括网络接口2、解调器3以及解码器4，用于接收数字电视广播、视频点播服务等。网络接口2可以是数字、卫星、地面或基于IP的广播或窄播网络。解码器的输出包括一个或多个节目流，其包括(压缩后的)例如MPEG-2或H.264或相似的格式的数字视听信号。与节目或事件对应的信号可以存储在大容量存储设备5(例如硬盘、光盘或固态存储器设备)上。
大容量存储设备5上存储的视听信号可以由用户访问，用于在电视系统(未示出)上进行回放。为此，IRD 1配备有用户接口6，例如遥控器和在电视系统的屏幕上显示的图形菜单。IRD 1受控于中央处理单元(CPU)7，CPU 7使用主存储器8执行计算机程序代码。为了回放并且显示菜单，IRD 1还配备有视频编码器9和音频输出级10，用于生成适合于电视系统的视频和音频信号。CPU 7中的图形模块(未示出)生成由IRD 1和电视系统提供的图形用户接口(GUI)的图形组件。
IRD 1借助IRD 1的本地网络接口12以及便携式媒体播放器11的本地网络接口13来与便携式媒体播放器11相接。这允许将IRD 1所生成的视频摘要流传送或者以其他方式下载到便携式媒体播放器11。
便携式媒体播放器11包括显示设备14，例如液晶显示器(LCD)设备。其还包括处理器15和主存储器16，以及大容量存储设备17，例如硬盘单元或固态存储器设备。
IRD 1被布置为生成通过其网络接口2接收到并且存储在大容量存储设备5上的节目的视频摘要。视频摘要可以下载到便携式媒体播放器11，以允许移动用户不错失体育事件的精华。它们也可以用于促进借助IRD 1和电视机而提供的GUI中的浏览操作。
用于生成这些摘要的技术是使用体育广播(例如单独体育竞赛)的示例进行解释的，但该技术可应用于广阔范围的内容，例如电影、侦探系列连续剧等。通常，可以据此方式来方便地对任何类型的内容(包括具有初始情况、引起高潮的上升动作以及后续结局的连续情节)进行摘要。
摘要的目的是：呈现关于特定视听内容的实质信息，同时以任何方式略去对于观众较不重要的或意义较小的信息。当对体育进行摘要时，有关的信息典型地包括该体育事件中的最重要的精彩场面的集合(足球比赛中的进球和错失的机会、网球中的盘点或赛点等)。用户研究已经表明，在自动生成的体育摘要中，观众不仅愿意看见最重要的精彩场面，而且还愿意看见事件的另外方面，例如足球比赛中队员对进球的反应、人群反应等。
IRD 1通过根据其摘要中的值以不同方式呈现信息来提供增强的摘要。先前发生的较不相关的部分得以与当前示出的实质部分同时显示。这样允许视频摘要变得紧凑但有信息。
参照图2，节目信号包括音频分量和视频分量，视频分量包括视频序列18。视频序列18包括第一、第二和第三精彩场面分段19-21。其还包括第一、第二和第三前导(lead-up)分段22-24以及第一、第二和第三响应分段25-27、还有与其它内容对应的区段28-31。
参照图3，通过基于这些分段的特性的分析以及用于标识精彩场面分段的至少第一拭探法(heuristic)来检测(步骤32)精彩场面分段19-21而生成视频摘要。拭探法表示一种用于解决问题的特定技术，在此情况下标识与体育事件中精彩场面对应的图像序列的分段。其包括分析的方法以及用于确定给定分段是否被认为表示精彩场面的准则。一个或多个准则的第一集合用于标识精彩场面，而一个或多个准则的第二集合为其它分段类别所满足。在体育事件的情况下，适合对能被分类为精彩场面的分段进行标识的技术在以下文献中得以描述：Ekin，A.M.等人″Automatic soccer video analysis and summarization″，IEEE Trans.Image Processing，June 2003；以及Cabasson，R.和Divakaran，A.，″Automatic extraction of soccer video highlightsusing a combination of motion and audio features″，Symp.Electronic Imaging：Science and Technology：Storage andRetrieval for Media Databases，Jan.2002，5021，pp.272-276；以及Nepal，S.等人，″Automatic detection of goal segments inbasketball videos″，Proc.ACM Multimedia，2001，pp.261-269。
在下一步骤33(该步骤可选)中，通过仅选择前面步骤32中标识出的分段中的特定分段来使得分类细化。该步骤33可以包括：对前面步骤32中找到的分段进行排序，并且仅选择那些排序最高的分段，例如预定数量的分段、或具有等于或小于特定最大长度的总长度的多个分段。注意，仅对视频序列18的特定分段(即，使用应用于精彩场面的准则的集合确定的那些分段)执行这种排序。因此，这是一种构成比视频序列18的全部划分少的分段集合的排序。
另外的步骤34-36允许检测第二类别分段，例如响应分段25-27。对精彩场面的反应典型地包括：常常以慢动作从多角度重放精彩场面；常常为特写镜头的队员的反应；以及人群的反应。
步骤34-36是基于视频序列18中分离两个精彩场面分段19-21的各部分以及至少部分地基于两个精彩场面分段19-21中的至少一个精彩场面分段(通常是两个精彩场面分段19-21中的首先出现的那个)的位置和内容中的至少一个而得以执行的。例如对于每一精彩场面分段19-21找寻响应分段25-27的情况下使用位置。特别在步骤35中寻找重放的情况下使用内容。在任何情况下，使用与用于将分段分类为精彩场面分段19-21的拭探法不同的拭探法来将分段分类为响应分段25-27。在此，该方法不同于旨在通过将表示视频序列18的全部划分的分段排序为根据分段表示完整视频序列18的内容的程度的分段而提供视频序列18的全面摘要的方法。
检测特写的步骤34可以使用深度信息。WO 2007/036823中描述了合适的方法。
可以使用用于检测重放分段的多种已知方法中的任何一种来实现检测重放的步骤35。各示例在以下文献中得以描述：Kobla，V.等人″Identification of sports videos using replay，text，and cameramotion features″，Proc.SPIE Conference on Storage and Retrievalfor Media Database，3972，Jan.2000，pp.332-343；Wungt，L.等人″Generic slow-motion replay detection in sports video″，2004International Conference on Image Processing(ICIP)，pp.1585-1588；以及Tong，X.，″Replay Detection in BroadcastingSports Video ″，Proc.3rd Intl.Conf.on Image and Graphics(ICIG′04)。
可以使用例如在Sadlier，D.和O′Connor，N.，″Event detectionbased on generic characteristics of field-sports″，IEEE Intl.Conf on Multimedia&Expo(ICME)，5，2005，pp.5-17中描述的方法来实现检测人群图像的步骤36。
结合参照图3和图4，示出形成视频摘要的图像的序列37。其包括基于相应的第一、第二和第三精彩场面分段19-21的第一、第二和第三子序列38-40。就其中包含的图像对应于内容而言，子序列38-40是基于精彩场面分段19-21的，不过也可以是分段19-21中的原始图像的时间或空间子采样版本。子序列38-40中的图像被编码，以便占满例如连接到IRD 1的电视机或显示设备14的屏幕显示的第一窗口。通常，当显示时，第一窗口将在尺寸和形状上与屏幕格式对应，从而通常填充整个屏幕。注意到，子序列38-40表示运动图像，而不是单幅缩略图像。
基于响应分段25-27创建(步骤43)用于填充较小格式的屏幕窗口41，42的图像。这些图像以画中画方式叠加(步骤44)在包含精彩场面分段19-21的表示的窗口的一部分上。因此，基于精彩场面分段19-21的运动图像在视觉上优于添加至其上的响应分段25-27的表示。
在一个实施例中，响应分段25-27的表示是单一静态图像，例如缩略图。在该实施例中，它们可以例如与所关注的响应分段25-27的关键帧对应。在另一实施例中，响应分段25-27的表示包括基于响应分段25-27的运动图像的序列。在实施例中，它们是子采样版本或截断的版本，被适配为在长度上短于或等于它们所添加到的子序列38-40的长度。结果，最多仅有响应分段25-27的一个表示被添加到每一子序列38-40。
为了增强摘要序列37的信息内容，在一定程度上保持原始视频序列18的时间顺序。具体地说，使得位于两个连续精彩场面分段19-21之间的每一响应分段25-27的表示与基于跟随所关注的响应分段25-27的两个精彩场面分段19-21之一的仅图像子序列38-40中的至少一些一起显示。因此，在图2和图4所示的示例中，第一响应分段25的表示被包括在图像的第二子序列39内的图像的第一群组45中的窗口41中，图像的第二子序列是基于第二精彩场面分段20的。窗口41并不存在于第二子序列39内的图像的第二群组中。第二响应分段26的表示被示出在叠加于图像的第三子序列40上的窗口42中，所述第三子序列40是基于第三精彩场面分段21的。具有叠加的窗口41，42的子序列38-40在最后步骤47中被串接，以生成输出视频信号。因此，当显示视频摘要序列37时，先前精彩场面的不那么相关的信息作为画中画与当前精彩场面的相关信息同时地显示。
在另一实施例中，注意到，响应分段25-27的表示被显示在与精彩场面分段19-21的表示不同的屏幕上。例如，基于精彩场面分段19-21的图像的子序列可以显示在连接到I RD 1的电视机的屏幕上，而响应分段25-27的表示在适当的时间被同时显示在显示设备14的屏幕上。
还注意到，可以同时将响应分段25-27的若干表示叠加在图像的子序列38-40中的至少一些上。例如，可能存在用于在检测特写的步骤34中检测到的分段的表示的一个窗口、用于在检测重放的步骤35中检测到的分段的表示的另一窗口、以及用于在检测人群图像的步骤36中检测到的分段的表示的又一窗口。
在另一实施例中，窗口41，42根据它们所叠加其上的图像的内容而改变位置，从而不使得有关信息变得模糊。
在又一实施例中，分段22-24的表示也被包括在形成子序列38-40的图像中，或者显示在它们上叠加的窗口41，42中。
在任何情况下，获得对视频序列18进行摘要的紧凑且相对有信息的序列37，适合于在具有有限资源的设备上快速浏览或者移动观看。
应该注意到，上述实施例说明而非限制本发明，并且本领域的技术人员能够在不脱离所附权利要求的范围的情况下设计出许多替代的实施例。在权利要求中，任何置于括号之间的标号不应被解释为对该权利要求进行限制。使用动词“包括”及其变体形式并不排除除了权利要求中陈述的元件或步骤之外的元件或步骤的存在性。在元件之前的冠词“一个”并不排除多个这样的元件的存在。本发明可以通过包括一些独特元件的硬件以及通过合适地编程的计算机来实现。在列举了几个装置的设备权利要求中，这些装置中的几个可以由同一个硬件项目来实施。在相互不同的从属权利要求中陈述特定措施的纯粹事实并非表示这些措施的组合不能被有利地使用。
例如，检测精彩场面分段19-21和响应分段25-27的步骤32-36中的一步或多步可以是另外或者替代地基于与待进行摘要并且被包括在同一内容信号中的视频序列18同步的音频轨道的特性的分析。
“计算机程序”应理解为表示计算机可读介质(例如光盘)上存储的、可经由网络(例如因特网)下载的、或以任何其它方式市售的任何软件产品。

标题	发布/更新时间	阅读量
摘要生成方法及装置	2020-05-11	445
包括特定人的视频摘要	2020-05-12	614
视频摘要生成方法和视频摘要生成装置	2020-05-13	960
摘要生成装置和摘要生成方法	2020-05-11	77
视频摘要的用户界面	2020-05-12	409
一种视频摘要生成方法	2020-05-12	276
摘要生成方法及装置	2020-05-11	545
一种摘要认证方法及摘要认证系统	2020-05-11	791
选择性会议摘要	2020-05-11	784
实时视频摘要	2020-05-11	887

生成视频摘要的方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：