视频摘要生成方法和视频摘要生成装置专利检索-摘要国际申请第I章专利合作条约专利权专利检索查询-专利查询网

视频 摘要生成方法和视频摘要生成装置

阅读：960发布：2020-05-13

专利汇可以提供视频摘要生成方法和视频摘要生成装置专利检索，专利查询，专利分析的服务。并且本发明提出一种视频摘要生成方法和视频摘要生成装置。该视频摘要生成方法包括：对原始视频中的目标帧图像进行背景建模，得到背景模型；利用背景模型提取出目标帧图像中的运动目标；使用预设的分类器将提取到的运动目标进行分类；按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。应用本发明的技术方案，本发明的技术方案提高了视频的使用效率。最终使用物体分类的方法生成了有条理的摘要，满足了快速多目标浏览的目的。，下面是视频摘要生成方法和视频摘要生成装置专利的具体信息内容。

权利要求

1.一种视频摘要生成方法，其特征在于，包括：
对原始视频中的目标帧图像进行背景建模，得到背景模型；
利用所述背景模型提取出所述目标帧图像中的运动目标；
计算所述目标帧图像的运动目标与所述目标帧之前一帧的运动目标的交叉面积；判断所述交叉面积是否大于预设面积值；当所述交叉面积大于预设面积值时，根据所述目标帧图像的运动目标在图像上的位置更新运动轨迹；当所述交叉面积小于或等于预设面积时，按照所述目标帧图像的运动目标在图像上的位置生成新的运动轨迹；
使用预设的分类器将提取到的运动目标进行分类；
按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。
2.根据权利要求1所述的视频摘要生成方法，其特征在于，对原始视频中的目标帧图像进行背景建模包括：
使用混合高斯背景算法对所述目标帧图像进行计算，得到所述目标帧图像的混合高斯模型。
3.根据权利要求1所述的视频摘要生成方法，其特征在于，使用预设的分类器将提取到的运动目标进行分类包括：
使用预设的由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。
4.根据权利要求1所述的视频摘要生成方法，其特征在于，按照分类结果将提取到的运动目标进行轨迹排列包括：
按照所述运动目标的运动轨迹出现的时间关系和空间位置对该运动轨迹进行排列；
将排列后的运动轨迹叠加到背景图像上。
5.一种视频摘要生成装置，其特征在于，包括：
背景建模模块，用于对原始视频中的目标帧图像进行背景建模以得到背景模型；
运动目标提取模块，用于利用所述背景模型提取出所述目标帧图像中的运动目标；
轨迹跟踪模块，用于计算所述目标帧图像的运动目标与所述目标帧之前一帧的运动目标的交叉面积，判断所述交叉面积是否大于预设面积值，当所述交叉面积大于预设面积值时，根据所述目标帧图像的运动目标在图像上的位置更新运动轨迹，当所述交叉面积小于或等于预设面积时，按照所述目标帧图像的运动目标在图像上的位置生成新的运动轨迹；
运动目标分类模块，用于使用预设的分类器将提取到的运动目标进行分类；
摘要生成模块，用于按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。
6.根据权利要求5所述的视频摘要生成装置，其特征在于，所述背景建模模块还用于：
使用混合高斯背景算法对所述目标帧图像进行计算，得到所述目标帧图像的混合高斯模型。
7.根据权利要求5所述的视频摘要生成装置，其特征在于，运动目标分类模块还用于：
使用预设的由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。

说明书全文

视频摘要生成方法和视频摘要生成装置

技术领域

[0001] 本发明属于计算机视觉与模式识别领域，具体涉及一种视频摘要生成方法和视频摘要生成装置。

背景技术

[0002] 视频摘要又称为视频浓缩，是对视频内容的概括，以自动或半自动方式，通过运动目标分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将它们以某种方式进行组合。随着视频技术的发展，视频摘要在视频分析和基于内容的视频检索中的作用愈加重要。

[0003] 视频摘要提取的目的是为了能够快速的浏览视频中出现的运动目标，然而视频内容十分复杂而且不同用户关注的目标不同，现有技术中视频摘要生成方法无法根据多样的用户需求完整准确地生成令人满意的视频摘要。

[0004] 针对现有技术中视频摘要生成方法无法对不同种类移动目标分别生成视频摘要的问题，目前尚未提出有效的解决方案。

发明内容

[0005] 本发明提出一种视频摘要生成方法和视频摘要生成装置，以解决现有技术中视频摘要生成方法无法对不同种类移动目标分别生成视频摘要的问题。

[0006] 本发明解决其技术问题所采用的技术方案是：

[0007] 根据本发明的一个方面，提供了一种视频摘要生成方法。该视频摘要生成方法包括：对原始视频中的目标帧图像进行背景建模，得到背景模型；利用背景模型提取出目标帧图像中的运动目标；在所述利用所述背景模型提取出所述目标帧图像中的运动目标之后还包括：计算所述目标帧图像的运动目标与所述目标帧之前一帧的运动目标的交叉面积；判断所述交叉面积是否大于预设面积值；当所述交叉面积大于预设面积值时，根据所述目标帧图像的运动目标在图像上的位置更新运动轨迹；当所述交叉面积小于或等于预设面积时，按照所述目标帧图像的运动目标在图像上的位置生成新的运动轨迹；使用预设的分类器将提取到的运动目标进行分类；按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。

[0008] 进一步地，对原始视频中的目标帧的图像进行背景建模包括：使用混合高斯背景算法对目标帧的图像进行计算，得到目标帧图像的混合高斯模型。

[0009] 进一步地，使用预设的分类器将提取到的运动目标进行分类包括：使用预设由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。

[0010] 进一步地，按照分类结果将提取到的运动目标进行轨迹排列包括：按照运动目标的运动轨迹出现的时间关系和空间位置对该运动轨迹进行排列；将排列后的运动轨迹叠加到背景图像上。

[0011] 根据本发明的另一个方面，提供了一种视频摘要生成装置。该视频摘要生成装置包括：背景建模模块，用于对原始视频中的目标帧图像进行背景建模以得到背景模型；运动目标提取模块，用于利用背景模型提取出目标帧图像中的运动目标；轨迹跟踪模块，用于计算所述目标帧图像的运动目标与所述目标帧之前一帧的运动目标的交叉面积，判断所述交叉面积是否大于预设面积值，当所述交叉面积大于预设面积值时，根据所述目标帧图像的运动目标在图像上的位置更新运动轨迹，当所述交叉面积小于或等于预设面积时，按照所述目标帧图像的运动目标在图像上的位置生成新的运动轨迹；运动目标分类模块，用于使用预设的分类器将提取到的运动目标进行分类；摘要生成模块，用于按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。

[0012] 进一步地，背景建模模块还用于：使用混合高斯背景算法对目标帧的图像进行计算，得到目标帧图像的混合高斯模型。

[0013] 进一步地，运动目标分类模块还用于：使用预设由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。

[0014] 应用本发明的技术方案，本发明的技术方案在图像中提取出移动目标之后，利用预设的分类器建立视频中常见的物体的模型，对提取得到的前景即移动目标进行分类，并按照分类结果生成视频摘要。从而完整准确地生成符合用户需求的视频摘要，使用户可以从视频摘要中迅速地得到需要的视频信息，提高了视频的使用效率。最终使用物体分类的方法生成了有条理的摘要，满足了快速多目标浏览的目的。附图说明

[0015] 图1是根据本发明实施例的视频摘要生成装置的示意图；

[0016] 图2是根据本发明实施例的视频摘要生成方法的示意图；

[0017] 图3是根据本发明实施例的视频摘要生成方法的流程图。

具体实施方式

[0018] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

[0019] 本发明实施例提供了一种视频摘要生成装置，图1是根据本发明实施例的视频摘要生成装置的示意图，如图1所示，该生成装置包括：背景建模模块11，用于对原始视频中的目标帧图像进行背景建模以得到背景模型；运动目标提取模块13，用于利用背景模型提取出目标帧图像中的运动目标；运动目标分类模块15，用于使用预设的分类器将提取到的运动目标进行分类；摘要生成模块17，用于按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。

[0020] 利用本实施例的视频摘要生成装置，在建立背景模型后，利用预设的分类器建立视频中常见的物体的模型，对提取得到的前景即移动目标进行分类，并按照分类结果生成视频摘要。从而完整准确地生成符合用户需求的视频摘要，使用户可以从视频摘要中迅速地得到需要的视频信息，提高了视频的使用效率。

[0021] 以上背景建模模块11可以使用各种图像背景建模算法，在建立背景模型后，将当前的图像与背景模型进行比较，根据比较结果确定前景目标(即需要提取的运动目标)。具体地图像背景建模算法可以选择采用颜色背景模型或者纹理背景模型，其中，颜色背景模型是对图像中每个像素的颜色值(包括灰度或彩色)进行建模。如果当前图像坐标(x，y)上的像素颜色值与背景模型中(x，y)上的像素颜色值有较大差异时，当前像素被认为是前景，否则为背景。

[0022] 本实例的视频摘要生成装置的背景建模模块11可以优选使用颜色背景模型中的混合高斯背景算法，混合高斯背景模型(Gaussian Mixture Model)在单高斯背景模型的基础上进行了改进中，通过多个高斯概率密度函数的加权平均来平滑地近似任意形状的密度分布函数，尤其适用于对于室外环境的图像进行处理，背景建模模块11利用混合高斯背景算法的特点，可以将室外环境下视频中的运动目标快速准确地进行识别。

[0023] 背景建模模块11进行背景建模时，可以对目标帧图像中的光照和阴影进行相应的滤波处理，以避免光照和阴影被误认为运动目标，影响视频摘要的生成。

[0024] 在使用混合高斯背景算法的情况下，背景建模模块11还可以用于：使用混合高斯背景算法对目标帧的图像进行计算，得到目标帧图像的混合高斯模型。

[0025] 运动目标分类模块15所使用的预设的分类器可以使用多种分类算法，在本实施例中可以采用支持向量机(Support Vector Machine，SVM)对视频中经常出现的物体(如自行车、汽车、摩托车等交通工具，或动物等)进行模型训练。支持向量机对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而实现高维特征空间采用线性算法对样本的非线性特征进行线性分析。同时支持向量机基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。

[0026] 支持向量机的算法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题，也就是通过升维实现线性可分。同时对于升维可能带来的计算复杂化，支持向量机应用核函数的展开定理，就不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，通过选择不同的核函数，可以生成不同的模型。

[0027] 在本实施例中，可以对多种物体图像事先进行SVM训练，得到几种典型的模型并进行存储。从而，运动目标分类模块15还可以用于使用预设由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。

[0028] 本实施例的视频摘要生成装置还可以包括轨迹跟踪模块，对每帧检测到的移动目标进行跟踪，跟踪方法可以采用最邻近方法，具体步骤可以是：将目标帧图像的运动目标与目标帧之前一帧的运动目标进行轨迹跟踪，得到运动目标的运动轨迹。

[0029] 其中，轨迹跟踪可以包括轨迹关联、轨迹生成、和轨迹消失等几个步骤的判断。具体的判别方法为：计算目标帧图像的运动目标与目标帧之前一帧的运动目标的交叉面积；判断交叉面积是否大于预设面积值；当交叉面积大于预设面积值时，根据目标帧图像的运动目标在图像上的位置更新运动轨迹；当交叉面积小于或等于预设面积时，按照目标帧图像的运动目标在图像上的位置生成新的运动轨迹。重复以上步骤，直至遍历当前帧中所有的提取出的运动目标。

[0030] 假设目标帧之前一帧的运动目标的面积为Spre，目标帧图像的运动目标的面积为Stemp，上述预设面积值可以设置为min(Spre,Stemp)×R，那么当上述的交叉面积Scross满足：Scross>min(Spre,Stemp)×R的条件时，可以判定目标帧图像的运动目标与目标帧之前一帧的运动目标的轨迹相关联，根据目标帧图像的运动目标在图像上的位置更新此运动轨迹。在上式中R为交叉比例，可以按照经验值进行取值，一般取值为0.4。

[0031] 上述的交叉面积Scross的计算方法为Scross＝Widthcross×Heightcross，其中，[0032] Widthcross＝min(rightpre,righttemp)-max(leftpre,lefttemp)，rightpre是之前一帧运动目标在图像坐标中横坐标的最大值，代表了运动目标在之前一帧图像中的最右的位置；leftpre是之前一帧运动目标在图像坐标中横坐标的最小值，代表了运动目标在之前一帧图像中的最左的位置；s是目标帧中运动目标在图像坐标中横坐标的最大值，代表了运动目标在目标帧图像中的最右位置；lefttemp是目标帧中运动目标在图像坐标中横坐标的最小值，代表了运动目标在目标帧图像中的最左位置。因此min(rightpre,righttemp)是rightpre和righttemp中较小的一个值，max(leftpre,lefttemp)是leftpre和lefttemp中较大的一个值。

[0033] Heightcross＝min(Toppre,Toptemp)-max(Bottompre,Bottomtemp)，Bottompre是之前一帧运动目标在图像坐标中纵坐标的最小值，代表了运动目标在前一帧图像中的底部位置；Toppre是之前一帧运动目标在图像坐标中纵坐标的最大值，代表了运动目标在前一帧图像中的顶部位置；Toptemp是目标帧中运动目标在图像坐标中纵坐标的最大值，代表了运动目标在目标帧图像中的底部位置；Toppre是目标帧中运动目标在图像坐标中纵坐标的最小值，代表了运动目标在目标帧图像中的顶部位置。因此min(Toppre,Toptemp)是Toppre和Toptemp中较小的一个值，max(Bottompre,Bottomtemp)是Bottompre和Bottomtemp中较大的一个值。

[0034] 当交叉面积小于或等于预设面积时即Scross≤min(Spre,Stemp)×R，按照目标帧图像的运动目标在图像上的位置生成新的运动轨迹，并判断之前的运动轨迹消失。

[0035] 摘要生成模块17的流程具体可以包括：按照运动目标的运动轨迹出现的时间关系和空间位置对该运动轨迹进行排列；将排列后的运动轨迹叠加到背景图像上，从而生成了视频摘要。

[0036] 本发明实施例还提供了一种视频摘要生成方法，该视频摘要生成方法可以通过本发明上述实施例所提供的任一种视频摘要生成装置来执行，图2是根据本发明实施例的视频摘要生成方法的示意图，该视频摘要生成方法，包括：

[0037] 步骤S21，对原始视频中的目标帧图像进行背景建模，得到背景模型；

[0038] 步骤S23，利用背景模型提取出目标帧图像中的运动目标；

[0039] 步骤S25，使用预设的分类器将提取到的运动目标进行分类；

[0040] 步骤S27，按照分类结果将提取到的运动目标进行轨迹排列，生成摘要。

[0041] 其中，步骤S21具体可以包括：使用混合高斯背景算法对目标帧的图像进行计算，得到目标帧图像的混合高斯模型。步骤S21利用了混合高斯背景算法的特点，通过多个高斯概率密度函数的加权平均来平滑地近似任意形状的密度分布函数，适用于对于室外环境的图像进行处理，可以将室外环境下视频中的运动目标快速准确地进行识别。

[0042] 步骤S25具体可以包括：使用预设由支持向量机训练出的物体分类器模型对提取到的运动目标进行分类。支持向量机通过一个非线性映射p，把样本空间映射到一个高维的特征空间中，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题，也就是通过升维实现线性可分。物体分类器模型通过支持向量机对多种物体图像事先训练得出，并进行了保存。

[0043] 本实施例的视频摘要生成方法，在步骤S23之后还可以包括：将目标帧图像的运动目标与目标帧之前一帧的运动目标进行轨迹跟踪，得到运动目标的运动轨迹。具体地流程为：计算目标帧图像的运动目标与目标帧之前一帧的运动目标的交叉面积；判断交叉面积是否大于预设面积值；当交叉面积大于预设面积值时，根据目标帧图像的运动目标在图像上的位置更新运动轨迹；当交叉面积小于或等于预设面积时，按照目标帧图像的运动目标在图像上的位置生成新的运动轨迹。具体的计算方法在介绍视频摘要生成装置已经介绍过，在此不再重复。

[0044] 步骤S27具体可以包括：按照运动目标的运动轨迹出现的时间关系和空间位置对该运动轨迹进行排列；将排列后的运动轨迹叠加到背景图像上。

[0045] 本实施例的视频摘要生成方法，首先进行背景建模，检测运动物体，对物体进行跟踪，获得物体的轨迹，存储这些轨迹和背景图，对检测到的物体利用分类器进行分类，分出车、人和动物等几类常见的分类，然后分别对每类进行物体进行轨迹排列，生成摘要。也就是主要分为：前景检测、目标跟踪、物体分类、摘要生成几个步骤。图3是根据本发明实施例的视频摘要生成方法的流程图，如图所示：

[0046] 前景检测的步骤主要包括：利用混合高斯对图像进行背景建模，提取运动的前景，计算过程要对光照和阴影进行相应的处理。利用混合高斯对图像进行背景建模，提取运动的前景，其中可以根据视频场景选择混合高斯函数所采用的数目，对于阴影或光照可以单独训练一个高斯模型。

[0047] 目标跟踪的步骤主要包括：对每帧检测到的目标进行跟踪，跟踪方法可以采用简单的最邻近方法，并且存储轨迹和背景图。若当前帧的某个前景与上一帧存储的轨迹关联上，则更新轨迹，若轨迹没有关联上，则产生新的轨迹，若有没有和当前帧检测的前景关联上的轨迹，则终止该轨迹进行下次操作，将轨迹存储下来，用于后续生成视频摘要。

[0048] 物体分类的步骤主要包括：利用SVM事先训练出几种物体的模型，然后对检测到的每个轨迹的物体进行分类。利用事先训练好的模型，对检测到的目标进行分类，这里采用SVM算法事先训练出需要的几种物体的模型，譬如可以训练出机动车，摩托车，人和动物几种物体的模型。

[0049] 摘要生成的步骤主要包括：根据提取出的运动目标的轨迹和存储的背景图，按照轨迹出现的时间关系和空间关系对轨迹进行排列，然后将运动的目标轨迹叠加到存储的背景图上，生成摘要。从而利用提取出的所有运动目标的轨迹信息和存储的背景，按一定规则排序，然后将轨迹叠加到背景上，生成视频摘要。

[0050] 应用本发明的技术方案，本发明的技术方案在图像中提取出移动目标之后，利用预设的分类器建立视频中常见的物体的模型，对提取得到的前景即移动目标进行分类，并按照分类结果生成视频摘要。从而完整准确地生成符合用户需求的视频摘要，使用户可以从视频摘要中迅速地得到需要的视频信息，提高了视频的使用效率。最终使用物体分类的方法生成了有条理的摘要，满足了快速多目标浏览的目的。

[0051] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

[0052] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
摘要生成方法及装置	2020-05-11	445
包括特定人的视频摘要	2020-05-12	614
视频摘要生成方法和视频摘要生成装置	2020-05-13	960
摘要生成装置和摘要生成方法	2020-05-11	77
视频摘要的用户界面	2020-05-12	409
一种视频摘要生成方法	2020-05-12	276
摘要生成方法及装置	2020-05-11	545
一种摘要认证方法及摘要认证系统	2020-05-11	791
选择性会议摘要	2020-05-11	784
实时视频摘要	2020-05-11	887

视频摘要生成方法和视频摘要生成装置

视频摘要生成方法和视频摘要生成装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：