首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 生成视频摘要的方法、装置、包含该装置的图像处理系统

生成视频摘要的方法、装置、包含该装置的图像处理系统

阅读:1035发布:2020-06-25

专利汇可以提供生成视频摘要的方法、装置、包含该装置的图像处理系统专利检索,专利查询,专利分析的服务。并且提供一种用于生成视频 信号 的视频 摘要 的方法,包括:视频解码步骤,对 视频信号 进行解码,以便获得多 帧 视频解码图像;字幕特性获得步骤,获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的 位置 ,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度;视频摘要生成步骤,根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要。本 发明 的方法使得可生成能准确地反映原始视频文件的主要内容的视频摘要。还提供生成视频信号的视频摘要的装置及其具有该装置的 图像处理 系统。,下面是生成视频摘要的方法、装置、包含该装置的图像处理系统专利的具体信息内容。

1.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述视频解码图像中包括N级的级联式字幕,其中第一级字幕至第N级字幕在体现视频信号的主要内容的方面的重要性按降序或者升序排列,其中N是正整数;以及
所述视频摘要生成步骤生成所述视频信号的级联式视频摘要,所述级联式视频摘要包括:包含有所述第一级字幕至所述第N级字幕的级联式字幕的至少一帧视频解码图像。
2.如权利要求1所述的方法,其中,所述视频信号是新闻类型或者谈话类型的视频信号,N=3,第一级字幕至第三级字幕在体现所述视频信号的主要内容的方面的重要性按降序排列;以及
所述视频摘要生成步骤通过对所获得的字幕的持续时间、字幕在相应的视频解码图像中的位置、字幕图像经光学字符识别后的识别码和可信度进行处理来生成所述视频信号的所述级联式视频摘要,其中,所述的生成级联式视频摘要的处理包括:
将位于视频解码图像的左上部或者右上部、且持续时间为最长的第一持续时间的字幕确定为第一级字幕,所述第一级字幕表示所述新闻类型或者谈话类型的视频信号所涉及的主题;
在包含有所述第一级字幕的所有视频解码图像中,将位于所述视频解码图像的左侧中部或者右侧中部、且持续时间为比所述第一持续时间要短的第二持续时间的字幕作为第二级字幕,以及,根据所述第二级字幕的图像经光学字符识别后的识别码和可信度所表达的姓氏、头衔或称呼语,将所述第二级字幕划分为不同的子字幕,所述不同的子字幕分别表示在所述第一级字幕的持续时间期间、所述新闻或者谈话的不同参与者的识别符;
在包含有所述第一级字幕和第二级字幕的所有视频解码图像中,将位于所述视频解码图像的下部、且持续时间为比所述第二持续时间要短的第三持续时间的字幕确定为第三级字幕,其中将所述第三级字幕中的、与所述第二级字幕中不同的子字幕共同存在的部分确定为所述不同子字幕所表示的不同的参与者的谈话内容;以及
选择包含有第一级字幕、第二级字幕和第三级字幕的级联式字幕的至少一帧视频解码图像,作为所述视频信号的级联式视频摘要。
3.如权利要求1或2所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
4.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述字幕位于所述视频解码图像中的固定位置并且涉及所述视频信号的主要内容,以及
所述视频摘要生成步骤包括:将位于所述固定位置处的字幕进行比较,确定字幕的图像发生变化的时间点处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
5.如权利要求4所述的方法,其中,所示视频信号是比赛类型的视频信号,所述位于固定位置处的字幕是所述视频解码图像中的、显示比赛的比分信息的比分牌,以及所述视频摘要生成的步骤包括:将所有比分牌字幕进行比较,确定比分牌字幕的图像发生变化的时间点处的比分牌字幕,并且由包含所确定的比分牌字幕的视频解码图像来组成所述视频信号的视频摘要。
6.如权利要求4或5所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
7.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕持续时间较长的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H以及字幕的持续时间的时间阈值T;以及确定字符尺寸大于H并且持续时间大于T的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
8.如权利要求7所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
9.如权利要求7或8所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
10.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字幕持续时间较长并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成步骤包括:
设定字幕的持续时间的时间阈值T;以及
确定字幕的持续时间大于T并且位于视频解码图像的特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
11.如权利要求10所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
12.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H;以及
确定字符尺寸大于H并且位于视频解码图像的所述特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
13.如权利要求12所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
14.如权利要求12或13所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
15.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:位于视频解码图像中特定位置处并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成步骤包括:
设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定位于视频解码图像中所述特定位置处并且字幕图像经光学字符识别后的可信度大于L的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
16.如权利要求15所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
17.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及,所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H,以及设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定字符尺寸大于H并且字幕图像经光学字符识别后的可信度大于L的字幕,并且由包含有所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
18.如权利要求17所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
19.如权利要求17或18所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
20.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述视频解码图像中包括N级的级联式字幕,其中第一级字幕至第N级字幕在体现视频信号的主要内容的方面的重要性按降序或者升序排列,其中,N是正整数;以及
所述视频摘要生成单元生成所述视频信号的级联式视频摘要,所述级联式视频摘要包括:包含有所述第一级字幕至所述第N级字幕的级联式字幕的至少一帧视频解码图像。
21.如权利要求20所述的装置,其中,所述视频信号是新闻类型或者谈话类型的视频信号,N=3,第一级字幕至第三级字幕在体现所述视频信号的主要内容的方面的重要性按降序排列;以及
所述视频摘要生成单元通过对所获得的字幕的持续时间、字幕在相应的视频解码图像中的位置、字幕图像经光学字符识别后的识别码和可信度进行处理来生成所述视频信号的所述级联式视频摘要,其中,所述视频摘要生成单元被配置成:
将位于视频解码图像的左上部或者右上部、且持续时间为最长的第一持续时间的字幕确定为第一级字幕,所述第一级字幕表示所述新闻类型或者谈话类型的视频信号所涉及的主题;
在包含有所述第一级字幕的所有视频解码图像中,将位于所述视频解码图像的左侧中部或者右侧中部、且持续时间为比所述第一持续时间要短的第二持续时间的字幕作为第二级字幕,以及,根据所述第二级字幕的图像经光学字符识别后的识别码和可信度所表达的姓氏、头衔或称呼语,将所述第二级字幕划分为不同的子字幕,所述不同的子字幕分别表示在所述第一级字幕的持续时间期间、所述新闻或者谈话的不同参与者的识别符;
在包含有所述第一级字幕和第二级字幕的所有视频解码图像中,将位于所述视频解码图像的下部、且持续时间为比所述第二持续时间要短的第三持续时间的字幕确定为第三级字幕,其中将所述第三级字幕中的、与所述第二级字幕中不同的子字幕共同存在的部分确定为所述不同子字幕所表示的不同的参与者的谈话内容;以及
选择包含有第一级字幕、第二级字幕和第三级字幕的级联式字幕的至少一帧视频解码图像,作为所述视频信号的级联式视频摘要。
22.如权利要求20或21所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
23.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述字幕位于所述视频解码图像中的固定位置并且涉及所述视频信号的主要内容,以及
所述视频摘要生成单元被配置成:将位于所述固定位置处的字幕进行比较,确定字幕的图像发生变化的时间点处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
24.如权利要求23所述的装置,其中,所示视频信号是比赛类型的视频信号,所述位于固定位置处的字幕是所述视频解码图像中的、显示比赛的比分信息的比分牌,以及所述视频摘要生成单元被配置成:将所有比分牌字幕进行比较,确定比分牌字幕的图像发生变化的时间点处的比分牌字幕,并且通过包含所确定的比分牌字幕的视频解码图像来组成所述视频信号的视频摘要。
25.如权利要求23或24所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
26.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕持续时间较长的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H以及字幕的持续时间的时间阈值T;以及确定字符尺寸大于H并且持续时间大于T的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
27.如权利要求26所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(i-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
28.如权利要求26或27所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
29.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字幕持续时间较长并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的持续时间的时间阈值T;以及
确定字幕的持续时间大于T并且位于视频解码图像的特定位置处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
30.如权利要求29所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
31.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H;以及
确定字符尺寸大于H并且位于视频解码图像的所述特定位置处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
32.如权利要求31所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
33.如权利要求31或32所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
34.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:位于视频解码图像中特定位置处并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成单元被配置成:
设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定位于视频解码图像中所述特定位置处并且字幕图像经光学字符识别后的可信度大于L的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
35.如权利要求34所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
36.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H,以及设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定字符尺寸大于H并且字幕图像经光学字符识别后的可信度大于L的字幕,并且通过包含有所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
37.如权利要求36所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
38.如权利要求36或37所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。

说明书全文

生成视频摘要的方法、装置、包含该装置的图像处理系统

技术领域

[0001] 本发明总体上说涉及视频图像处理的技术领域,更具体而言,涉及生成视频摘要的方法、装置,以及包括该装置的图像处理系统。

背景技术

[0002] 视频摘要VS(Video Summarization)是指针对视频文件形成的一个较短的摘要,用于概述该视频文件的主要内容。现在普遍使用两种不同类型的视频摘要。第一种称为“SVS(静态视频摘要,Static Video Summary)”,其由从原始视频文件中抽取或者合成的一系列关键(key frame)组成。第二种称为“DVS(动态视频梗概,Dynamic Video Skimming),其是由一组连续的视频剪辑(video clip)组成的、原始视频文件的缩减版本。
[0003] 在现有技术的上述形成视频摘要的方法中,视频镜头边界检测技术(shot boundary detection technology)被用来确定SVS的关键帧。视频镜头(shot)是摄像机所摄制的一系列未分割的帧。一个场景(scene)被定义为是集中于所感兴趣的一个对象或者多个对象的一个或者多个相邻的视频镜头的集合。在各视频镜头之间存在若干种不同的转换(transition),这种转换例如有切入切出(cut)、淡出淡入(fade)、溶出溶入(dissolve)、滑变(wipe)等。视频镜头边界检测技术中的算法包括像素差别、统计差别、直方图、运动矢量,等等。例如,在这种视频镜头边界检测技术中,事先人为地设置在某种情况下设置的帧为关键帧,例如,认为在发生了上述视频镜头之间的切入切出、淡出淡入、溶出溶入、或滑变等转换时涉及的视频镜头及其相关帧反映了原始视频文件的重要信息,因此将这些视频镜头或帧提取出来组成视频摘要。
[0004] 然而,在大多数视频中,上述的基于视频镜头的SVS包括的视频镜头过多,而且,发生上述转换时涉及的视频镜头未必体现视频文件的主要内容,因此,虽然最终形成的视频摘要包括很多帧图像,但是仍然无法提供原始视频文件的重要信息。例如,在讲述故事的视频中,可能会包括许多视频镜头的转换,这些视频镜头的转换仅仅是为了交代故事发展过程中涉及的时间地点等以确保故事讲述的完整性或者作为情节发展的铺垫,但是这些转换所涉及的视频镜头及其关联帧与故事本身的主要内容没有太大关系,因此如果把这些帧都包括在视频摘要中,将使得无法准确地从该视频摘要中获得故事的概要。
[0005] 上述现有技术中的DVS也存在类似的缺陷,即,难以获得准确地反映原始视频文件的主要内容的视频摘要。

发明内容

[0006] 为了克服上述现有技术中的缺陷,本发明的目的在于提供生成视频摘要的方法、装置,以及包括该装置的图像处理系统,使得生成能准确地反映原始视频文件的主要内容的视频摘要。
[0007] 根据本发明的实施例,提供一种用于生成视频信号的视频摘要的方法,包括步骤:视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度;以及,视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要。
[0008] 根据本发明的实施例,还提供一种用于生成视频信号的视频摘要的装置,包括:视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度;以及视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要。
[0009] 本发明的其他实施例还提供一种视频图像处理系统,其具有根据本发明的如上所述的用于生成视频信号的视频摘要的装置。这种视频图像处理系统例如是电视采集卡、DVD播放器或者膝上型计算机。
[0010] 此外,本发明的其他实施例还提供一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行如上所述的根据本发明的生成视频信号的视频摘要的方法。
[0011] 如上所述,在现有技术的视频摘要获取方法中,并不考虑视频文件中所存在的字幕信息与视频文件的内容之间的关系,而本发明的方法正是利用了这种关系来生成视频摘要,因而改善了所获得的视频摘要与原始视频文件的内容之间的关联性,使得视频摘要能准确地反映原始视频文件的主要内容。附图说明
[0012] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
[0013] 图1是示出了根据本发明的实施例的用于生成视频摘要的方法的流程简图;
[0014] 图2A是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中所涉及的原始视频文件的一个实例的示意性简图;
[0015] 图2B是示出了通过根据本发明的实施例的方法从图2A的原始视频文件中获得的视频摘要的示意性简图;
[0016] 图3A是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中所涉及的原始视频文件的另一个实例的示意性简图;
[0017] 图3B是示出了通过根据本发明的实施例的方法从图3A的原始视频文件中获得的视频摘要的示意性简图;
[0018] 图4是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中用于获得字幕的字符尺寸的方法的一个实例的简化流程图
[0019] 图5是示出了根据本发明的实施例用于生成视频摘要的装置的示意框图

具体实施方式

[0020] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
[0021] 图1是示出了根据本发明的实施例的生成视频摘要的方法的流程简图。如图所示,根据本发明的该实施例的生成视频摘要的方法100开始于步骤S110。在视频解码步骤S120,对原始视频文件中包括的视频信号进行解码,以便获得多帧视频解码图像。在字幕特性获得步骤S130,获得多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度。在视频摘要生成步骤S140,根据视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与视频信号的主要内容(即原始视频文件的内容)相适应的视频摘要。
[0022] 在视频解码步骤S120中对视频信息进行的解码处理可通过现有技术中的各种视频解码方法来完成。视频解码技术是当前很成熟的图像处理技术,其细节在此不再赘述。作为例子,可由解码器ffdshow来对视频信息进行解码。可通过http://sourceforge.net/projects/ffdshow来获得有关解码器ffdshow的相关信息。
[0023] 在字幕特性获得步骤S130中,对视频解码步骤S120中所获得的多帧视频解码图像中的字幕进行相应处理。一般,字幕信息是在摄像机摄制完成的视频图像中另外添加的,字幕信息通常会反映其所在视频图像帧的相关信息,例如,该帧图像所涉及的主题,该帧图像所表达的内容,等等。字幕例如可包括事件发生时间、地点、当事人、体育比赛的比分、天气预报、商品的价格等等。
[0024] 通过对多帧解码视频图像中包含的所有字幕进行检测、跟踪和识别来获得字幕的各种特性。其中,字幕的持续时间可通过各种现有技术中存在的确定字幕出现时间的技术来实现,例如:在发明人为Rainer Wolfgang,Lienhart,Axel Wernicke,发明名称为“Generalized text localization inimages”的美国专利No.6,470,094,以及发明人为Rainer WolfgangLienhart,Axel Wernicke,发明名称为“Estimating text color andsegmentation of images”的美国专利No.6,473,522中所公开的使用基于signature算法跟踪视频中的文本的方法;在发明人为Lu Lie,SunYan-Feng,Li Mingjing,Hua Xian-Sheng,Zhang Hong-Jiang,发明名称为“Automatic detection and segmentation of music videos in an audio/videostream”的美国专利申请公开No.2004/0170392中公开的使用字幕的位置信息确定音乐视频中字幕的开始和结束时间的方法;在发明人为SanghoonSull,Hyeokman Kim,Min Chung,Sangwook Lee,Sangwook Oh,发明名称为“System and method for indexing,searching,identifying,and editingmultimedia files”的美国专利申请公开No.2007/0038612中公开的使用相似颜色和位置信息作为特征来跟踪字幕的方法;在作者为Huiping Li等,名称为“Text enhancement in digital video using multiple frame integration”,ACM Multimedia(pp.19-22,1999)中公开的使用基于SSD(Sum ofSquare Difference)的图像匹配算法来跟踪文本区域的方法;在作者为Xiaoou Tang等,名 称 为“A spatial-temporal approach for video captiondetection and recognition”,IEEE Transactions on Neural Networks(Vol.13,No.4,pp.961-971,2002)中公开的使用QSDD(Quantized Spatial DifferenceDensity)来检测字幕发生变化的帧的位置的方法;在作者为Takeshi Mita等,名称为“Improvement of Video Recognition by Character Selection”,ICDAR(pp.1089-1093,2001),以及在发明人为三田雄志等,发明名称为“テロツプ情報処理装置及びテロツプ情報表示装置”的日本专利申请公开JP特開2001-285716中公开的利用识别引擎产生的字符的编码和可信度等比较上层的特征确定连续帧之间的关系的方法;等等。此外,也可通过发明人为白洪亮等、发明名称为“字幕存在时间确定装置和方法”、申请号为200810074125.3的中国专利申中公开的方法来确定字幕的持续时间。
[0025] 字幕在相应的视频解码图像中的位置也可通过现有技术中各种用于提取字幕区域的方法来实现,例如:在发明人为伊藤清美,新倉康巨,发明名称为“映像種別判定方法、映像種別判定装置及び映像種別判定プログラム”的日本专利公开JP特開2006-53802,发明人为砂川伸一,松林一弘,发明名称为“画像処理装置および方法”的日本专利申请公开JP特開平9-16769,以及作者为Rainer Lienhart等,名称为“Localizing and Segmenting Text in Image and Videos”,IEEETransactions on Circuits and System for Video Technology(Vol.12,No.4,pp.256-268,2002)中公开的基于不同的特征例如,连通域特征、边缘特征等来提取字幕区域的方法;在作者为Yu Zhong等,名称为“AutomaticCaption Localization in Compressed Video”,IEEE Transaction on PatternAnalysis and Machine Intelligence(Vol.22,No.4,pp.385-392,2000)中公开的基于纹理特征来提取字幕区域的方法;在作者为Xiaoou Tang等,名称为“A Spatial-Temporal Approach for Video Caption Detection andRecognition”,IEEE Transactions on Neural Network(Vol.13,No.4,pp.961-971,2002),以及作者为Toshio Sato等,名称为“Video OCR for DigitalNews Archive”,Workshop on Content-Based Access of Image and VideoDatabases(pp52-60,1998)中公开的识别字幕区域的方法;等等。此外,也可通过发明人为白洪亮等、发明名称为“字幕区域提取装置和方法”、申请号为200710140327.9的中国专利申请中公开的方法确定字幕在相应的视频解码图像中的位置。
[0026] 关于字幕的字符尺寸的确定方法,可使用现有技术中的各种方法来实现,例如:在作者为Lyu,M.R.;Jiqiang Song;Min Cai,名称为“Acomprehensive method for multilingual video text detection,localization,and extraction”,IEEE Trans.on Circuits and Systems for videotechonology(15(2),243-255,2005)中公开的方法,其中图7是基于投影的方法;以及,在作者为Xiaoou Tang,Xinbo Gao,Jianzhuang Liu,Hongjiang Zhang,名称为“A spatial-temporal approach for video captiondetection and recognition”,IEEE Transactions on Neural Networks(13(4),2002,961-971)中公开的方法,其中图9是基于投影的方法。
[0027] 至于字幕图像经光学字符识别(OCR)后获得识别码和可信度,由于OCR是图像识别处理中非常成熟的技术,因此具体细节在此不再赘述。
[0028] 在视频摘要生成步骤S140中,根据视频信号的内容与字幕的特性之间的关系来生成与原始视频文件的内容相适应的视频摘要。所谓“相适应”,即“相匹配”,指的是视频摘要准确地概括了原始视频文件(其表现为视频信号)的主要内容。
[0029] 如上所述,视频解码图像中的字幕信息通常会反映视频图像帧的相关信息,例如,该帧图像所涉及的主题,该帧图像所表达的内容,等等。因此,如果基于字幕信息与包括该字幕的视频信号之间的关系来生成视频摘要,则可以生成准确地体现视频信号的主要内容的视频摘要。
[0030] 至于视频信号的内容与字幕的特性之间的关系,可以通过各种方式来获取。例如,可以通过事先对一定数量的、各种类型的带有字幕的视频图像进行学习来获得有关视频信号的内容与字幕的特性之间的关系的相关知识,在实际进行视频摘要生成处理时,根据通过预先学习获得的知识来确定视频信号的内容与字幕的特性之间的关系,然后根据所确定的关系来对获得的字幕的各种特性进行相应处理,从而生成与原始视频文件的内容相适应的视频摘要。或者,也可以通过预先获得关于视频信号的内容与字幕的特性之间的关系的信息。然后将该信息作为输入信息与所述视频信号一起提供以用于视频摘要的生成,从而基于这种关系来生成准确地体现视频信号的重要内容的视频摘要。
[0031] 对一定数量的、各种类型的视频图像进行学习以获得相关信息的处理是图像处理技术领域中常用的方法。例如,可以通过学习的过程获得如下信息:解码图像帧中的字幕尺寸越大,则其表示视频信号的主要内容的几率越高;处于解码图像帧中特定位置处的字幕表示视频信号的主要内容的几率较高;等等。通过学习获得的上述信息反映的就是视频信号的内容与字幕之间的关系。当然,这些有关视频信号的内容与字幕的特性之间的关系的信息只是列举,根据具体情况,可以有视频信号的内容与字幕的特性之间的各种不同的关系,在后面将会详细描述。
[0032] 此外,众所周知,字幕是在视频文件制作完成后附加的信息。附加字幕的主要目的之一也在于帮助观者理解视频文件的主要内容。因此,往往在附加字幕时就已经在一定程度上确定了视频信号的内容与字幕之间的关系。由此,有关这种关系的信息也可以在生成视频摘要的处理进行之前获得。例如,可通过操作者判断或者对带有字幕的视频信号进行针对性分析等方式获得。然后将所确定的有关这种关系的信息作为用于生成视频摘要的处理的输入参数来提供。
[0033] 可见,视频信号的内容与字幕的特性之间总是存在某种特定的关系,而根据本发明的实施例的视频摘要生成方法利用了这种关系,基于这种关系对所获得的字幕的各种特性中的至少一种进行相应的处理,从而生成能准确地体现视频信号的主要内容的视频摘要。据此,根据本发明的这种视频摘要生成方法可称为是“基于字幕的”视频摘要提取方法。
[0034] 如上所述,例如,视频信号的内容与字幕之间的关系可以通过事先学习、实时判断的方式获得,或者可以预先获得、然后将有关这种关系的信息与待生成视频摘要的视频信号一起作为根据本发明的视频摘要生成方法的输入参数来使用。当然,除了上面列举的获得视频信号的内容与字幕之间的关系的方法以外,也可以使用任何其他合适的方法,在此不再逐一描述。
[0035] 在视频摘要生成步骤S140,根据视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与视频信号的内容(即原始视频文件的内容)相适应的视频摘要。根据上述可知,取决于视频信号的内容不同,视频信号的内容与字幕的特性之间的关系可以有各种类型。为了帮助进一步理解根据本发明的本实施例的视频摘要生成方法,下面将结合附图2A-2B,3A-3B详细地描述几个具体实例。
[0036] 图2A是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中涉及的原始视频文件的一个实例的示意性简图。如图2A所示,假设待提取视频摘要的视频信号的内容涉及谈话类型或者新闻类型的节目,例如人物访谈,在本实例中以谈话类型的节目为例。图2A中示出的是通过对视频信号进行解码后得到的多帧解码图像NO.1,...,NO.6,...。以NO.1图像帧为例,其左上的字幕A表示的是本谈话节目所涉及的主题,其左边中部的字幕B1和右边中部的字幕C1表示的是本谈话节目的参与者的姓名、头衔等,其下部的字幕D1表示的是谈话节目参与者B1或者C1的谈话内容,括号中的时间t1表示NO.1图像帧所处的时间点。其他的解码图像帧具有与NO.1图像帧相同的结构,其细节不再逐一描述。
[0037] 容易理解,虽然图2A中只示出了其中的6帧解码图像,但这是一种示意,实际上,根据视频信号的大小以及所使用的解码方法的不同,所得到的解码图像的帧数可以是任意数量,在图中以省略号来表示。而且,虽然在该实例中所示出的每一帧图像中都包括有字幕,但是在实际情况中,并不是每一帧图像都必须包括有字幕。这些情况都并不影响根据本发明的实施例的视频摘要生成方法的实现。例如,对于不包括字幕的图像帧,在生产视频摘要时可选择不对其进行提取字幕等相应处理,或者按照传统的视频摘要生成方法对其进行处理。
[0038] 从图2A中的多帧解码图像可看出:在有关谈话节目的视频信号的整个持续时间中,字幕A的持续时间最长(其还可以包括在图中未示出的其他解码图像的全部或者一部分中);表示第一谈话参与者的字幕B1存在于NO.1-NO.6的解码图像中,其持续时间(t6-t1)小于字幕A的持续时间;表示第二谈话参与者的字幕C1存在于图像帧NO.1至NO.3之间,其持续时间为(t3-t1),而从图像帧NO.4之后由表示第三谈话参与者的字幕C2所取代,其持续时间(t6-t4)也小于字幕A的持续时间;表示谈话内容的字幕D1-D6的持续时间比字幕A、B1、C1、C2都短。可见,视频信号与字幕的特性之间存在一种可以认为是“级联式”的关系,即:持续时间最长、位于视频解码图像的左上部、表示谈话节目主题的字幕A被认为代表了该谈话节目的最主要的信息;持续时间较短、位于解码图像的左侧中部或者右侧中部、表示谈话节目参与者的字幕B1、C1、C2被认为代表了该谈话节目的次级重要的信息;而持续时间最短、位于视频解码图像的下部、表示各谈话参与者的具体谈话内容的字幕D1-D6被认为代表了该谈话节目的不太重要的信息。因为谈话节目的主题、参与者等属于谈话节目的重要信息,应该被包括在为该谈话节目的视频信号所生成的视频摘要中,而每一个参与者谈话的具体内容并不是视频摘要中所关注的,不一定必须包括在视频摘要中。因此,字幕A、字幕(B1,C1,C2)、字幕(D1-D6)实际上涉及的是该谈话节目的“级联式”的主要内容。此外,如果想了解某个谈话参与者的具体谈话内容,可根据视频摘要直接检索得到该谈话参与者在视频信号中存在的持续起止时间,然后观看相关的原始视频即可(以下将具体描述)。
[0039] 可见,基于上述的视频信号的内容与字幕的特性之间存在的这种级联式的关系,可通过对从解码视频图像中所获得的字幕的字幕的持续时间、字幕在相应的视频解码图像中的位置、字幕图像经光学字符识别后的识别码和可信度等特性进行处理来生成该谈话类型的视频信号的“级联式”视频摘要。以下将参考图2B详细描述生成这种级联式视频摘要的过程。
[0040] 通过对所获得的字幕的上述特性的处理,将位于视频解码图像的左上部(取决于具体情况,也可以是右上部)、且持续时间为最长的第一持续时间的字幕A确定为第一级字幕,该第一级字幕表示该谈话节目的视频信号所涉及的主题,是最重要的信息。
[0041] 在包含有第一级字幕A的所有视频解码图像中,将位于视频解码图像的左侧中部或者右侧中部、且持续时间为比第一持续时间要短的第二持续时间的字幕,即,持续时间为(t6-t1)的字幕B1,持续时间为(t3-t1)的字幕C1和持续时间为(t6-t4)的字幕C2,作为第二级字幕。并且,根据对这些第二级字幕经光学字符识别后得到的识别码和可信度所表达的姓氏、头衔(例如职位)或称呼语等,可将第二级字幕划分为不同的子字幕B1,C1和C2,这些不同的子字幕分别用于识别在字幕A的持续时间期间、该谈话节目的不同的谈话参与者,即,可认为是不同的谈话参与者的识别符。
[0042] 在包含有第一级字幕A以及第二级字幕B1,C1和C2的所有视频解码图像中,将位于视频解码图像的下部、且持续时间为比所述第二持续时间要短的第三持续时间的字幕确定为第三级字幕。其中,第三级字幕中的字幕D1-D3与第二级字幕中的子字幕B1和C1共同存在,则字幕D1-D3被确定为是与表示谈话参与者的子字幕B1和C1相对应的谈话内容。类似地,字幕D4-D6被确定为是与表示谈话参与者的子字幕B1和C2相对应的谈话内容。
[0043] 通过对字幕的相应特性的上述处理后,可以选择包含有第一级字幕、第二级字幕和第三级字幕的级联式字幕的至少一帧视频解码图像,作为该谈话节目视频信号的级联式视频摘要。图2B是这种级联式视频摘要的示意图。如图2B所示,选择包括有代表了不同的谈话参与者的解码视频图像帧NO.1,NO.3,NO.4和NO.6,构成视频摘要中有关字幕B1,C1和C2所表示的参与者的部分。虽然在图2B中分别选取了与由字幕C1和C2表示的谈话参与者的加入和退出谈话节目的起止时间点对应的解码图像帧NO.1,NO.3,NO.4和NO.6,但实际上,由于不同谈话者的具体谈话内容并不是生成视频摘要所关注的,因此视频摘要中可以只包括与各不同谈话参与者加入和退出谈话节目的时间点之一相对应的解码图像帧。在这种情况下,如果想要了解某个谈话参与者,例如由字幕C1表示的谈话参与者,的具体谈话内容,则可从视频摘要中检索找到与其相关的解码图像帧(在图2B中为图象帧NO.1或NO.3),从该图象帧获得其加入和/或退出谈话节目的时间点(t1和/或t3),就可以利用该时间点作为索引到原始谈话节目的视频信号中找到与由字幕C1表示的谈话参与者的具体谈话内容进行观看或者进行其他处理。当然,除了选取与不同谈话参与者的加入和退出的起止时间点对应的解码图像帧以外,也可以再选取与对应的谈话参与者相关的更多的解码图象帧。这种选择可以是任意的,也可以基于某种标准进行,可根据实际需要进行设置,具体细节在此不再赘述。
[0044] 可选择地,可以从视频摘要中选择任意一帧图像(图2B中树状图中根结点位置处的图像帧NO.1)来代表该谈话节目。该帧图像可作为视频摘要的索引,例如在生成有多个视频摘要的情况下搜索相应的视频摘要时使用。
[0045] 从上面的描述可知,在根据本发明该实例所形成的“级联式”视频摘要显示了在解码图像帧中包含的各字幕之间的重要性程度的级联,即,字幕A、字幕(B1、C1、C2)、字幕(D1-D6)在体现视频信号的主要内容的方面的重要性按降序排列,其构成一种可称为是“级联式”的字幕。当然,取决于具体的视频信号以及字幕,这种“级联式”字幕在体现视频信号的主要内容的方面的重要性也可按升序排列。容易理解,虽然图2A-2B中只涉及不同的三个谈话参与者,但是,谈话参与者可以是任意数量。如果谈话参与者只有一个(例如新闻播报),则可以任意选取至少一个解码图像帧来组成视频摘要。这种选取也可以基于某种标准,例如,可每隔一定时间段选择一帧图像来构成视频摘要。这种设置可根据实际需要进行,具体细节在此不再赘述。如果谈话参与者是三个以上,则如图2B所示的级联式视频摘要可以具有表示各个不同的谈话参与者的更多的分支(如图2B中树状图中子节点所示)。
[0046] 此外,虽然图2A-2B示出的具体实例给出的级联式字幕具有三级结构,但是,取决于字幕的内容与待生成视频摘要的视频信号的内容之间的关系,可以根据需要在视频摘要中形成具有更多级或者更少级的级联式字幕。即,可以存在N级“级联式”字幕,N是正整数。例如,如果需要区分不同谈话者的谈话,则可用字幕的颜色、大小等其他特性的信息来进行这种区分。该通过利用颜色、大小等特性来确定的、用于区分不同谈话参与者的谈话内容的字幕可认为是级联式字幕中的第四级字幕。例如,在如图2B所示的视频摘要中,可在子节点位置处的解码图像帧NO.1的下面再分支出其他解码图像帧,用于区别分别包括由字幕B1和C1表示的谈话参与者的谈话内容的解码图像。
[0047] 下面参考图3A-3B描述通过对字幕特性中的其他特性进行处理来生成视频信号的视频摘要的另一个具体实例。
[0048] 图3A是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中涉及的原始视频信号的另一个实例的示意性简图。在某些视频信号中,视频图像中包括的字幕与视频信号的内容之间存在这样一种关系:字幕位于解码视频图像中的固定位置并且涉及视频信号的主要内容。在这种情况下,将位于固定位置处的字幕进行比较,确定字幕的图像发生变化的时间点处的字幕,并且由包含所确定的字幕的视频解码图像来组成视频信号的视频摘要。
[0049] 例如,假设待生成视频摘要的视频信号的内容涉及比赛。图3A中示出的是从该视频信号解码得到的多帧解码视频图像NO.1,...,NO.6,...。容易理解,虽然图中只示出了其中的6帧解码图像,但这是一种示意,实际上,根据视频信号的大小以及所使用的解码方法的不同,所得到的解码图像的帧数可以是任意数量。以NO.1图像帧为例,位于固定位置处,即右下方的字幕S1是显示比赛的比分信息的比分牌。比分牌中通常包括比赛类型、参赛者、具体比分等信息。其他的解码图像帧具有与NO.1图像帧相同的结构,其细节不再逐一描述。在图2A所示出的解码图像帧中,解码图像帧NO.1-NO.2涉及的比分与字幕S1相关,解码图像帧NO.3-NO.5涉及的比分与字幕S2相关,解码图像帧NO.6涉及的比分与字幕S3相关。
[0050] 在比赛中,比分牌的外观和在各解码图像帧中的位置一般是保持不变的,而具体比分变化情况的信息体现了比赛类型的视频信号的主要内容。因此,在生成视频摘要的过程中,将位于某个固定位置处的所有比分牌字幕提取出来并进行比较。确定比分牌字幕的图像发生变化的时间点处的比分牌字幕S1,S2,S3,并且由包含所确定的比分牌字幕的视频解码图像帧NO.1(或NO.2)、NO.3(或NO.5)、NO.6来组成所述视频信号的视频摘要,如图3B所示的。
[0051] 容易理解,虽然图3A-3B中比分牌字幕位于每一帧解码图像的右下角,但是,根据实际情况,比分牌也可以位于其他任意合适的位置。此外,虽然在该实例中是通过提取固定位置处的字幕、并对字幕的图像进行比较来找到比分发生变化的情况下的解码图像,用以生成视频摘要,但是,也可以对所提取的比分牌字幕进行OCR处理,通过对OCR结果进行比较来确定发生了比分变化的比分牌字幕,用以生成视频摘要。
[0052] 上面的图2A-2B,图3A-3B描述了通过基于视频信号的内容与字幕的特性之间的关系来对字幕的各种不同特性的处理从而生成视频信息的视频摘要的两个具体实例。当然,也可以根据字幕的特性与待生成视频摘要的视频信号的内容之间的其他关系来确定处理字幕的各种特性中的哪些特性。下面是一些具体实例。
[0053] 在一个具体实例中,视频信号的内容与字幕的特性之间存在这样的关系:字符尺寸较大的字幕涉及所述视频信号的较为重要的内容。在很多视频图像中,用字幕的大小来表示字幕所代表的内容的重要性程度是比较常见的。在这种情况下,可以获得所有字幕中持续时间最长的一部分字幕(例如%K)的平均字符尺寸。确定所有字幕中字符尺寸大于该平均字符尺寸的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0054] 在另一个具体实例中,视频信号的内容与字幕的特性之间存在这样的关系:字符尺寸较大并且字幕持续时间较长的字幕涉及所述视频信号的较为重要的内容。在这种情况下,可预先设定字幕的字符尺寸的尺寸阈值H以及字幕的持续时间的时间阈值T,确定字符尺寸大于H并且持续时间大于T的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0055] 在又另一个具体实例中,视频信号的内容与字幕的特性之间的存在这样的关系:字幕持续时间较长并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容。在这种情况下,预先设定字幕的持续时间的时间阈值T,确定字幕的持续时间大于T并且位于视频解码图像的特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0056] 在再一个具体实例中,视频信号的内容与字幕的特性之间存在这样的关系:字符尺寸较大并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容。在这种情况下,预先设定字幕的字符尺寸的尺寸阈值H,确定字符尺寸大于H并且位于视频解码图像的所述特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0057] 在另一个具体实例中,视频信号的内容与字幕的特性之间存在这样的关系:位于视频解码图像中特定位置处并且字幕经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容。在这种情况下,可预先设定字幕经光学字符识别后的可信度的阈值L,确定位于视频解码图像中所述特定位置处并且字幕经光学字符识别后的可信度大于L的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0058] 在另一个具体实例中,视频信号的内容与字幕的特性之间存在这样的关系:字符尺寸较大并且字幕经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容。在这种情况下,预先设定字幕的字符尺寸的尺寸阈值H,以及设定字幕经光学字符识别后的可信度的阈值L,确定字符尺寸大于H并且经光学字符识别后的可信度大于L的字幕,并且由包含有所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
[0059] 虽然上面列举了一些通过对字幕的特性进行处理来生成视频摘要的具体实例,但是,本领域技术人员理解,由于实际情况中视频信号与字幕之间的关系是多种多样的,因此,也可以与这种关系对应地采取各种适当的方式来处理字幕的特性。这可以由本领域技术人员根据具体情况进行相应的设置,在此不再赘述。例如,可以通过对所有字幕进行OCR的结果进行判断,从而根据字幕中所包含的具体内容来确定选择哪些字幕,进而确定选择哪些图象帧来生成视频摘要。
[0060] 容易理解,由于字幕与视频信号的内容联系较为紧密,所以通过对视频解码图像中包括的所有字幕的特性进行处理来生成视频摘要,能够准确地反映视频信号的主要内容。从某种意义上说,根据本发明的这种基于字幕的视频摘要生成方法也可以称为是“基于内容的”视频摘要生成方法,因为其是基于在某种程度上体现了视频信号的内容的、视频信息的内容与字幕的特性之间的关系。当然,并不需要对解码视频图像本身的内容进行判断和处理。
[0061] 在上面提及的字幕的特性中包括字幕的字符尺寸。如上所述,可以通过各种现有的方法来获得字幕字符的尺寸。作为对现有技术的补充和改进,下面参照图4介绍一种获得字幕字符的尺寸的优选方法。
[0062] 图4是示出了在通过根据本发明的实施例的方法生成视频摘要的过程中用于获得字幕字符的尺寸的方法400的一个实例的简化流程图。在此实例中,字幕字符尺寸为字幕字符的高度。如图4所示,在步骤S405,对字幕图像进行处理以产生字幕的二值化图像及其图像特征,其中图像高为H,宽为W,例如,可令笔划像素的值为255,非笔划像素的值为0。可以利用各种已知的图像处理方式来获得字幕图像特征。例如,可利用作者为Canny,J.,A,名称为“Computational Approach To Edge Detection”,IEEETrans.Pattern Analysis and Machine Intelligence(8:679-714,1986)中公开的方法来进行这种字幕图像特征提取处理。
[0063] 在步骤S410,确定字幕的图像的高度H是否小于或等于预先定义的字符高度MIN_CS的2倍。如果确定结果为“是”,则表明字幕是单行。在步骤S4150中将图像高度H确定为字幕的字符高度。否则,进入步骤S420。
[0064] 在步骤S420中,对字幕的图像进行投影处理。具体而言,对于平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i)中,其中i是索引值,表示分割点,且i=1,2,....H;或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i)中,其中i是索引值,表示分割点,且i=1,2,....H。对图像进行投影的处理可通过各种已知的方法实现,例如:在作者为Lyu,M.R.;Jiqiang Song;Min Cai,名称为“A comprehensive method formultilingual video text detection,localization,and extraction”,IEEE Trans.on Circuits and Systems for video techonology(15(2),243-255,2005)的文献中公开的方法,其中图7是基于投影的方法;以及,在作者为Xiaoou Tang,Xinbo Gao,Jianzhuang Liu,Hongjiang Zhang,名 称 为“A spatial-temporalapproach for video caption detection and recognition”,IEEE Transactionson Neural Networks(13(4),2002,961-971)的文献中公开的方法,其中图9是基于投影的方法。
[0065] 流程然后进入步骤S425,在此确定字幕是否能够被分成多行。如果Hist(i)<=T,表示字幕在位置i处可分,i是正整数。记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并且在步骤S430中计算可分成的各行字幕图像的高度(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度。其中,j是小于或者等于NC的正整数,NC是分割点的个数,T是预定常数,i,j的值取决于字幕是否可分的情况,T的值可根据实际情况预先适当地设置。另一方面,当步骤S425的确定结果是Hist(i)>T时,表示该字幕不可分,即,存在字符粘连的情况,流程于是进入步骤S435。
[0066] 在步骤S435中,对于字幕的图像特征进行连通域(Connectedcomponent analysis,CCA)分析。CCA分析是提取粘连的字符时常用的方法,在此省略其具体细节的描述。经CCA分析后得到若干个字幕字符组件(CC),估计字幕字符组件(CC)高度的平均值为H1。
[0067] 在步骤S440,对字幕的CC进行对齐操作,对齐后得到新的字幕字符组件CC_New,估计新的CC_New的高度的平均值为H2。这种对齐操作的具体实施方式如下:首先求取每个CC的矩形中心,例如用矩形中心的坐标值yn表示。对于任意两个CC的矩形中心y1,y2(y1,y2为矩形中心坐标值),如果|y1-y2|<M(M=3),那么认为这两个矩形大致位于一条直线上,即是对齐的。其中,M是预先设定的阈值,根据实际情况也可以取不同于3的其他值。这种对齐操作是为了去除字符组件CC中可能存在的噪声,以避免对字幕字符高度的计算造成负面影响。
[0068] 在步骤S445中,确定经过对齐操作后得到的新的字符组件CC_new中的某个字符组件的面积是否大于(α*H*W)或者新的字符组件CC_new的数目是否等于1。如果上述条件中的任何一个条件成立,则流程进入步骤S455,将字幕的字符高度确定为H1;否则,在步骤S450,将字幕的字符高度确定为H2。其中,α是预定的常数,可根据实际情况具体地设置。由于在步骤S440的对齐操作之后,可能因去除噪声的处理不理想而导致字符以更高的程度混在一起,甚至混成一团,其表现为所获得的CC_new的数目称为一个(所有字符组件粘连在一起),或者某个CC_new的面积过大(某些字符组件粘连在一起)。步骤S445中的处理就是用于判断这种粘连情况的发生。如果发生粘连,则用步骤S435计算的平均值H1作为字幕字符的高度;如果没有发生粘连,则可用步骤S440中计算的经过噪声去除处理后的平均值H2作为字幕字符的高度。
[0069] 在上述的方法中,用于计算可能的可分位置的位置坐标值i1,i2,...ij以及任意两个字符组件(CC)的矩形中心坐标值y1,y2的坐标系可以取任何合适的平面坐标系,例如,以字幕图像所在平面作为坐标平面的笛卡尔直角坐标系,等等。
[0070] 另外,作为如图4中所示的字幕字符尺寸确定方法的一种优选方式,如果使用在发明人为白洪亮等、发明名称为“字幕存在时间确定装置和方法”、申请号为200810074125.3的中国专利申中公开的方案中得到的稳定全局特征作为字幕图像特征来计算字幕的字符高度,则可以对字幕进行鲁棒性稳定的跟踪,不断地优化跟踪的区域。
[0071] 作为可替选方案,在根据本发明上述实施例的视频摘要生成方法中,还可以包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。例如,可将所生成的视频摘要输出到预定的存储设备中。
[0072] 根据本发明的其他实施例,还提供了一种用于生成视频信号的视频摘要的装置。图5是示出了根据本发明的该实施例用于实现生成视频摘要的方法的装置500的示意框图。如图所示,装置500包括:视频解码单元510,用于对视频信号进行解码,以便获得多帧视频解码图像;字幕特性获得单元520,用于获得多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度;以及,视频摘要生成单元530,用于根据视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与视频信号的内容相适应的视频摘要。
[0073] 本领域技术人员了解,如图5中示出的装置500所包括的视频解码单元510,字幕特性获得单元520和视频摘要生成单元530可以被配置成执行上面结合图1,2A-2B,3A-3B描述的视频摘要生成方法,以及虽然没有在各附图中示出但是已经在上面的各种具体实例中充分描述的视频摘要提取方法。
[0074] 上述装置中各个组成单元可通过软件硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
[0075] 本发明的其他实施例还提出了一种视频图像处理系统,其配备有根据上述图5示出的根据本发明的实施例的装置,因此可用于实现上述的根据本发明的实施例的视频摘要生成方法。
[0076] 这种视频图像处理系统例如可以是电视采集卡、DVD播放器或者膝上型计算机,等等。
[0077] 此外,根据本发明上述实施例的视频摘要生成方法可以通过存储有机器可读取的指令代码的程序产品进来实现。这些指令代码由机器例如计算机读取并执行时,可执行根据本发明上述实施例的视频摘要生成方法的各个操作过程和步骤。该程序产品可以具有任意的表现形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
[0078] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒,等等。
[0079] 在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0080] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0081] 此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
[0082] 尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
相关专利内容
标题 发布/更新时间 阅读量
监控视频摘要的方法 2020-05-13 796
一种自动文本摘要方法 2020-05-13 349
会议摘要 2020-05-11 938
摘要生成方法及装置 2020-05-13 930
摘要生成方法及装置 2020-05-11 33
视频摘要提取 2020-05-11 662
视频摘要提取 2020-05-11 343
摘要生成方法及装置 2020-05-12 623
图文摘要的评价方法 2020-05-13 875
一种摘要认证方法及摘要认证系统 2020-05-11 362
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈