专利汇可以提供生成视频摘要的方法、装置、包含该装置的图像处理系统专利检索,专利查询,专利分析的服务。并且提供一种用于生成视频 信号 的视频 摘要 的方法,包括:视频解码步骤,对 视频信号 进行解码,以便获得多 帧 视频解码图像;字幕特性获得步骤,获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的 位置 ,字幕的字符尺寸,字幕图像经光学字符识别(OCR)后的识别码和可信度;视频摘要生成步骤,根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要。本 发明 的方法使得可生成能准确地反映原始视频文件的主要内容的视频摘要。还提供生成视频信号的视频摘要的装置及其具有该装置的 图像处理 系统。,下面是生成视频摘要的方法、装置、包含该装置的图像处理系统专利的具体信息内容。
1.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述视频解码图像中包括N级的级联式字幕,其中第一级字幕至第N级字幕在体现视频信号的主要内容的方面的重要性按降序或者升序排列,其中N是正整数;以及
所述视频摘要生成步骤生成所述视频信号的级联式视频摘要,所述级联式视频摘要包括:包含有所述第一级字幕至所述第N级字幕的级联式字幕的至少一帧视频解码图像。
2.如权利要求1所述的方法,其中,所述视频信号是新闻类型或者谈话类型的视频信号,N=3,第一级字幕至第三级字幕在体现所述视频信号的主要内容的方面的重要性按降序排列;以及
所述视频摘要生成步骤通过对所获得的字幕的持续时间、字幕在相应的视频解码图像中的位置、字幕图像经光学字符识别后的识别码和可信度进行处理来生成所述视频信号的所述级联式视频摘要,其中,所述的生成级联式视频摘要的处理包括:
将位于视频解码图像的左上部或者右上部、且持续时间为最长的第一持续时间的字幕确定为第一级字幕,所述第一级字幕表示所述新闻类型或者谈话类型的视频信号所涉及的主题;
在包含有所述第一级字幕的所有视频解码图像中,将位于所述视频解码图像的左侧中部或者右侧中部、且持续时间为比所述第一持续时间要短的第二持续时间的字幕作为第二级字幕,以及,根据所述第二级字幕的图像经光学字符识别后的识别码和可信度所表达的姓氏、头衔或称呼语,将所述第二级字幕划分为不同的子字幕,所述不同的子字幕分别表示在所述第一级字幕的持续时间期间、所述新闻或者谈话的不同参与者的识别符;
在包含有所述第一级字幕和第二级字幕的所有视频解码图像中,将位于所述视频解码图像的下部、且持续时间为比所述第二持续时间要短的第三持续时间的字幕确定为第三级字幕,其中将所述第三级字幕中的、与所述第二级字幕中不同的子字幕共同存在的部分确定为所述不同子字幕所表示的不同的参与者的谈话内容;以及
选择包含有第一级字幕、第二级字幕和第三级字幕的级联式字幕的至少一帧视频解码图像,作为所述视频信号的级联式视频摘要。
3.如权利要求1或2所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
4.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述字幕位于所述视频解码图像中的固定位置并且涉及所述视频信号的主要内容,以及
所述视频摘要生成步骤包括:将位于所述固定位置处的字幕进行比较,确定字幕的图像发生变化的时间点处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
5.如权利要求4所述的方法,其中,所示视频信号是比赛类型的视频信号,所述位于固定位置处的字幕是所述视频解码图像中的、显示比赛的比分信息的比分牌,以及所述视频摘要生成的步骤包括:将所有比分牌字幕进行比较,确定比分牌字幕的图像发生变化的时间点处的比分牌字幕,并且由包含所确定的比分牌字幕的视频解码图像来组成所述视频信号的视频摘要。
6.如权利要求4或5所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
7.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕持续时间较长的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H以及字幕的持续时间的时间阈值T;以及确定字符尺寸大于H并且持续时间大于T的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
8.如权利要求7所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
9.如权利要求7或8所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
10.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字幕持续时间较长并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成步骤包括:
设定字幕的持续时间的时间阈值T;以及
确定字幕的持续时间大于T并且位于视频解码图像的特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
11.如权利要求10所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
12.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H;以及
确定字符尺寸大于H并且位于视频解码图像的所述特定位置处的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
13.如权利要求12所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
14.如权利要求12或13所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
15.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:位于视频解码图像中特定位置处并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成步骤包括:
设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定位于视频解码图像中所述特定位置处并且字幕图像经光学字符识别后的可信度大于L的字幕,并且由包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
16.如权利要求15所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
17.一种用于生成视频信号的视频摘要的方法,包括步骤:
视频解码步骤,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得步骤,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;和
视频摘要生成步骤,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及,所述视频摘要生成步骤包括:
设定字幕的字符尺寸的尺寸阈值H,以及设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定字符尺寸大于H并且字幕图像经光学字符识别后的可信度大于L的字幕,并且由包含有所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
18.如权利要求17所述的方法,其中,字幕特性获得步骤通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,...,H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中,i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
19.如权利要求17或18所述的方法,还包括视频摘要输出步骤,用于将所述视频摘要生成步骤中生成的视频摘要输出。
20.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述视频解码图像中包括N级的级联式字幕,其中第一级字幕至第N级字幕在体现视频信号的主要内容的方面的重要性按降序或者升序排列,其中,N是正整数;以及
所述视频摘要生成单元生成所述视频信号的级联式视频摘要,所述级联式视频摘要包括:包含有所述第一级字幕至所述第N级字幕的级联式字幕的至少一帧视频解码图像。
21.如权利要求20所述的装置,其中,所述视频信号是新闻类型或者谈话类型的视频信号,N=3,第一级字幕至第三级字幕在体现所述视频信号的主要内容的方面的重要性按降序排列;以及
所述视频摘要生成单元通过对所获得的字幕的持续时间、字幕在相应的视频解码图像中的位置、字幕图像经光学字符识别后的识别码和可信度进行处理来生成所述视频信号的所述级联式视频摘要,其中,所述视频摘要生成单元被配置成:
将位于视频解码图像的左上部或者右上部、且持续时间为最长的第一持续时间的字幕确定为第一级字幕,所述第一级字幕表示所述新闻类型或者谈话类型的视频信号所涉及的主题;
在包含有所述第一级字幕的所有视频解码图像中,将位于所述视频解码图像的左侧中部或者右侧中部、且持续时间为比所述第一持续时间要短的第二持续时间的字幕作为第二级字幕,以及,根据所述第二级字幕的图像经光学字符识别后的识别码和可信度所表达的姓氏、头衔或称呼语,将所述第二级字幕划分为不同的子字幕,所述不同的子字幕分别表示在所述第一级字幕的持续时间期间、所述新闻或者谈话的不同参与者的识别符;
在包含有所述第一级字幕和第二级字幕的所有视频解码图像中,将位于所述视频解码图像的下部、且持续时间为比所述第二持续时间要短的第三持续时间的字幕确定为第三级字幕,其中将所述第三级字幕中的、与所述第二级字幕中不同的子字幕共同存在的部分确定为所述不同子字幕所表示的不同的参与者的谈话内容;以及
选择包含有第一级字幕、第二级字幕和第三级字幕的级联式字幕的至少一帧视频解码图像,作为所述视频信号的级联式视频摘要。
22.如权利要求20或21所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
23.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:所述字幕位于所述视频解码图像中的固定位置并且涉及所述视频信号的主要内容,以及
所述视频摘要生成单元被配置成:将位于所述固定位置处的字幕进行比较,确定字幕的图像发生变化的时间点处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
24.如权利要求23所述的装置,其中,所示视频信号是比赛类型的视频信号,所述位于固定位置处的字幕是所述视频解码图像中的、显示比赛的比分信息的比分牌,以及所述视频摘要生成单元被配置成:将所有比分牌字幕进行比较,确定比分牌字幕的图像发生变化的时间点处的比分牌字幕,并且通过包含所确定的比分牌字幕的视频解码图像来组成所述视频信号的视频摘要。
25.如权利要求23或24所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
26.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕持续时间较长的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H以及字幕的持续时间的时间阈值T;以及确定字符尺寸大于H并且持续时间大于T的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
27.如权利要求26所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(i-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
28.如权利要求26或27所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
29.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字幕持续时间较长并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的持续时间的时间阈值T;以及
确定字幕的持续时间大于T并且位于视频解码图像的特定位置处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
30.如权利要求29所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
31.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且位于视频解码图像中特定位置处的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H;以及
确定字符尺寸大于H并且位于视频解码图像的所述特定位置处的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
32.如权利要求31所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
33.如权利要求31或32所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
34.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:位于视频解码图像中特定位置处并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及
所述视频摘要生成单元被配置成:
设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定位于视频解码图像中所述特定位置处并且字幕图像经光学字符识别后的可信度大于L的字幕,并且通过包含所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
35.如权利要求34所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
36.一种用于生成视频信号的视频摘要的装置,包括:
视频解码单元,用于对视频信号进行解码,以便获得多帧视频解码图像;
字幕特性获得单元,用于获得所述多帧视频解码图像中包含的所有字幕中每一个字幕的如下特性中的至少一种:字幕的持续时间,字幕在相应的视频解码图像中的位置,字幕的字符尺寸,字幕图像经光学字符识别OCR后的识别码和可信度;以及
视频摘要生成单元,用于根据所述视频信号的内容与字幕的特性之间的关系,对所获得的字幕的至少一种特性进行处理,以便生成与所述视频信号的内容相适应的视频摘要,其中,所述视频信号的内容与字幕的特性之间的关系表明:字符尺寸较大并且字幕图像经光学字符识别后的可信度较高的字幕涉及所述视频信号的较为重要的内容,以及所述视频摘要生成单元被配置成:
设定字幕的字符尺寸的尺寸阈值H,以及设定字幕图像经光学字符识别后的可信度的阈值L;以及
确定字符尺寸大于H并且字幕图像经光学字符识别后的可信度大于L的字幕,并且通过包含有所确定的字幕的视频解码图像来组成所述视频信号的视频摘要。
37.如权利要求36所述的装置,其中,字幕特性获得单元被配置成通过如下处理来获得字幕的字符高度,以作为字幕的字符尺寸:
对字幕的图像进行处理以得到所述字幕的图像的二值化图像;
如果字幕的图像的高度H小于或等于预先定义的字符高度MIN_CS的2倍,则将图像高度H确定为字幕的字符高度,否则进入下一步处理;
对于水平字幕的图像进行水平投影,在水平方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,或者,对于垂直字幕的图像进行垂直投影,在垂直方向对字幕图像的笔划像素值累加,累加值存储在Hist(i),i=1,2,....H,其中i是作为正整数的索引值,表示分割点;
如果Hist(i)<=T,表示该字幕在分割点i的位置处可分,记录所有的可能的可分位置的位置坐标值i1,i2,...ij,并将(i2-i1),(i3-i2),...,(ij-i(j-1))的平均值作为字幕的字符高度,以及,当Hist(i)>T时,表示该字幕不可分,进入下一步处理,其中,j是小于或者等于H的正整数,H是分割点的个数,T是预定常数;
对于字幕的图像特征进行连通域CCA分析,并且估计字幕的字符组件CC高度的平均值为H1;
对字幕的字符组件CC进行对齐操作,对齐后得到新的字符组件CC_New,估计新的字符组件CC_New的高度的平均值为H2;
如果新的字符组件CC_new中的某个字符组件的面积大于(α*H*W)或者新的字符组件CC_new的数目等于1,则将字幕的字符高度确定为H1,否则将字幕的字符高度确定为H2,其中,α是预定的常数,W是字幕的图像的宽度。
38.如权利要求36或37所述的装置,还包括视频摘要输出单元,用于将所述视频摘要生成单元生成的视频摘要输出。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
监控视频摘要的方法 | 2020-05-13 | 796 |
一种自动文本摘要方法 | 2020-05-13 | 349 |
会议摘要 | 2020-05-11 | 938 |
摘要生成方法及装置 | 2020-05-13 | 930 |
摘要生成方法及装置 | 2020-05-11 | 33 |
视频摘要提取 | 2020-05-11 | 662 |
视频摘要提取 | 2020-05-11 | 343 |
摘要生成方法及装置 | 2020-05-12 | 623 |
图文摘要的评价方法 | 2020-05-13 | 875 |
一种摘要认证方法及摘要认证系统 | 2020-05-11 | 362 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。