首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 影像摘要装置

影像摘要装置

阅读:451发布:2020-05-11

专利汇可以提供影像摘要装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种影像 摘要 装置,设有在由切割点检测部(1)中的切割点判定部(16)的判定结果表示是切割点的含义的情况下,计算以其切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算部(2),把由该镜头长度计算部(2)计算出的镜头长度作为判别材料,判别以前一个切割点为起点的镜头是否是重要镜头。,下面是影像摘要装置专利的具体信息内容。

1.一种影像摘要装置,其特征在于,具备:
检测影像的切割点的切割点检测单元;
由上述切割点检测单元检测出了切割点的情况下,计算以上述切 割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算单元;
以由上述镜头长度计算单元计算出的镜头长度作为判别材料,判 别以由上述切割点检测单元检测出的切割点的前一个切割点为起点 的镜头是否是重要镜头的重要镜头判别单元。
2.根据权利要求1所述的影像摘要装置,其特征在于,
重要镜头判别单元在由镜头长度计算单元计算出的镜头长度比 预先设定的镜头长度长的情况下,判别为以由切割点检测单元检测出 的切割点的前一个切割点为起点的镜头是重要镜头、或者以前一个切 割点为起点的镜头的下一个镜头是重要镜头、或者以前一个切割点为 起点的镜头和下一个镜头是重要镜头。
3.一种影像摘要装置,其特征在于,具备:
检测影像的切割点的切割点检测单元;
在由上述切割点检测单元检测出了切割点的情况下,计算以上述 切割点的前一个切割点为起点的镜头的镜头长度的镜头长度计算单 元;
设定分割影像的时间间隔的时间间隔设定单元;
最长镜头检测单元,在上述镜头长度计算单元每次计算出镜头长 度时,对由上述镜头长度计算单元一直到当前时刻为止所计算出的镜 头长度进行相互比较,检测出由上述时间间隔设定单元所设定的时间 间隔中镜头长度最长的镜头、最长的镜头的下一个镜头、或者最长的 镜头和下一个镜头。
4.根据权利要求3所述的影像摘要装置,其特征在于,
时间间隔设定单元根据由最长镜头检测单元检测出的最长镜头 的开始时刻和镜头长度更新时间间隔。
5.一种影像摘要装置,其特征在于,具备:
从影像信号抽取表示影像特征的特征量的特征量抽取单元;
从由上述特征量抽取单元本次抽取出的特征量和由上述特征量 抽取单元前一次抽取出的特征量计算特征量之间的距离的距离计算 单元;
在上述距离计算单元每次计算出特征量之间的距离时,对由上述 距离计算单元一直到当前时刻为止所计算出的特征量之间的距离进 行相互比较,检测出最大距离的最大距离检测单元;
如果上述最大距离检测单元检测出最大距离,则从由上述最大距 离检测单元前一次检测出了最大距离的时刻的的时刻到当前帧的 时刻为止的时刻差比预先设定的时刻差大的情况下,把当前帧的时刻 作为重要帧的开始时刻输出的重要帧检测单元。
6.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像的切割点的切割点检测单元;
从影像信号抽取表示影像特征的特征量的特征量抽取单元;
从由上述特征量抽取单元本次抽取出的特征量与由上述特征量 抽取单元前一次抽取出的特征量计算出特征量之间的距离的距离计 算单元;
由上述切割点检测单元检测出了切割点的情况下,在上述距离计 算单元每次计算出特征量之间的距离时,对由上述距离计算单元一直 到当前时刻为止所计算出的特征量之间的距离进行相互比较,检测出 最大距离的最大距离检测单元;
由上述时间间隔设定单元所设定的时间间隔中,把由上述最大距 检测单元检测出了最大距离的帧的时刻作为重要镜头的开始时刻输 出的重要镜头检测单元。
7.根据权利要求6所述的影像摘要装置,其特征在于,
时间间隔设定单元根据由最大距离检测单元检测出了最大距离 的帧的时刻和最大距离更新时间间隔。
8.一种影像摘要装置,其特征在于,具备:
检测影像的切割点的切割点检测单元;
从影像信号抽取表示影像特征的特征量的特征量抽取单元;
从由上述特征量抽取单元本次抽取出的特征量与由上述特征量 抽取单元前一次抽取出的特征量计算出特征量之间的距离的距离计 算单元;
在上述距离计算单元每次计算出特征量之间的距离时,计算由上 述距离计算单元一直到当前时刻为止所计算出的特征量之间的距离 的平均值的平均值计算单元;
在由上述距离计算单元计算出的特征量之间的距离与由上述平 均值计算单元计算出的平均值的差分值小于预先所设定的最小值的 情况下,作为略图候选图像存储上述影像信号的影像的略图候选图像 存储单元;
如果由上述切割点检测单元检测出切割点,则从由上述略图候选 图像存储单元所存储的略图候选图像生成略图的略图生成单元。
9.根据权利要求1所述的影像摘要装置,其特征在于,
设有:存储由重要镜头判别单元所判别的重要镜头的镜头长度的 重要镜头长度存储单元;从由上述重要镜头长度存储单元所存储的重 要镜头的镜头长度和预先所设定的摘要视听时间,计算出重要镜头的 再生时间的再生时间计算单元。
10.根据权利要求1所述的影像摘要装置,其特征在于,
切割点检测单元包括:从影像信号抽取表示影像特征的特征量的 特征量抽取单元;从由上述特征量抽取单元本次抽取出的特征量和由 上述特征量抽取单元前一次抽取出的特征量计算出特征量之间的距 离的距离计算单元;求出由上述距离计算单元所计算出的特征量之间 的距离的统计量,从上述统计量计算出切割点判定用的阈值的阈值计 算单元;对由上述距离计算单元所计算出的特征量之间的距离与由上 述阈值计算单元所计算出的阈值进行比较,从上述比较结果判别切割 点的切割点判别单元。
11.一种影像摘要装置,其特征在于,具备:
检测影像的切割点的切割点检测单元;
存储由上述切割点检测单元检测出了切割点的时刻的镜头开始 点存储单元;
从存储在上述镜头开始点存储单元中的时刻计算出以各切割点 为起点的镜头的镜头长度,与所希望的摘要视听时间相匹配地,从多 个镜头中把镜头长度长的镜头优先决定为再生对象的镜头的重要镜 头判定单元。
12.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像的切割点的切割点检测单元;
存储由上述切割点检测单元检测出了切割点的时刻的镜头开始 点存储单元;
在由上述时间间隔设定单元所设定的时间间隔中,从存储在上述 镜头开始点存储单元中的时刻计算出以各切割点为起点的镜头的镜 头长度,与所希望的摘要视听时间相匹配地,从多个镜头中把镜头长 度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。
13.一种影像摘要装置,其特征在于,具备:
检测影像的切割点的切割点检测单元;
存储由上述切割点检测单元检测出了切割点的时刻的镜头开始 点存储单元;
从存储在上述镜头开始点存储单元中的时刻计算出以各切割点 为起点的镜头的镜头长度,求出与上述镜头长度有关的统计性的分布 函数,与所希望的摘要视听时间相匹配地,从多个镜头中,根据上述 分布函数决定再生对象的镜头的重要镜头判定单元。
14.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像的切割点的切割点检测单元;
存储由上述切割点检测单元检测出了切割点的时刻的镜头开始 点存储单元;
在由上述时间间隔设定单元所设定的时间间隔中,从存储在上述 镜头开始点存储单元中的时刻计算以各切割点为起点的镜头的镜头 长度,求出与上述镜头长度有关的统计性的分布函数,与所希望的摘 要视听时间相匹配地,从多个镜头中,根据上述分布函数决定再生对 象的镜头的重要镜头判定单元。
15.一种影像摘要装置,其特征在于,具备:
检测影像中的声音的无声点的无声点检测单元;
由上述无声点检测单元检测出了无声点的情况下,计算以上述无 声点的前一个无声点为起点的镜头的镜头长度的镜头长度计算单元;
把由上述镜头长度计算单元所计算出的镜头长度作为判别材料, 判别以由上述无声点检测单元检测出的无声点的前一个无声点为起 点的镜头是否是重要镜头的重要镜头判别单元。
16.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像中的声音的音量小于阈值的音量降低点的音量降低点 检测单元;
在由上述音量降低点检测单元检测出了音量降低点的情况下,计 算以上述音量降低点的前一个音量降低点为起点的镜头的镜头长度 的镜头长度计算单元;
最长镜头检测单元,在上述镜头长度计算单元每次计算出镜头长 度时,对由上述镜头长度计算单元一直到当前时刻为止所计算出的镜 头长度进行相互比较,在由上述时间间隔设定单元所设定的时间间隔 中,检测出镜头长度最长的镜头、最长的镜头的下一个镜头、或者最 长的镜头和下一个镜头。
17.根据权利要求16所述的影像摘要装置,其特征在于,
时间间隔设定单元根据由最长镜头检测单元所检测出的最长的 镜头的开始时刻和镜头长度更新时间间隔。
18.一种影像摘要装置,其特征在于,具备:
检测影像中的声音的音量小于阈值的音量降低点的音量降低点 检测单元;
存储由上述音量降低点检测单元检测出了音量降低点的时刻的 镜头开始点存储单元;
从存储在上述镜头开始点存储单元中的时刻计算以各音量降低 点为起点的镜头的镜头长度,与所希望的摘要视听时间相匹配地,从 多个镜头中,把镜头长度长的镜头优先决定为再生对象的镜头的重要 镜头判定单元。
19.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像中的声音的音量小于阈值的音量降低点的音量降低点 检测单元;
存储由上述音量降低点检测单元检测出了音量降低点的时刻的 镜头开始点存储单元;
在由上述时间间隔设定单元所设定的时间间隔中,从存储在上述 镜头开始点存储单元中的时刻计算出以各音量降低点为起点的镜头 的镜头长度,与所希望的摘要视听时间相匹配地,从多个镜头中,把 镜头长度长的镜头优先决定为再生对象的镜头的重要镜头判定单元。
20.一种影像摘要装置,其特征在于,具备:
检测影像中的声音的音量小于阈值的音量降低点的音量降低点 检测单元;
存储由上述音量降低点检测单元检测出了音量降低点的时刻的 镜头开始点存储单元;
从存储在上述镜头开始点存储单元中的时刻计算以各音量降低 点为起点的镜头的镜头长度,求出与上述镜头长度有关的统计性的分 布函数,与所希望的摘要视听时间相匹配地,从多个镜头中,根据上 述分布函数决定再生对象的镜头的重要镜头判定单元。
21.一种影像摘要装置,其特征在于,具备:
设定分割影像的时间间隔的时间间隔设定单元;
检测影像中的声音的音量小于阈值的音量降低点的音量降低点 检测单元;
存储由上述音量降低点检测单元检测出了音量降低点的时刻的 镜头开始点存储单元;
在由上述时间间隔设定单元所设定的时间间隔中,从存储在上述 镜头开始点存储单元中的时刻计算出以各音量降低点为起点的镜头 的镜头长度,求出与上述镜头长度有关的统计性的分布函数,与所希 望的摘要视听时间相匹配地,从多个镜头中,根据上述分布函数决定 再生对象的镜头的重要镜头判定单元。
22.根据权利要求1所述的影像摘要装置,其特征在于,
切割点检测单元在检测出影像的切割点时,检测影像中的声音的 音量小于阈值的音量降低点,从检测出的切割点中,检测与上述音量 降低点同步的切割点。
23.根据权利要求11所述的影像摘要装置,其特征在于,
重要镜头判定单元从多个镜头中把镜头长度长的镜头优先决定 为再生对象的镜头,决定该镜头的再生时间。

说明书全文

技术领域

发明涉及从影像信号抽取重要区间的影像,能够实施重要区间 的影像的再生或者编辑的影像摘要装置

背景技术

当前提出了通过检测影像的切割点(cut point),将影像信号分 割为镜头(shot)单位,从多个镜头中识别重要镜头的影像摘要装置。
重要镜头的判别处理如以下的非专利文献1公开的那样,例如大 多使用像多数的影像处理方法或者声音处理方法等那样非常复杂的 处理,难以进行实时的判别或者向便携设备的搭载。
另外,在进行实际分类的镜头的编辑或者再生时,大多使用称为 略图的小图像的一览。
在该略图中,使用各镜头的代表图像,作为代表图像,大多使用 各镜头的开头图像。
然而,镜头的开头图像不一定就是代表性表示该镜头的图像。因 此,用户即使观看略图的一览,有时也不能判别自己希望视听的镜头 位于何处。
非专利文献1:「基于戏剧影像的心理内容的摘要影像的生成」, 电子情报通信学会论文志,D-II,Vol.J84-D-II,No.6,pp1122 -1131,2001年,森山刚,坂内正夫著
现有的影像摘要装置由于如以上那样构成,因此存在例如如果不 实施像多数的影像处理方法或者声音处理方法等那样非常复杂的处 理,则就不能辨别重要的镜头,难以进行实时判别或者向便携设备的 搭载这样的课题。
另外,由于镜头的开头图像不一定就是代表性表示该镜头的图 像,因此存在有时即使用户观看略图的一览,也不能判别自己希望视 听的镜头位于何处这样的课题。

发明内容

本发明是为解决上述那样的课题而完成的,其目的在于得到不必 实施复杂的处理而提高计算负荷,让用户能够容易地把握重要的镜头 的影像摘要装置。
本发明的影像摘要装置设有在由切割点检测单元检测出了切割 点的情况下,计算以该切割点的前一个切割点为起点的镜头的镜头长 度的镜头长度计算单元,把由该镜头长度计算单元计算出的镜头长度 作为判别材料,判别以前一个切割点为起点的镜头是否是重要镜头。
由此,具有不必实施复杂处理而提高计算负荷,让用户能够容易 地把握重要的镜头的效果。
附图说明
图1是表示本发明实施形态1的影像摘要装置的结构图。
图2是表示本发明实施形态1的影像摘要装置的切割点检测部1 的结构图。
图3是表示亮度值的变化或者切割点的说明图。
图4是表示本发明实施形态1的影像摘要装置的处理内容的流程 图。
图5是表示本发明实施形态2的影像摘要装置的结构图。
图6是表示本发明实施形态3的影像摘要装置的结构图。
图7是在分割了影像内容的各个分割范围的每一个中存在重要 镜头的情况下,表示该镜头所代表的范围的说明图。
图8是表示本发明实施形态4的影像摘要装置的结构图。
图9是表示内容的大的变化点的说明图。
图10是表示本发明实施形态5的影像摘要装置的结构图。
图11是表示本发明实施形态6的影像摘要装置的结构图。
图12是表示本发明实施形态7的影像摘要装置的结构图。
图13是表示本发明实施形态8的影像摘要装置的结构图。
图14是表示本发明实施形态9的影像摘要装置的结构图。
图15是表示本发明实施形态10的影像摘要装置的结构图。
图16是表示本发明实施形态11的影像摘要装置的结构图。
图17是表示镜头长度的对数正态分布的说明图。
图18是表示镜头长度与影像内容长度的关系的说明图。
图19是表示本发明实施形态12的影像摘要装置的结构图。
图20是表示本发明实施形态13的影像摘要装置的结构图。
图21是表示本发明实施形态14的影像摘要装置的结构图。
图22是表示本发明实施形态15的影像摘要装置的结构图。
图23是表示本发明实施形态16的影像摘要装置的结构图。
图24是表示本发明实施形态17的影像摘要装置的结构图。
图25是表示本发明实施形态18的影像摘要装置的结构图。
图26是表示本发明实施形态19的影像摘要装置的结构图。
图27是表示本发明实施形态20的影像摘要装置的结构图。
图28是表示本发明实施形态20的影像摘要装置的AV切割点判 定部121的结构图。
图29是表示本发明实施形态21的影像摘要装置的结构图。
图30是表示本发明实施形态22的影像摘要装置的结构图。
图31是表示本发明实施形态23的影像摘要装置的结构图。
图32是表示本发明实施形态24的影像摘要装置的结构图。
图33是表示本发明实施形态25的影像摘要装置的结构图。
图34是表示本发明实施形态26的影像摘要装置的结构图。

具体实施方式

以下,为了更详细地说明本发明,根据附图说明用于实施本发明 的最佳形态。
实施形态1
图1是表示本发明实施形态1的影像摘要装置的结构图,图中, 切割点检测部1在输入影像信号时,实施检测其影像的切割点的处理。 另外,切割点检测部1构成切割点检测单元。
镜头长度计算部2在由切割点检测部1检测出了切割点的情况 下,实施计算以该切割点的前一个切割点(前一个切割点是由切割点 检测部1前一次检测出的切割点)为起点的镜头的镜头长度的处理。 即,如果由切割点检测部1检测出切割点,则实施求出当前的时刻 与存储在镜头开始点缓冲器3中的镜头开始点的时刻的时刻差,把该 时刻差作为镜头长度,输出到重要镜头判定部4的处理。镜头开始点 缓冲器3是存储镜头开始点的时刻的存储器
另外,由镜头长度计算部2以及镜头开始点缓冲器3构成镜头长 度计算单元。
在由镜头长度计算部2计算出的镜头长度比预先设定的阈值A 长的情况下,重要镜头判定部4实施判定为以由切割点检测部1检测 出的切割点的前一个切割点为起点的镜头是重要镜头,以前一个切割 点为起点的镜头的下一个镜头是重要镜头,或者,以前一个切割点为 起点的镜头和下一个镜头是重要镜头,输出其判定结果的处理。另外, 重要镜头判定部4构成重要镜头判别单元。
图2是表示本发明实施形态1的影像摘要装置的切割点检测部1 的结构图,图中,特征量抽取部11在输入影像信号时,实施从该影 像信号抽取表示影像帧的特征的特征量的处理。另外,特征量抽取部 11构成特征量抽取单元。
帧间距离计算部12使用预定的评价函数,对由特征量抽取部11 本次抽取出的当前帧的特征量和存储在特征量缓冲器13中的前一个 帧的特征量(由特征量抽取部11前一次抽取出的帧的特征量)进行 比较,实施计算这些特征量之间的距离(非类似度)的处理。以下, 把当前帧与前一个帧的特征量之间的距离称为「帧间距离」。
特征量缓冲器13存储前一个帧的特征量,如果帧间距离计算部 12计算出帧间距离,则为了在下一次帧间距离的计算中备用,把当前 存储的前一个帧的特征量更新为由特征量抽取部11本次抽取出的当 前帧的特征量。
另外,由帧间距离计算部12以及特征量缓冲器13构成距离计算 单元。
切割点判定用数据计算部14实施求出由帧间距离计算部12计算 出的帧间距离的统计量,从该统计量计算切割点判定用的阈值Th, 把切割点判定用的阈值Th输出到切割点判定用数据缓冲器15的处 理。
切割点判定用数据缓冲器15是存储由切割点判定用数据计算部 4计算出的切割点判定用的阈值Th的存储器。
另外,由切割点判定用数据计算部14以及切割点判定用数据缓 冲器15构成阈值计算单元。
切割点判定部16实施对由帧间距离计算部12计算出的帧间距离 与存储在切割点判定用数据缓冲器15中的切割点判定用的阈值Th进 行比较,从其比较结果判别切割点的处理。另外,切割点判定部16 构成切割点判别单元。
图4是表示本发明实施形态1的影像处理装置的处理内容的流程 图。
其次说明动作。
切割点检测部1在输入影像信号时,实施检测其影像的切割点的 处理。
以下,说明切割点检测部1中的切割点的具体检测处理内容,而 本实施形态1中的切割点检测部1由于采用与现有的检测处理方法 (例如,如果邻接的帧的亮度比固定的阈值大,则把该帧的变化点检 测为切割点的方法:日经电子学N0.892 2005.1.31号51页)不同的 检测处理方法,因此具有即使在输入任何影像信号的情况下,也能正 确地检测切割点的特征。
其中,切割点检测部1只要能检测影像的切割点即可,在不关心 切割点的检测精度的情况下,也可以使用现有的检测处理方法来检测 影像的切割点。
切割点检测部1的特征量抽取部11在输入影像信号时,从该影 像信号抽取表示帧的特征的特征量(步骤ST1)。
作为表示帧的特征的特征量,例如除了与过去的帧的差分以外, 还可以举出颜色的直方图、颜色的配置信息、结构信息、运动信息等, 既可以使用某一个特征量,也可以使用多个特征量。
如果特征量抽取部11抽取当前帧的特征量,则切割点检测部1 的帧间距离计算部12从特征量缓冲器13读出前一个帧的特征量(由 特征量抽取部11前一次抽取的帧的特征量)。
而且,帧间距离计算部12利用预定的评价函数,比较当前帧的 特征量和前一个帧的特征量,计算作为它们的特征量之间距离(非类 似度)的帧间距离(步骤ST2)。
此外,帧间距离计算部12在计算出了帧间距离时,将特征量缓 冲器13的存储内容更新为当前帧的特征量。
如果帧间距离计算部12计算出帧间距离,则切割点检测部1的 切割点判定部16对该帧间距离与存储在切割点判定用数据缓冲器15 中的切割点判定用的阈值Th进行比较(步骤ST3)。
切割点判定部16在该帧间距离比切割点判定用的阈值Th大的情 况下,判定为是切割点,输出表示该含义的判定结果(步骤ST4)。
另一方面,在该帧间距离小于等于切割点判定用的阈值Th的情 况下,判定为不是切割点,输出表示该含义的判定结果(步骤ST5)。
这里,切割点判定部16使用切割点判定用的阈值Th判别切割点, 而例如也可以考虑镜头时间等来判别切割点。
切割点检测部1的切割点判定用数据计算部14在切割点判定部 16的判定结果表示是切割点的含义的情况下,把切割点判定用数据缓 冲器15的存储内容初始化为预定的值(步骤ST6)。
另一方面,在切割点判定部16的判定结果表示不是切割点的含 义的情况下,求出由帧间距离计算部12计算出的帧间距离的统计量, 从该统计量计算切割点判定用的阈值Th,用该阈值Th更新切割点判 定用数据缓冲器15的存储内容(步骤ST7)。
具体地讲,如以下那样计算切割点判定用的阈值Th。
实际的影像内容由多个镜头构成,难以考虑作为镜头划分处的切 割点的紧接之后的帧是切割点,认为镜头是多个帧连续的。
这里,为了说明方便,把各镜头的第n-1个帧与第n个帧的距 离记为Distn。
当该距离Distn比某个阈值大时,认为第i个镜头中的第n个帧 实际上是第(i+1)的最初的帧。即,认为第i个镜头中的第n个帧 是切割点。其中,设第i个镜头的最初的帧是第0个帧。另外,上述 的阈值适应性变动,设为Thi_n。
切割点判定用数据计算部14在计算阈值Thi_n时,计算第i个镜 头中的帧的距离的平均值avgi(Distn),同时计算帧的距离的分散值 vari(Distn)。
如果计算出距离的平均值avgi(Distn)和距离的分散值vari (Distn),则切割点判定用数据计算部14把距离的平均值avgi(Distn) 和距离的分散值vari(Distn)代入到下述的式(1)中,计算阈值Thi_n。
Thi_n=avgi(Distn)+α·vari(Distn)    (1)
在式(1)中,α是系数。
另外,平均值avgi(Distn)以及分散值vari(Distn)不是第i个 镜头中的所有帧的平均值以及分散值,而是从第1到第n-1个帧的 平均值以及分散值。
在平均值或者分散值的计算中不使用第0个帧,从第1个帧开始 在平均值或者分散值的计算中使用的理由是,因为第0个帧的距离 Dist0表示与前面的镜头的最后帧的帧间距离。
另外,在平均值或者分散值的计算中不使用第n个帧,在平均值 或者分散值的计算中使用直到第n-1个为止的帧的理由是,因为对 于所输入的帧能够立即判别是否是切割点。
另外,平均值avgi(Distn)以及分散值vari(Distn)也可以不是 准确的值而使用某个近似值。另外,系数α也能够根据内容的式样 (genre)等变更。
如从以上所明确的那样,切割点检测部1即使在镜头内有运动的 情况下,也能够通过统计地分析该运动,判别切割点和镜头内的运动 的变动,因此能够适应性地设定切割点判定用的阈值Thi_n,其结果与 现有的使用固定阈值的情况相比较,能够提高切割点的检测精度。其 理由如下。
在现有的检测处理方法中,在切割点的检测中使用帧内的亮度值 的变化,切割点检测用的阈值是固定值。
一般,难以预测接着当前镜头是否有镜头到来。
在相似的镜头连续的情况下,例如,在同一个演播室内,在摄影 机切换等情况下,即使是切割点,有时亮度值的变化也很小。
另一方面,即使是同一个镜头,在有闪光或者人物的很大运动等 的情况下,有时帧间的变化(亮度值的变化)很大。
图3是表示这种情况下的亮度值的变化的说明图。
因此,在现有的检测处理方法中,如果设定大的阈值,则漏失变 化小的切割点,如果设定小的阈值,则在变化大的镜头中有时错误地 检测出切割点。
与此不同,在本实施形态1的切割点检测部1中,除了单纯的亮 度值的差以外,还使用特征量来提高通用性。进而,在作为基于评价 函数的评价结果的距离大的情况下作为切割点,而通过适应性地设定 其阈值,如果是变化大的镜头,则阈值自动地增大,如果是变化小的 镜头,则阈值自动地减小,从而能够期待切割点检测的大幅度精度提 高和通用性的提高。
另外,在本实施形态1中,在抽取特征量时,也可以不是从影像 信号而是从压缩了的图像的编码数据抽取特征量。
另外,在计算帧间距离时,也不一定是邻接的帧,也可以计算隔 开两个帧以上间隔的帧间的距离,谋求计算处理的高速化。
在这样隔开帧间隔进行距离的计算或者切割点的检测时,也可以 使用应用了时间压缩的编码影像中的帧内编码的帧。
进而,在计算平均值以及分散值时,也可以对于接近当前帧的帧 实施加权等处理,与镜头内的变动状况的时间变化相对应。
镜头长度计算部2在切割点检测部1中的切割点判定部16的判 定结果表示不是切割点的含义的情况下,不特别实施处理,而在切割 点检测部1中的切割点判定部16的判定结果表示是切割点的含义的情 况下,计算以该切割点的前一个切割点为起点的镜头的镜头长度(步 骤ST8)。
即,镜头长度计算部2由于能够用第i个镜头的开始时刻与第(i +1)个镜头的开始时刻的差求出镜头的镜头长度,因此在切割点检 测部1中的切割点判定部16的判定结果表示是切割点的含义的情况 下,求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点 的时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部4。
另外,如果计算出镜头长度,则镜头长度计算部2把存储在镜头 开始点缓冲器3的存储内容更新为当前帧的时刻。
重要镜头判定部4如果镜头长度计算部2计算出镜头长度,则对 该镜头长度与预先设定的阈值A进行比较(步骤ST9)。
而且,重要镜头判定部4在该镜头长度比预先设定的阈值A长 的情况下,判定为以由切割点检测部1检测出的切割点的前一个切割 点为起点的镜头是重要镜头,输出其判定结果(步骤ST10)。
这里,重要镜头判定部13判定为以前一个切割点为起点的镜头 是重要镜头,而也可以判定为以前一个切割点为起点的镜头的下一个 镜头是重要镜头,还可以判定为以前一个切割点为起点的镜头和下一 个镜头这双方是重要镜头。
如从上述中明确的那样,依据本实施形态1,设置了在切割点检 测部1中的切割点判定部16的判定结果表示是切割点的含义的情况 下,计算以该切割点的前一个切割点为起点的镜头的镜头长度的镜头 长度计算部2,把由该镜头长度计算部2计算出的镜头长度作为判别 材料,判别以前一个切割点为起点的镜头是否是重要镜头,因此,例 如能够不必像多数的影像处理方法或者声音处理方法那样实施复杂 的处理而提高计算负荷,起到用户能够容易地把握重要镜头的效果。
在本实施形态1中,特别是在会话是主体内容的情况下,以重要 的讲述或者台词部分中的镜头长度长为基础。另外,在知道切割点的 情况下,计算负荷非常小是其特征,即使在计算能低的设备中也能 够进行重要镜头判定。
另外,在求切割点时,可以不使用邻接的帧而使用离开的帧来谋 求处理的高速化。这种情况下,输出的重要镜头的开始时刻从原来的 重要镜头的开始时刻仅错开微小的时间。
实施形态2
图5是表示本发明实施形态2的影像摘要装置的结构图,图中, 由于与图1相同的号码表示相同或者相当的部分,因此省略说明。
时间间隔设定部21实施从由用户设定的摘要视听时间(用户希 望视听摘要的时间)、影像内容的时间分割数以及影像内容长度设定 内容分割时间间隔(分割影像内容的时间间隔)和镜头视听时间(每 一个镜头的视听时间)的处理。另外,时间间隔设定部21构成时间 间隔设定单元。
最长镜头判定部22在镜头长度计算部2每次计算出镜头长度时, 实施对由该镜头长度计算部2直到当前时刻为止计算出的镜头长度进 行相互比较,判别镜头长度最长的镜头的处理。
最长镜头长度缓冲器23是存储由最长镜头判定部22判别了的最 长镜头的镜头长度的存储器。
最长镜头开始点缓冲器24是存储由最长镜头判定部22判别了的 最长镜头的开始点的时刻(检测出了最长镜头的时刻的帧的时刻)的 存储器。
时间分割判定部25输出在由时间间隔设定部21所设定的内容分 割时间间隔中重要镜头的开始点的时刻。即,在当前帧的时刻是由时 间间隔设定部21所设定的内容分割时间间隔的整数倍的情况下,实 施把存储在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻 作为在摘要再生中使用的重要镜头的开始时刻输出的处理。
另外,由最长镜头判定部22、最长镜头长度缓冲器23、最长镜 头开始点缓冲器24以及时间分割判定部25构成最长镜头检测单元。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部21根据这些 输入信息,设定所取出的重要镜头的个数Nshot、内容分割时间间隔 TSegment以及镜头视听时间TPlay。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
在这样设定了的情况下,用户把n个镜头从开头起各视听TPlay 秒钟。
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),镜头 视听时间TPlay成为0.5分钟(=30秒)。
另外,时间间隔设定部21也可以不是输入数值信息而是输入语 句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent。
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
如果切割点检测部1没有检测出切割点,则镜头长度计算部2 不特别实施处理,而如果切割点检测部1检测出切割点,则与上述实 施形态1相同,计算以该切割点的前一个切割点为起点的镜头的镜头 长度。
即,如果切割点检测部1检测出切割点,则镜头长度计算部2 求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时 刻的时刻差,把该时刻差作为镜头长度,输出到最长镜头判定部22。
另外,镜头长度计算部2如果计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22在镜头长度计算部2每次计算出镜头长度时, 对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长度进行 相互比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22把由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算出了镜头 长度的镜头是当前时刻下最长的镜头。
最长镜头判定部22如果判别当前时刻中的最长的镜头,则把最 长镜头长度缓冲器23的存储内容更新为由镜头长度计算部2计算出 的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
时间分割判定部25输出在由时间间隔设定部21所设定的内容分 割时间间隔TSegment中重要的镜头的开始点的时刻。
即,时间分割判定部25在当前帧的时刻是由时间间隔设定部21 所设定的内容分割时间间隔TSegment的整数倍的情况下,把存储在最 长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再 生中使用的重要镜头的开始时刻输出。
这里表示了时间分割判定部25输出最长镜头的开始点的时刻的 情况,而也可以输出最长镜头的下一个镜头的开始点的时刻,或者最 长镜头和下一个镜头的开始点的时刻。
但是,这种情况下,需要设置存储最长镜头的下一个镜头的开始 点时刻的缓冲器。
如从上述所明确的那样,依据本实施形态2,由于构成为在镜头 长度计算部2每次计算出镜头长度时,对由该镜头长度计算部2直到 当前时刻为止所计算出的镜头长度相互进行比较,检测由时间间隔设 定部21所设定的时间间隔中镜头长度最长的镜头、最长镜头的下一 个镜头或者最长镜头和下一个镜头,因此例如,能够不像多数的影像 处理方法或者声音处理方法等那样实施复杂的处理而提高计算负荷, 起到用户能够容易地把握重要镜头的效果。
另外,如果把本实施形态2应用到录像装置或者再生装置中,则 由于知道重要镜头的开始时刻或者镜头再生的时间,因此能够进行影 像的自动编辑或者简便的摘要再生视听。
另外,在求切割点时,也可以不使用邻接的帧而使用离开的帧来 谋求处理的高速化。这种情况下,输出的重要镜头的开始时刻从原来 的开始时刻仅错开微小的时间。
实施形态3
图6是表示本发明实施形态3的影像摘要装置的结构图,图中, 由于与图5相同的号码表示相同或者相当的部分,因此省略说明。
时间间隔设定部31实施从由用户所设定的摘要视听时间、影像 内容的时间分割数以及影像内容长度,设定内容分割时间间隔的初始 值和镜头基准视听时间(每一个镜头的视听时间)的处理。
镜头代表范围初始设定部32实施从由时间间隔设定部31所设定 的内容分割时间间隔的初始值和影像内容长度,设定镜头代表范围 (镜头代表范围由镜头代表范围开始点以及暂定镜头代表范围结束 点构成)的初始值的处理。
时间分割点缓冲器33是存储由镜头代表范围初始设定部32所设 定的镜头代表范围的初始值的存储器。
镜头代表范围判定·再设定部34在当前帧的时刻超过镜头代表范 围的结束点的情况下,计算并输出重要镜头再生时间的同时,把存储 在最长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘 要再生中使用的重要镜头的开始时刻输出。另外,镜头代表范围判 定.再设定部34生成镜头代表范围的更新数据,更新时间分割点缓冲 器33的存储内容。
另外,由时间间隔设定部31、镜头代表范围初始设定部32、时 间分割点缓冲器33以及镜头代表范围判定·再设定部34构成时间间隔 设定单元。
其次说明动作。
如果输入由用户设定的摘要视听时间TDijest、影像内容的时间分 割数n以及影像内容长度TContent,则时间间隔设定部31根据这些输 入信息,设定所取出的重要镜头的个数Nshot、内容分割时间间隔的初 始值TSegment0以及镜头基准视听时间TPlay0。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔的初始值TSegment0成为3分钟(=180 秒),镜头基准视听时间TPlay0成为0.5分钟(=30秒)。
另外,时间间隔设定部31也可以不是输入数值信息而是输入语 句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent。
如果由时间间隔设定部31设定内容分割时间间隔的初始值 TSegment0,则镜头代表范围初始设定部32从该内容分割时间间隔的初 始值TSegment0和影像内容长度TContent设定镜头代表范围的初始值(镜 头代表范围的开始点PStart、暂定镜头代表范围的结束点PEnd_temp)。
PStart=O
PEnd_temp=TContent/Nshot=TSegment0
这里,图7是表示在分割了影像内容的各个分割范围的每一个内 存在重要镜头的情况下,该镜头代表的范围的说明图。
如果设定镜头代表范围的初始值,则镜头代表范围初始设定部 32把该镜头代表范围的初始值保存到时间分割点缓冲器33中。
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
如果切割点检测部1没有检测出切割点,则镜头长度计算部2 不特别实施处理,而如果切割点检测部1检测出切割点,则与上述实 施形态1相同,计算以该切割点的前一个切割点为起点的镜头的镜头 长度。
即,如果切割点检测部1检测出切割点,则镜头长度计算部2 求出当前帧的时刻与存储在镜头开始点缓冲器3中的镜头开始点的时 刻的时刻差,把该时刻差作为镜头长度输出到最长镜头判定部22。
另外,如果计算出镜头长度,则镜头长度计算部2把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22与上述实施形态2相同,在镜头长度计算部 2每次计算出镜头长度时,对由该镜头长度计算部2直到当前时刻为 止所计算出的镜头长度相互进行比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算出了镜头 长度的镜头在当前时刻是最长的镜头。
如果最长镜头判定部22判别出当前时刻中的最长的镜头,则把 最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算 出的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
镜头代表范围判定·再设定部34在当前帧的时刻PNow超过存储在 时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp的情 况下,如下述那样,计算镜头代表范围的结束点PEnd和重要镜头再生 时间TPlay,输出该重要镜头再生时间TPlay。
PEnd=PNow+PShot_Start-PStart
TPlay=(PEnd-PStart)*TPlay0/TSegment0
式中,PShot_Start是存储在最长镜头开始点缓冲器24中的最长镜 头的开始点的时刻。
另外,镜头代表范围判定·再设定部34在当前帧的时刻PNow超过 存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp 的情况下,把存储在最长镜头开始点缓冲器24中的最长镜头的开始 点的时刻PShot_Start作为在摘要再生中使用的重要镜头的开始时刻输出 的同时,更新存储在时间分割点缓冲器33中的镜头代表范围的开始 点PStart和暂定镜头代表范围的结束点PEnd_temp。
更新后的镜头代表范围如下。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
如从上述所明确的那样,依据本实施形态3,由于构成为根据由 最长镜头判定部22判别了的最长镜头的开始时刻和镜头长度,更新 镜头代表范围,因此起到能够使内容的划分点或者划分了的内容中的 重要镜头的再生时间适应性变化的效果。
另外,上述实施形态2的情况下,在时间上均匀地划分内容的情 况下是有效的,在内容的每个式样中,最好分开使用上述实施形态2 和实施形态3。
实施形态4
图8是表示本发明实施形态4的影像摘要装置的结构图,图中, 由于与图2相同的号码表示相同或者相当的部分,因此省略说明。
距离判定部41在帧间距离计算部12每次计算出帧间距离时,对 由该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互 进行比较,实施判别最大帧间距离的处理。即,对由帧间距离计算部 12计算出的帧间距离与存储在最大距离缓冲器42中的最大帧间距离 进行比较,如果由帧间距离计算部12计算出的帧间距离比最大的帧 间距离大,则向时间判定部43输出表示检测出了最大帧间距离的含 义的检测信息的同时,把最大距离缓冲器42的存储内容更新成由帧 间距离计算部12计算出的帧间距离。
最大距离缓冲器42是存储由距离判定部41判别了的最大帧间距 离的存储器。
另外,由距离判定部41以及最大距离缓冲器42构成最大距离检 测单元。
时间判定部43如果从距离判定部41接收到最大帧间距离的检测 信息,则求出从存储在最大距离帧时刻缓冲器44中的帧的时刻(从 距离判定部41接收到前一次检测信息的时刻的帧的时刻)到当前帧 的时刻为止的时刻差,在该时刻差比预先设定的内容时间分割间隔 (分割影像内容的时间间隔)大的情况下,把当前帧的时刻作为重要 帧的开始时刻输出的同时,实施把最大距离帧时刻缓冲器44的存储 内容更新成当前帧的时刻的处理。
最大距离帧时刻缓冲器44是存储判别了最大距离的时刻的帧的 时刻的存储器。
另外,由时间判定部43以及最大距离帧时刻缓冲器44构成重要 帧检测单元。
其次说明动作。
如果输入影像信号,则特征量抽取部11与上述实施形态1相同, 从该影像信号抽取表示帧的特征的特征量。
作为表示帧的特征的特征量,例如,除了与过去的帧的差分以外, 还可以举出颜色的直方图、颜色的配置信息、结构信息、运动信息等, 既可以使用某一个特征量也可以使用多个特征量。
如果特征量抽取部11抽取出当前帧的特征量,则帧间距离计算 部12与上述实施形态1相同,从特征量缓冲器13读出前一个帧的特 征量(由特征量抽取部11前一次抽取出的帧的特征量)。
而且,帧间距离计算部12使用预定的评价函数对当前帧的特征 量与前一个帧的特征量进行比较,计算作为这些特征量之间的距离 (非类似度)的帧间距离。
另外,如果帧间距离计算部12计算出帧间距离,则把特征量缓 冲器13的存储内容更新成当前帧的特征量。
距离判定部41在帧间距离计算部12每次计算帧间距离时,对由 该帧间距离计算部12直到当前时刻为止所计算出的帧间距离相互进 行比较,判别最大的帧间距离。
即,如果帧间距离计算部12计算出帧间距离,则距离判定部41 把该帧间距离与存储在最大距离缓冲器42中的最大的帧间距离进行 比较,如果由帧间距离计算部12计算出的帧间距离比最大的帧间距 离大,则向时间判定部43输出表示检测出了最大的帧间距离的含义 的检测信息。
这时,距离判定部41把最大距离缓冲器42的存储内容更新成由 帧间距离计算部12计算出的帧间距离。
时间判定部43如果从距离判定部41接收到最大帧间距离的检测 信息,则求出从存储在最大距离帧时刻缓冲器44中的帧的时刻(从 距离判定部41接收到前一次检测信息的时刻的帧的时刻)到当前帧 的时刻为止的时刻差。
而且,时间判定部43在该时刻差比预先设定的内容时间分割间 隔大的情况下,把当前帧的时刻作为重要帧的开始时刻输出的同时, 把最大距离帧时刻缓冲器44的存储内容更新成当前帧的时刻。
如从上述所明确的那样,依据本实施形态4,由于构成为如果从 距离判定部41接收到最大帧间距离的检测信息,则求出从存储在最 大距离帧时刻缓冲器44中的帧的时刻到当前帧的时刻为止的时刻差, 在该时刻差比预先设定的内容时间分割间隔大的情况下,把当前帧的 时刻作为重要帧的开始时刻输出,因此在保持时间间隔的同时,能够 仅用帧间距离和时间间隔找出内容的大的变化点(参照图9)。由此, 起到以非常小的计算负荷就能够进行影像的自动编辑或者简便的摘 要再生的视听的效果。
另外,在求帧间距离时,也可以不使用邻接的帧而使用离开的帧 来谋求处理的高速化。
实施形态5
图10是表示本发明实施形态5的影像摘要装置的结构图,图中, 由于与图5相同的号码表示相同或者相当的部分,因此省略说明。
距离判定部51在由切割点检测部1检测出了切割点的情况下, 在帧间距离计算部12每次计算帧间距离时,对由该帧间距离计算部 12直到当前时刻为止所计算出的帧间距离相互进行比较,实施判别最 大的帧间距离的处理。即,对由帧间距离计算部12计算出的帧间距 离与存储在最大距离缓冲器42中的最大的帧间距离进行比较,如果 由帧间距离计算部12计算出的帧间距离比最大的帧间距离大,则把 最大距离切割点开始时刻缓冲器52的存储内容更新成当前帧的时刻 的同时,把最大距离缓冲器42的存储内容更新成由帧间距离计算部 12计算出的帧间距离。
最大距离切割点开始时刻缓冲器52是存储最大帧间距离的切割 点的开始时刻的存储器。
另外,由距离判定部51、最大距离缓冲器42以及最大距离切割 点开始时刻缓冲期52构成最大距离检测单元。
时间分割判定部53输出由时间间隔设定部21所设定的内容分割 时间间隔中的重要镜头的开始点的时刻。即,在当前帧的时刻是由时 间间隔设定部21设定的内容分割时间间隔的整数倍的情况下,实施 把存储在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的 切割点的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输 出的处理。
另外,时间分割判定部53构成重要镜头检测单元。
其次说明动作。
如果输入由用户设定的摘要视听时间TDijest、影像内容的时间分 割数n以及影像内容长度TContent,则时间间隔设定部21与上述实施 形态2相同,根据这些输入信息设定重要镜头的个数Nshot、内容分割 时间间隔TSegment以及镜头视听时间TPlay。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
另外,如果特征量抽取部11抽取出当前帧的特征量,则切割点 检测部1的帧间距离计算部12与上述实施形态1相同,计算帧间距 离(参照图2)。
如果切割点检测部1检测出切割点,则距离判定部51在帧间距 离计算部12每次计算出帧间距离时,对由该帧间距离计算部12直到 当前时刻为止计算出的帧间距离相互进行比较,判别最大的帧间距 离。
即,距离判定部51当切割点检测部1检测出了切割点时,如果 帧间距离计算部12计算出帧间距离,则把该帧间距离与在最大距离 缓冲器42中存储的最大的帧间距离进行比较,如果由帧间距离计算 部12计算出的帧间距离比最大的帧间距离大,则把最大距离切割点 开始时刻缓冲器52的存储内容更新成当前帧的时刻的同时,实施把 最大距离缓冲器42的存储内容更新成由帧间距离计算部12计算出的 帧间距离的处理。
时间分割判定部53输出由时间间隔设定部21所设定的内容分割 时间间隔TSegment中的重要镜头的开始点的时刻。
即,时间分割判定部53在当前帧的时刻是由时间间隔设定部21 所设定的内容分割时间间隔TSegment的整数倍的情况下,实施把存储 在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点 的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输出的处 理。
如从以上所明确的那样,依据本实施形态5,由于构成为设置了 在由切割点检测部1检测出了切割点的情况下,在帧间距离计算部12 每次计算出帧间距离时,对由该帧间距离计算部12直到当前时刻为 止所计算出的帧间距离相互进行比较,检测出最大的帧间距离的距离 判定部51,在由时间间隔设定部21所设定的时间间隔中,把由距离 判定部51检测出了最大的帧间距离的帧的时刻作为重要镜头的开始 时刻输出,因此能够在时间上均匀地分割影像内容,在各个分割了的 区间中能够把变化大的切割点检测为各个时间间隔中的代表性的场 景。由此,起到能够以非常小的计算负荷,进行影像的自动编辑或者 简便的摘要再生的视听的效果。
另外,在求帧间距离时,也可以不使用邻接的帧而使用离开了的 帧来谋求处理的高速化。
实施形态6
图11是表示本发明实施形态6的影像摘要装置的结构图,图中, 由于与图6以及图10相同的号码表示相同或者相当的部分,因此省 略说明。
镜头代表范围判定·再设定部54在当前帧的时刻超过镜头代表范 围的结束点的情况下,计算并输出重要镜头再生时间,同时,把存储 在最大距离切割点开始时刻缓冲器52中的最大的帧间距离的切割点 的开始时刻作为在摘要再生中使用的重要镜头的开始时刻输出。另 外,镜头代表范围判定·再设定部54生成镜头代表范围的更新数据, 更新时间分割点缓冲器33的存储内容。
另外,由时间间隔设定部31、镜头代表范围初始设定部32、时 间分割点缓冲器33以及镜头代表范围判定·再设定部54构成时间间隔 设定单元。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部31与上述实 施形态3相同,根据这些输入信息设定重要镜头的个数Nshot、内容分 割时间间隔的初始值TSegment0以及镜头基准视听时间TPlay0。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
如果时间间隔设定部31设定了内容分割时间间隔的初始值 TSegment0,则镜头代表范围初始设定部32与上述实施形态3相同,从 该内容分割时间间隔的初始值TSegment0和影像内容长度TContent设定镜 头代表范围的初始值(镜头代表范围的开始点PStart、暂定镜头代表范 围的结束点PEnd_temp)。
PStart=O
PEnd_temp=TContent/Nshot=TSegment0
如果镜头代表范围初始设定部32设定镜头代表范围的初始值, 则把该镜头代表范围的初始值保存到时间分割点缓冲器33中。
如果输入影像信号,则与上述实施形态1相同,切割点检测部1 实施检测其影像的切割点的处理。
另外,如果特征量抽取部11抽取出当前帧的特征量,则切割点 检测部1的帧间距离计算部12与上述实施形态1相同,计算帧间距 离(参照图2)。
在由切割点检测部1检测出了切割点的情况下,距离判定部51 与上述实施形态5相同,如果帧间距离计算部12计算出帧间距离, 则实施对该帧间距离与存储在最大距离缓冲器42中的最大的帧间距 离进行比较,如果由帧间距离计算部12计算出的帧间距离比最大的 帧间距离大,则把最大距离切割点开始时刻缓冲器52的存储内容更 新成当前帧的时刻,同时,把最大距离缓冲器42的存储内容更新成 由帧间距离计算部12计算出的帧间距离的处理。
镜头代表范围判定·再设定部54在当前帧的时刻PNow超过存储在 时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp的情 况下,如下述那样,计算镜头代表范围的结束点PEnd和重要镜头再生 时间TPlay,输出该重要镜头再生时间TPlay。
PEnd=PNow+PShot_Start-PStart
TPlay=(PEnd-PStart)*TPlay0/TSegment0
式中,PShot_Start是存储在最大距离切割点开始时刻缓冲器52中 的最大的帧间距离的切割点的开始时刻。
另外,镜头代表范围判定·再设定部54在当前帧的时刻PNow超过 存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp 的情况下,把存储在最大距离切割点开始时刻缓冲器52中的最大帧 间距离的切割点的开始时刻PShot_Start作为在摘要再生中使用的重要镜 头的开始时刻输出的同时,更新存储在时间分割点缓冲器33中的镜 头代表范围的开始点PStart和暂定镜头代表范围的结束点PEnd_temp。
更新后的镜头代表范围如下。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
如从上述所明确的那样,依据本实施形态6,由于构成为根据由 距离判定部51检测出了最大的帧间距离的帧的时刻更新镜头代表范 围,因此起到能够使内容的划分点或者划分了的内容中的重要镜头的 再生时间适应性地发生变化的效果。
另外,在上述实施形态5的情况下,在时间上均匀地划分内容的 情况下是有效的,在内容的每个式样中,最好分开使用上述实施形态 5和实施形态6。
实施形态7
图12是表示本发明实施形态7的影像摘要装置的结构图,图中, 由于与图1相同的号码表示相同或者相当的部分因此省略说明。
距离平均计算部61在切割点检测部1的帧间距离计算部12每次 计算出帧间距离时,实施计算由该帧间距离计算部12直到当前时刻 为止所计算出的帧间距离的平均值的处理。另外,距离平均计算部61 构成平均值计算单元。
关键帧候选判定部62在由帧间距离计算部12计算出的帧间距离 与由平均值计算部61计算出的平均值的差分值比存储在最小值缓冲 器63中的最小值小的情况下,把表示该差分值小于最小值的含义的 最小值检测信号输出到略图候选图像缓冲器64的同时,把最小值缓 冲器63的存储内容更新成该差分值。
最小值缓冲器63是存储最小值的存储器,略图候选图像缓冲器 64是如果从关键帧候选判定部62接收到最小值检测信号,则把影像 信号的影像存储为略图候选图像的存储器。
另外,由关键帧候选判定部62、最小值缓冲器63以及略图候选 图像缓冲器64构成略图候选图像存储单元。
如果切割点检测部1检测出切割点,则略图生成部65实施从存 储在略图候选图像缓冲器64中的略图候选图像生成略图的处理。另 外略图生成部65构成略图生成单元。
其次说明动作。
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
另外,如果特征量抽取部11抽取出当前帧的特征量,则切割点 检测部1的帧间距离计算部12与上述实施形态1相同,计算帧间距 离(参照图2)。
距离平均计算部61在切割点检测部1判定为当前的帧不是切割 点的情况下,在帧间距离计算部12每次计算帧间距离时,计算由该 帧间距离计算部12直到当前时刻为止所计算出的帧间距离的平均值。
关键帧候选判定部62在切割点检测部1判定为当前的帧不是切 割点的情况下,如果距离平均计算部61计算出帧间距离的平均值, 则求出由帧间距离计算部12计算出的帧间距离与由平均值计算部61 计算出的平均值的差分值,对该差分值与存储在最小值缓冲器63中 的最小值进行比较。
关键帧候选判定部62在该差分值比存储在最小值缓冲器63中的 最小值小的情况下把表示该差分值比最小值小的含义的最小值检测 信号输出到略图候选图像缓冲器64的同时,把最小值缓冲器63的存 储内容更新为该差分值。
如果略图候选图像缓冲器64从关键帧候选判定部62接收到最小 值检测信号,则把影像信号的影像存储为略图候选图像。
如果切割点检测部1检测出切割点,则略图生成部65读出存储 在略图候选图像缓冲器64中的略图候选图像,从该略图候选图像生 成并输出略图。
另外,在求帧间距离时,也可以不使用邻接的帧而使用离开的帧 来谋求处理的高速化。
一般,在影像内容中的同一个镜头中,也根据摄影机的摇摄 (panning)、俯仰(tilting)、变焦或者人物的运动,在图像中看到 差异。
另外,摇摄、俯仰、变焦或者人物的运动安定下来时,是该镜头 中的重要图像的情况很多。
这时,帧间距离Distn减小,如果其持续较长的时间,则帧间距 离的平均值avgi(Distn)减小。
在本实施形态7中,把|Distn-avgi(Distn)|成为最小的n的 图像作为第i个镜头中的代表图像。
由此,能够有效地检测代表各镜头的图像,用户能够更简单地从 影像内容中再生希望视听的场景。
实施形态8
图13是表示本发明实施形态8的影像摘要装置的结构图,图中 由于与图1相同的号码表示相同或者相当的部分,因此省略说明。
重要镜头长度缓冲器71是如果重要镜头判定部4检测出重要镜 头,则存储由镜头长度计算部2计算出的重要镜头的镜头长度的存储 器。此外,由重要镜头长度缓冲器71构成重要镜头长度存储单元。
重要镜头再生时间计算部72从存储在重要镜头长度缓冲器71 中的重要镜头的镜头长度和预先设定的摘要视听时间实施计算重要 镜头的再生时闻的处理。另外,重要镜头再生时间计算部72构成再 生时间计算单元。
其次说明动作。
如果镜头长度计算部2计算出镜头长度,则重要镜头判定部4 与上述实施形态1相同,对该镜头长度与预先设定的阈值A进行比较, 判定以由切割点检测部1检测出的切割点的前一个切割点为起点的镜 头是否是重要镜头,输出其判定结果。
这里,表示了重要镜头判定部4与上述实施形态1相同,检测重 要镜头的情况,而重要镜头的检测方法不限于上述实施形态1中记载 的方法,例如也可以使用上述实施形态2~6中记载的方法。
重要镜头再生时间计算部72在输入由用户所设定的摘要视听时 间PT时,如满足下述式子那样,从该摘要视听时间PT和存储在重 要镜头长度缓冲器71中的第i个重要镜头的镜头长度SLi计算第i个 重要镜头的再生时间TSi。
[数1]
PT = Σ i = 0 m PS i
PS i = PT m Σ i = 0 m SL i SL i
式中,m是重要镜头的个数。
如在上述中所明确的那样,依据本实施形态8,由于构成为从存 储在重要镜头长度缓冲器71中的重要镜头的镜头长度和预先设定的 摘要视听时间计算重要镜头的再生时间,因此起到能够以与各镜头的 长度相对应的权重设定摘要再生时的各重要镜头的视听时间的效果。
实施形态9
图14是表示本发明实施形态9的影像摘要装置的结构图,图中 由于与图1相同的号码表示相同或者相当的部分因此省略说明。
重要镜头判定部81从存储在镜头开始点缓冲器3中的切割点的 检测时刻计算以各切割点为起点的镜头的镜头长度,与所希望的摘要 视听时间相匹配地,实施从多个镜头中把镜头长度长的镜头优先决定 为再生对象的镜头的处理。另外,重要镜头判定部81构成重要镜头 判定单元。
其次说明动作。
如果输入影像信号,则与上述实施形态1相同,切割点检测部1 实施检测其影像的切割点的处理。
如果切割点检测部1检测出影像的切割点,则把该切割点的检测 时刻存储到镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则重要镜头判定部81从 镜头开始点缓冲器3取得切割点的检测时刻,从该检测时刻计算以各 切割点为起点的镜头的镜头长度。
而且,重要镜头判定部81与所希望的摘要视听时间相匹配地, 通过从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头 (重要镜头),决定重要镜头的开始点和再生时间。
具体如下。
重要镜头判定部81例如在影像信号中有m个镜头的情况下,使 用m个镜头中的第i个镜头的开始点的时刻STi(第i个切割点的检 测时刻)和第i+1个镜头的开始点的时刻STi+1,求出第i个镜头的 镜头长度SLi。
SLi=STi+1-STi
重要镜头判定部81如上述那样,如果求出包含在影像信号中的 m个镜头的镜头长度SLi,则按照镜头长度SLi变短的顺序排序(sort) m个镜头。
如果设排序后的镜头长度为SSLi,由于按照变短的顺序进行排 序,因此成为SSLi≥SSLi+1。
接着,重要镜头判定部81在排序后的镜头长度SSLi上乘以系数 α,计算各乘法结果αSSLi的总和。其中,系数α的值域是0<α≤1。
重要镜头判定部81对各乘法结果αSSLi的总和与摘要视听时间 TDijest进行比较,求出满足下述不等式的最大的k。
[数2]
T Dijest α Σ i = 0 k SSL i
如果求出满足上述不等式的最大的k,则重要镜头判定部81把 这时的镜头长度SSLk设定为在判别重要镜头时使用的镜头长度的阈 值SLTh。
如果重要镜头判定部81设定了镜头长度的阈值SLTh,则对包含 在影像信号中的m个镜头的镜头长度SLi与阈值SLTh进行比较,认 定为满足SLTh<SLi的镜头是重要镜头,把该重要镜头决定为再生对 象的镜头。
这时,使再生对象的镜头的再生时间为αSLi。由此,摘要再生 的时间成为小于等于摘要视听时间TDijest。
如从上述所明确的那样,依据本实施形态9,由于构成为从存储 在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点 的镜头的镜头长度,与所希望的摘要视听时间相匹配地,从多个镜头 中把镜头长度长的镜头优先决定为再生对象的镜头,因此起到用户能 够仅视听重要镜头的效果。
另外,如果减小系数α的值,则再生对象的镜头的数量增加,每 一个镜头的再生时间缩短。反之,如果加大系数α的值,则再生对象 的镜头的数量减少,增加每一个镜头的再生时间。
因此,系数α的值最好根据内容的式样或者特征、用户的希望分 开使用。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态10
图15是表示本发明实施形态10的影像摘要装置的结构图,图中, 由于与图1以及图14相同的号码表示相同或者相当的部分,因此省 略说明。
时间间隔设定部91从影像内容长度、由用户设定的所希望的摘 要视听时间、由用户设定或者自动设定的时间分割数(时间上分割内 容的数量),计算内容分割时间间隔(成为时间上分割内容的基准的 时间)、基准分割摘要视听时间(成为对所分割的时间进行摘要视听 的基准的时间)。另外,时间间隔设定部91构成时间间隔设定单元。
重要镜头判定部81与图14的重要镜头判定部81相同,从存储 在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起点 的镜头的镜头长度,与所希望的摘要视听时间相匹配地,从多个镜头 中把镜头长度长的镜头优先决定为再生对象的镜头,而图15的重要 镜头判定部81根据在由时间间隔设定部91所设定的时间间隔中,存 储在镜头开始点缓冲器3中的切割点的检测时刻计算以各切割点为起 点的镜头的镜头长度。
时间分割点缓冲器92是存储分割了内容的时刻的存储器。
其次说明动作。
时间间隔设定部91在输入由用户所设定的摘要视听时间TDijest、 影像内容的时间分割数n以及影像内容长度TContent时,根据这些输入 信息,设定内容分割时间间隔TSegment以及基准分割摘要视听时间 TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
如果输入影像信号,则与上述实施形态1相同,切割点检测部1 实施检测其影像的切割点的处理。
切割点检测部1如果检测出影像的切割点,则把该切割点的检测 时刻存储到镜头开始点缓冲器3的同时,把切割点的判定结果输出到 重要镜头判定部81。
重要镜头判定部81如果从切割点检测部1接收到切割点的判定 结果,则决定重要镜头的开始时刻以及重要镜头的再生时间。
具体如下。
首先,重要镜头判定部81参照当前帧时刻TNow和存储在时间分 割点缓冲器92中的前一次的分割时间帧时刻TPre。
重要镜头判定部81如下述那样,在当前的帧时刻TNow与前一次 的分割时间帧时刻TPre的差超过内容分割时间间隔TSegment的情况下, 参照从切割点检测部1输出的切割点判定结果。
TSegment≤TNow-TPre
重要镜头判定部81在切割点的判定结果表示是切割点的含义的 情况下,把该切割点作为影像内容的分割点,计算分割成m个的影像 内容的第i个分割摘要视听时间TS_Dijest,i。
[数3]
T S _ Dijest , i = T now - T Pre T Segment × T S _ Dijest
重要镜头判定部81由于在知道了第i+1个分割点的时刻,知道 全部的第i个分割区间的镜头开始点的时刻及其个数,因此设在该第 i个区间中有n个镜头。使用该n个镜头中第j个镜头的开始点的时 刻STi,j和第j+1个镜头的开始点的时刻STi,j+1,求第j个镜头的镜 头长度SLi,j。
SLi,j=STi,j+1-STi,j
如果重要镜头判定部81如上述那样求出分割区间中的影像中的 n个镜头的镜头长度SLi,j,则按照镜头长度SLi,j变短的顺序排序n 个镜头。
如果设排序后的镜头长度为SSLi,j,则由于按照变短的顺序进行 排序,因此成为SSLi,j≥SSLi,j+1。
接着,重要镜头判定部81在排序后的镜头长度SSLi,j上乘以系 数α,计算各乘法结果αSSLi,j的总和。式中,系数α的值域是0<α≤1。
重要镜头判定部81把各乘法结果αSSLi,j的总和与分割摘要视 听时间TS_Dijest,i进行比较,求满足下述不等式的最大的k。
[数4]
T S _ Dijest , i α Σ j = 0 k SSL i , j
如果求出满足上述不等式的最大的k,则重要镜头判定部81把 这时的镜头长度SSLi,k设定为在第i个区间中,在判别重要镜头时使 用的镜头长度的阈值SLTh,i。
如果设定了镜头长度的阈值SLTh,i,则重要镜头判定部81在第 i个区间中,对包含在影像信号中的n个镜头的镜头长度SLi,j与阈值 SLTh,i进行比较,认定满足SLTh,i<SLi,j的镜头是重要镜头,把该重 要镜头决定为再生对象的镜头。
这时,设再生对象的镜头的再生时间为αSLi,j。由此分割了的影 像中的摘要再生的时间成为小于等于TS_Dijest,i。
另外,如果减小系数α的值,则成为再生对象的镜头的数量增加, 每一个镜头的再生时间缩短。反之,如果加大系数α的值,则再生对 象的镜头的数量减少,增加每一个镜头的再生时间。
在本实施形态10中,还能够根据分割区间改变系数α的值。
例如,在节目前半部分的新闻内容中,能够使用在节目前半部分 的头条新闻中加大系数α,加长视听认为最重要的部分,在后半部分 的短新闻的连续部分中,减小系数α,对概要进行视听等使用方法。
在上述实施形态9的情况下,当内容非常长时,内容整体的镜头 长度排序的计算处理量有时非常庞大,而在本实施形态10中,由于 只要在第i个区间中计算镜头长度排序即可,因此即使在内容非常长 的情况下,也不会导致计算处理量的庞大化,用户能够仅对重要镜头 进行视听。
另外,作为镜头长度或者镜头开始点等时间信息,还能够使用时 刻、帧编号、影像压缩数据中的时间信息等的任一个。
实施形态11
图16是表示本发明实施形态11的影像摘要装置的结构图,图中, 由于与图1相同的号码表示相同或者相当的部分,因此省略说明。
镜头统计处理部101实施从存储在镜头开始点缓冲器3中的时刻 计算以各切割点为起点的镜头的镜头长度,求出与该镜头长度有关的 统计性的分布函数,与所希望的摘要视听时间相匹配地,从多个镜头 中根据上述分布函数决定再生对象的镜头的处理。另外,镜头统计处 理部101构成重要镜头判定单元。
其次说明动作。
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
如果切割点检测部1检测出影像的切割点,则把该切割点的检测 时刻存储到镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则镜头统计处理部101 从镜头开始点缓冲器3取得切割点的检测时刻,从该检测时刻计算以 各切割点为起点的镜头的镜头长度,求出与该镜头长度有关的统计性 的分布函数。
而且,镜头统计处理部101与所希望的摘要视听时间相匹配地, 通过从多个镜头中根据上述分布函数决定再生对象的镜头(重要镜 头),来决定重要镜头的开始点和再生时间。
具体如下。
镜头统计处理部101例如在影像信号中有m个镜头的情况下, 使用m个镜头中的第i个镜头的开始点的时刻STi和第i+1个镜头的 开始点的时刻STi+1,求第i个镜头的镜头长度SLi。
SLi=STi+1-STi
假定如果镜头统计处理部101如上述那样求出包含在影像信号 中的m个镜头的镜头长度SLi,则镜头长度SLi是SLi>0,镜头长度 SLi遵从对数正态分布。
这时,镜头长度SLi为x的概率p(x),即,分布概率p(x) 如下。
[数5]
p ( x ) = 1 2 π σx exp { - ( ln x - μ ) 2 2 σ 2 }
式中,μ是SLi的平均值,σ2是SLi的分散值。
图17是表示镜头长度的对数正态分布的说明图。
能够从镜头长度SLi容易地计算出上述的平均值μ和分散值σ2。
由于影像内容长度是TContent,因此分布概率p(x)能够如下式 那样表示。
[数6]
0 p ( x ) dx = 0 T Content p ( x ) dx = 1
另外,由于影像中的镜头数量是m个,因此在影像中,长度为x 的镜头的个数成为m×p(x)。从而,该概率分布p(x)与影像内容 长度TContent的关系用下式表示。
[数7]
T Content = m 0 T Content xp ( x ) dx
图18是表示镜头长度与影像内容长度TContent的关系的说明图。
由此,作为0<α≤1,能够在计算机上求出满足下述不等式的最 小的x0。
[数8]
T Dijest αm x 0 T Content xp ( x ) dx
镜头统计处理部101如果求出满足上述不等式的最小的x0,则把 该x0设定为在判别重要镜头时使用的镜头长度的阈值SLTh。
镜头统计处理部101如果设定了镜头长度的阈值SLTh,则对包 含在影像信号中的m个镜头的镜头长度SLi与阈值SLTh进行比较, 认定为满足SLTh<SLi的镜头是重要镜头,把该重要镜头决定为再生 对象的镜头。
这时,设再生对象的镜头的再生时间为αSLi。由此,摘要再生 的时间大致成为摘要视听时间TDijest。其中,在假定为实际镜头长度 的分布的概率分布p(x)的差大的情况下也可以进行修正。
在本实施形态11中,在影像内容结束以后计算在统计处理中使 用的平均值μ和分散值σ2,而例如关于直到第i个为止的平均值μi, 也可以使用以下的式子在每次检测出切割点时,顺序计算并更新。
μi=(SLi+(i-1)μi-1)/i
同样,关于分散值σ2,也可以顺序进行类似的计算并更新。另 外,可以进行任意的近似计算。
另外,本实施形态11中,在分布函数中使用对数正态分布,而 例如也可以使用正态分布等其它的分布函数。
另外,如果减小系数α的值,则再生对象的镜头数增加,每一个 镜头的再生时间缩短。反之,如果加大系数α的值,则再生对象的镜 头数减少,增加每一个镜头的再生时间。
因此,系数α的值最好根据内容的式样或者特征、用户的希望分 开使用。
通过使用该实施形态11,能够根据所利用的计算机的能力改变 统计处理的精度,即使在便携设备等中,用户也能够仅对重要镜头进 行视听。
另外,作为镜头长度或者镜头开始点等时间信息,也可以使用时 刻、帧编号、影像压缩数据中的时间信息等。
实施形态12
图19是表示本发明实施形态12的影像摘要装置的结构图,图中, 由于与图15以及图16相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
时间间隔设定部91在输入由用户所设定的摘要视听时间TDijest、 影像内容的时间分割数n以及影像内容长度TContent时,根据这些输入 信息,设定内容分割时间间隔TSegment以及基准分割摘要视听时间 TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
如果输入影像信号,则切割点检测部1与上述实施形态1相同, 实施检测其影像的切割点的处理。
如果切割点检测部1检测出影像的切割点,则把该切割点的检测 时刻存储到镜头开始点缓冲器3的同时,把切割点的判定结果输出到 镜头统计处理部101。
镜头统计处理部101如果从切割点检测部1接收到切割点的判定 结果,则决定重要镜头的开始时刻以及重要镜头的再生时间。
具体如下。
首先,镜头统计处理部101参照当前的帧时刻TNow和存储在时 间分割点缓冲器92中的前一次的分割时间帧时刻TPre。
镜头统计处理部101如下述那样,在当前的帧时刻TNow与前一 次的分割时间帧时刻TPre的差超过内容分割时间间隔TSegment的情况 下,参照从切割点检测部1输出的切割点的判定结果。
TSegment≤TNow-TPre
镜头统计处理部101在切割点的判定结果表示是切割点的含义 的情况下,把该切割点作为影像内容的分割点,计算分割为m个的影 像内容的第i个分割摘要视听时间TS_Dijest,i。另外,计算第i个区间 的长度TSegment,i。
[数9]
T S _ Dijest , i = T Now - T Pre T Segment × T S _ Dijest
TSegment,i=TNow-TPre
镜头统计处理部101由于在知道了第i+1个分割点的时刻,知 道全部的第i个分割区间的镜头开始点的时刻及其个数,因此设在该 第i个区间中有n个镜头。使用该n个镜头中第j个镜头的开始点的 时刻STi,j和第j+1个镜头的开始点的时刻STi,j+1,求第j个镜头的 镜头长度SLi,j。
SLi,j=STi,j+1-STi,j
假定如果镜头统计处理部101如上述那样求出包含在影像信号 中的n个镜头的镜头长度SLi,则与上述实施形态11相同,镜头长度 SLi是SLi>0,镜头长度SLi遵从对数正态分布。
这时,镜头长度SLi为x的概率p(x),即,分布概率p(x) 如下。
[数10]
p ( x ) = 1 2 π σx exp { - ( ln x - μ ) 2 2 σ 2 }
式中,μ是SLi的平均值,σ2是SLi的分散值。
由于该第i个区间的长度是TSegment,i,因此分布概率p(x)能够 如下式那样表示。
[数11]
0 p ( x ) dx = 0 T Segment , i p ( x ) dx = 1
另外,由于影像中的镜头数量是n个,因此在影像中,长度为x 的镜头的个数成为n×p(x)。从而,该概率分布p(x)与影像内容 长度TContent的关系用下式表示。
[数12]
T Segment , i = n 0 T Segment , i xp ( x ) dx
由此,作为0<α≤1,能够在计算机上求出满足下述不等式的最 小的x0。
[数13]
T S _ Dijest , i αn x 0 T Segment , i xp ( x ) dx
镜头统计处理部101如果求出满足上述不等式的最小的x0,则把 该x0设定为在判别重要镜头时使用的镜头长度的阈值SLTh,i。
镜头统计处理部101如果设定了镜头长度的阈值SLTh,i,则对包 含在影像信号中的n个镜头的镜头长度SLi,j与阈值SLTh,i进行比较, 认定为满足SLTh,i<SLi,j的镜头是重要镜头,把该重要镜头决定为再 生对象的镜头。
这时,设再生对象的镜头的再生时间为αSLi,j。由此,摘要再生 的时间大致成为分割摘要视听时间TS_Dijest,i。其中,在假定为实际镜 头长度的分布的概率分布p(x)的差大的情况下也可以进行修正。
在本实施形态12中,在影像内容结束以后计算在统计处理中使 用的平均值μ和分散值σ2,而例如关于第i个区间中的直到第j个为 止的平均值μi,j,也可以使用以下的式子在每次检测出切割点时,顺 序计算并更新。
μi,j=(SLi,j+(j-1)μi,j-1)/j
同样,关于分散值σ2,也可以顺序进行类似的计算并更新。另 外,可以进行任意的近似计算。
另外,本实施形态12中,在分布函数中使用对数正态分布,而 例如也可以使用正态分布等其它的分布函数。
另外,如果减小系数α的值,则再生对象镜头数增加,每一个镜 头的再生时间缩短。反之,如果加大系数α的值,则再生对象的镜头 数减少,增加每一个镜头的再生时间。
在本实施形态12中,还能够根据分割区间改变系数α的值。
例如,在节目前半部分的新闻内容中,能够使用在节目前半部分 的头条新闻中加大系数α,加长视听认为最重要的部分,在后半部分 的短新闻的连续部分中,减小系数α,对概要进行视听等使用方法。
在本实施形态12中,即使在用便携设备等计算处理量小的计算 机处理非常长的内容的情况下,通过调整分割处理或者统计处理的精 度,用户也能够仅对重要镜头进行视听。
另外,作为镜头长度或者镜头开始点等时间信息,还能够使用时 刻、帧编号、影像压缩数据中的时间信息等。
实施形态13
图20是表示本发明实施形态13的影像摘要装置的结构图,图中, 由于与图1相同的号码表示相同或者相当的部分,因此省略说明。
无声判定部111实施判定影像中的声音信号是否为无声,检测影 像中的声音的无声点的处理。另外,无声判定部11 1构成无声点检测 单元。
其次说明动作。
无声判定部111判定影像中的声音信号是否为无声,检测影像中 的声音的无声点。
如果无声判定部111检测出影像中的声音的无声点,则把该无声 点视为切割点,把其检测结果作为切割点的判定结果输出到镜头长度 计算部2。
作为无声点的检测方法,例如考虑对音量与阈值进行比较的方法 等。而也可以使用其它的方法。
镜头长度计算部2在从无声判定部111输出的切割点的判定结果 表示不是切割点的含义的情况下,不特别实施处理,而在切割点的判 定结果表示是切割点的含义的情况下,与上述实施形态1相同,求出 当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的 时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新为当前帧的时刻。
重要镜头判定部4如果镜头长度计算部2计算出镜头长度,则与 上述实施形态1相同,把该镜头长度与预先设定的阈值A进行比较。
而且,重要镜头判定部4在该镜头长度比预先设定的阈值A长 的情况下,判定以由无声判定部111检测出的无声点(切割点)的前 一个无声点(切割点)为起点的镜头是重要镜头,输出其判定结果。
这里,重要镜头判定部4判定为以前一个切割点为起点的镜头是 重要镜头,而也可以判定为以前一个切割点为起点的镜头的下一个镜 头是重要镜头,还可以判定为以前一个切割点为起点的镜头和下一个 镜头这双方是重要镜头。
依据本实施形态13,由于不是把影像而是把声音信号的无声点 视为影像内容的切割点,因此例如能够仅视听戏剧或者电影内容的故 事中重要的长的台词或者讲述、音乐节目中的乐曲部分。另外,通过 使用无声点,能够减少连续视听重要镜头时的不自然感。
另外,在本实施形态13的影像摘要装置中,还可以适用于不是 影像内容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态14
图21是表示本发明实施形态14的影像摘要装置的结构图,图中, 由于与图5相同的号码表示相同或者相当的部分,因此省略说明。
音量判定部112对影像中的声音信号的音量与阈值进行比较,实 施检测其声音信号的音量比阈值小的音量降低点的处理。另外,音量 判定部112构成音量降低点检测单元。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部21根据这些 输入信息,设定所取出的重要镜头的个数Nshot、内容分割时间间隔 TSegment以及镜头视听时间TPlay。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
在这样设定的情况下,用户对n个镜头从开头起各视听TPlay秒 钟。
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),镜头 视听时间TPlay成为0.5分钟(=30秒)。
另外,时间间隔设定部21也可以不是输入数值的信息而是输入 语句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的时 间分割数n以及影像内容长度TContent。
如果输入影像中的声音信号,则音量判定部112对该声音信号的 音量与预先所设定的阈值进行比较,检测该声音信号的音量比阈值小 的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头长度计算部2。
另外,该阈值也可以根据内容的式样变化。例如,如果是体育直 播,则提高设定阈值,检测是否有欢呼声。或者,如果是新闻节目或 者音乐节目,通过使阈值降低到噪声平附近,检测无声部分,进行 节目主持人(caster)或者记者等声音、乐曲的划分处等部分的检测。
镜头长度计算部2在从音量判定部112输出的切割点的判定结果 表示不是切割点的含义的情况下,不特别实施处理,而在切割点的判 定结果表示是切割点的含义的情况下,与上述实施形态1相同,求出 当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的 时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22与上述实施形态2相同,在镜头长度计算部 2每次计算出镜头长度时,对由该镜头长度计算部2直到当前时刻为 止所计算出的镜头长度相互进行比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算出了镜头 长度的镜头在当前时刻是最长的镜头。
如果最长镜头判定部22判别了当前时刻中的最长的镜头,则把 最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算 出的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
时间分割判定部25与上述实施形态2相同,在由时间间隔设定 部21所设定的内容分割时间间隔TSegment中,输出重要镜头的开始点 的时刻。
即,时间分割判定部25在当前帧的时刻是由时间间隔设定部21 所设定的内容分割时间间隔TSegment的整数倍的情况下,把存储在最 长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再 生中使用的重要镜头的开始时刻输出。
这里,表示了时间分割判定部25输出最长镜头的开始点的时刻 的情况,而也可以输出最长镜头的下一个镜头的开始点的时刻,或者 最长镜头和下一个镜头的开始点的时刻。
但是,这种情况下,需要设置存储最长镜头的下一个镜头的开始 点时刻的缓冲器。
如从上述所明确的那样,依据本实施形态14,由于构成为通过 进行基于音量的镜头的判别,在镜头长度计算部2每次计算出镜头长 度时,对由该镜头长度计算部2直到当前时刻为止所计算出的镜头长 度相互进行比较,检测出在由时间间隔设定部21所设定的时间间隔 中镜头长度最长的镜头,因此例如不必像多数的影像处理方法或者声 音处理方法等那样实施复杂的处理而提高计算负荷,起到能够容易地 把握内容中的重要镜头的效果。
如果把本实施形态14适用在录像装置、录音装置或者再生装置 中,则由于知道基于音量的重要镜头的开始时刻或者镜头再生时间, 因此能够进行影像的自动编辑或者简便的摘要再生的视听。另外,通 过使用音量小的部分,能够减轻连续视听重要镜头时的不自然感。
另外,本实施形态14的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时刻信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态15
图22是表示本发明实施形态15的影像摘要装置的结构图,图中, 由于与图6以及图21相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部31与上述实 施形态3相同,根据这些输入信息,设定所取出的重要镜头的个数 Nshot、内容分割时间间隔的初始值TSegment0以及镜头基准视听时间 TPlay0。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(≈300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔的初始值TSegment0成为3分钟(=180 秒),镜头基准视听时间TPlay0成为0.5分钟(=30秒)。
另外,时间间隔设定部31也可以不是输入数值的信息而是输入 语句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的时 间分割数n以及影像内容长度TContent。
如果时间间隔设定部31设定了内容分割时间间隔的初始值 TSegment0,则镜头代表范围初始设定部32与上述实施形态3相同,从 该内容分割时间间隔的初始值TSegment0和影像内容长度TContent设定镜 头代表范围的初始值(镜头代表范围的开始点PStart、暂定镜头代表范 围的结束点PEnd_temp)。
PStart=O
PEnd_temp=TContent/Nshot=TSegment0
如果镜头代表范围初始设定部32设定了镜头代表范围的初始 值,则把该镜头代表范围的初始值保存到时间分割点缓冲器33。
如果输入影像中的声音信号,则音量判定部112与上述实施形态 14相同,对其声音信号的音量与预先所设定的阈值进行比较,检测其 声音信号的音量比阈值小的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头长度计算部2。
另外,该阈值可以根据内容的式样改变。例如,如果是体育直播, 则提高设定阈值,检测是否有欢呼声。或者,如果是新闻节目或者音 乐节目,则通过使阈值降低到噪声水平附近,检测无声部分,进行节 目主持人或者记者等声音、乐曲的划分处等部分的检测。
镜头长度计算部2在从音量判定部112输出的切割点的判定结果 表示不是切割点的含义的情况下,不特别实施处理,而在切割点的判 定结果表示是切割点的含义的情况下,与上述实施形态1相同,求出 当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始点的 时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22与上述实施形态2相同,在镜头长度计算部 2每次计算出镜头长度时,对由该镜头长度计算部2直到当前时刻为 止所计算出的镜头长度相互进行比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算出了镜头 长度的镜头在当前时刻是最长的镜头。
如果最长镜头判定部22判别了当前时刻中的最长的镜头,则把 最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算 出的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
镜头代表范围判定·再设定部34在当前帧的时刻PNow超过存储在 时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp的情 况下,与上述实施形态3相同,计算镜头代表范围的结束点PEnd和重 要镜头再生时间TPlay,输出该重要镜头再生时间TPlay。
PEnd=PNow+PShot_Start-PStart
TPlay=(PEnd-PStart)*TPlay0/TSegment0
式中,PShot_Start是存储在最长镜头开始点缓冲器24中的最长镜 头的开始点的时刻。
另外,镜头代表范围判定·再设定部34在当前帧的时刻PNow超过 存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp 的情况下,把存储在最长镜头开始点缓冲器24中的最长镜头的开始 点的时刻PShot_Start作为在摘要再生中使用的重要镜头的开始时刻输出 的同时,更新存储在时间分割点缓冲器33中的镜头代表范围的开始 点PStart和暂定镜头代表范围的结束点PEnd_temp。
更新后的镜头代表范围如下。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
如从上述所明确的那样,依据本实施形态15,由于构成为通过 进行基于音量的镜头的判别,根据由最长镜头判定部22判别了的最 长镜头的开始时刻和镜头长度更新镜头代表范围,因此起到能够使内 容的划分点或者划分了的内容中的重要镜头的再生时间适应性地变 化的效果。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,本实施形态15的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态16
图23是表示本发明实施形态16的影像摘要装置的结构图,图中, 由于与图14以及图21相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入影像中的声音信号,则音量判定部112与上述实施形态 14相同,对其声音信号的音量与预先所设定的阈值进行比较,检测其 声音信号的音量比阈值小的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头开始点缓冲器3。另外, 如果检测出音量降低点,则把该音量降低点的检测时刻存储到镜头开 始点缓冲器3。
如果影像结束而接收到影像结束信号,则重要镜头判定部81与 上述实施形态9相同,从镜头开始点缓冲器3取得切割点的检测时刻, 从该检测时刻计算以各切割点为起点的镜头的镜头长度。
而且,重要镜头判定部81与所希望的摘要视听时间相匹配地, 通过从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头 (重要镜头),决定重要镜头的开始点和再生时间。
重要镜头判定部81的具体处理内容由于与上述实施形态9相同, 因此省略详细的说明。
依据本实施形态16,通过进行基于音量的镜头的判别,能够仅 视听重要镜头。另外,通过使用音量小的部分,能够减轻连续视听重 要镜头时的不自然感。
另外,本实施形态16的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态17
图24是表示本发明实施形态17的影像摘要装置的结构图,图中, 由于与图15以及图21相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部91与上述实 施形态10相同,根据这些输入信息,设定内容分割时间间隔TSegment 以及基准分割摘要视听时间TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
如果输入影像中的声音信号,则音量判定部112与上述实施形态 14相同,对其声音信号的音量与预先所设定的阈值进行比较,检测其 声音信号的音量比阈值小的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头开始点缓冲器3以及重要 镜头判定部81。另外,如果检测出音量降低点,则把该音量降低点的 检测时刻存储到镜头开始点缓冲器3。
如果从音量判定部112接收到切割点的判定结果,则重要镜头判 定部81与上述实施形态10相同,在由时间间隔设定部91所设定的 时间间隔中,从存储在镜头开始点缓冲器3中的切割点的检测时刻计 算以各切割点为起点的镜头的镜头长度,与所希望的摘要视听时间相 匹配地,从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜 头。
重要镜头判定部81的具体处理内容由于与上述实施形态10相 同,因此省略详细的说明。
上述实施形态16的情况下,当内容非常长时,有时内容整体的 镜头长度排序的计算处理量非常庞大,而在本实施形态17中,由于 只要在第i个区间中计算镜头长度排序即可,因此即使在内容非常长 的情况下,也不会导致计算处理量的庞大化,用户能够仅视听基于音 量的重要镜头。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,本实施形态17的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态18
图25是表示本发明实施形态18的影像摘要装置的结构图,图中, 由于与图16以及图21相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入影像中的声音信号,则音量判定部112与上述实施形态 14相同,对该声音信号的音量与预先所设定的阈值进行比较,检测其 声音信号的音量比阈值小的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头开始点缓冲器3。另外, 如果检测出音量降低点,则把该音量降低点的检测时刻存储到镜头开 始点缓冲器3。
如果影像结束而接收到影像结束信号,则镜头统计处理部101 与上述实施形态11相同,从镜头开始点缓冲器3取得切割点的检测 时刻(音量降低点的检测时刻),从该检测时刻计算出以各切割点为 起点的镜头的镜头长度,求出与该镜头长度有关的统计性的分布函 数。
而且,镜头统计处理部101与所希望的摘要视听时间相匹配地, 通过从多个镜头中根据分布函数决定再生对象的镜头(重要镜头), 决定重要镜头的开始点和再生时间。
镜头统计处理部101的具体处理内容由于与上述实施形态14相 同,因此省略详细的说明。
依据本实施形态18,能够根据所利用的计算机的能力改变统计 处理的精度,即使在便携设备等中,用户也能够仅视听基于音量的重 要镜头。另外,通过使用音量小的部分,能够减轻连续视听重要镜头 时的不自然感。
另外,本实施形态18的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态19
图26是表示本发明实施形态19的影像摘要装置的结构图,图中, 由于与图19以及图21相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部91与上述实 施形态12相同,根据这些输入信息,设定内容分割时间间隔TSegment 以及基准分割摘要视听时间TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
如果输入影像中的声音信号,则音量判定部112与上述实施形态 14相同,对该声音信号的音量与预先所设定的阈值进行比较,检测其 声音信号的音量比阈值小的音量降低点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出到镜头开始点缓冲器3以及镜头 统计处理部101。另外,如果检测出音量降低点,则把该音量降低点 的检测时刻存储到镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则镜头统计处理部101 与上述实施形态12相同,在由时间间隔设定部91所设定的时间间隔 中,从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检 测时刻),从该检测时刻计算出以各切割点为起点的镜头的镜头长度, 求出与该镜头长度有关的统计性的分布函数。
而且,镜头统计处理部101与所希望的摘要视听时间相匹配地, 通过从多个镜头中根据分布函数决定再生对象的镜头(重要镜头), 决定重要镜头的开始点和再生时间。
镜头统计处理部101的具体处理内容由于与上述实施形态12相 同,因此省略详细的说明。
在本实施形态19中,即使在用便携设备等计算处理量少的计算 机处理非常长的内容的情况下,通过调整分割处理或者统计处理的精 度,用户也能够仅视听基于音量的重要镜头。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,本实施形态19的影像摘要装置也可以适用于不是影像内 容而是无线电广播等仅声音的内容。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态20
图27是表示本发明实施形态20的影像摘要装置的结构图,图中, 由于与图1相同的号码表示相同或者相当的部分,因此省略说明。
AV切割点判定部121搭载有切割点检测部1和音量判定部112, 实施从切割点检测部1的判定结果和音量判定部112的判定结果,最 终进行切割点判定的处理。
图28是表示本发明实施形态20的影像摘要装置的AV切割点判 定部121的结构图,图中,当从切割点检测部1输出的判定结果表示 是切割点的含义,而且从音量判定部112输出的判定结果表示是切割 点的含义时,同步判定部122实施这样的处理,即进行是切割点的含 义的最终判定。
其次说明动作。
如果输入影像信号,则AV切割点判定部121的切割点检测部1 与上述实施形态1相同,检测其影像的切割点。但是,切割点的检测 方法也可以是与上述实施形态1不同的方法。
如果输入影像中的声音信号,则AV切割点判定部121的音量判 定部112与上述实施形态14相同,对该声音信号的音量与预先所设 定的阈值进行比较,检测出其声音信号的音量比阈值小的音量降低 点。
音量判定部112不是把声音信号的音量比阈值大的点视为切割 点,而是把声音信号的音量比阈值小的音量降低点视为切割点,把其 检测结果作为切割点的判定结果输出。
AV切割点判定部121的同步判定部122当从切割点检测部1输 出的判定结果表示是切割点的含义,而且从音量判定部112输出的判 定结果表示是切割点的含义时,进行是切割点的含义的最终判定。
即,如果切割点检测部1和音量判定部112在同一个定时中检测 出切割点,则同步判定部122把该切割点视为影像内容中的切割点, 而即使切割点检测部1或者音量判定部112的某一个检测出切割点, 但另一个没有检测出切割点,则不把该切割点视为影像内容中的切割 点。
镜头长度计算部2在从AV切割点判定部121输出的切割点的判 定结果表示不是切割点的含义的情况下,不特别实施处理,而在切割 点的判定结果表示是切割点的含义的情况下,与上述实施形态1相同, 求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始 点的时刻的时刻差,把该时刻差作为镜头长度,输出到重要镜头判定 部4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
如果镜头长度计算部2计算出镜头长度,则重要镜头判定部4 与上述实施形态1相同,对该镜头长度与预先所设定的阈值A进行比 较。
而且,重要镜头判定部4在该镜头长度比预先所设定的阈值A 长的情况下,判定为以由AV切割点判定部121检测出的切割点的前 一个切割点为起点镜头是重要镜头,输出其判定结果。
这里,重要镜头判定部4判定为以前一个切割点为起点的镜头是 重要镜头,而也可以判定为以前一个切割点为起点的镜头的下一个镜 头是重要镜头,还可以判定为以前一个切割点为起点的镜头和下一个 镜头这双方是重要镜头。
依据本实施形态20,通过使用影像和音量这双方判定切割点, 得到长的镜头,用户能够仅视听重要镜头。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态21
图29是表示本发明实施形态21的影像摘要装置的结构图,图中, 由于与图5以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部21与上述实 施形态2相同,根据这些输入信息,设定所取出的重要镜头的个数 Nshot、内容分割时间间隔TSegment以及镜头视听时间TPlay。
Nshot=n
TSegment=TContent/n
TPlay=TDijest/n
在这样设定了的情况下,用户能够对n个镜头从开头起各视听 TPlay秒钟。
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),镜头 视听时间TPlay成为0.5分钟(=30秒)。
另外,时间间隔设定部21也可以不是输入数值的信息而是输入 语句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的时 间分割数n以及影像内容长度TContent。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果,最终进行切割点的判 定。
镜头长度计算部2在从AV切割点判定部121输出的切割点的判 定结果表示不是切割点的含义的情况下,不特别实施处理,而在切割 点的判定结果表示是切割点的含义的情况下,与上述实施形态1相同, 求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始 点的时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部 4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22与上述实施形态2相同,在镜头长度计算部 2每次计算出镜头长度时,对由该镜头长度计算部2直到当前时刻为 止所计算出的镜头长度相互进行比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算了镜头长 度的镜头在当前时刻是最长的镜头。
如果最长镜头判定部22判别出当前时刻中的最长的镜头,则把 最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算 出的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
时间分割判定部25与上述实施形态2相同,输出在由时间间隔 设定部21所设定的内容分割时间间隔TSegment中的重要镜头的开始点 的时刻。
即,时间分割判定部25在当前帧的时刻是由时间间隔设定部21 所设定的内容分割时间间隔TSegment的整数倍的情况下,把存储在最 长镜头开始点缓冲器24中的最长镜头的开始点的时刻作为在摘要再 生中使用的重要镜头的开始时刻输出。
这里,表示了时间分割判定部25输出最长镜头的开始点的时刻 的情况,而也可以输出最长镜头的下一个镜头的开始点的时刻,或者 最长镜头和下一个镜头的开始点的时刻。
但是,这种情况下,需要设置存储最长镜头的下一个镜头的开始 点的时刻的缓冲器。
如从上述所明确的那样,依据本实施形态21,由于构成为通过 进行基于影像和音量双方的镜头的判别,在镜头长度计算部2每次计 算出镜头长度时,对由该镜头长度计算部2直到当前时刻为止所计算 出的镜头长度相互进行比较,在由时间间隔设定部21所设定的时间 间隔中检测镜头长度最长的镜头,因此例如不会像多数的影像处理方 法或者声音处理方法等那样实施复杂的处理而提高计算负荷,起到能 够容易地把握内容中的重要镜头的效果。
如果把本实施形态21适用在录像装置、录音装置或者再生装置 中,则由于知道基于影像和音量的重要镜头的开始时刻或者镜头再生 时间,因此能够进行影像的自动编辑或者简便的摘要再生的视听。另 外,通过使用音量小的部分,能够减轻连续视听重要镜头时的不自然 感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态22
图30是表示本发明实施形态22的影像摘要装置的结构图,图中, 由于与图6以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部31与上述实 施形态3相同,根据这些输入信息,设定所取出的重要镜头的个数 Nshot、内容分割时间间隔的初始值TSegment0以及镜头基准视听时间 TPlay0。
Nshot=n
TSegment0=TContent/n
TPlay0=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔的初始值TSegment0成为3分钟(=180 秒),镜头基准视听时间TPlay0成为0.5分钟(=30秒)。
另外,时间间隔设定部31也可以不是输入数值的信息,而是输 入语句的信息,分析该语句,判别摘要视听时间TDijest、影像内容的 时间分割数n以及影像内容长度TContent。
如果时间间隔设定部31设定了内容分割时间间隔的初始值 TSegment0,则镜头代表范围初始设定部32与上述实施形态3相同,从 该内容分割时间间隔的初始值TSegment0和影像内容长度TContent设定镜 头代表范围的初始值(镜头代表范围的开始点PStart、暂定镜头代表范 围的结束点PEnd_temp)。
PStart=O
PEnd_temp=TContent/Nshot=TSegment0
如果镜头代表范围初始设定部32设定了镜头代表范围的初始 值,则把该镜头代表范围的初始值保存到时间分割点缓冲器33。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果最终进行切割点的判 定。
镜头长度计算部2在从AV切割点判定部121输出的切割点的判 定结果表示不是切割点的含义的情况下,不特别实施处理,而在切割 点的判定结果表示是切割点的含义的情况下,与上述实施形态1相同, 求出当前帧的时刻与存储在镜头开始点缓冲器3中的前一个镜头开始 点的时刻的时刻差,把该时刻差作为镜头长度输出到重要镜头判定部 4。
另外,如果镜头长度计算部2计算出镜头长度,则把镜头开始点 缓冲器3的存储内容更新成当前帧的时刻。
最长镜头判定部22与上述实施形态2相同,在镜头长度计算部 2每次计算出镜头长度时,对由该镜头长度计算部2直到当前时刻为 止所计算出的镜头长度相互进行比较,判别镜头长度最长的镜头。
即,如果镜头长度计算部2计算出镜头长度,则最长镜头判定部 22对由该镜头长度计算部2计算出的镜头长度与存储在最长镜头长度 缓冲器23中的最长镜头的镜头长度进行比较,在由该镜头长度计算 部2计算出的镜头长度比存储在最长镜头长度缓冲器23中的最长镜 头的镜头长度长的情况下,判别为由镜头长度计算部2计算了镜头长 度的镜头在当前时刻是最长的镜头。
如果最长镜头判定部22判别出当前时刻中的最长的镜头,则把 最长镜头长度缓冲器23的存储内容更新成由镜头长度计算部2计算 出的镜头长度。
另外,最长镜头判定部22把最长镜头开始点缓冲器24的存储内 容更新成最长镜头的开始点的时刻(当前帧的时刻)。
镜头代表范围判定·再设定部34在当前帧的时刻PNow超过存储在 时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp的情 况下,与上述实施形态3相同,计算镜头代表范围的结束点PEnd和重 要镜头再生时间TPlay,输出该重要镜头再生时间TPlay。
PEnd=PNow+PShot_Start-PStart
TPlay=(PEnd-PStart)*TPlay0/TSegment0
式中,PShot_Start是存储在最长镜头开始点缓冲器24中的最长镜 头的开始点的时刻。
另外,镜头代表范围判定·再设定部34在当前帧的时刻PNow超过 存储在时间分割点缓冲器33中的暂定镜头代表范围的结束点PEnd_temp 的情况下,把存储在最长镜头开始点缓冲器24中的最长镜头的开始 点的时刻PShot_Start作为在摘要再生中使用的重要镜头的开始时刻输出 的同时,更新存储在时间分割点缓冲器33中的镜头代表范围的开始 点PStart和暂定镜头代表范围的结束点PEnd_temp。
更新后的镜头代表范围如下。
PStart=PEnd
PEnd_temp=PEnd+TContent/NShot=PEnd+TSegment0
如从上述所明确的那样,依据本实施形态22,由于构成为通过 进行基于影像和音量的镜头的判别,根据由最长镜头判定部22判别 出的最长镜头的开始时刻和镜头长度更新镜头代表范围,因此起到能 够使内容的划分点或者划分了的内容中的重要镜头的再生时间适应 性变化的效果。另外,通过使用音量小的部分,能够减轻连续视听重 要镜头时的不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态23
图31是表示本发明实施形态23的影像摘要装置的结构图,图中, 由于与图14以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果,最终进行切割点的判 定。
如果AV切割点判定部121最终检测出切割点,则把该切割点的 检测时刻存储到镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则重要镜头判定部81与 上述实施形态9相同,从镜头开始点缓冲器3取得切割点的检测时刻, 从该检测时刻计算以各切割点为起点的镜头的镜头长度。
而且,重要镜头判定部81与所希望的摘要视听时间相匹配地, 通过从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜头 (重要镜头),决定重要镜头的开始点和再生时间。
重要镜头判定部81的具体处理内容由于与上述实施形态9相同, 因此省略详细的说明。
依据本实施形态23,通过进行基于影像和音量的镜头的判别, 能够仅视听重要镜头。另外,通过使用音量小的部分,能够减轻连续 视听重要镜头时的不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态24
图32是表示本发明实施形态24的影像摘要装置的结构图,图中, 由于与图15以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部91与上述实 施形态10相同,根据这些输入信息,设定内容分割时间间隔TSegment 以及基准分割摘要视听时间TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果,最终实施切割点的判 定,把其判定结果输出到镜头开始点缓冲器3以及重要镜头判定部81。
另外,如果AV切割点判定部121最终检测出切割点,则把该切 割点的检测时刻存储到镜头开始点缓冲器3。
如果从音量判定部112接收到切割点的判定结果,则重要镜头判 定部81与上述实施形态10相同,在由时间间隔设定部91所设定的 时间间隔中,从存储在镜头开始点缓冲器3中的切割点的检测时刻计 算以各切割点为起点的镜头的镜头长度,与所希望的摘要视听时间相 匹配地,从多个镜头中把镜头长度长的镜头优先决定为再生对象的镜 头。
重要镜头判定部81的具体处理内容由于与上述实施形态10相 同,因此省略详细的说明。
在上述实施形态23的情况下,当内容非常长时,有时内容整体 的镜头长度排序的计算处理量非常庞大,而在本实施形态24中,由 于只要在第i个区间中计算镜头长度排序即可,因此即使在内容非常 长的情况下,也不会导致计算处理量的庞大化,用户能够仅视听基于 影像和音量的重要镜头。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态25
图33是表示本发明实施形态25的影像摘要装置的结构图,图中, 由于与图16以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果,最终进行切割点的判 定。
如果AV切割点判定部121最终检测出切割点,则把该切割点的 检测时刻存储在镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则镜头统计处理部101 与上述实施形态11相同,从镜头开始点缓冲器3取得切割点的检测 时刻(音量降低点的检测时刻),从该检测时刻计算以各切割点为起 点的镜头的镜头长度,求出与该镜头长度有关的统计性的分布函数。
而且,镜头统计处理部101与所希望的摘要视听时间相匹配地, 通过从多个镜头中根据分布函数决定再生对象的镜头(重要镜头), 决定重要镜头的开始点和再生时间。
镜头统计处理部101的具体处理内容由于与上述实施形态14相 同,因此省略详细的说明。
依据本实施形态25,能够根据所利用的计算机的能力改变统计 处理的精度,即使在便携设备等中,用户也能够仅视听基于影像和音 量的重要镜头。另外,通过使用音量小的部分,能够减轻连续视听重 要镜头时的不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
实施形态26
图34是表示本发明实施形态26的影像摘要装置的结构图,图中, 由于与图19以及图27相同的号码表示相同或者相当的部分,因此省 略说明。
其次说明动作。
如果输入由用户所设定的摘要视听时间TDijest、影像内容的时间 分割数n以及影像内容长度TContent,则时间间隔设定部91与上述实 施形态10相同,根据这些输入信息,设定内容分割时间间隔TSegment 以及基准分割摘要视听时间TS_Dijest。
TSegment=TContent/n
TS_Dijest=TDijest/n
例如,在影像内容长度TContent是30分钟(=1800秒),摘要视 听时间TDijest是5分钟(=300秒),影像内容的时间分割数n是10 的情况下,内容分割时间间隔TSegment成为3分钟(=180秒),基准 分割摘要视听时间TS_Dijest成为0.5分钟(=30秒)。
AV切割点判定部121与上述实施形态20相同,从切割点检测 部1的判定结果和音量判定部112的判定结果,最终实施切割点的判 定,把其判定结果输出到镜头开始点缓冲器3以及镜头统计处理部 101。
另外,如果AV切割点判定部121最终检测出切割点,则把该切 割点的检测时刻存储到镜头开始点缓冲器3。
如果影像结束而接收到影像结束信号,则镜头统计处理部101 与上述实施形态12相同,在由时间间隔设定部91所设定的时间间隔 中,从镜头开始点缓冲器3取得切割点的检测时刻(音量降低点的检 测时刻),从该检测时刻计算以各切割点为起点的镜头的镜头长度, 求出与该镜头长度有关的统计性的分布函数。
而且,镜头统计处理部101与所希望的摘要视听时间相匹配地, 通过从多个镜头中根据分布函数决定再生对象的镜头(重要镜头), 决定重要镜头的开始点和再生时间。
镜头统计处理部101的具体处理内容由于与上述实施形态12相 同,因此省略详细的说明。
在本实施形态26中,即使在用便携设备等计算处理量少的计算 机处理非常长的内容的情况下,通过调整分割处理或者统计处理的精 度,用户能够仅视听基于影像和音量的重要镜头。
另外,通过使用音量小的部分,能够减轻连续视听重要镜头时的 不自然感。
另外,作为镜头长度或者镜头开始点等的时间信息,也可以使用 时刻、帧编号、影像压缩数据中的时间信息等。
产业上的可利用性
如上所述,本发明的影像摘要装置由于用户能够容易地把握重要 镜头,因此适于在需要从影像信号抽取重要区间的影像等情况中使 用。
相关专利内容
标题 发布/更新时间 阅读量
摘要翻译器 2020-05-11 661
摘要生成装置和摘要生成方法 2020-05-11 371
视频摘要提取 2020-05-11 343
节目摘要和/或索引 2020-05-12 482
监控视频摘要的方法 2020-05-13 796
包括特定人的视频摘要 2020-05-13 542
中文文件自动摘要方法 2020-05-13 566
摘要生成方法及装置 2020-05-11 299
一种文本摘要生成方法 2020-05-12 430
内容摘要验证接口方法 2020-05-12 707
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈