首页 / 专利库 / 人工智能 / 关联性分析 / 音频/数据/视频信息选择的方法和装置

音频/数据/视频信息选择的方法和装置

阅读:302发布:2021-10-29

专利汇可以提供音频/数据/视频信息选择的方法和装置专利检索,专利查询,专利分析的服务。并且一种用于选择、储存和运送所需要的音频/数据/视频信息的方法,其包括的步骤有确定观众的观看爱好(100)和接收第一组音频/数据/视频 信号 (102),比如,广播和 有线电视 信号或基于互联网的信号。基于第一组音频/数据/ 视频信号 ,作为第一组音频/数据/视频信号子集的第二组音频/数据/视频信号被识别(108)。第二组音频/数据/视频信号是基于与用于每一信号的EPG数据与观众的观看爱好的联系来选择。而后内容数据从第二组音频/数据/视频信号提取并与观看爱好相比较(110,14)。内容数据可包括,例如,封闭的字幕内容、EPG数据、音频信息、视频信息、和译写信息。基于将从第二组音频/数据/视频信号提取出的内容数据与观看爱好进行比较,包含在第二组音频/数据/视频信号中对观众是有趣的音频/数据/视频信息被识别(122)并且被储存起来以方便观众再看(124)。,下面是音频/数据/视频信息选择的方法和装置专利的具体信息内容。

1.一种选择所需要的音频/数据/视频信息的方法,包括的步骤 有:
(a)确定观众的观看爱好(100);
(b)接收第一多个音频/数据/视频信号(102);
(c)从第一多个音频/数据/视频信号中识别待监视的第二多 个音频/数据/视频信号,其中第二多个音频/数据/视频信号是第一多 个音频/数据/视频信号的子集(108);
(d)将所述观看爱好与第二多个音频/数据/视频信号进行比 较,以识别所需要的音频/数据/视频信息(122);以及
(e)为所需要的音频/数据/视频信息提供存取(124)。
2.根据权利要求1的选择所需要的音频/数据/视频信号的方 法,还包括的步骤有:
储存所需要的音频/数据/视频信息(124);以及
当观众要求时检索所需要的音频/数据/视频信息(128)。
3.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中,步骤(d)包含的步骤有:
提取相应于每一个所述第二多个音频/数据/视频信号的内容数 据(110);
对所述已提取的内容数据编写索引(112);以及
将所述索引的内容数据与所述观看爱好比较以识别所需要的音 频/数据/视频信息(114)。
4.根据权利要求3的选择所需要的音频/数据/视频信息的方法, 其中,提取的内容数据包括一封闭的字幕文字、EPG数据、音频内容 信息、视频内容信息及译写的信息中的至少一种。
5.根据权利要求4的选择所需要的音频/数据/视频信息的方法, 其中,视频内容信息包括切换检测、面部检测、文字检测、运动判断 /分割/检测和摄像机运动中的至少一种。
6.根据权利要求4的选择所需要的音频/数据/视频信息的方 法,其中,音频内容信息包括语音到文字的转换、音响效果和事件检 测、说话者的识别、节目的识别、音乐的分类和基于说话者的识别的 对话检测中的至少一种。
7.根据权利要求4的选择所需要的音频/数据/视频信息的方 法,其中,所述译写的信息包括自然语言处理和理解、话语分析、关 键词检测和广播分类中的至少一种。
8.根据权利要求4的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
将封闭的字幕文字、EPG数据、提取的音频信息、提取的视频信 息,以及已提取的译写的信息中的至少两种组合(121)。
9.根据权利要求8的选择所需要的音频/数据/视频信息的方 法,其中,所述组合的步骤提供事件和动作的检测、故事分割、故事 分类、节目分类以及环境检测中的至少一种。
10.根据权利要求9的选择所需要的音频/数据/视频信息的方 法,其中所述环境检测包括人面部和背景检测中的至少一种。
11.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中所述所需要的音频/数据/视频信息包括广播和有线电视信 号、基于互联网的信号和数据信号中的至少一种。
12.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中步骤(c)包括的步骤有:
将用于每一个第一多个音频/数据/视频信息的电子节目向导 (EPG)数据与观看爱好比较,以识别与观看爱好相联系的第二多个 音频/数据/视频信息(108)。
13.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中步骤(a)包括的步骤有:
借助键区、键盘、屏上显示、遥控、触摸屏、口头命令或触摸板, 输入观众想看的音频/数据/视频信息的特性(100)。
14.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中步骤(a)包括的步骤有:
监视观众的观看习惯,制定与观众想看的音频/数据/视频信息的 特性相应的观看爱好(101)。
15.根据权利要求14的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
每次观众存取电视广播信号或基于互联网的信号时自动更新观 看爱好(101)。
16.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
识别第二多个音频/数据/视频信号的广告和非广告部分(116)。
17.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
根据与所述观看爱好的关联性将音频/数据/视频信息分级 (123)。
18.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中步骤(e)包括的步骤有:
存储器中储存所述所需要的音频/数据/视频信息的至少一部 分(124)。
19.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
通知观众,所需要的音频/数据/视频信息已被识别出来(126)。
20.根据权利要求19的选择所需要的音频/数据/视频信息的方 法,其中当观众正在与音频/数据/视频信息交互时,观众被通知。
21.根据权利要求1的选择所需要的音频/数据/视频信息的方 法,其中所述方法对多个观众同时执行。
22.选择所需要的音频/数据/视频信息的方法,包括的步骤有:
a)确定用户的爱好(100);
b)接收多个音频/数据/视频信号(102);
c)将所述爱好与多个音频/数据/视频信号比较,以识别所需要 的音频/数据/视频信息(122);以及
d)为所需要的音频/数据/视频信息提供存取(124)。
23.根据权利要求22的选择所需要的音频/数据/视频信息的方 法,还包括的步骤有:
选择多个音频/数据/视频信号的至少一个与所述爱好比较 (108)。
24.根据权利要求23的选择所需要的音频/数据/视频信息的方 法,其中,多个音频/数据/视频信号中的至少一个的选择是以随机 地、顺序地、和周期地其中至少一种方式实现的。
25.一种音频/数据/视频信号选择系统,包括:
一个输入装置(14),用于提供观众的观看爱好;以及一个信息 选择器(22)用于:
接收第一多个音频/数据/视频信号:
从第一多个音频/数据/视频信号中识别待监视的第二多个音频/ 数据/视频信号,其中第二多个音频/数据/视频信号是第一多个音频/ 数据/视频信号的子集;
将所述观看爱好与第二多个音频/数据/视频信号比较,以识别所 需要的音频/数据/视频信息;以及
为识别的音频/数据/视频信息提供存取。
26.一种音频/数据/视频信号选择系统,包括:
一个输入装置(14),用于提供用户的观看爱好;和一个信息选 择器(22)用于:
接收第一多个音频/数据/视频信号:
将所述观看爱好与第二多个音频/数据/视频信号比较,以识别所 需要的音频/数据/视频信息;以及
为已识别的音频/数据/视频信息提供存取。
27.根据权利要求26的音频/数据/视频信号选择系统,还包括 一个存储器(24),可操作地与信息选择器连接,用于储存所述所需 要的音频/数据/视频信息的至少一部分。

说明书全文

发明领域

本发明一般地涉及音频/数据/视频信息的选择系统,更具体地涉 及过滤如电视、数据、或基于互联网的信号的音频/数据/视频信号流 的系统,且提供在各种内容提取平上的、基于用户定义的参数的、 已经过滤了的信息。

背景信息

随着电视频道的增加,电视观众有一困难的选择,即看什么电视 节目和当看电视时怎样最好的利用他的时间。由于从印好的和在荧屏 上的电视节目单上不能准确的判定每一电视节目的整个内容,很多电 视观众采取“频道冲浪”来识别哪个电视节目或部分是“有趣的”。

经常,电视观众花费大量的时间进行频道冲浪,希望确认与他的 兴趣一致的电视节目。这会引起观众错过很多他可能喜欢看的电视节 目。例如,如果有广告在正在“冲浪”的节目上播出,观众要确定正 在冲浪的频道上播出的电视节目将遇到拖延。因此,将花更多的时间 来确定正在播出的节目是否有趣。结果,将错过在其他频道上播出的 有趣的节目。如果观众找到了想要的电视节目,在播出过程中,他经 常遇到不感兴趣的广告,从而错过了正在其他频道上播出的有趣的节 目。

电视观众通常疲于增加的电视频道的数目,这些频道只是在部分 时间有有趣的节目,电视观众也厌倦了节目播出和作频道冲浪时播出 的众多的广告。从而,用于浏览、聪明地选择和/或记录观众感兴趣 播出电视和有线节目和/或信息的技术对未来的电视是基本的。

虽然通过使用新的捕捉板和快速处理器在数字视频处理上取得 的改进是明显的,如何能根据观众的需要来最好地恢复、分析、分类 和传递由视频数据传送的信息这方面没有什么进展。

基于对提供给系统的观众信息的电子节目向导(EPG)数据分析 的系统近来得到了发展。基于对EPG数据的分析,可以提供观众感兴 趣的电视节目表。然而EPG数据是有限的且,不可能对每一视频画面 或每一电视节目的片段基于观众定义的参数进行不同水平的内容分 析。

发明目的和概要

本发明的一个目的是为音频/数据/视频信息的选择、储存和传送 提供一种方法和装置,克服前面提到的现有技术的问题。

本发明的另一个目的是提供一种方法和装置,该方法和装置选 择、储存和传送音频/数据/视频信息,它监视多个音频/数据/视频信 号,识别个人感兴趣的音频/数据/视频信息,使个人能够采用经过识 别的音频/数据/视频信息。

本发明的另一目的是提供一种方法和装置,该方法和装置只选择 性的记录与定义的参数相关的基于电视的和/或基于互联网的信息的 片段。

根据本发明的一种形式,选择所需要的有趣的和反映个人在电视 节目方面的爱好和趣味的音频/数据/视频的信息的方法,其所包含的 步骤有确定观众的观看爱好、接收第一多个音频/数据/视频信号、从 第一多个音频/数据/视频信号中识别待监视的第二多个音频/数据/ 视频信号,其中第二多个音频/数据/视频信号是第一多个音频/数据/ 视频信号的子集,将观看爱好与第二多个音频/数据/视频信号进行比 较,识别所需要的音频/数据/视频信息,以及为所需要的音频/数据/ 视频信息提供存取。

根据本发明的另一方面,一种选择所需要的音频/数据/视频信息 的方法包含的步骤有确定使用者的爱好、接收多个音频/数据/视频信 号、将爱好与多个音频/数据/视频信号相比较以识别所需要的音频/ 数据/视频信息,并为所需要的音频/数据/视频信息提供存取。

根据本发明的另一方面,音频/数据/视频信息的选择系统包括一 用来提供观众的观看爱好的输入装置和一个信息选择器。信息选择器 接收第一多个音频/数据/视频信号,从第一多个音频/数据/视频信号 中识别待监视的第二多个音频/数据/视频信号,其中第二多个音频/ 数据/视频信号是第一多个音频/数据/视频信号的子集。信息选择器 还将观看爱好与第二多个音频/数据/视频信号进行比较,识别所需要 的音频/数据/视频信息,以及为已识别的音频/数据/视频信息提供存 取。

根据本发明的另一方面,这一音频/数据/视频信号的选择系统包 括一用来提供用户的观看爱好的输入装置和一个信息选择器。信息选 择器接收多个音频/数据/视频信号,将比较爱好与多个音频/数据/ 视频信号来识别所需要的音频/数据/视频信号,并为已识别的音频/ 数据/视频信号提供存取。

本发明的以上和其他的目的、特性和优点将容易的从下面的细节描 述中显现出来,将它与附图结合在一起阅读。

附图简述

图1是依据本发明的音频/数据/视频信息选择系统的示意框图; 以及

图2是图1音频/数据/视频信息选择系统工作的流程图

优选实施例详述

本发明提供一音频/数据/视频信息选择系统(“电视搜索系 统”),它监视多个电视的或基于互联网的音频/数据/视频信号。系 统选择和记录基于观众的观看爱好的有趣的音频/数据/视频信息。例 如,当某人想看涉及一定主题的电视节目时,他不需要知道电视节 目、播出时间和/或电视的频道。更进一步,他不需要在电视节目播 出的时间在场。本发明的系统可为他想看的节目、人物、特征、主题 和事件建立可编程的愿望表。而后系统对在愿望表中所列的项目,连 续地监视接收到的电视信号,记录满足愿望表中的判据的整个电视节 目或其部分,使能够存取所记录的项目,以便观众在方便的时间观 看。

根据本发明的音频/数据/视频信号选择系统可以包含在计算机 或电视中,或它可以是与电视或计算机相连接的单独的装置,它在接 收电视、广播或基于互联网的信号中“冲浪”并将所需要的节目片段 记录在本地的存储装置中。节目片段的选择是基于广播和有线电视或 互联网的信号的内容数据。内容数据可以包括封闭的字幕文字 (closed-captioned text)、EPG数据(它可以是元-数据的形式)、 音频信息(如频率音调、音质、音响和旋律)、视频信息(例如颜 色、运动、形状、和2-维/3-维物体的外观)和译写信息。

虽然本发明在此文描述的应用与电视广播信号相关,可以预见, 系统可采用可存取因特网的计算机以便搜索基于互联网的信号的为 观众感兴趣的信息(例如作为互联网爬虫或电视网的入口),采用用 于个性化的收音应用的收音机以便搜索特定的形式音频信号、信息网 络(如有私有权的网络和个人的区域网络),以及用于仅仅传送数据 信息的系统。

现在来看附图1,显示的是音频/数据/视频信息的选择装置10。 装置优选地与视频监视器12相连接,如电视机。装置包括个人简介 的输入装置14(例如一个键区,键盘,屏幕显示,电视遥控,触摸 屏,口头命令接收器或触摸板),通过它,用户可以输入个人观看爱 好。观看爱好与用户想看(和/或以前看过的)的电视节目的特性相 关。一些观看爱好的实例包括运动队(例如纽约Yankees),人物(例 如,总统比尔·克林顿),地方(比如,白宫),动作(比如击球手 打出本垒打),以及主题(比如世界锦标赛)。基于所有用户提供的 数据,用户观看爱好的简介产生了。如下面详细解释的,监视电视信 号至少用于得到与观看爱好有关的广播的片段。例如如果一观看爱好 是“纽约Yankees”,本发明将记录整个纽约Yankees的棒球赛,而 没有广告,除非广告是与纽约Yankees有关的,任何涉及纽约Yankees 的电影(例如“Yankees的骄傲”)和播出了前一夜的纽约扬基棒球 比赛的精彩场面的新闻的体育部分/体育节目。

也可以预见该装置具有储存于存储器中的个人的简介,其具有多 个主题,因此用户不需要输入特定的观看爱好,而只需输入与预定的 观看爱好典型相关的数字(例如,“1”代表体育,“2”代表地方新 闻,“3”代表国内新闻,“4”代表世界新闻,“5”代表政治,“6” 代表科学小说,等等)。结果,用户不需要为系统输入大量的信息来 提供宽范围的需要的信息。

装置还包括一个音频/数据/视频信号的接收器16,用于接收待分 析的多个电视信号。不是过滤掉除电视机显示的一个信号外的所有信 号,接收器16有多个调谐器并保持所有信号以进行分析。合适的音 频/数据/视频信号接收器包括天线、卫星碟形天线、机顶盒、互联网 连接、电缆等等。如本领域中公知的,提供给接收器的广播和有线电 视信号是复用的信号。

可操作地连接到音频/数据/视频信号接收器16输出的是一个复 用信号分离器18,用来分离由音频/数据/视频信号接收器接收的复 用的多个电视信号。信号分离器分离多个信号且能单独地分析多个电 视信号的每一个,其细节在下面解释。

在优选实施方案中,装置包括一个EPG(电子节目向导)信号接 收器20,用于接收与多个电视信号有关的电子节目向导信号。如本 领域中公知的,EPG信号包括大量种类的信息,这些信息是关于正播 出的电视节目和待播出的电视节目。EPG信息的实例包括标题、开始 时间、结束时间、演员(如果适用)、主题、节目和种类及节目简述。 合适的EPG信号接收器包括天线,卫星碟形天线、机顶盒、互联网的 连接等等。可以预见,EPG信号接收器和音频/数据/视频信号接收 器可以结合在一个装置里,其中结合在一起的装置可在用于接收音 频/数据/视频信号的第一种模式和用于接收EPG信号的第二种模式 之间切换。另外,装置可以同时接收音频/数据/视频信号和EPG信 号。

该装置也包括一音频/数据/视频信息选择器22,它从EPG信号接 收器20接收EPG信号、从信号分离器18接收经过信号分离的电视信 号和通过个人简介输入装置14接收观众的爱好。音频/数据/视频信 息选择器分析经过信号分离的基于它们的内容数据(下面详细解释) 的音频/数据/视频信号,用来识别用户感兴趣的电视广播的相关的 EPG信号和观看爱好。信息可以是完整的电视节目或如果EPG数据指 示仅是电视节目的片段与观看爱好符合它可能只是电视节目的一个 片段。重要的是注意音频/数据/视频信息选择器是优选地能够同时分 析每一个提供给它的电视信号,以便能并行地监视电视信号,并将经 过音频/数据/视频信息选择器识别的电视信号记录在存储器中。可编 程实现音频/数据/视频信息选择器的功能的合适的装置的实例是一 个人计算机的CPU(例如,奔腾或MIPS),一特殊的可编程数字信号 处理器(如三媒体)或一特殊配置的芯片结构。后面将详细解释音频 /数据/视频信息选择器的工作。

可操作地与音频/数据/视频信息选择器22相连接的是存储器24 (例如,RAM,硬盘记录器,光学的存储装置,或DVHS,每一个都有 数百千兆字节的存储能)用来记录由音频/数据/视频信息选择器 22识别的与观看爱好相一致的电视广播或其部分。当用户要求时, 音频/数据/视频信息选择器可以存取储存于存储器中的音频/数据/ 视频信息,并提供信息到视频监视器12,以让用户回顾。

现在来看图2,描述了用于音频/数据/视频信息选择、储存和传 送的装置的工作。

开始,用户通过个人的简介输入装置14(步骤100)来输入个人 简介。个人简介与用户的观看爱好相关,诸如观众想要看的特定形式 的电视节目、人物或电视节目的观点。信息可由多种方法提供,例如, 信息可以通过个人简介输入装置14输入。另外,信息可以通过电视 机上的一个屏上向导输入或通过视频监视器12借助传统的电视遥控 装置上的箭头键输入。作为上面的替代,所有用户的简介信息可以自 动地产生,其中个人简介输入装置监视用户的观看习惯,以及通过人 工智能,“学习”个人的观看爱好。可以预见用户简介可以基于用户 习惯或改变观看兴趣而得到发展。也可预见信息选择器或输入装置监 视着用户改变观看习惯和自动地更新观看爱好(步骤101)。例如, 如果用户以前只看体育事件,但最近已观看经济新闻频道,系统将修 改原始的观看爱好(体育事件)以把经济新闻包括进去。个人简介输 入装置优选地将“学来的”观看习惯存储到一内部的存储器中(未显 示)。可替代地,“学来的”观看习惯存在存储器24中。也可预见 用户可选择基于他的最相配的预-储存的简介中一个。

音频/数据/视频信号接收器16接收观众可用的音频/数据/视频 电视信号(例如,那些需通过当地的有线电视或卫星服务订阅的频 道)(步骤102),该电视信号用信号分离器18进行信号分离(步 骤104)并提供给音频/数据/视频信息选择器22(步骤106)。EPG 信号通过EPG信号接收器20接收,然后,提供给音频/数据/视频信 息选择器22(步骤106)。

音频/数据/视频信息选择器22对接收到的电视信号实施一初始 的选择过程。对每一接收到的电视信号,将其与EPG数据相关的部分 与观看爱好相比较,以决定哪些电视节目与观看爱好根本无关(步骤 108)。那些与观看爱好无关的电视节目不受监视。结果,接收到的 电视信号的子集(电视节目)被保存下来,用于进一步分析并与观看 参数相符合。EPG数据的使用只是过滤的第一级以消除那些明显的与 用户的观看爱好完全无关的电视节目。例如,当正在播放“飘”时, 如果一电视信号的EPG数据识别出相应的电视频道,而用户的观看爱 好与“棒球”或“股市”有关,就没有必要当这一频道在播电影时 监视这一频道。可是,当正播报新闻时,如果另一电视信号的EPG数 据识别出相应的频道,监视这一频道可能是恰当的,因为可能将讨论 前一夜的棒球分数和当天的经济新闻。

应该指出,如果没有EPG数据可用来确定所接收到的待分析的电 视信号子集,那么音频/数据/视频信息选择器开始监视一组在观看爱 好中识别出来的优选的频道或观众经常观看的频道。如果对音频/数 据/视频信息选择器的计算资源没有限制,那么所有可得到的频道将 同时被监视。

还应该指出,将周期性的检查未被监视的电视节目(即,回顾) 以保证在相应的频道上的节目没有变化和现在没有播出与观看爱好 相符合的节目。

一旦电视频道的子集被选择,每一电视频道的子集被连续地并行 分析以确定目前播出节目的某一(如果任何)部分是否对应于观看爱 好(每一电视节目被同时分析)。该分析包括从待分析的每一电视节 目中(步骤110)提取封闭的字幕文字或译写的(tanscribed)文字。 提取的封闭的字幕或译写的文字被编成索引(步骤112)。更明确地, 如在本领域中公知的,编索引包括监视文字中字的出现频率以便为节 目的主题事物提供指示。编索引解释在由G.Salton和M.J.Mcgill 所著,于McGraw-Hill,NY,NY,1983,题为“Introduction to Modern Information Retrieval(现代信息检索介绍)”;由James Allen所 著,于The Benjamin/Cummings Publishing Company,Inc.,1995, 题目为“Natural Language Understanding(自然语言理解)”;以 及由Inderjeet Mani和Mark T.Maybury编辑,于MIT Press, Cambrige,MA,1999,题目为“Advances in Automatic Text Summarization(自动文字总结的进步”,其整个公开内容在此引入作 为参考。分析索引的文字以决定特定的字是否在与观看爱好相联系的 节目中频繁使用(步骤114)。如果在电视节目中频繁出现的字确实 与观看爱好是一致的,那么节目或相应的片段应该被标记并进行进一 步的分析或记录。

在文字摘要和索引的同时,对电视节目中广告的出现进行监视 (步骤116)。如果观看爱好不包括对广告的兴趣,当广告在正被分 析频道的其中一个播出时,本发明不分析广告,因此系统的资源可以 集中关注无广告的电视的播出。另外如果需要广告,可将所有广告储 存在存储器中以便以后分析。

该方法也包括电视信号的视频部分的分割(步骤118),以分析 电视节目的视频画面。在优选实施方案中,每一正被监视的节目的每 一视频画面都被分析(即,在美国,每秒分析30个视频画面)。视频 分割在本领域是公知的且一般地解释在由T.McGee和N.Dimitrova 所著,于Proc.SPIE Conf.on Storage and Retrieval for Image and Video Databases,pp.243-251,San Jose,CA,January,1999,题 为“Parsing TV Programs For Identification and Removal of Non-Story Segments”(用于识别和除去非-故事片段的电视节目分析) 的出版物中;由N.Dimitrova,H.Elenbass和T.McGee所著,于SPIE Conference on Multimedia Storage and Archiving Systems IV,pp.2-10,September 1999,Boston,题目为“PNRS-Personal News Retrieval System”(PNRS-个人新闻检索系统);以及由A.Hauptmann 和M.Smith所著,于AAAI Fall 1995 Symposium on Computational Models for Integrating Language and Vision 1995,题目为 “Text,Speech,and Vision For Video Segmentation:The Infomedia Project”。其整个公开内容在此引入作为参考。如果 用户的观看爱好指示出愿意观看关于John F.Kennedy为主题的事件, 包括与John F.Kennedy相关的视频(如面部)和/或文字信息的电视 节目的视频部分的任何片段将显示目前的播出与观众的观看爱好相 关。如在本领域公知的,视频分割包括,但也不限于:

切换(cut)检测:其中两个连续的视频画面被比较,以便识别突然 的场景变化(硬切换)或软过渡(渐隐画面,淡入、淡出)。切换检测 的解释提供在由N.Dimitrova,T.McGee,H.Elenbaas所著,于 Proc.ACM Conf.Knowledge and Information Management, pp.113-120,1997,题为“Video KeyframeExtraction and Filtering: A Keyframe is Not a Keyframe to Everyone(视频关键画面的提 取和过滤:关键画面并不对每个人都是关键画面)”的出版物中,其 整个公开内容在此引入作为参考。

面部检测:其中包括皮肤-特性以及与橄榄形对应视频画面区域 被识别,在优选实施方案中,一旦面部图像被识别出来,即将该图象 与储存在存储器中的已知的面部的图象的数据库相比较,以确定显示 在电视画面的面部的图象是否与用户的观看爱好相关。面部检测的解 释提供在由Gang Wei和Ishwar K.Sethi,所著,于Pattern Recongnition Letters,Vol.20,No.11,November 1999,题为“Face Detection for Image Annotation(用于图象注释的面部检测)”的 出版物中,其整个公开内容在此引入作为参考。

文字检测:其中出现在视频画面中的文字例如被覆盖或重叠的文 字被识别并确定文字是否与用户的观看爱好相关。文字检测的解释 提供在由作者L.Agnihotri和N.Dimitrova所著,于与IEEE Conference on Computer Vision and pattern Recognition(计算 机视觉和图形识别大会)1999一起召开的Proceeding of IEEE Workshop on CBAIVL,Fort Collins,Colorado,June 1999,题 为“Text Detection in Video Segment(视频片段中的文字检测)” 的文章中,其整个公开内容在此引入作为参考。在优选实施方案中, 一旦文字被检测到,在本领域公知的光学字符识别(OCR)被用在被 检测的区域,并且用储存在存储器中的查询表来识别被检测的文字。 查询表优选地包括各种字之间的关联。例如,“比尔·克林顿”可以 与“美国总统”和“政治”、“白宫”、“莫妮卡莱温斯基”和“白 水”相关联。

运动判断/分割/检测:其中,确定在视频序列中运动的物体以及 分析运动物体的轨迹。为了确定在视频序列中物体的运动,公知的操 作如光流判断、运动补偿和运动分割被优选地采用。运动判断/分割/ 检测的解释提供在由作者Patrick Bouthemy和Francois Edouard 所著,于International Journal of Computer Vision, Vol.10,No.2,pp.157-182,April 1993,题为“Motion Segmentation and Qualitative Dynamic Scene Analysis from an Image Sequence”(视频序列的运动分割和定性动态场景分析)一文中,其 整个公开内容在此引入作为参考。

摄像机的运动:其中使用了一组五(5)个万向摄像机参数,优 选的两(2)个平移和三(3)个转动。3-维摄像机运动被分成纯追踪 (水平运动)、吊杆上下移摄像机(垂直运动)、摄影车移动(在深 度方面的运动)、摇摄(绕垂直万向轴的旋转)、倾斜(绕水平万向 轴的旋转)、和滚动(绕Z轴的旋转)或这些运动的组合。这一信息 可被用来将视频镜头分类成如“静止的”、“变焦的”和/或“跨距”, 而进一步确定导演制作镜头的意图。摄像机运动的信息被用来分类这 样以致于如果当EPG数据不可用时,可以基于摄像机运动来确定节目 的种类。摄像机运动检测提供在由作者R.Y.Tasi和T.S.Huang所 著,于IEEE Transaction on PAMI,Vol.6,number 1,pp.13- 27,1994,题为“Uniqueness and Estimation of Three-Dimensional Motion Parameters of Rigid Objects with Curved Surfaces(具 有曲线表面的刚性物体的三维运动参数的唯一性及判断)”中,其整 个公开内容在此引入作为参考。

该方法也包括电视信号的音频部分的分割(步骤120),其中电 视广播中的音频部分被监测以便监测与观看爱好相关的字/声的出 现。音频分割包括以下电视节目分析类型:语音到文字的转换、音频 效果和事件检测、说话者的识别、节目的识别、音乐分类和基于说话 者识别的对话检测。

音频分割包括将音频信号分离成语音和非语音部分。音频分割的 第一步涉及采用低-级的音频特征如带宽、能量和音调的片段分类。 此后频道分离被用来将同时发生的每一音频成分(如音乐和语音)相 互分离开,从而对每一个可单独的加以分析。此后,电视节目的音频 部分用不同的方法进行处理,如语音到文字的转换、音频的效果和事 件的检测以及说话者的识别。音频分割在本领域是公知的,并且一般 的解释在由E.Wold和T.Blum所著,于IEEE Multimedia,pp.27- 36,Fall 1996,题为“Content-Based Classification,Search, and Retrieval of Audio”(基于内容的音频的分类、搜索、和 检索)的出版物中,其整个公开内容在此引用作为参考。

一旦电视信号的音频部分的语音片段从背景噪声或音乐中被识 别或隔离出来,就可以进行语音到文字的转换(本领域所公知的,例 如,请看由P.Beyerlein,X.Aubert,R.Haeb-Umbach,D.klakow, M.Ulrich,A.Wendemuth和P.Wilcox所著,于DARPA Broadcast News Transcription and Understanding Workshop,VA,8-11,1998,题 目是“Automatic Transcription of English Broadcast News(英 语广播新闻的自动译写)”的出版物,其整个公开内容在此引用作为 参考)。如果没有封闭的字幕可用来提供电视节目的音频部分的录 制,语音到文字的转换就是重要的。语音到文字的转换可以用于如关 于观看爱好的关键字的识别上。

音频效果可以用来检测事件(本领域公知的,例如见由T.Blum, D.Keislar,J.Wheaton,和E.Wold发表,于Intelligent Multimedia Information Retrieval,AAAI Press,Menlo Park, California,pp.113-135,1997,题为“Audio Databases with Content-Based Retrieval”(具有基于内容的检索的音频数据库) 出版物,整个公开内容在此引用作为参考)。事件可以由识别可能与 特定事件相关的声音而得到检测。例如,在体育事件中一人大声喊的 “射”可以被检测到,如果观看参数包括曲棍球或足球的射门重 放,那么节目片段可以被纪录在存储器中。

说话者的识别(本领域公知的,例如见由Nilesh V.Patel和 Ishwar K.Sethi发表,于IS&T SPIE Proceeding:Storage and Retrieval for Image and Video Databases V,pp.218-225,San Jose,CA,February 1997,题为“Video Classification Using Speaker Identification”(利用说话者的识别的视频分类)的出 版物,其整个公开内容在此引用作为参考)涉及分析出现在音频信号 中语音的的声音特征,以确定正在说话的人的身份。说话者的识别可 以被用来,例如,寻找喜欢的演员或政治人物的评论。

节目识别涉及分析音频/数据/视频信号的音频部分来识别电视 节目。这在节目的编写目录和编写索引上特别有用。如果EPG信息是 不可用的,这就是很重要的了。已被分析的音频部分与节目特性库去 比较,以便识别节目以确定该节目是否与观看参数一致。

音乐的分类涉及分析音频信号的非-语音部分,以确定出现的音 乐类型(古典、摇滚、爵士等等)。这通过分析例如音频信号非-语 音部分的频率、音调、音色、声响和旋律且将分析结果与特定音乐类 型的已知特性进行比较来实现。音乐分类在本领域是公知的,且一般 解释在由Eric D.Scheirer所著,于1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,New Paltz,NY October 17-20,1999,题为“Towards Music Understanding Without Separation:Segmenting Music With Correlogram Comodulation”(无分离的音乐理解:采用相关图共调制分割音乐) 的文中。

在音频和视频信号分割之后,已被分割的音频和视频信号的不同 部分被结合(步骤121),如果合适,确定目前的电视节目是否与观 看参数相符合。已被分割的音频和视频信号的结合对复杂的观看参数 是必要的。例如,如果观众想要看特定演员说一特定的台词,同时做 一特定的手势,不只是需要面部的识别(识别演员),而且也需要说 话者的识别(保证屏幕上的演员正在说话)、语音到文字的转换(保 证演员说合适的词)和运动判断/分割/检测(识别特定的演员的手 势)。

如以上所解释的,同时存在的视频和音频的分割,已被分割的音 频和视频信息被结合(如果适用)且与观看爱好相比较(步骤122)。 之后确定一特定频道上的当前的节目是否与观看爱好一致。如果是, 在优选的实施方案中,依照与观看爱好的一致性程度,节目被进行分 级(步骤123),且只要当前的节目与用户的观看爱好一致即被记录 在存储器中(步骤124)。分级涉及将与用户最喜欢观看参数一致的 视频的片段放在存储器的第一位,以及将那些涉及最不喜欢的观看爱 好放在存储器的最后。用这种方法,当观众看录下的节目片段时,最 高级别的将被首先回顾。

如果在本发明正在工作的同时用户在看另一电视演出,用户可以 被同时通知一个有趣的电视演出正在一特定的频道上播出(步骤 126)。一旦观众请求,录下的节目片段可被检索并提供给用户观看。 (步骤128)。

如上面提到的,可以预见,音频和视频分割的部分(由核心AV 模确定)可以利用中-级和高-级的模块而结合(即,组合)以确定 在电视节目中的特定事件。核心AV模块包括提供独立的音频和视频 分析的视频和文字模块。这些模块本身包括多个处理单元。核心AV 模块的主要目的是提取更低-级的特征,它们可用作给组合模块(中- 级和高-级工具)的输入,用于推断出与电视节目内容的语义描述类 似的较高-级的决定。基本的视频属性是颜色、运动、形状和结构。 这些属性的每一个由操作符的一个大的集合来描述,它们的范围从局 部操作符和区域/全局操作符。这些操作符是基本数据单元,因为它 们各自相互独立地被处理且它们是任务独立的。这个中-级和高-级组 合模块的集合包括结合来自AV模块不同元素的工具。组合模块的目 的是从内容数据中提取高-级信息。这涉及更低-级特征的多模式组 合。中-级工具(模块)典型地用来描述目标各部分与音频/数据/视 频属性之间的关系。高-级工具被用来识别/结合/处理目标。这些模 型可以是静止的或动态的。动态模型是及时更新的。

高级信息与中-级信息的区别是,在循环中前者存在一个判定过 程。这意味着,模块的内部,存在一个过程,用于决定用哪个核心AV 模块以及在什么样的条件使用。高-级模块典型的实例是动作、事件 检测/识别、故事分割和分类、节目分类、和环境(context)检测。

如果观看爱好是一个演员的一个特定的动作(例如,开门和进入 房间),中-级或高-级的模块将被使用,因为不只是用到面部的检测 和/或音频的识别被用到,而且,运动检测被用来找出特定演员的动 作的确切的位置来确定演员的动作是否与观看参数相对应。结果,使 用多个判断循环来分析电视节目。

可以预见本发明能够发展出整个节目的视频的概要,以使用户看 到的所记录的片段可以在节目的环境中观看到(即,一个“抓获”功 能)。视频概要可用关键画面图象和封闭的字幕发展,以提供未被录 制的节目部分的指示。

也可以预见每当一特定的用户看电视时观看爱好可以被自动的 更新。这一点的实现,是基于观众花在观看一定的节目(节目的种 类)的时间以及节目的视频和其他的特性(如,动作、明亮的颜色)。 父母的控制可以增加进来,以基于节目的内容过滤掉部分电视节目或 整个节目。本发明可以检测电视节目中有裸体、暴力或淫秽的词的场 面并防止节目的那些部分被未成年人观看。

可以预见,当观众正在看电视时,系统可以就对录下的信息为观 众提供更新。换句话,当观众正在看另一电视频道时,观众将被通知 与观看参数相匹配的电视片段已被记录下来。也可以预见如果用户正 在看电视节目,而系统识别出某一个电视节目有趣,用户将被实时通 知检测到有趣的节目。进一步,可以预见系统可对存储器执行每天/ 每周的自动储存清除功能,以便基于观看爱好管理存储空间。在优选 的实施方案中,系统也包括一种时间抓获功能。具体地,当某人正在 进行电视频道的冲浪且碰到一个有趣的节目,他可以通过浏览“一个 提取的海报”(或摘要,预告)“抓获”有趣的节目。

本发明因此提供一“视频搜索系统”,其中,当某人想要观看一 定类型的电视节目或只是想看特定的信息时,本发明建立一种用于观 众想看的节目、主题和事件的可编程的愿望表。

虽然本发明已讨论了有关为观众位置上的观众寻找想要的电视 节目和电视节目的片段/信息,一视频经纪行服务(brokerage house service〕可以被用来根据要求过滤和传送特定的视频片段。因此系 统也许不放置在用户端,但是,例如,在有线电视提供者端和系统可 用于多个用户同时操作。

本发明应用和改进现有的技术,如视频分割、视频分析、语音识 别、字符识别及目标是别,用于在视频流中发现线索,以提供一个性 化的视频信息识别系统。

还可以预见,可以本发明被采用来监视和记录观众对特定的节目 的反馈和兴趣。收集的信息对推出新的节目、新的产品、新的电影和 特定事件的制作是有价值的。本发明能够捕捉每个观众的兴趣。由个 人使用的装置越多,就会更能够适合于用户的不同的兴趣。本发明因 此建立随时间变化的关于个人兴趣的信息模型,这种变化可以是用户 变化,也可是系统所需要的更多的关于用户的信息。这种信息对广告 人和广播公司是有用的。视频过滤系统通过视频分析处理,能够生成 完整的电影或电视节目的可浏览的编排。进一步,本发明允许个人预 看和预听作为一多媒体的显示的电视节目的内容。这可通过分割视 频、分析它的内容和提供给用户由原始和合成的画面构成的可浏览的 编排,以及重要的对话的片段来实现。

通过参考相关的附图,描述了本发明的特定的优选实施方案,应 当理解本发明不限于那些精确的实施方案,其中本领域的普通的技术 人员可实施各种变化和修改而不违背本发明所附带的权利要求中所 述范围或精神。

发明背景

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈