首页 / 专利库 / 人工智能 / 三维形变模型 / 用于校正视频电话图像中头部姿态的方法和装置

用于校正视频电话图像中头部姿态的方法和装置

阅读:432发布:2021-02-21

专利汇可以提供用于校正视频电话图像中头部姿态的方法和装置专利检索,专利查询,专利分析的服务。并且公开了一种用于校正视频电话图像中头部 姿态 的 图像处理 系统(250)和方法(300),以便于在显示器上呈现 正面 视图。所公开的头部姿态校正器(250)估计头部姿态的方位并在需要时调整头部姿态的方位,以呈现正面视图。头部姿态的方位通过生成面部表面的三维模型并调整该三维面部模型的方位来调整以提供期望的正面视图。头部姿态校正器(250)可以被包括在视频电话(100)中用于校正所发送或接收的图像(或两者)的头部姿态,或者可以被包括在网络 服务器 中用于自动地调整视频电话通信中的一个或更多参与者的头像。,下面是用于校正视频电话图像中头部姿态的方法和装置专利的具体信息内容。

1.一种在视频电话系统中用于处理包含有人头部的至少一部分的 图像的方法,包括:
采用模式识别技术估计所述图像中所述头部的方位;
采用计算机视觉技术计算所述人的面部表面的三维模型;和
调整所述三维面部表面模型的方位来提供正面视图。
2.如权利要求1所述的方法,其中所述的计算步骤进一步包括采 用对称面部假设来获得用于侧面视图的完整的三维面部表面模型的步 骤。
3.如权利要求1所述的方法,其中所述的计算步骤进一步包括采 用从运动恢复结构技术来获得所述三维面部表面模型的步骤。
4.如权利要求1所述的方法,其中所述的估计步骤应用了分类技 术。
5.如权利要求1所述的方法,其中所述的计算步骤生成可形变三 维模型。
6.如权利要求1所述的方法,进一步包括将所述的具有调整的方 位的三维面部表面模型映射到二维空间的步骤。
7.如权利要求1所述的方法,进一步包括发送所述调整的图像到 远程用户的步骤。
8.如权利要求1所述的方法,进一步包括呈现所述调整的图像给 本地用户的步骤。
9.一种用在视频电话系统中的图像处理器,包括:
用于存储包含有人头部的至少一部分的图像的存储器;和
头部姿态校正器,该校正器(I)采用模式识别技术估计所述图像 中所述头部的方位;(II)采用计算机视觉技术计算所述人的面部表面 的三维模型;和(III)调整所述三维面部表面模型的方位来提供正面视 图。
10.如权利要求9所述的图像处理器,其中所述的头部姿态校正器 进一步被配置为采用对称面部假设来获得用于侧面视图的完整的三维 面部表面模型。
11.如权利要求9所述的图像处理器,其中所述的头部姿态校正器 进一步被配置成采用从运动恢复结构技术来获得所述三维面部表面模 型。
12.如权利要求9所述的图像处理器,其中所述的头部姿态校正器 进一步被配置成应用分类技术来获得所述头部方位。
13.如权利要求9所述的图像处理器,其中所述的三维面部表面模 型为可形变三维模型。
14.如权利要求9所述的图像处理器,其中所述的头部姿态校正器 进一步被配置成将所述的具有调整的方位的三维面部表面模型映射成 二维修正图像。
15.如权利要求14所述的图像处理器,其中所述的二维修正图像 被发送到远程用户。
16.如权利要求14所述的图像处理器,其中所述的二维修正图像 被呈现给本地用户。
17.一种视频电话系统,包括:
用于存储包含人头部的至少一部分的图像的存储器;和
头部姿态校正器,它(I)采用模式识别技术估计所述图像中所述 头部的方位;(II)采用计算机视觉技术计算所述人的面部表面的三维 模型;和(III)调整所述三维面部表面模型的方位来提供正面视图。
18.如权利要求17所述的视频电话系统,其中所述的头部姿态校 正器进一步被配置为采用对称面部假设来获得用于侧面视图的完整的 三维面部表面模型。
19.如权利要求17所述的视频电话系统,其中所述的头部姿态校 正器进一步被配置成采用从运动恢复结构技术来获得所述三维面部表 面模型。
20.如权利要求17所述的视频电话系统,其中所述的头部姿态校 正器进一步被配置成应用分类技术来获得所述头部方位。
21.如权利要求17所述的视频电话系统,其中所述的头部姿态校 正器进一步被配置成将所述的具有调整的方位的三维面部表面模型映 射成二维修正图像。
22.如权利要求21所述的视频电话系统,其中所述的二维修正图 像被发送到远程用户。
23.如权利要求21所述的视频电话系统,其中所述的二维修正图 像被呈现给本地用户。

说明书全文

发明涉及视频电话系统,并且尤其涉及一种用于校正视频电话图 像中头部姿态的方法和装置。

消费市场提供了很多种通信和媒体选项。例如,已经知道有各种使 得能够在相互连接的用户之间通过电话线进行音频和视频通信的视频 电话。典型地,一个视频电话系统包括使得能够进行双向音频通信的麦 克和扬声器以及使得能够进行双向视频通信的摄像机和显示器。

视频电话应用的技术现在已经发展到由许多的无线电话服务供应 商来提供视频电话选项。无线视频电话因此使能在相互连接的用户之间 通过无线链路进行音频和视频通信。对视频电话通信,尤其对移动用户 成问题的一个普遍问题是:视频电话呼叫中的一方或双方参与者不能在 所有的时间都呈现正面面部图像给摄像机。例如,如果一个用户正在散 步并且看着人行道,同时在他或她的手中握着视频电话的摄像机部分, 则典型地远程参与者将会看到用户面部的“下颚视图”。类似的,如果 用户坐在办公桌旁,并将他或她的头转向去看计算机显示器,而此时视 频电话的摄像机部分被放置在用户的办公桌上,那么远程参与者可能会 看到用户面部的“侧面视图”。

因此这就需要有一种用于校正视频电话图像的头部姿态的方法和 装置,以便于远程参与者可以看到其他参与者的恰当的正面视图。再就 是需要有一种适合在无线电话中实现估计和校正头部姿态的改进技 术。

通常,公开了一种用于校正视频电话图像中头部姿态的图像处理系 统和方法,以便于在显示器上呈现正面视图。所公开的头部姿态校正器 估计头部姿态的方位,进而如果需要的话,调整头部姿态的方位来呈现 正面视图。头部姿态的方位通过生成面部表面的三维模型并调整该三维 面部模型的方位来调整以提供期望的正面视图。该公开的头部姿态校正 器可以被包括在用户的视频电话中,用于校正所发送的或接收的图像 (或两者)的头部姿态,或者可以被包括在网络服务器中用于自动地调 整视频电话通信中一个或多个参与者的头像。头部姿态校正器的计算要 求适合于在无线视频电话中实现。

对于本发明更完善的理解以及本发明进一步的特征和优点将参考 下面详细的说明和附图来获得。

图1描述了一个常规的视频电话系统;

图2描述了其中本发明可以运行的网络环境;和

图3是用于描述图2中图像校正处理的示范实现的流程图

图1描述了常规的视频电话系统100。如图1所示,该示范常规视 频电话系统100包括用于使能在两个或更多用户之间进行音频和视频通 信的麦克风110、扬声器120、摄像机130和显示器140。该常规的视频 电话系统100可以被具体化为任何可用的视频电话系统,例如索尼爱立 信移动通信公司的市场上可买到的那些视频电话系统。应当指出,麦克 风110,扬声器120,摄像机130和显示器140可以被集成在一个单独 的单元里,例如台式电话,或可以被具体化为两个或更多模化单元, 这对于本领域的普通技术人员来说是很明显的。例如,摄像机130和显 示器140可以被具体化为具有麦克风110和扬声器120的常规电话的模 块化附件。在一个特定的实现中,常规的视频电话系统100可被具体化 为索尼爱立信移动通信公司的市场上可买到的具有摄像机附件的T68i 视频电话系统。

图2描述了其中本发明可以运行的网络环境200。如图2所示,包 含有本发明特征的第一视频电话系统210通过网络220与一个或多个另 外的视频电话系统通信,例如视频电话系统270。网络220可以被具体 化为一个或多个有线或无线网络,或两者的结合。第一视频电话系统210 可以被具体化为一个常规的视频电话系统,例如示于图1中的视频电话 系统100,并在此进行修改以提供本发明的特征和功能。另外的视频电 话系统270可以是一个常规的视频电话系统或一个包含有本发明特征的 视频电话系统。

根据本发明的一方面,视频电话系统210包括一个头部姿态校正器 250,该校正器使用头部姿态估计和校正处理300,这将在后面结合图3 作进一步描述。头部姿态校正器250可以与一个常规的视频电话系统 100集成在一个单独的单元上,例如台式电话,或可以被具体化为常规 的视频电话系统100的模块化附件,这对于本领域的普通技术人员来说 是很明显的。

在一个示范实施例中,当在第一用户的视频电话210中实现头部姿 态校正器250来处理正被发送的本地用户的图像以显示给第二用户时, 头部姿态校正器250能够可选地处理从一个或多个另外的视频电话系统 270接收到的远程用户的图像,该图像用于呈现给第一视频电话210的 用户。在进一步的变化中,头部姿态校正器250能够由服务供应商在网 络220的服务器中实现,用于根据本发明的教导自动调整视频电话通信 中所有参与者的头像。

图3为用于描述头部姿态估计和校正处理300的示范实现的流程 图。一般说来,头部姿态估计和校正处理300确保视频电话图像为用户 的恰当的正面视图。头部姿态估计和校正处理300的计算要求适合于在 无线电话中实现。

如图3所示,初始地,头部姿态估计和校正处理300在步骤310中 从视频电话系统210的摄像机获得图像序列。然后,头部姿态估计和校 正处理300在步骤320中采用模式识别技术,例如在关于Automatic Face and Gesture Recognition2000(自动面部和手势识别2000)的 IEEE会议中,在例如Y.Li,S.Gong,和H.Liddell的“Support Vector Regression and Classification Based Multi-View Face Detection and Recognition(基于支持向量回归和分类的多视图面部检测与识 别)”中描述过的分类技术,来估计头部姿态,该文档在此引作参考。

一般说来,在步骤320中采用的分类技术将提供头部姿态的特性, 例如正面视图、下颚视图或侧面视图。在一种变化中,分类技术还可提 供下颚视图或侧面视图偏离真正的正面视图的程度。尽管许多用于估计 头部姿态的方法的计算强度大,并很容易受到噪声的影响,本发明也认 识到在大多数情况下预期一个面部图像的视频电话环境中获得了一种 有效的解决方案。

然后在步骤330执行一个测试,用于确定头部姿态是否为正面视 图。如果在步骤330中确定头部姿态为正面视图,那么就不需要本发明 的头部姿态校正技术并在步骤340中发送该未经修改的图像。

然而,如果在步骤330中确定头部姿态不是正面视图,那么在步骤 350中采用计算机视觉技术,例如“从运动恢复结构”技术从面部图像 序列中计算出面部表面的三维模型。对从面部图像序列中计算出面部表 面的三维模型所适用技术的详细描述参见以下文档,例如计算机视觉和 模式识别(CVPR)(2001)中的M.Brand的“Mor phable 3D Models from Video(来自视频的可形变3D模型)”或计算机视觉和模式识别CVPR (2001)中的M.Brand的“Flexible Flow for 3D Nonrigid Tracking and Shape Recovery(3D非刚性跟踪和形状恢复的弹性流程)”,每 一个都在此引作参考。尽管许多用于估计普通表面的方法的计算强度大, 并很容易受到噪声的影响,本发明也认识到在大多数情况下预期一个面 部表面的视频电话环境中获得了一种有效的解决方案。

然后在步骤360中执行一个测试,用于确定头部姿态是否为侧面视 图。如果在步骤360中确定头部姿态为侧面视图,那么在步骤370中采 用对称面部假设来估计不存在于侧面视图中的头部的剩余部分。然后程 序控制进入到步骤380。

如果在步骤370中确定头部姿态不是侧面视图,则该图像必然是下 颚视图或前额视图,并且程序控制直接进入步骤380。在步骤380中, 三维面部表面的方位被调整以提供正面视图。

特别地,三维面部表面的原点从取得输入图像处移动到面部表面鼻 子这点之前的一点上。例如,下颚视图图像从所期望原点之下的一点取 得,并且因此通过将三维坐标上移而获得原点校正。类似的,前额视图 图像通过将三维坐标下移而被校正。侧面视图图像通过将面部表面的三 维坐标沿表面的纵轴旋转90度而被校正。这样就能通过应用标准透视 投影而获得正面视图。在步骤390中修改后的图像然后被发送到远程用 户。此后程序控制终止。

应该理解在此示出和描述的实施例和变化仅用于对本发明原理起 说明作用,并且对于本领域的技术人员来说在不偏离本发明的范围和精 神的情况下,可以对本发明实施任意的修改。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈