用于校正视频电话图像中头部姿态的方法和装置专利检索-三维形变模型人工智能专利检索查询-专利查询网

用于校正视频电话图像中头部姿态的方法和装置

阅读：432发布：2021-02-21

专利汇可以提供用于校正视频电话图像中头部姿态的方法和装置专利检索，专利查询，专利分析的服务。并且公开了一种用于校正视频电话图像中头部姿态的图像处理系统(250)和方法(300)，以便于在显示器上呈现正面视图。所公开的头部姿态校正器(250)估计头部姿态的方位并在需要时调整头部姿态的方位，以呈现正面视图。头部姿态的方位通过生成面部表面的三维模型并调整该三维面部模型的方位来调整以提供期望的正面视图。头部姿态校正器(250)可以被包括在视频电话(100)中用于校正所发送或接收的图像(或两者)的头部姿态，或者可以被包括在网络服务器中用于自动地调整视频电话通信中的一个或更多参与者的头像。，下面是用于校正视频电话图像中头部姿态的方法和装置专利的具体信息内容。

权利要求

1.一种在视频电话系统中用于处理包含有人头部的至少一部分的图像的方法，包括：
采用模式识别技术估计所述图像中所述头部的方位；
采用计算机视觉技术计算所述人的面部表面的三维模型；和
调整所述三维面部表面模型的方位来提供正面视图。
2.如权利要求1所述的方法，其中所述的计算步骤进一步包括采用对称面部假设来获得用于侧面视图的完整的三维面部表面模型的步骤。
3.如权利要求1所述的方法，其中所述的计算步骤进一步包括采用从运动恢复结构技术来获得所述三维面部表面模型的步骤。
4.如权利要求1所述的方法，其中所述的估计步骤应用了分类技术。
5.如权利要求1所述的方法，其中所述的计算步骤生成可形变三维模型。
6.如权利要求1所述的方法，进一步包括将所述的具有调整的方位的三维面部表面模型映射到二维空间的步骤。
7.如权利要求1所述的方法，进一步包括发送所述调整的图像到远程用户的步骤。
8.如权利要求1所述的方法，进一步包括呈现所述调整的图像给本地用户的步骤。
9.一种用在视频电话系统中的图像处理器，包括：
用于存储包含有人头部的至少一部分的图像的存储器；和
头部姿态校正器，该校正器(I)采用模式识别技术估计所述图像中所述头部的方位；(II)采用计算机视觉技术计算所述人的面部表面的三维模型；和(III)调整所述三维面部表面模型的方位来提供正面视图。
10.如权利要求9所述的图像处理器，其中所述的头部姿态校正器进一步被配置为采用对称面部假设来获得用于侧面视图的完整的三维面部表面模型。
11.如权利要求9所述的图像处理器，其中所述的头部姿态校正器进一步被配置成采用从运动恢复结构技术来获得所述三维面部表面模型。
12.如权利要求9所述的图像处理器，其中所述的头部姿态校正器进一步被配置成应用分类技术来获得所述头部方位。
13.如权利要求9所述的图像处理器，其中所述的三维面部表面模型为可形变三维模型。
14.如权利要求9所述的图像处理器，其中所述的头部姿态校正器进一步被配置成将所述的具有调整的方位的三维面部表面模型映射成二维修正图像。
15.如权利要求14所述的图像处理器，其中所述的二维修正图像被发送到远程用户。
16.如权利要求14所述的图像处理器，其中所述的二维修正图像被呈现给本地用户。
17.一种视频电话系统，包括：
用于存储包含人头部的至少一部分的图像的存储器；和
头部姿态校正器，它(I)采用模式识别技术估计所述图像中所述头部的方位；(II)采用计算机视觉技术计算所述人的面部表面的三维模型；和(III)调整所述三维面部表面模型的方位来提供正面视图。
18.如权利要求17所述的视频电话系统，其中所述的头部姿态校正器进一步被配置为采用对称面部假设来获得用于侧面视图的完整的三维面部表面模型。
19.如权利要求17所述的视频电话系统，其中所述的头部姿态校正器进一步被配置成采用从运动恢复结构技术来获得所述三维面部表面模型。
20.如权利要求17所述的视频电话系统，其中所述的头部姿态校正器进一步被配置成应用分类技术来获得所述头部方位。
21.如权利要求17所述的视频电话系统，其中所述的头部姿态校正器进一步被配置成将所述的具有调整的方位的三维面部表面模型映射成二维修正图像。
22.如权利要求21所述的视频电话系统，其中所述的二维修正图像被发送到远程用户。
23.如权利要求21所述的视频电话系统，其中所述的二维修正图像被呈现给本地用户。

说明书全文

本发明涉及视频电话系统，并且尤其涉及一种用于校正视频电话图像中头部姿态的方法和装置。

消费市场提供了很多种通信和媒体选项。例如，已经知道有各种使得能够在相互连接的用户之间通过电话线进行音频和视频通信的视频电话。典型地，一个视频电话系统包括使得能够进行双向音频通信的麦克风和扬声器以及使得能够进行双向视频通信的摄像机和显示器。

视频电话应用的技术现在已经发展到由许多的无线电话服务供应商来提供视频电话选项。无线视频电话因此使能在相互连接的用户之间通过无线链路进行音频和视频通信。对视频电话通信，尤其对移动用户成问题的一个普遍问题是：视频电话呼叫中的一方或双方参与者不能在所有的时间都呈现正面面部图像给摄像机。例如，如果一个用户正在散步并且看着人行道，同时在他或她的手中握着视频电话的摄像机部分，则典型地远程参与者将会看到用户面部的“下颚视图”。类似的，如果用户坐在办公桌旁，并将他或她的头转向去看计算机显示器，而此时视频电话的摄像机部分被放置在用户的办公桌上，那么远程参与者可能会看到用户面部的“侧面视图”。

因此这就需要有一种用于校正视频电话图像的头部姿态的方法和装置，以便于远程参与者可以看到其他参与者的恰当的正面视图。再就是需要有一种适合在无线电话中实现估计和校正头部姿态的改进技术。

通常，公开了一种用于校正视频电话图像中头部姿态的图像处理系统和方法，以便于在显示器上呈现正面视图。所公开的头部姿态校正器估计头部姿态的方位，进而如果需要的话，调整头部姿态的方位来呈现正面视图。头部姿态的方位通过生成面部表面的三维模型并调整该三维面部模型的方位来调整以提供期望的正面视图。该公开的头部姿态校正器可以被包括在用户的视频电话中，用于校正所发送的或接收的图像 (或两者)的头部姿态，或者可以被包括在网络服务器中用于自动地调整视频电话通信中一个或多个参与者的头像。头部姿态校正器的计算要求适合于在无线视频电话中实现。

对于本发明更完善的理解以及本发明进一步的特征和优点将参考下面详细的说明和附图来获得。

图1描述了一个常规的视频电话系统；

图2描述了其中本发明可以运行的网络环境；和

图3是用于描述图2中图像校正处理的示范实现的流程图。

图1描述了常规的视频电话系统100。如图1所示，该示范常规视频电话系统100包括用于使能在两个或更多用户之间进行音频和视频通信的麦克风110、扬声器120、摄像机130和显示器140。该常规的视频电话系统100可以被具体化为任何可用的视频电话系统，例如索尼爱立信移动通信公司的市场上可买到的那些视频电话系统。应当指出，麦克风110，扬声器120，摄像机130和显示器140可以被集成在一个单独的单元里，例如台式电话，或可以被具体化为两个或更多模块化单元，这对于本领域的普通技术人员来说是很明显的。例如，摄像机130和显示器140可以被具体化为具有麦克风110和扬声器120的常规电话的模块化附件。在一个特定的实现中，常规的视频电话系统100可被具体化为索尼爱立信移动通信公司的市场上可买到的具有摄像机附件的T68i 视频电话系统。

图2描述了其中本发明可以运行的网络环境200。如图2所示，包含有本发明特征的第一视频电话系统210通过网络220与一个或多个另外的视频电话系统通信，例如视频电话系统270。网络220可以被具体化为一个或多个有线或无线网络，或两者的结合。第一视频电话系统210 可以被具体化为一个常规的视频电话系统，例如示于图1中的视频电话系统100，并在此进行修改以提供本发明的特征和功能。另外的视频电话系统270可以是一个常规的视频电话系统或一个包含有本发明特征的视频电话系统。

根据本发明的一方面，视频电话系统210包括一个头部姿态校正器 250，该校正器使用头部姿态估计和校正处理300，这将在后面结合图3 作进一步描述。头部姿态校正器250可以与一个常规的视频电话系统 100集成在一个单独的单元上，例如台式电话，或可以被具体化为常规的视频电话系统100的模块化附件，这对于本领域的普通技术人员来说是很明显的。

在一个示范实施例中，当在第一用户的视频电话210中实现头部姿态校正器250来处理正被发送的本地用户的图像以显示给第二用户时，头部姿态校正器250能够可选地处理从一个或多个另外的视频电话系统 270接收到的远程用户的图像，该图像用于呈现给第一视频电话210的用户。在进一步的变化中，头部姿态校正器250能够由服务供应商在网络220的服务器中实现，用于根据本发明的教导自动调整视频电话通信中所有参与者的头像。

图3为用于描述头部姿态估计和校正处理300的示范实现的流程图。一般说来，头部姿态估计和校正处理300确保视频电话图像为用户的恰当的正面视图。头部姿态估计和校正处理300的计算要求适合于在无线电话中实现。

如图3所示，初始地，头部姿态估计和校正处理300在步骤310中从视频电话系统210的摄像机获得图像序列。然后，头部姿态估计和校正处理300在步骤320中采用模式识别技术，例如在关于Automatic Face and Gesture Recognition2000(自动面部和手势识别2000)的 IEEE会议中，在例如Y.Li，S.Gong，和H.Liddell的“Support Vector Regression and Classification Based Multi-View Face Detection and Recognition(基于支持向量回归和分类的多视图面部检测与识别)”中描述过的分类技术，来估计头部姿态，该文档在此引作参考。

一般说来，在步骤320中采用的分类技术将提供头部姿态的特性，例如正面视图、下颚视图或侧面视图。在一种变化中，分类技术还可提供下颚视图或侧面视图偏离真正的正面视图的程度。尽管许多用于估计头部姿态的方法的计算强度大，并很容易受到噪声的影响，本发明也认识到在大多数情况下预期一个面部图像的视频电话环境中获得了一种有效的解决方案。

然后在步骤330执行一个测试，用于确定头部姿态是否为正面视图。如果在步骤330中确定头部姿态为正面视图，那么就不需要本发明的头部姿态校正技术并在步骤340中发送该未经修改的图像。

然而，如果在步骤330中确定头部姿态不是正面视图，那么在步骤 350中采用计算机视觉技术，例如“从运动恢复结构”技术从面部图像序列中计算出面部表面的三维模型。对从面部图像序列中计算出面部表面的三维模型所适用技术的详细描述参见以下文档，例如计算机视觉和模式识别(CVPR)(2001)中的M.Brand的“Mor phable 3D Models from Video(来自视频的可形变3D模型)”或计算机视觉和模式识别CVPR (2001)中的M.Brand的“Flexible Flow for 3D Nonrigid Tracking and Shape Recovery(3D非刚性跟踪和形状恢复的弹性流程)”，每一个都在此引作参考。尽管许多用于估计普通表面的方法的计算强度大，并很容易受到噪声的影响，本发明也认识到在大多数情况下预期一个面部表面的视频电话环境中获得了一种有效的解决方案。

然后在步骤360中执行一个测试，用于确定头部姿态是否为侧面视图。如果在步骤360中确定头部姿态为侧面视图，那么在步骤370中采用对称面部假设来估计不存在于侧面视图中的头部的剩余部分。然后程序控制进入到步骤380。

如果在步骤370中确定头部姿态不是侧面视图，则该图像必然是下颚视图或前额视图，并且程序控制直接进入步骤380。在步骤380中，三维面部表面的方位被调整以提供正面视图。

特别地，三维面部表面的原点从取得输入图像处移动到面部表面鼻子这点之前的一点上。例如，下颚视图图像从所期望原点之下的一点取得，并且因此通过将三维坐标上移而获得原点校正。类似的，前额视图图像通过将三维坐标下移而被校正。侧面视图图像通过将面部表面的三维坐标沿表面的纵轴旋转90度而被校正。这样就能通过应用标准透视投影而获得正面视图。在步骤390中修改后的图像然后被发送到远程用户。此后程序控制终止。

应该理解在此示出和描述的实施例和变化仅用于对本发明原理起说明作用，并且对于本领域的技术人员来说在不偏离本发明的范围和精神的情况下，可以对本发明实施任意的修改。

标题	发布/更新时间	阅读量
一种基于形变特征预测电池碰撞后SoH的方法	2020-05-08	245
人体三维建模数据处理方法及装置	2020-05-11	839
基于3D深度摄像头和柔性力敏传感器的跑步机自适应系统	2020-05-16	135
图像篡改取证方法及装置	2020-05-17	583
一种基于光外同轴送粉的变宽度薄壁件激光熔覆成形方法	2020-05-18	631
一种基于渐进式外接球结构的碰撞检测算法	2020-05-08	769
一种基于面部运动单元的三维非真实感表情生成方法	2020-05-11	349
一种形变物体的三维位姿估计方法及定位抓取系统	2020-05-12	600
一种基于手势识别的全息投影装置的工作方法	2020-05-13	725
一种基于升降轨时序InSAR的煤矿区地表形变监测方法	2020-05-16	273

用于校正视频电话图像中头部姿态的方法和装置

本发明涉及视频电话系统，并且尤其涉及一种用于校正视频电话图 像中头部姿态的方法和装置。

该功能需要专业版企业版VIP权限，您可以：

本发明涉及视频电话系统，并且尤其涉及一种用于校正视频电话图像中头部姿态的方法和装置。