首页 / 专利库 / 编辑中 / 时间线 / 确定关注点的方法、装置、设备、系统及信息处理方法

确定关注点的方法、装置、设备、系统及信息处理方法

阅读:106发布:2024-02-20

专利汇可以提供确定关注点的方法、装置、设备、系统及信息处理方法专利检索,专利查询,专利分析的服务。并且本 申请 实施例 提供了一种确定关注点的方法、装置、设备、系统及信息处理方法,属于信息处理技术领域。该确定关注点的方法包括:获取场景的至少两幅图像;基于至少两幅图像,确定图像中的对象在场景中的关注点。本申请实施例的方案,无需对象佩戴任何设备,即可确定对象在真实场景中的关注点,该方案能够适用于无需对象配合佩戴使用额外设备的实际应用场景,能够为对象提供更自然的交互方式。,下面是确定关注点的方法、装置、设备、系统及信息处理方法专利的具体信息内容。

1.一种确定关注点的方法,其特征在于,包括:
获取场景的至少两幅图像;
基于所述至少两幅图像,确定所述图像中的对象在所述场景中的关注点。
2.根据权利要求1的方法,其特征在于,所述基于所述至少两幅图像,确定所述图像中的对象在所述场景中的关注点,包括:
基于所述至少两幅图像,确定所述对象对应的关注路线信息;
根据所述关注路线信息,确定所述关注点。
3.根据权利要求2的方法,其特征在于,所述基于所述至少两幅图像,确定所述对象对应的关注路线信息,包括:
基于所述至少两幅图像,确定所述对象的部位图像;
基于所述对象的部位图像,确定所述关注路线信息。
4.根据权利要求3的方法,其特征在于,还包括:
基于所述对象的部位图像,得到所述对象的类别信息。
5.根据权利要求3或4的方法,其特征在于,所述对象部位图像包括如下中的至少一种:
身体图像组、头部图像组、脸部图像组、脸部关键点图像组、眼部图像组、手臂图像组、手部图像组。
6.根据权利要求3或4的方法,其特征在于,所述关注路线信息包括关注路线的起点信息和方向信息。
7.根据权利要求3或4的方法,其特征在于,所述基于所述对象的部位图像,确定所述关注路线信息,包括:
基于所述对象的部位图像,得到至少两个初始关注路线信息;
通过融合所述至少两个初始关注路线信息得到所述关注路线信息。
8.根据权利要求3至7中任一项的方法,其特征在于,还包括:
通过部位建模对所述关注路线信息进行校正。
9.根据权利要求7的方法,其特征在于,所述关注点为注视点,所述对象的部位图像为所述头部图像组,所述基于所述对象的部位图像,得到至少两个初始关注路线信息,包括:
通过第一卷积神经元网络对所述头部图像组进行特征提取,得到头部特征图像组;
通过第一全连接神经元网络对所述头部特征图像组进行脸部位置检测,得到各头部特征图像中的脸部位置信息;
由脸部特征池化层根据所述头部特征图像组和所述各头部特征图像中的脸部位置信息得到脸部特征图像组;
通过第二全连接神经元网络对所述脸部特征图像组进行脸部关键点检测,得到各脸部特征图像中的脸部关键点位置信息;
由眼部特征池化层根据所述脸部特征图像组和所述各脸部特征图像中的脸部关键点位置信息,得到眼部特征图像组;
通过第二卷积神经元网络对所述头部特征图像组、所述脸部特征图像组和所述眼部特征图像组进行特征提取,由第三全连接神经元网络根据提取的特征图像,得到第一初始关注路线信息;
通过第三卷积神经元网络对眼部特征图像组进行特征提取,由第四全连接神经元网络根据提取的特征图像得到第二初始关注路线信息。
10.根据权利要求2至9中任一项的方法,其特征在于,所述确定所述关注点的方式包括如下中的至少一种:
方式一:
根据所述关注路线信息,确定关注路线在所述至少两幅图像上的投影点所对应的图像信息的匹配程度;
基于匹配程度,确定所述关注点;
方式二:
获取所述场景的深度图像;
根据所述关注路线信息,确定关注路线的路线点在所述深度图像的投影点对应的深度值与对应路线点的深度值的匹配程度;
基于匹配程度,确定所述关注点。
11.根据权利要求10的方法,其特征在于,还包括:通过如下的至少一种方式对匹配程度进行校正:
路线点运动预测校正、图像语义分割校正。
12.根据权利要求10的方法,其特征在于,所述场景的深度图像中的静态物体的深度值根据静态物体的历史深度值得到。
13.根据权利要求1至12中任一项的方法,其特征在于,还包括:
根据所述关注点和所述至少两幅图像中的至少一幅图像,确定所述对象的关注图像。
14.根据权利要求11的方法,其特征在于,所述根据所述关注点和所述至少两幅图像中的至少一幅图像,确定所述对象的关注图像,包括:
根据所述关注点在所述至少两幅图像中的至少一幅图像的投影点,确定观察图像窗口;
根据所述观察图像窗口和所述对象的关注窗口之间的对应关系,确定所述关注图像。
15.根据权利要求1至14中任一项的方法,其特征在于,所述至少两幅图像为至少两幅全景图像。
16.根据权利要求1至15中任一项的方法,其特征在于,所述获取场景的至少两幅图像,包括:
通过不同位置的至少两台相机获取所述至少两幅图像;或者,
通过控制相机平移和/或旋转,获取所述至少两幅图像。
17.根据权利要求1至16中任一项的方法,其特征在于,所述关注点包括注视点和/或所述对象的部位的指向点。
18.一种确定关注点的装置,其特征在于,包括:
图像获取模,用于获取场景的至少两幅图像;
关注点确认模块,用于基于所述至少两幅图像,确定所述图像中的对象在所述场景中的关注点。
19.一种电子设备,其特征在于,包括图像采集模块、存储器和处理器;
图像采集模块,用于采集场景的至少两幅图像;
存储器,用于存储机器可读指令,指令在由处理器执行时,将所述处理器配置为基于图像采集模块采集的所述至少两幅图像,确定所述图像中的对象在所述场景中的关注点。
20.一种确定关注点的系统,其特征在于,系统包括图像采集设备、以及与所述图像采集设备连接的电子设备;
图像采集设备,用于获取场景的至少两幅图像,并将所述至少两幅图像发送至所述电子设备;
电子设备,用于接收所述图像采集设备发送的所述至少两幅图像,基于接收到的所述至少两幅图像,确定所述图像中的对象在所述场景中的关注点。
21.一种行为信息获取方法,其特征在于,包括:
获取对象的关注点;
根据所述关注点,获取所述对象的行为信息。
22.根据权利要求21的方法,其特征在于,所述对象的关注点根据权利要求1至17中任一项确定关注点的方法得到。
23.根据权利要21或22的方法,其特征在于,所述对象的行为信息包括以下中的至少一种:
所述对象关注的物体;
所述对象关注物体的时长;
所述对象关注的物体随时间的变化信息;
所述对象的关注点轨迹;
所述对象的关注图像;
所述对象的语音信息;
所述对象与设备的交互信息。
24.根据权利要求21至23中任一项的方法,其特征在于,所述获取所述对象的行为信息之后,还包括:
根据所述对象的行为信息,进行处理。
25.根据权利要求24的方法,其特征在于,所述处理包括如下中的至少一种:
保存所述对象关注的物体的图像或视频;
提供与所述对象关注的物体相关的服务或信息;
提供与所述对象的关注图像相关的服务或信息;
控制所述对象关注的物体的状态或自身的状态;
提供提示信息;
提供注意相关信息。
26.根据权利要求25所述的方法,其特征在于,所述提供与所述对象关注的物体相关的服务或信息,包括以下至少一种:
提供根据所述对象的指令获取的所述对象关注的物体的相关信息;
提供结合所述对象关注的物体和所述对象的语音信息确定的服务或信息。
27.一种行为信息获取装置,其特征在于,包括:
关注点获取模块,用于获取对象的关注点;
行为信息获取模块,用于根据所述关注点,获取所述对象的行为信息。
28.一种电子设备,其特征在于,包括存储器和处理器;
存储器,用于存储机器可读指令,指令在由处理器执行时,使得处理器执行权利要求1至17中任一项的确定关注点的方法,和/或,权利要求21至26中任一项的行为信息获取方法。
29.一种计算机可读存储介质,其特征在于,计算机存储介质用于存储计算机指令,当计算机指令在计算机上运行时,使得计算机可以执行权利要求1至17中任一项的确定关注点的方法,和/或,权利要求21至26中任一项的行为信息获取方法。

说明书全文

确定关注点的方法、装置、设备、系统及信息处理方法

技术领域

[0001] 本申请涉及信息处理技术领域,具体而言,本发明涉及一种确定关注点的方法、装置、设备、系统及信息处理方法。

背景技术

[0002] 用户的注视点,反映了用户所注视的物体,通过获知用户的注视点,可获知其感兴趣的物体。现有注视点的检测方案,多是需要用户佩戴装有观察用户眼睛的眼部相机和观察用户周边环境的外部相机的设备,通过关联眼部相机检测到的用户视线方向和外部相机捕捉到的环境物体图像来提取用户的注视点。虽然这种方案可以获得较高的精度,但是由于需要用户佩戴额外的设备,会对用户造成约束和限制,造成用户的不便,也大大限制该方案的应用场景。例如接待、购物等服务业场合,不适于要求顾客佩戴指定设备。还有些检测方案虽然不需要用户佩戴额外的设备,但对检测到的注视点的位置一般都限定在了特定的显示器上。

发明内容

[0003] 本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
[0004] 第一方面,本申请提供了一种确定关注点的方法,该方法包括:
[0005] 获取场景的至少两幅图像;
[0006] 基于至少两幅图像,确定图像中的对象在场景中的关注点。
[0007] 第二方面,本申请实提供了一种确定关注点的装置,该装置包括:
[0008] 图像获取模,用于获取场景的至少两幅图像;
[0009] 关注点确认模块,用于基于至少两幅图像,确定图像中的对象在场景中的关注点。
[0010] 第三方面,本申请提供了一种电子设备,该设备包括图像采集模块、存储器和处理器;
[0011] 图像采集模块,用于采集场景的至少两幅图像;
[0012] 存储器,用于存储机器可读指令,指令在由处理器执行时,将处理器配置为基于图像采集模块采集的至少两幅图像,确定图像中的对象在场景中的关注点。
[0013] 第四方面,本申请提供了一种确定关注点的系统,该系统包括图像采集设备、以及与图像采集设备连接的电子设备;
[0014] 图像采集设备,用于获取场景的至少两幅图像,并将至少两幅图像发送至电子设备;
[0015] 电子设备,用于接收图像采集设备发送的至少两幅图像,基于接收到的至少两幅图像,确定图像中的对象在场景中的关注点。
[0016] 第五方面,本申请提供了一种行为信息获取方法,该方法包括:
[0017] 获取对象的关注点;
[0018] 根据关注点,获取对象的行为信息。
[0019] 第六方面,本申请提供了一种行为信息获取装置,该装置包括:
[0020] 关注点获取模块,用于获取对象的关注点;
[0021] 行为信息获取模块,用于根据关注点,获取对象的行为信息。
[0022] 第七方面,本申请提供了一种电子设备,该设备包括存储器和处理器;
[0023] 存储器,用于存储机器可读指令,指令在由处理器执行时,使得处理器执行本申请第一方面所示的确定关注点的方法,和/或,本申请第五方面所示的行为信息获取方法。
[0024] 第八方面,本申请提供了一种计算机可读存储介质,该存储介质用于存储计算机指令,当计算机指令在计算机上运行时,使得计算机可以执行本申请第一方面所示的确定关注点的方法,和/或,本申请第五方面所示的行为信息获取方法。
[0025] 本申请实施例提供的技术方案带来的有益效果是:基于至少两幅图像,即可实现场景中对象的关注点的检测。该方案无需对象佩戴任何可穿戴设备,即可确定对象在真实场景中的关注点,从而能够适用于无需对象配合佩戴使用额外设备的实际应用场景,能够为对象提供更自然的交互方式。附图说明
[0026] 为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0027] 图1为本申请实施例中一种确定关注点的方法的原理示意图;
[0028] 图2为本申请一实施例中一种确定关注点的方法的流程示意图;
[0029] 图3为本申请实施例中获取全景图像的两台全景相机的示意图;
[0030] 图4为本申请实施例中对全景图像进行矫正的示意图;
[0031] 图5为本申请实施例中空间中的物体点在两幅图像上的投影点的位置关系示意图;
[0032] 图6为本申请实施例中通过一台全景相机获取全景图像的示意图;
[0033] 图7为本申请实施例中对不同时刻的两幅全景图像进行标定的方法的示意图;
[0034] 图8a为本申请实施例中通过一台单目相机获取全景图像的示意图;
[0035] 图8b为本申请实施例中通过一台双目相机获取全景图像的示意图;
[0036] 图8c为本申请实施例中通过多台单目相机组成的广相机获取全景图像的示意图;
[0037] 图9为本申请实施例中通过对相机的运动进行控制实现全景信息捕捉的方法示意图;
[0038] 图10为本申请实施例中基于对象图像的质量确定部位图像的方法的示意图;
[0039] 图11为本申请一示例中一种得到三维视线信息的方法的示意图;
[0040] 图12为本申请另一示例中一种得到三维视线信息的方法的示意图;
[0041] 图13为本申请又一示例中一种得到三维视线信息的方法的示意图;
[0042] 图14为本申请实施例中一种得到对象的部位图像的方法的示意图;
[0043] 图15为本申请实施例中另一种得到对象的部位图像的方法的示意图;
[0044] 图16为本申请一示例中一种确定关注点的方法的示意图;
[0045] 图17为本申请另一示例中一种确定关注点的方法的示意图;
[0046] 图18为本申请又一示例中一种确定关注点的方法的示意图;
[0047] 图19为本申请实施例中一种得到静止物体深度信息的方法的示意图;
[0048] 图20为本申请另一实施例中一种确定关注点的方法的流程示意图;
[0049] 图21为本申请一示例中确定用户视野图像的原理示意图;
[0050] 图22为本申请一示例中确定用户视野图像的方法的示意图;
[0051] 图23为本申请实施例中一种确定关注点的装置的结构示意图;
[0052] 图24为本申请实施例中一种电子设备的结构示意图;
[0053] 图25为本申请实施例中一种确定关注点的系统的结构示意图;
[0054] 图26为本申请一实施例中一种信息获取方法的流程示意图;
[0055] 图27为本申请另一实施例中一种信息获取方法的流程示意图;
[0056] 图28为本申请实施例中一种信息获取装置的结构示意图;
[0057] 图29a、图29b、图29c和图29d为本申请实施例中在购物场景中确定关注点的电子设备的四种设置方式示意图;
[0058] 图30为本申请实施例中一种在购物或接待场景中提供以客户为中心的服务的方法的示意图;
[0059] 图31为本申请实施例中一种在智能家居场景的示意图;
[0060] 图32为本申请实施例中另一种在智能家居场景的示意图;
[0061] 图33为本申请实施例一种根据用户视线显示物联网设备控制界面的方式的示意图;
[0062] 图34为本申请实施例中一种旅游应用场景的示意图;
[0063] 图35为本申请实施例中一种辅助驾驶场景的示意图;
[0064] 图36为本申请实施例中一种在车辆上自动判断周围行人的行进意图的方法的示意图;
[0065] 图37为本申请实施例中一种示教操作场景的示意图;
[0066] 图38为本申请实施例中一种在示教操作场景中为用户提供操作建议的方法的示意图;
[0067] 图39为本申请实施例中一种驾驶员交互场景的示意图;
[0068] 图40为本申请实施例中一种基于用户的视野图像为人机交互系统提供输入的方法的示意图;
[0069] 图41为本申请实施例中另一种驾驶员交互场景中的示意图;
[0070] 图42中示出了一种检测并提醒用户注意周边交通环境中具有潜在威胁物体的方法的示意图;
[0071] 图43为本申请实施例中一种多用户场景安全监控场景的示意图;
[0072] 图44为本申请实施例中一种对多行人行为进行视野跟踪检测的方法的示意图;
[0073] 图45为本申请实施例中一种教室场景的示意图;
[0074] 图46为本申请实施例中一种多用户的注意分析的方法的示意图;
[0075] 图47为本申请提供的一种电子设备的结构示意图;
[0076] 图48为本申请一个示例中确定对象关注点的方法的示意图;
[0077] 图49为本申请另一示例中确定对象关注点的方法的示意图;
[0078] 图50为本申请又一示例中确定对象关注点的方法的示意图。

具体实施方式

[0079] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0080] 下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
[0081] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0082] 随着科技的快速发展和生活需求的提高,人机交互、人工智能等高科技技术已经开始越来越多的出现在人们的日常生活中,如何在为对象(例如用户)提供服务时,使服务更加符合对象实际所关注的事务,是目前需要改进的重要问题之一。现有对用户注视点的检测方案,通常都需要被检测对象佩戴相应的设备,会造成被检测对象的不便,适用场景也大大受限,或者注视点的检测只能够限定在特定的显示器上,不能够满足实际应用需求。
[0083] 本申请提供的确定关注点的方法、装置、设备、系统及信息获取方法,旨在解决现有技术的如上技术问题。
[0084] 下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
[0085] 本申请实施例中,关注点可以包括注视点和/或对象的部位的指向点等。也就是说,关注点的具体内容是可以根据实际应用场景和需求确定的,例如,如果需要对场景中对象所注视的物体进行检测,则关注点可以为对象的注视点,如果需要对象的手部动作进行检测,则关注点可以是手部的指向点,还可以是手臂或其它部位的指向点等。
[0086] 为了更好的理解本申请,下面首先以对象为用户,以关注点为用户的注视点为例,对本申请提供的确定关注点的方法的原理进行说明。
[0087] 图1示出了确定用户在场景中的注视点的方法的原理示意图。如图1所示,可以通过位于不同位置的全景相机1和全景相机2同时捕捉包括用户所在场景和用户的两幅全景图像,两幅全景图像具有视差,形成立体图像对。物体A、物体B和物体C为场景中的物体。为了确定用户在实际场景中的注视点,首先需要获取用户在实际场景中的视线信息,并分析视线信息与实际场景中物体的交汇点位置,从确定出用户在实际场景中的注视点。此外,在确定出注视点之后,还可以进一步基于用户的注视点,为用户提供相关的服务或信息等,例如:基于用户的注视点确定出用户的视野图像,基于视野图像得到用户意图,基于用户意图为用户提供相关的服务或信息。
[0088] 其中,用户的视线信息可以包括视线的起点信息和方向信息。视线的起点可以具体为用户两眼球的中心连线的中点位置,起点信息为起点在基准坐标系中的坐标。视线的方向信息包括用户视线在基准坐标系中沿着基准坐标系的坐标轴的旋转角度,也就是用户视线与坐标轴的夹角。视线的起点与视线的方向在空间中唯一确定的射线可以称为用户视线(即用户的注视路线),用户视线上的点可以称为视线点。
[0089] 其中,基准坐标系可以根据需要选择,例如,可以是采集全景图像的至少两台全景相机中的任意一台全景相机的相机坐标系,也可以是指定的某个坐标系,或者是定义在某环境中物体上的世界坐标系。
[0090] 需要说明的是,所有与坐标系相关的信息最终都是以同一坐标系作为基准,在基准坐标系不是相机坐标系时,需要将在确定关注点时所涉及到的与坐标系相关的信息,如位置信息和/或方向信息等,均转换至基准坐标系下,对于不同坐标系之间的转换可以基于坐标系之间的旋转参数与平移参数实现。在实际应用中,为了节约计算量,基准坐标系可选为任意一台全景相机的相机坐标系。
[0091] 在本申请的可选方案中,用户的视线信息可以是三维视线信息。在用户视线信息为三维视线信息时,基准坐标系可以为三维坐标系,三维视线信息的起点信息为起点在三维坐标系中的三维坐标,三维视线信息的方向信息为用户视线与三维坐标系的三个坐标轴的夹角。为描述方便,可以用(X,Y,Z,Ra,Rb,Rc)来表示三维视线信息,其中,(X,Y,Z)代表三维视线的起点信息,(Ra,Rb,Rc)代表三维视线的方向信息。
[0092] 用户的视线信息具体可以基于两幅图像中用户身体的部位图像确定。如图1所示,对于用户视线上的任一视线点,有以下两种情况:
[0093] (1)当视线点没有与场景中的任何物体点交汇时,该点是对应空间中没有任何物体的一个空白点,如视线点a,将该点分别向两幅全景图像做投影,在两幅全景图像上的投影点对应于空间中不同的物体,两幅全景图像上基于投影点确定的图像窗口具有不同的图像内容。
[0094] (2)当视线点与场景中的某个物体交汇时,如视线点b,该点与场景中的物体B交汇,将该点分别向两幅全景图像做投影,在两幅全景图像上的投影点应对应于空间用户看到的同一物体,两幅全景图像上基于投影点确定的图像窗口应具有相同的图像内容。
[0095] 因此,基于上述原理,可以通过比对用户的视线点在两幅全景图像中的投影点是否对应同一物体和/或基于投影点确定的图像窗口的图像内容是否一致,来检测视线点是否与空间中的物体交汇,从而确定出注视点。
[0096] 可见,用户观察到的场景中的物体,必须满足的物理约束是:用户的视线点应该与该物体表面交汇,用户注视点可以通过检测用户视线与场景中物体在空间中的交汇情况来得到,进而可以基于注视点进一步为用户提供基于用户意图理解的服务,例如,可以进一步基于注视点和全景图像确定出用户的视野图像,或者将注视点对应的物体的详细信息呈现给用户等。
[0097] 需要说明的是,对于不同的关注点,对象的关注路线信息也可能不同,例如,对于图1中示例中的注视点,关注路线信息为视线信息,再例如,在以手指的指向点作为关注点时,关注路线信息可以为手指的指向路线信息,指向路线信息的起点可以为手指指尖,或者手指的指定位置,或者还可以根据手指部位的图像的关键点确定,在将指尖作为指向路线信息的起点时,该起点在基准坐标系中的坐标即为关注路线的起点信息。指向路线与基准坐标系的坐标轴的夹角为关注路线的方向信息。同样的,理想情况下,关注路线与最接近的空间物体的交汇点即关注点,在至少两幅图像上的投影点也对应是同一物体。
[0098] 基于本申请实施例的确定关注点的方法,在实际应用场景中,可以通过不断获取图像,如持续采集对象所在场景的视频,基于视频中不同的图像实现对对象不同时刻的关注点的确定,实现对对象关注点的跟踪。
[0099] 图2示出了本申请实施例提供的一种确定关注点的方法的流程示意图,如图2所示,该方法可以包括以下步骤:
[0100] 步骤S110:获取场景的至少两幅图像;
[0101] 步骤S120:基于至少两幅图像,确定图像中的对象在场景中的关注点。
[0102] 本申请实施例中,对象可以是用户和/或其它需要检测关注点的对象。需要说明的是,所获取的至少两幅图像中,毎幅图像中均至少要包括对象的图像和对象在场景中可能会关注到的物体的图像,或者,毎幅图像中至少要包括对象的图像和希望对象能够关注到的物体的图像等。其中,获取到的至少两幅图像中至少有两幅是不同的图像,也就是说,至少有两幅应具有立体视差,是从不同位置/角度获取的场景的图像。
[0103] 本申请实施例中,至少两幅图像可选为至少两幅全景图像。
[0104] 通过获取全景图像,可以更加全方位的保证获取到的图像能够包括场景中的全部内容。其中,全景图像可以根据实际场景中对象关注轨迹的可能变化情况进行选择,例如,可以是平方向的至少两幅360全景图像,还可以是竖直方向的至少两幅360度全景图像。一般的,竖直方向的全景图像(如可以通过上下方式放置的两台全景相机获取竖直方向的两幅全景图像)对位于相机前后左右360范围内物体的深度估计质量较好,但对相机上下方物体的深度估计质量较差。如果对象和对象关注的物体都出现在场景空间的前后左右方向,获取竖直方向的至少两幅全景图像是最好的。如果出现对象关注的物体是出现在场景空间的上方附近,可使用水平方向配置的全景相机获取水平方向的至少两幅全景图像。
[0105] 本申请实施例中,在基于至少两幅全景图像确定对象的关注点时,所依据的全景图像一般为平面全景图像,若获取到的全景图像为球面全景图像或圆柱形球面图像时,可以对图像进行矫正和经纬展开后,得到平面全景图像。
[0106] 需要说明的是,在获取的图像的数量大于两幅时,基于至少两幅图像确定关注点时,可以是采用其中任意两幅不同的图像,也可以是采用全部图像,也可以根据获取到的图像的质量或其它筛选条件选择其中的至少两幅图像。在采用两幅图像时,可以根据所获取到的图像的质量或其它预设条件,从多幅图像中选取两幅。
[0107] 本申请实施例的确定关注点的方法,基于至少两幅不同的图像,即可确定出对象在实际场景中的关注点。该方案无需对象佩戴任何可穿戴设备,从而适用于更多的实际应用场景。本申请实施例的方案,由于无需对象佩戴额外设备,因此能够适用于无需对象配合佩戴使用额外设备的实际应用场景。基于本申请实施例的方案,能够为对象提供更加自然的交互方式,能够为及时获知对象的行为信息,以基于对象的行为信息为对象本身或与对象关联的其它对象提供相关的服务或信息等提供了技术支持,更好的满足了实际应用需求。
[0108] 本申请实施例中,获取场景的至少两幅图像,可以包括:
[0109] 通过不同位置的至少两台相机获取至少两幅图像,或者,通过控制相机平移和/或旋转,获取至少两幅图像。
[0110] 在实际应用中,可以根据实际的应用场景和应用需求,来选择获取至少两幅图像的方式。可以理解的是,在通过数量与所需图像个数对应的相机获取至少两幅图像时,可以通过控制多个相机获取到同一时刻的至少两幅图像。在相机数量小于所需图像的数量时,可以通过控制相机的运动获取至少两幅图像。
[0111] 下面以获取两幅全景图像为示例对不同的获取全景图像的方案进行说明。
[0112] 方式一:通过两台全景相机获取两幅全景图像。
[0113] 在通过相机获取图像时,为确定空间物体表面某点的位置与其在图像中对应点之间的相互关系,一般都需要对相机进行标定。全景相机标定的目的是确定全景相机成像模型中的参数,这些参数包括相机的内参数、镜头畸变参数(一般包括径向畸变参数和切向畸变参数)、每台全景相机的两台鱼眼相机之间的旋转参数和平移参数等,在采用两台全景相机时,还包括两台全景相机之间的旋转参数和平移参数。其中,旋转参数一般可以用欧拉角表示,平移参数可以用平移向量表示,两台全景相机之间的旋转参数描述了两个全景相机的相机坐标系之间的旋转角度,平移参数描述了两台全景相机的相机坐标系之间的平移,在任意给定一台全景相机的光心和其相机坐标系时,即可根据旋转参数和平移参数得知另外一台全景相机的光心和相机坐标系。需要标定的这些参数可以事先标定好,并存放在存储设备上。
[0114] 在实际应用中,标定可以是在获取图像之后,根据存储设备上存储的标定参数对图像进行矫正,也可以是在获取图像之前,根据标定参数对相机进行配置,相机在采集图像时,根据配置好的标定参数完成对输出图像的矫正。相机标定的具体实现方式为现有技术,在此不再详细描述。
[0115] 本申请实施例中,在通过两台全景相机获取两幅全景图像时,两台全景相机的基线方向可选为垂直于地面,基线方向为两台全景相机的光心的连线。两台全景相机的基线方向垂直于地面,即两台全景相机可以上下放置,通过该方式在获取图像时,能够有效避免对周围环境的水平方向信息的遗漏,保证了获取到的全景图像中用户可能感兴趣的物体的全面性。
[0116] 图3示出了本申请一示例中两台全景相机的位置关系示意图。如图3所示,两台全景相机可以通过连接杆固定,两台全景相机的光心的连线垂直于地面,通过图3中所示的全景拍摄装置可以形成对周围360度水平方向的立体视频的捕捉,获取到各时刻的具有视差的两幅球面全景图像。图3中所示的上下两台全景相机分别拍摄到的两组全景视频形成全景立体视频。通过使用标定参数,可以将拍摄得到的全景视频进行矫正。
[0117] 在一个示例中,定义位于上方的全景相机的光心为O1,位于下方的全景相机的光心为O2,线段O1O2是两台全景相机的基线。位于上方的全景相机的相机坐标系记为O1-X1Y1Z1,X1,Y1,Z1是相互垂直的三个坐标轴,位于下方的全景相机的相机坐标系记为O2-X2Y2Z2,X2,Y2,Z2是相互垂直的三个坐标轴。由于在实际设备生成组装过程中,两个全景相机不可避免地会存在姿态及方向上的误差,为了减少误差,需要对两幅全景图像进行经纬矫正,如图4所示,矫正后,在理想情况下,Z1方向、Z2方向均与O1O2方向重合,X1与X2方向重合,Y1与Y2方向重合,将球面全景图像展开到圆柱形表面,得到圆柱全景图像,由图中可以看出,球面坐标系O1-X1Y1Z1和O2-X2Y2Z2在展开后的圆柱全景图像中对应的柱面坐标系中同样满足Z1方向、Z2方向均与O1O2方向重合,X1与X2方向重合,Y1与Y2方向重合。再将圆柱全景图像展开为平面全景图像后,如图5所示,理想情况下,空间中同一物体点P在两幅平面全景图像上的投影点即图像点p1和p2位于同一图像列上,展开后的平面全景图像中,包含了水平方向360度(图中所示的X1-0度至X1-360度,X2-0度至X2-360度)的全景视野,竖直方向包含了180度(图中所示的Z1-0度至Z1-180度,Z2-0度至Z2-180度)的视野。
[0118] 方式二:通过一台全景相机获取两幅全景图像
[0119] 该方式通过控制一台全景相机移动的方式获取两幅全景图像,首先需要获取全景相机的自身运动信息,具体的,可以通过全景体相机上的惯性传感器单元获得,也可以通过使用视觉即时定位与地图构建(simultaneous localization and mapping,SLAM)算法获得,也可以通过综合使用惯性传感器单元和视觉SLAM算法获得。在相机运动过程拍摄的视频中,选取t1时刻的一幅全景图像作为参考时刻图像,另一幅t0时刻的全景图像作为当前时刻图像,并且拍摄两幅全景图像时相机的位置距离超过一定阈值大小,以获取到具有视差的两幅全景图像,如图6所示。
[0120] 对于参考时刻的全景图像和当前时刻的全景图像,需要进行全景立体图像标定,将一台全景相机在两个不同时刻不同位置拍摄的两幅全景图像进行图像变换,形成一对全景立体图像对,从而实现对于场景的全景立体信息的捕捉。
[0121] 图7中示出了对不同时刻拍摄得到的两幅全景图像进行标定的方法的示意图。如图中所示,通过相机运动参数估计,可以得到全景相机在t1时刻的6自由度姿态t1和t0时刻的6自由度姿态t0。具体的,全景相机t1时刻的6自由度姿态t1可以用六个参数进行表述:包括平移参数Tt1=[Xt1,Yt1,Zt1]和旋转参数Rt1=[Rat1,Rbt1,Rct1],t0时刻的6自由度姿态可以用六个参数进行表述:包括平移参数Tt0=[Xt0,Yt0,Zt0]和旋转参数Rt0=[Rat0,Rbt0,Rct0],其中,平移参数中的三个量分别是指相机沿X、Y、Z三个坐标轴方向的平移量,旋转参数中的三个量分别是指以X为轴心的旋转角度、以Y轴为轴心的旋转角度和以Z轴为轴心的旋转角度。基于6自由度相机姿态t1和6自由度相机姿态t0,可以计算参考时刻和当前时刻的两幅全景图像之间的旋转矩阵R01为:R01=inv(Rt0)*Rt1,其中,inv(Rt0)表示Rt0的逆矩阵。对t0时刻的全景图像按照R01旋转矩阵进行旋转变换,完成对t0时刻的全景图像的矫正,矫正后的t0时刻的全景图像和t1时刻的全景图像在经过图像经纬展开后,相同的物体点在两幅全景图像所对应的平面全景图像上的投影对齐到相同的图像列方向上。标定后的参考时刻的全景图像和当前时刻的全景图像即可作为所需要获取的两幅全景图像,这两幅全景图像形成全景立体图像对。
[0122] 方式三:通过一台或多台普通相机即非全景相机获取两幅全景图像
[0123] 图8a、图8b、图8c分别示出了通过一台单目相机、一台双目相机(立体相机)和多台单目相机组成的广角相机来获取全景图像的原理示意图,该方式中可以通过控制相机运动,来捕捉场景不同时刻不同位置的图像,如图中所示,可以获取到相机在t0时刻和t1时刻不同位置的图像。
[0124] 在使用一台或多台普通相机时可以不再需要进行相机标定,相机之间的运动参数可以通过控制相机运动过程中的相机自身运动参数记录模块(相机位置获取模块)得到。该方案中,可以通过控制相机旋转的方式捕捉全景视频,通过控制相机移动的方式捕捉具有立体视差的视频,再基于捕捉到的全景视频和具有立体视差的视频得到不同时刻的具有立体视差的两幅全景图像。
[0125] 在控制相机运动时,控制系统可以通过相机运动控制以及相机位置获取模块来规划相机的运动轨迹,以此控制相机运动,并获取相机的位置,通过建模模块来建立系统周围环境中静止物体的深度图。由于在该方案中相机的视野有限,相机不能在同一个时刻同时观察到场景中的所有物体和对象,因此需要靠控制相机运动的方式扫描周围环境,可按照一定的时间采样率,对场景中的静态物体、动态物体、以及对象进行观察。在实际应用中,相机可以由运动台带动进行旋转,为了能够捕捉到对象和全景场景的信息,需要对相机运动进行控制。
[0126] 图9示出了通过对相机的运动进行控制实现对用户和场景的全景信息进行捕捉的方法的流程示意图。如9图中所示,在图像拍摄过程中,需要检测当前拍摄的图像集合是否完整地捕捉了场景的全景信息。当检测到深度完整条件不满足时,驱动相机进行平移运动并进行图像拍摄。当检测到视野完整条件不满足时驱动相机进行旋转运动并进行图像拍摄。通过该控制流程,完成对场景的全景信息的捕捉,拍摄得到的每一幅图像上都具有拍摄时刻相机在空间中的平移位置和旋转姿态的6自由度参数记录。
[0127] 当图像集合中图像的视场角覆盖了360度球形视野,则可以认为当前拍摄的图像集合捕捉了场景的完整视野;当对360度视野中的所有区域都有至少两个或两个以上具有一定拍摄位置距离的图像时,则认为当前拍摄的图像集合捕捉了场景的完整深度信息。当视野和深度都完整时,从相机的自身运动参数记录模块读取这些图像的空间位置和姿态,一并放入带有6自由度姿态标记的图像集合。
[0128] 此外,控制系统还可以通过物体跟踪模块来对场景中运动物体的位置进行跟踪,通过对象(如用户)跟踪模块来对对象的运动轨迹进行跟踪,从而保证对对象及场景中所有物体的全面拍摄。如图9中所示,具体的,控制拍摄过程中,可以保持对对象的跟踪,当对象位于视野中时,对对象的位置进行估计,对象的当前位置可以用于在下一个时刻控制相机指向该位置,更新捕捉下一个时刻对象的图像;当对象处于视野之外时,驱动相机进行旋转运动并进行拍摄。控制拍摄过程中,还可以保持对场景中运动物体即动态物体的跟踪,当运动物体位于视野中时,对运动物体的位置进行估计,估计出的物体的位置用于在下一个时刻控制相机指向该位置,更新捕捉下一个时刻的该运动物体的图像。当运动物体处于视野之外时,驱动相机进行旋转运动并进行拍摄。其中,对运动物体进行跟踪的具体方式可以采用现有技术实现。
[0129] 对于得到的带有6自由度姿态标记的图像集合,该集合中的每一幅图像都具有相机拍摄该图像时在世界坐标系中的6自由度运动姿态参数记录。使用该图像集合,通过图像拼接的方式,可以合成所需的两幅全景图像。
[0130] 此外,由于场景中的所有区域都有至少两个或两个以上具有一定拍摄位置距离的图像,也就是说,每个区域都对应有立体图像对,因此,可以通过对覆盖全景视野上每一部分图像区域的立体图像对(具有视差的至少两幅图像)的三维重建计算,得到那一部分图像区域的深度图,然后通过把所有区域的深度图进行拼接,得到全景深度图像。可见,通过该方案还可以获取到具有深度信息的全景图像。
[0131] 在实际应用中,若通过一台全景相机或至少一台普通相机获取两幅全景图像,为了提高所确定的关注点的准确性,可以通过控制相机获取相对连续的两幅全景图像。其中,相对连续可以是指两幅全景图像是连续获取到的,也可以是指两幅全景图像的拍摄时差小于设定值,也可以是指基于获取到的二维图像生成全景图像时,用于生成两幅全景图像的多幅二维图像之间的获取时长小于设定时长。
[0132] 本申请实施例中,基于至少两幅图像,确定图像中的对象在场景中的关注点,可以包括:
[0133] 基于至少两图像,确定对象对应的关注路线信息;
[0134] 根据关注路线信息,确定关注点。
[0135] 其中,关注路线信息是用于标识对象在场景中的关注位置和关注方向的信息,具体可以包括关注路线的起点信息和关注路线的方向信息。起点信息具体可以为关注点在基准坐标系中的坐标,方向信息具体可以为关注路线与基准坐标系的坐标轴的夹角。例如,关注点为用户的注视点时,关注路线信息为用户的视线信息,关注点为对象的手指的指向点时,关注路线信息为指向路线信息。
[0136] 本申请实施例中,基于至少两幅图像,确定对象对应的关注路线信息,包括:
[0137] 基于至少两幅图像,确定对象的部位图像;
[0138] 基于对象的部位图像,确定关注路线信息。
[0139] 其中,对象的部位图像可以包括如下中的至少一种:
[0140] 身体图像组、头部图像组、脸部图像组、脸部关键点图像组、眼部图像组、手臂图像组、手部图像组。
[0141] 在实际应用中,可以根据不同的应用需求和应用场景,以及所需要确定的关注点的具体内容选择上述各图像组中的一种或多种。例如,关注点为注视点时,部位图像可以包括身体图像组、头部图像组、脸部图像组、脸部关键点图像组、眼部图像组中的至少一种;关注点为手指的指向点时,部位图像可以为身体图像组、手部图像组和手臂图像组中的至少一种。
[0142] 本申请实施例中,基于至少两幅图像,确定对象的部位图像可以包括:
[0143] 确定至少两幅图像中的对象图像的图像质量;
[0144] 基于对象图像的图像质量,确定相应的部位图像。
[0145] 在实际应用中,由于应用场景和/或图像采集设备的不同,获取到的图像的质量也会有所不同。为了更好的适用于不同的应用场景,避免由于图像质量导致最终所确定的关注点的偏差过大,在获取到至少两幅图像后,可以根据图像中的对象图像的质量来确定用于确定关注路线信息的部位图像。
[0146] 其中,对象图像的图像质量可以通过至少两幅图像的图像质量来标识,也可以在至少两幅图像中提取出对象图像,再确定提取的对象图像的质量。图像质量可以基于图像的分辨率、清晰度等信息中的至少一个来进行分类。
[0147] 一般地,图像质量越高,提取的部位图像相对也可以越精确,基于部位图像确定出的关注路线信息也就越精确。例如,在对象为用户、关注点为注视点时,在用户图像的质量够高时,如满足预设的高质量条件时,部位图像可以精确到眼部图像组,可以基于头部图像组、脸部图像组、眼部图像组确定视线信息;在用户图像质量不够高时,如满足中等质量条件但不满足高质量条件时,部位图像可能只精确到头部图像组,基于头部图像确定视线信息,此时是假设用户的视野朝向与头部朝向一致,采用用户头部的朝向信息来标识视线信息;若用户图像质量更差时,如不满足中等质量条件时,部位图像可能只能精确到身体图像组,需要基于身体图像组确定视线信息,此时是假设用户的视野朝向与身体朝向一致,通过身体朝向信息标识视线信息。在实际应用中,不同的图像质量条件可以根据实际需要进行配置。再例如,关注点为手指的指向点时,若图像的质量够高,部位图像可以精确到手部图像组,可以基于手部图像组,或者手部图像组和手臂图像组确定指向路线信息,如果图像质量不够高时,部位图像可能只能精确到手臂图像组,需要基于手臂图像组确定指向路线信息,此时是以手臂的指向来标识手部的指向。
[0148] 如图10中所示,在对象为用户时,以三维视线信息为例,首先可以对获取到的图像进行用户检测,得到用户图像,通过对用户图像质量进行评估,得到用户图像的质量(可以基于分辨率、清晰度等进行质量评估),在高质量时,可以基于人脸图像和人眼图像进行三维视线估计,得到三维视线信息;在中质量时,可以基于人脸图像进行三维视线估计,将人脸朝向作为注视点的三维视线信息;在低质量时,可以基于身体朝向进行三维视线估计,将身体朝向作为注视点的三维视线信息。
[0149] 本申请实施例中,基于对象的部位图像,确定关注路线信息,可以包括:
[0150] 基于对象的部位图像,得到至少两个初始关注路线信息;
[0151] 通过融合至少两个初始关注路线信息得到关注路线信息。
[0152] 为了提高所得到的关注路线信息的准确度,可以将得到的两个不同的初始关注路线信息进行融合,得到最终的关注路线信息。
[0153] 本申请实施例中,该确定关注点的方法还可以包括:
[0154] 通过部位建模进行校正对关注路线信息进行校正。
[0155] 在基于部位图像得到关注路线信息后,还可以基于部位图像中的至少一个图像进行建模,进而可以基于部位模型图像与对应的部位图像之间的差异对关注路线信息进行校正,提高关注路线信息的准确性。
[0156] 例如,在关注路线信息为视线信息时,可以基于已经得到的视线信息进行脸部建模,基于脸部模型与脸部图像组中的至少一个脸部图像的差异进行视线信息的校正;在关注路线信息为指向路线信息时,可以通过基于已经得到的指向路线信息进行手部建模,基于手部模型图像与手部图像组中的至少一个手部图像之间的差异对指向路线信息进行校正。
[0157] 本申请实施例中,该确定关注点的方法还可以包括:
[0158] 基于对象的部位图像,得到对象的类别信息。
[0159] 在实际应用中,本申请实施例的确定关注点的方法还可以进一步得到对象的分类信息。在通过神经元网络得到关注路线信息时,可以训练神经元网络能够同时完成关注路线信息和对象的类别信息的输出,训练得到的神经元网络所输出的关注路线信息是在已知对象的类别的基础上输出的对象的关注路线信息,与训练只输出关注路线信息的神经元网络相比,能够有效提升输出的关注路线信息的准确性。
[0160] 本申请实施例中,基于对象的部位图像,确定关注路线信息,可以包括以下方式中的至少一种:
[0161] 方式一:
[0162] 基于部位图像,通过第一神经元网络得到关注路线信息;
[0163] 方式二:
[0164] 基于部位图像,得到关注路线的起点信息;
[0165] 基于部位图像,通过第二神经元网络确定关注路线的方向信息。
[0166] 可见,关注路线信息的起点信息和方向信息可以基于部位图像同时得到,也可以分别得到。神经元网络(第一神经元网络或第二神经元网络)可以是通过基于深度学习训练得到的关注路线信息估计模型,具体的,对于第一神经元网络,关注路线信息估计模型输出的是起点信息和方向信息,对于第二神经元网络,关注路线信息估计模块输出的可以是方向信息。其中,神经元网络可以是卷积神经元网络、全连接神经元网络、孪生神经元网络或其它类型神经元网络中的一个或多个。
[0167] 本申请实施例中,若关注点为手指的指向点,基于部位图像,得到关注路线信息,具体可以包括:
[0168] 基于手部图像组,得到关注路线信息;和/或,
[0169] 基于手部图像组和手臂图像组,得到关注路线信息。
[0170] 具体的,基于手部图像组,可以对手部图像进行手部动作姿势分类,识别对象手部的指向动作,再进一步基于手部图像组中指向动作所对应部分的图像,确定出指向路线信息。
[0171] 此外,还可以通过对手臂图像组进行分析,来增强对指向路线估计的性能。具体的,可以基于手臂图像组对手臂姿势进行识别,利用手指指向和手臂姿势的解剖学约束,基于识别出的手臂姿势对指向路线信息进行约束,提高指向路线信息的准确度。
[0172] 由前文的描述可知,基于手部图像组,或者基于手部图像组和手臂图像组,得到手指的指向路线信息的具体实现,可以基于这些图像组,通过神经元网络得到。
[0173] 本申请实施例中,在关注点为注视点时,基于部位图像,得到关注路线信息,具体可以包括以下方式中的至少一种:
[0174] 方式1:
[0175] 基于头部图像组、脸部图像组、脸部关键点图像组和眼部图像组,得到关注路线信息。
[0176] 方式2:
[0177] 基于头部图像组、脸部图像组、脸部关键点图像组和眼部图像组,得到初始关注路线信息;
[0178] 根据初始关注路线信息进行脸部建模,得到脸部模型图像;
[0179] 获取脸部模型图像和脸部图像的图像误差,根据初始关注路线信息和图像误差,得到关注路线信息。
[0180] 方式3:
[0181] 根据头部图像组得到头部特征图像组、脸部特征图像组和眼部特征图像组;
[0182] 基于头部特征图像组、脸部特征图像组和眼部特征图像组,得到第一初始关注路线信息;
[0183] 基于眼部特征图像组,得到第二初始关注路线信息;
[0184] 融合第一初始关注路线信息和第二初始关注路线信息,得到关注路线信息。
[0185] 将方式1和方式2比对可以看出,方式2中所示的方案可以是在方式1的方案得到关注路线信息之后,通过脸部建模的方式再对关注路线信息进行校正,将校正后的关注路线信息作为最终的关注路线信息。方式3中则是通过融合两个不同的关注路线信息得到最终的关注路线信息。
[0186] 本申请实施例中,方式1和方式2中的关注路线信息、初始关注路线信息,以及方式3中的第一关注路线信息和第二关注路线信息均可以通过神经元网络来实现。
[0187] 需要说明的是,在基于至少两幅图像,确定对象的部位图像时,根据具体所采用的方式的是否相同,方式1、方式2和方式3中所基于的同一部位图像可能相同,也可能不同。例如,方式1和方式2中的部位图像均包括的头部图像组、脸部图像组、脸部关键点图像组和眼部图像组,如果两种方式中部位图像的确定方式相同,则两种方式中的上述各相同的部位图像也相同,如果确定部位图像的方式不同,则两种方式中的上述各相同部位特征可能相同,也可能不同。
[0188] 本申请实施例中,基于头部图像组,通过神经元网络得到上述方式3中第一初始关注路线信息和第二初始关注路线信息,具体可以包括:
[0189] 通过第一卷积神经元网络对头部图像组进行特征提取,得到头部特征图组;
[0190] 通过第一全连接神经元网络对头部特征图像组进行脸部位置检测,得到各头部特征图像的脸部位置信息;
[0191] 由脸部特征池化层根据头部特征图像组和各头部特征图像的脸部位置信息得到脸部特征图像组;
[0192] 通过第二全连接神经元网络对脸部特征图像组进行脸部关键点检测,得到各脸部特征图像的脸部关键点位置信息;
[0193] 由眼部特征池化层根据脸部特征图像组和各脸部特征图像的脸部关键点位置信息,得到眼部特征图像组;
[0194] 通过第二卷积神经元网络对头部特征图像组、脸部特征图像组和眼部特征图像组进行特征提取,由第三全连接神经元网络根据提取的特征图像,得到第一初始关注路线信息;
[0195] 通过第三卷积神经元网络对眼部特征图像组进行特征提取,由第四全连接神经元网络根据提取的特征图像得到第二初始关注路线信息。
[0196] 下面以用户作为对象,以用户的注视点为关注点,以三维视线信息为关注路线信息,以场景的两幅全景图像为例,对上述方式1、方式2和方式3中三种得到关注路线信息的方式进行说明。
[0197] 方式1中,部位图像包括了头部图像组、脸部图像组和眼部图像组和脸部关键点图像组,可以由神经元网络基于这些部位图像得到用户的三维视线信息。作为方式1的一个具体示例,图11示出了通过神经元网络得到三维视线信息的示意图。该神经元网络可以包括一个卷积神经元网络以及分别与卷积神经元网络连接的两个全连接神经元网络,其中,一个全连接神经元网络是用于回归、输出三维视线信息的回归网络,另一个全连接神经元网络是用于图像的特征分类的分类网络。
[0198] 如图11所示,从两幅全景图像中获取到的两幅头部图像、两幅脸部图像、两幅脸部关键点图像和两幅眼部图像作为深度卷积神经元网络的输入,输入到卷积神经元网络。在将图像输入到卷积神经元网络之前,可以首先使用一个特征连接层将所有输入图像通过零值填充的方式统一成相同的大小,然后叠合成相同尺寸的多层图像形成一个图像堆,输入到卷积神经元网络。卷积神经元网络对输入图像进行特征提取,从卷积神经元网络输出产生图形的特征连接到两个全连接神经元网络分支。回归网络基于卷积神经元网络输出的图像,输出三维视线信息;分类网络输出的类别可以包括用户的头部粗方向、性别、是否戴眼镜、以及年龄段等分类信息。上述各类别还可以进一步细化,例如,头部粗方向还可以分为八类:正前方、左前方、左侧、左后方、后方、右后方、右侧、右前方,年龄段可以分为五类:儿童、少年、青年、中年、老年。
[0199] 由前文描述可知,图11中所示的分类网络不是确定三维视线信息所必须的,在实际应用中,图11中所示的神经元网络可以不包括分类网络,分类网络可以只在训练得到神经元网络时使用,可以让神经元网络的回归网络学到更好的特征,提高回归网络输出的三维视线信息的准确性。因此,在通过图11中所示的神经元网络得到三维视线信息时,可以不使用分类网络的全连接神经元网络,以节省计算消耗。
[0200] 方式2中,部位图像包括了头部图像组、脸部图像组、眼部图像组和脸部关键点图像组,作为方式2的一个具体示例,图12示出了通过卷积神经元网络、全连接神经元网络、三维脸部绘制模型和孪生神经元网络得到三维视线信息的示意图。具体的,该示例中的神经元网络包括一卷积神经元网络以及与该卷积神经元网络连接的全连接神经元网络,孪生神经元网络包括一图像比较孪生网络,该图像比较孪生网络与一全连接神经元网络连接。该方案中,三维视线信息的确定可以分为两个阶段进行。
[0201] 第一阶段,两幅头部图像、两幅脸部图像、两幅脸部关键点图像和两幅眼部图像经过特征连接后输入到卷积神经元网络,从卷积神经元网络输出产生的图像特征连接到用于进行回归的全连接神经元网络,由全连接神经元网络输出一个初始的三维视线信息即图中所示(X',Y',Z',Ra',Rb',Rc'),(X',Y',Z')为初始视线信息的三维视线起点信息,(Ra',Rb',Rc')为初始视线信息的三维视线方向信息。
[0202] 第二个阶段,初始三维视线信息被用于绘制一个用户的脸部三维模型图像。三维脸部绘制模型在绘制脸部三维模型图像时,可以使用具有参数化的脸部图像绘制方法,绘制的脸部图像具有与初始三维视线信息相同的脸部朝向和眼睛视线朝向,具体的,三维脸部绘制模型可以根据初始三维视线信息完成脸部三维模型图像的绘制。此外,三维脸部绘制模型在进行脸部三维模型图像的绘制时,除了基于初始三维视线信息外,还可以结合脸部信息(如头部关键点、脸部关键点等)进行参数化的人脸绘制,以使绘制的脸部三维模型图像与输入到卷积神经元网络中的脸部图像更接近。其中,参数化的人脸绘制方法是指绘制脸部三维模型图像使用的图像渲染方法,可以根据头部、和/或脸部的姿态和三维视线信息,自动地调整眼部和脸部的三维模型的形状和纹理,并进行三维脸部图像绘制。
[0203] 完成绘制后,将绘制生成的脸部三维模型图像与初始输入到卷积神经元网络的两幅脸部图像中的至少一幅脸部图像通过图像比较孪生网络对它们之间的图像误差进行提取,将提取的误差特征和初始三维视线信息输入到一个全连接神经元网络,通过该全连接神经元网络基于初始三维视线信息和图像误差,输出最终的三维视线信息。
[0204] 将图11和图12中所示的方案可以看出,与图11所示的方案相比,图12所示的方案可以基于图像误差对初始三维视线信息进行校正,得到更加准确的三维视线信息。
[0205] 可以理解的是,图12所示的方案中的卷积神经元网络与图11所示的方案中的卷积神经元网络可以是相同的神经元网络,也可以是不同的,同样的,图12中所示的输出初始三维视线信息的全连接神经元网络与图11中输出三维视线信息的全连接神经元网络,可以相同,也可以不同。
[0206] 对于上述方式3,部位图像可以只采用头部图像组,由神经元网络基于头部图像得到第一初始关注路线信息和第二初始关注路线信息,再通过融合两个关注路线信息,得到最终的关注路线信息。
[0207] 作为方式3的一个具体示例,图13中示出了通过神经元网络得到第一初始关注路线信息和第二初始关注路线信息,再通过融合网络将第一初始关注路线信息和第二初始关注路线信息融合,得到关注路线信息的示意图。该示例中仍以用户为对象、以注视点为关注点、以三维视线信息为关注路线信息、以两幅全景图像为例进行说明。
[0208] 如图13所示,该方案中的输入是两幅头部图像,两幅头部图像首先经过卷积神经元网络CNN1得到两幅头部特征图像,该两幅头部特征图像经过一个用于脸部检测的全连接神经元网络FC1,输出各头部特征图像中的脸部位置信息(人脸位置)。两幅头部特征图像和检测出来的两幅头部特征图像的脸部位置信息输入到脸部特征池化层(人脸特征池化层),由脸部特征池化层根据脸部位置信息,从两幅头部特征图像中截取对应于脸部位置的图像形成两幅脸部特征图像,该两幅脸部特征图像经过一个用于脸部关键点检测的全连接神经元网络FC2,检测出各脸部特征图像中的眼部等脸部关键点位置信息(人脸关键点)。两幅脸部特征图像和检测出的两幅脸部特征图像的脸部关键点位置信息输入到一个眼部特征池化层(人眼特征池化层),由眼部特征池化层根据检测出来的脸部关键点位置信息中的眼部位置信息,从两幅人脸特征图像中分别截取对应于眼部图像的眼部特征图像。将两幅眼部特征图像经过卷积神经元网络CNN3进行特征再提取后,将提取的特征图像输入到用于回归的全连接神经元网络FC3,由该全连接神经元网络FC3进行局部三维视线回归,得到三维的局部视线信息即局部三维视线信息(第二初始关注路线信息)。将两幅头部特征图像、两幅脸部特征图像、两幅眼部特征图像进行特征连接后输入到卷积神经元网络CNN2进行特征再提取后,将提取的特征图像输入到另一个用于回归的全连接神经元网络FC4,由该全连接神经元网络FC4根据这些特征进行三维的全局三维视线回归,得到全局三维视线信息(第一初始关注路线信息)。最后通过一融合网络将全局三维视线信息和局部三维视线信息进行融合,得到最终三维视线估计,即用户的三维视线信息。
[0209] 其中,将全局三维视线信息和局部三维视线信息融合,得到最终的三维视线信息的具体方案可以根据需要选择。例如,可以通过加权平均的方式,对全局三维视线信息和局部三维视线信息进行融合。
[0210] 本申请实施例中,在通过上述方式二分别确定关注路线信息的起点信息和方向信息时,部位图像可以包括头部图像组、脸部图像组、眼部图像组和脸部关键点图像组。
[0211] 图14中示出了本申请一示例中基于两幅全景图像,确定对象的部位图像的方法的示意图。该示例中仍以用户的三维视线信息作为关注路线信息,以两幅全景图像为例进行说明。如图14中所示,可以首先从两幅全景图像中分别检测用户的位置,即身体检测,得到两幅用户图像,再对两幅用户图像进行头部检测,得到两部头部图像,基于两部头部图像进行脸部检测,得到两幅脸部图像,从两幅脸部图像上检测脸部关键点的位置,并检测眼部图像区域,得到两幅脸部关键点图像和两幅眼部图像。其中,脸部关键点图像中主要可以包括双眼眼角、鼻子两翼根部、嘴角等。其中,用户图像、头部图像、脸部图像、脸部关键点图像均可以用现有技术中得到,在此不再详细描述。
[0212] 可以理解的是,方式1、方式2和方式3中所基于的对象的部位图像的也可以采用图14中所示的方案得到,当然,也可以采用其它方案。
[0213] 对于方式二,利用所提取的脸部关键点的位置,可以估计脸部相对于基准坐标系的朝向,利用从两幅全景图像上检测到的脸部关键点中相对应关键点的位置信息,通过三角测量的方法,可以计算出脸部在空间中相对基准坐标系的位置,也可以得到人的双眼在空间中相对于基准坐标系的位置,从而得到双眼中心连线的中点在基准坐标系中的坐标,即得到关注路线信息的起点信息。
[0214] 其中,三角测量的原理是利用两个相机(或者不同位置的同一相机)的光心之间的直线(基线)距离、两个光心分别与两个对应关键点的连线与基线之间的两个夹角,计算关键点在相机坐标系的位置。通过三角测量的方法计算关键点在空间中的位置的详细实现步骤为现有技术,在此不再详细描述。
[0215] 需要说明的是,在基准坐标系不是获取全景图像的相机的坐标系时,在通过三角测量计算出关键点(如人脸关键点、人眼中心)的位置后,需要将计算出的位置转换到基准坐标系下。
[0216] 对于方式二中方向信息的确定,也可以由神经元网络基于部位图像得到,神经元网络可以通过基于深度学习训练得到的关注路线的方向信息估计模型得到,该模型可以只需要输出方向信息即可,例如,对于三维视线信息,可以只输出方向信息(Ra,Rb,Rc)。
[0217] 以三维视线信息为例,可以理解的是,在分别确定(X,Y,Z)和(Ra,Rb,Rc)时,可以采用如图11至图13中所示的任一种方式确定(Ra,Rb,Rc),只需要在训练神经元网络时,将图11至图13中输出(X,Y,Z,Ra,Rb,Rc)的网络训练输出(Ra,Rb,Rc)即可。例如,在采用图8所示的网络架构中,作为回归网络的全连接神经元网络可以只需要输出(Ra,Rb,Rc),也就是基于训练得到该回归网络只需要具备(Ra,Rb,Rc)的检测功能即可。
[0218] 本申请实施例中,对象的部位图像可以基于部位图像的历史位置信息,通过对对象进行运动预测得到。
[0219] 在实际应用中,当在某时刻第一次在图像上检测到对象图像时,在这以后获取到的图像,可以根据前一时刻对象的运动情况预测在当前图像中可能出现对象的位置的待选区域,然后可以仅仅在这个待选区域内进行对象图像的检测,因此,可以根据部位图像的历史位置信息对对象进行运动预测,对预测出的部位图像的待选区域进行检测,得到当前时刻的对象的部位图像。通过这种方式,可以有效减少计算开销。其中,对对象进行运动预测的具体方式可以通过现有技术实现。
[0220] 作为一个示例,图15中示出了一种得到用户的部位图像的方法示意图。在系统初始化即开始获取用户所在场景的全景图像后,对当前时刻T0获取到的全景图像进行用户图像检测,得到当前时刻的用户图像特征(用户的部位图像,如用户位置即用户身体图像、人脸图像、人脸关键点图像等),对于T0时刻之后的Ti时刻的图像,可以对用户进行运动预测,即基于T0时刻图像中用户图像的位置预测Ti时刻图像中用户图像的可能位置,将预测的Ti时刻的用户图像的可能位置作为检测Ti时刻用户的部位图像的待选区域(用户图像待选区域UCR),在Ti时刻获取到的图像中的待选区域进行用户检测,得到用户的部位图像,采用该方式,提高了部位图像的检测效率。
[0221] 采用该方案,在实际应用中,若需要基于至少两个视频中对应帧的至少两幅全景图像对用户不同时刻的关注点进行跟踪时,在系统初始化之后,可以持续对输入视频的每一帧进行对象的部位图像的检测,当在某时刻第一次检测到用户图像时,在这以后的输入的视频的每一帧图像上,可以根据前一时刻用户的运动情况预测在当前帧可能出现用户位置的待选区域,然后仅仅在这个待选区域进行用户图像检测,从而可以避免对每帧全景图像都进行用户图像检测,可有效减少计算量。
[0222] 本申请实施例中,基于至少两幅图像,确定至少两幅图像中的对象在场景中的关注点的方式,可以包括如下方式①和方式②中的至少一种:
[0223] 方式①:
[0224] 根据关注路线信息,确定关注路线在至少两幅图像上的投影点所对应的图像信息的匹配程度;
[0225] 基于匹配程度,确定关注点。
[0226] 方式②:
[0227] 获取场景的一幅深度图像;
[0228] 根据关注路线信息,确定关注路线的路线点在深度图像的投影点对应的深度值与对应路线点对应的深度值的匹配程度;
[0229] 基于匹配程度,确定关注点。
[0230] 其中,关注路线的路线点指的是关注路线上的点,对于用户的视线信息,路线点即为视线点。
[0231] 本申请实施例中,场景的深度图像可选为场景的稠密深度图像。
[0232] 其中,稠密深度图像是指图像上的每个像素点都具有深度值的图像。采用稠密深度图像,保证了稠密深度图像上的每一像素点都具有深度信息。
[0233] 路线点的深度值可以基于路线点在基准坐标系中的坐标计算得到。需要说明的是,在基准坐标系与深度图像的相机坐标系是同一坐标系时,可以通过计算路线点在基准坐标系中的坐标与基准坐标系的原点之间的距离,将该距离作为路线点的深度值;在基准坐标系与深度图像的相机坐标系不是同一坐标系时,需要将路线点在深度图像的投影点对应的深度值和路线点的深度值统一到同一坐标系下,基于统一到同一坐标系下的两个深度值的匹配程度,确定关注点。具体的,在统一时可以采用以下两种方式:
[0234] 一种方式是可以将路线点在基准坐标系中的坐标转换至深度图像的相机坐标系中对应的坐标,计算出转换后的路线点坐标和深度图像相机坐标系原点之间的距离,该距离可以作为该路线点的深度值,即路线点在至少两幅图像中的至少一幅图像上的投影点所对应的像素点的深度值,基于该深度值与对应路线点在深度图像上的投影点对应的深度值的匹配程度,确定出关注点。如果路线点是关注点,则路线点在场景深度图像上投影点的深度值与计算出的路线点的深度值应匹配,因此,对于任一路线点,通过比较路线点在场景的深度图像上的深度值与路线点的深度值,可以确定出该路线点是否为关注点。
[0235] 另一种方式是可以将深度图像中的像素点的深度值转换至基准坐标系下的深度值,也就是将路线点在深度图像上的投影点的深度值转换至基准坐标系下的深度值,此时,路线点的深度值可以直接通过计算路线点在基准坐标系下的坐标与基准坐标系的原点之间的距离得到,基于计算得到的深度值和转换后的投影点的深度值的匹配程度,确定关注点。
[0236] 本申请实施例中,场景的深度图像可以是基于所获取的至少两幅图像得到的深度图像,也可以是通过深度相机拍摄得到的场景的深度图像,也可以是上述方式三中在获取至少两幅图像时基于相机拍摄的场景中每个区域的立体图像对得到的场景的深度图像。
[0237] 由前文的描述可知,如果路线点与空间中的物体交汇,在理想情况下,将该路线点(如图1中所示的视线点b)分别在至少两幅图像中的毎幅图像进行投影,理想情况下,在不同图像上基于每个投影点的图像窗口对应的图像信息应当相同。因此,可以基于投影点所对应的图像信息的匹配程度,确定关注点。
[0238] 本申请实施例中,在得到匹配程度之后,还可以包括:通过如下的至少一种方式对匹配程度进行校正:
[0239] 关注点运动预测校正、图像语义分割校正。
[0240] 通过对匹配程度进行校正,将校正后的匹配程度作为最终的匹配程度,可进一步提高所确定的关注点的准确性。
[0241] 本申请实施例中,确定关注路线的在至少两幅图像上的投影点所对应的图像信息的匹配程度,可以包括以下方式中的至少一种:
[0242] 方式a:
[0243] 确定关注路线的路线点在至少两幅图像上的投影点所对应的图像窗口的图像相似程度,图像相似程度为匹配程度;
[0244] 方式b:
[0245] 确定关注路线的路线点在至少两幅图像上的投影点所对应的图像窗口的图像相似度;
[0246] 根据路线点的历史位置,得到路线点的预测位置,基于路线点的当前位置和预测位置,得到路线点对应的位置相似程度;
[0247] 根据图像相似程度和位置相似程度,确定匹配程度;
[0248] 方式c:
[0249] 确定关注路线的路线点在至少两幅图像上的投影点所对应的图像窗口的图像相似度;
[0250] 对至少一幅全景图像进行图像语义分割,得到语义分割图像,确定路线点在语义分割图像上的投影点对应的语义图像信息,基于语义图像信息和对应路线点在至少两幅图像中的至少一幅图像上的投影点所对应的图像窗口,得到路线点对应的语义可能程度;
[0251] 根据图像相似程度和语义可能程度,确定匹配程度;
[0252] 方式d:
[0253] 确定关注路线的路线点在至少两幅图像上的投影点所对应的图像窗口的图像相似度;
[0254] 根据路线点的历史位置,得到路线点的预测位置,基于路线点的当前位置和预测位置,得到路线点对应的位置相似程度;
[0255] 对至少一幅全景图像进行图像语义分割,得到语义分割图像,确定路线点在语义分割图像上的投影点对应的语义图像信息,基于语义图像信息和对应路线点在至少两幅图像中的至少一幅图像上的投影点所对应的图像窗口,得到路线点对应的语义可能程度;
[0256] 根据图像相似程度、位置相似程度和语义可能程度,确定匹配程度。
[0257] 其中,路线点在图像上的投影点所对应的图像窗口是指根据图像上的投影点在图像中所确定的图像窗口。根据投影点确定图像窗口的具体方式可以根据实际需要选择,例如,可以以投影点为中心,按照预设的窗口大小在全景图像上得到图像窗口。路线点在至少两幅全景图像上的投影点所对应的图像窗口的图像相识度,是指路线点在至少两幅图像上的至少两个投影点所对应的图像窗口中图像的相似程度。
[0258] 对于方式a,可以将关注路线的每一路线点分别向至少两幅图像做投影,每一路线点在毎幅图像都对应一投影点,因此,关注路线上的所有路线点在毎图像上的所有投影点组成与关注路线对应的一条投影曲线,对于每个投影点,都可以根据该投影点确定出一图像窗口,因此,可以计算每一路线点在不同图像上的投影点所对应的图像窗口的图像相似程度,基于该相似程度确定出关注点。
[0259] 作为一个示例,图16示出了以图像相似程度为匹配程度确定关注点的方法示意图。该示例中仍以两幅全景图像为例进行说明。如图16所示,对于图中所示的两幅全景图像(上方全景图像和下方全景图像),将关注路线分别向这两幅图像投影,得到对应的投影曲线(两幅图像中弧形虚线所示的曲线)。由于空间中的同一个物体点在两幅图像上的投影点位于同一图像列上,因此关注路线上的某个路线点对应在两幅全景图像上的投影点位于同一图像列上。从关注路线的起点出发,对于投影曲线上的每个像素点,可以分别计算在两幅全景图像上对应的图像窗口的图像相似程度。具体的,可以从上方全景图像中的投影曲线上选取一点,然后从下方全景图像的投影曲线上具有相同的列坐标处选取一点作为对应点,以这两点为中心,选取上下两幅全景图像的对应窗口,窗口的大小可以根据需要选定,通过分别计算每个路线点所对应的两个图像窗口的图像相似程度,可以得到图像相似程度沿着路线方向的变化曲线,如图16中所示的图像窗口相似度曲线,图中所示的a1和a2为同一路线点在两幅全景图像上的两个投影点,两个投影点对应的图像窗口为W1和W2,W1和W2的图像相似程度对应于相似度曲线上的S点位置的相似程度。确定每个路线点对应的图像相似程度之后,即可基于图像相似程度,确定出关注点。
[0260] 其中,图像相似程度的具体计算方法可以根据应用需要选择,如根据灰度差值计算相似度。还可以采用提取各对应的图像窗口的图像特征,计算各对应的图像窗口的图像特征的相似程度,将图像特征的相似程度作为图像相似程度。例如,可以采用卷积神经元网络提取相对应的图像窗口的图像的特征,得到毎幅图像的特征图像,再将不同的特征图像输入到孪生神经元网络,可以由孪生神经元网络得到特征图像间的相似度分数,该相似度分数作为图像相似程度。
[0261] 本申请实施例中,将图像相似程度作为匹配程度时,确定关注点的方式可以包括:
[0262] 可以将所有路线点所对应的图像相似程度中大于设定值,且与关注路线的起点最近的路线点确定为关注点,或者也可以将所有路线点所对应的图像相似程度中的最大图像相似程度所对应的路线点确定为关注点。
[0263] 需要说明的是,在实际应用场景中,如果关注点与场景中的某一物体交汇后,该物体会挡住对象视线的进一步延伸,因此,在实际应用中,可选将图像相似程度大于设定值,且与关注路线的起点最近的路线点作为关注点,此时,在确定图像相似程度时,也并不需要计算所有路线点所对应的图像相似程度,可以根据路线点与关注路线的起点的距离,由近至远的计算不同路线点所对应的图像相似程度,则计算得到的大于设定值的第一个图像相似度程度所对应的路线点即为关注点。
[0264] 将方式b、方式c和方式d与方式a对比可以看出,方式b、方式c、方式d可以是在方式a得到图像相似程度的基础上,再通过位置相似程度和/或语义可能程度对图像相似度进行校正,位置相似程度则表征了路线点的运动预测信息,语义可能程度则表征了路线点所位于的物体是路线点所对应的图像窗口中的物体的可能性大小。
[0265] 作为方式d中根据图像相似程度、位置相似程度和语义可能程度,确定匹配程度的一个示例,图17中示出了基于方式d确定关注点的一种方案的示意图,该方案中仍以两幅全景图像,以用户的注视点为关注点为例进行说明。
[0266] 如图17中所示,该方案可以包括三个分支,第一个分支输入的是同一视线点(记为P0)在两幅全景图像中对应的图像窗口的图像(图中所示的上方图像窗口和下方图像窗口),这两个图像窗口位于相同的图像列上,可以分别经过卷积神经元网络对这两个图像窗口进行图像特征提取,卷积神经元网络输出的两个特征图像经过孪生神经元网络得到两幅特征图像的相似度分数,该相似度分数作为图像相似程度。
[0267] 对于第二分支,将当前时刻记为T(i),可以首先获取T(i)时刻之前的T(i-d)时刻(d≥1)时P0的位置即P0的历史位置,由一个长短期记忆(LSTM,Long Short-Term Memory)网络基于P0的历史位置预测出P0在当前时刻的位置(P0的预测位置),并根据预测位置和当前时刻的真实位置,得到P0的位置相似度分数,采用该方式可以得到每个视线点对应的位置相似度分数,该分数作为相似度。其中,视线点的历史位置,可以根据历史时刻的全景图像确定,如可以根据当前时刻的前一时刻的全景图像计算得出。位置相似程度可以采用现有技术实现,例如可以基于两个位置之间的距离确定位置相似程度,距离越小相似程度越大。
[0268] 对于第三分支,可以将任一全景图像经过物体分割卷积神经元网络,得到语义分割图像,基于语义分割图像可以得到每一注视点在语义分割图像上对应的投影点的语义图像信息,从而确定出注视点的语义可能程度(语义分数),也就是视线点在语义分割图像上对应的投影点位于分支一中基于该对应的投影点确定的图像窗口中的物体上的可能程度。
[0269] 将三个分支得到的图像相似程度、位置相似程度以及语义可能程度,通过一个融合网络,可以得到分支一中的图像窗口对应的视线点是否是注视点的二分类预测结果。当分支一中的图像窗口中包含的物体是对象关注的物体(视线点在语义分割图像上的投影点对应的物体)时,二分类预测结果为“是”,当分支一中的图像窗口中包含的物体不是对象关注的物体时,二分类预测结果为“否”。通过该方案,可以将预测结果为“是”时对应的视线点作为注视点的备选点,基于备选点确定出注视点,例如,可以将距离视线的起点最近的备选点确定为注视点。
[0270] 作为上述方式②的一个示例,图18示出了基于深度值的匹配程度(例如可以是深度值的差值)确定关注点的方案的示意图,该示例中仍以两幅全景图像、以三维视线信息为例进行说明。如图18所示,该方案中,一方面可以通过语义分割网络(可以包括卷积神经元网络和反卷积神经元网络),对一幅全景图像进行语义分割,将全景图像分割为对应于场景中不同物体类型的图像区域,得到场景的语义分割图像。对两幅全景图像分别进行图像关键点提取,将两幅图像上提取的关键点进行匹配,并根据立体三角化深度估计方法估计这些匹配点在场景中距离系统的深度,得到场景的稀疏的深度图。将场景的稀疏深度图和场景的语义分割图像叠加,经过一个深度卷积神经元网络,输出得到场景的稠密深度图。另一方面,将三维视线上的视线点向稠密深度图进行投影,得到投影曲线,对于每一视线点,可以根据该视线点在投影曲线上投影点在稠密深度图上的深度值和视线点的深度值的匹配程度,确定出注视点的备选点,基于备选点得到注视点。例如,在两个深度值的差值小于设定阈值时,可以将对应的视线点作为备选点。其中,视线点的深度值可以通过计算视线点在深度图像的相机坐标下的坐标与深度图像的相机坐标系的原点之间的距离得到。
[0271] 本申请实施例中,场景的深度图像中的静态物体的深度值根据静态物体的历史深度值得到。
[0272] 本申请实施例中,基于至少两幅图像,得到场景的深度图像,可以具体包括:
[0273] 确定至少两幅图像中的静态物体和动态物体;
[0274] 获取静态物体的历史稠度深度信息,根据静态物体的历史稠度深度信息,确定静态物体的当前稠度深度信息;
[0275] 根据静态物体的当前稠度深度信息和动态物体的当前稠密深度信息,得到场景的稠密深度图像。
[0276] 一般地,场景的图像中的大部分图像区域对应于场景中的静止物体即静态物体,对于这些静止物体的深度图像可以只需要在系统初始化的时候进行估计,从而可以避免在每个时刻都重复计算静止物体的深度图像,而达到减少计算开销的效果。当相机运动时,可以根据相机运动把已经得到的静止物体的深度图像,按照初始时刻和当前时刻相机的运动进行空间中的投影变换,将初始时刻的深度信息配准到当前时刻,得到当前时刻的深度图像。
[0277] 图19中示出了根据静止物体的历史深度值得到静止物体的当前深度值的方法的示意图。具体的,如图中所示,在系统初始化时,可以首先检测场景中的静止物体。当相机相对场景静止时,可以使用视频帧间的像素灰度变化阈值可以检测出图像中对应场景中静止物体的图像区域,利用系统获得的立体图像对,对这些静止物体图像区域中像素对应的场景深度进行估计。可以利用相机自身运动估计方法(例如,基于SLAM的方法和/或基于惯性传感器的方法)进行相机自身运动估计。如果相机没有运动,可以直接使用初始系统时得到的静止物体的场景深度图作为当前时刻静止物体的深度图。如果相机发生运动,通过相机运动估计可以获得相机当前位置和初始位置之间的旋转和平移变换参数,利用这组旋转和平移变换参数对初始时刻获得的场景静止物体的图像进行旋转和平移变换,得到当前时刻图像中静止物体的场景深度图。再根据静止物体的当前深度信息和动态物体的当前深度信息,得到场景的深度图像,从而可以基于场景深度图像实现对象关注点的确定,如实现三维用户视线交汇检测,得到用户的注视点。
[0278] 图20示出了本申请另一实施例中提供的一种确定关注点的方法的流程示意图,如图20所示,在图2所示方法的基础上,该方法还可以包括:
[0279] 步骤S130:根据关注点和至少两幅图像中的至少一幅图像,确定对象的关注图像。
[0280] 在得到对象的关注点之后,可以基于关注点获取到场景中对象所关注的区域的图像即对象的关注图像,从而可以进一步基于对象的关注图像为对象提供更加符合对象需求的服务。
[0281] 例如,在关注点为用户的注视点时,关注图像则为用户的视野图像;在关注点为手指的指向点时,关注图像则可以为对象的手指所指向范围的图像。在获取到用户的关注图像后,可以将获取到的对象的关注图像通过电子设备呈现给用户,或者将关注图像中的物品的信息通过电子设备呈现各对象本身或与对象相关的其它对象,再或者基于关注图像中的具体内容分析对象可能感兴趣的物品,为对象推荐相关物品的信息等等。
[0282] 其中,根据关注点确定关注图像,可以通过控制图像采集设备基于关注点进行关注图像的采集,也可以是基于关注点和已经获取到的至少两幅图像中的至少一幅图像确定关注图像。
[0283] 本申请实施例中,根据关注点和至少两幅图像中的至少一幅图像,确定对象的关注图像,可以包括:
[0284] 根据关注点在至少两幅图像中至少一幅图像的投影点,确定对象的观察图像窗口;
[0285] 根据观察图像窗口和关注窗口之间的对应关系,确定关注图像。
[0286] 对于已获取到的场景的图像,对象所关注的关注范围可对应于关注点在图像的投影点所对应的图像窗口,因此,可以根据关注点在图像上的投影点确定出对象的观察图像窗口,再基于观察图像窗口和关注窗口之间的对应关系,确定关注图像。其中,确定对象的观察图像窗口,可以包括:
[0287] 确定对象的关注窗口;
[0288] 将根据关注点在至少两幅图像的至少一幅图像的投影点确定的与关注窗口对应的图像窗口确定为观察图像窗口。
[0289] 其中,关注窗口可以根据实际中对象的关注范围来确定,可以根据经验配置关注窗口的大小。例如,当关注点为用户的注视点时,关注窗口可以为用户的视野窗口,用户视野范围即视野窗口的大小可以采用人类平均的视野范围数值,一般的,正常人眼的单眼舒适视野大约为60度,用户视野范围的上下角度和水平角度都可以取为人眼平均视野60度。关注点为手指的指向点时,可以根据需要配置关注窗口的大小。
[0290] 具体的,可以基于关注路线的起点、关注路线和关注范围确定出一个空间中的矩形窗口,该矩形窗口作为关注窗口。在实际应用中,可选的,从关注路线的起点出发的关注路线可以垂直于关注窗口,垂心位于关注窗口的中心,窗口的宽度和关注路线的起点确定了对象的关注范围在水平方向的视场角(如对于视野窗口而言,水平方向的视场角可以为60度),屏幕的高度和关注路线的起点确定了对象的关注范围在竖直方向的视场角,矩形的大小与矩形距离起点的远近有关,距离越大,矩形的面积越大。矩形与起点的距离可以任意设定,如可以设定为d米(d≥0),d可以根据需要任意设置。在实际应用中,考虑到关注图像与相机图像的分辨率的匹配,可以将d的距离值设置为相机的焦距长度。将关注点向图像进行投影,在投影点周围(可选以投影点为中心)根据关注窗口大小换算得到的图像区域大小确定出观察图像窗口。
[0291] 可以理解的是,矩形只是对象的关注窗口的一种可选形式,但并不是唯一的,也可以根据需要选取圆形或其它形式的关注窗口。
[0292] 本申请实施例中,根据观察图像窗口和关注窗口之间的对应关系,确定关注图像,可以包括:
[0293] 根据关注窗口在基准坐标系中的位置信息和观察图像窗口在基准坐标系中的位置信息,确定观察图像窗口到关注窗口的转换矩阵;
[0294] 根据转换矩阵将观察图像窗口进行转换,将转换后的图像观察窗口在至少两幅图像中对应图像中所对应的窗口图像确定为关注图像。
[0295] 由于获取场景的图像的设备的光心和关注路线的起点在大多数情况下不重合,且有一定的距离,为了得到更接近对象所关注的图像,需要将观察图像窗口的图像进行图像变换。具体的,通过全景相机的内参数和关注路线信息,可以得到观察图像窗口到关注窗口的关系矩阵。根据关系矩阵对观察图像窗口进行图像变换,将变换后的图像观察窗口在全景图像中对应的图像确定为关注图像。
[0296] 具体的,根据关系矩阵对观察图像窗口进行转换时,对于关注窗口中的每一个像素点坐标,通过转换矩阵,可以求取其在观察图像窗口中对应的像素点坐标,并将该坐标处像素的颜色值赋给关注窗口中对应坐标处中的像素。通过该方案,可以最大程度确保转换后的图像观察窗口与相机光心的角度(观察范围)和对象关注范围的角度一致。
[0297] 以用户的三维视线信息作为关注路线信息,以基准三维坐标系为基准坐标系作为一个示例,图21中示出了根据注视点确定用户的视野图像的原理示意图,图中M点为三维视线的起点即用户视线中心,G点为注视点。图22中示出了一种根据注视点和全景图像确定视野图像的方法的示意图。如图21和图22所示,首先基于M点、三维视线信息和视野范围确定一个三维空间中的矩形即视野窗口(图中所示的用户视野屏幕),从M点出发的三维视线垂直于该视野窗口,并且其垂心位于窗口的中心。将注视点G向全景图像投影,可以得到在全景图像上的投影点R,本示例中,为了更直观的体现确定视野图像的过程,图21示出了将G点投影到球形全景图像上的示意图。在投影点R周围根据视野窗口大小换算得到观察图像窗口,根据观察图像窗口到视野窗口之间的单应变换关系矩阵H,将观察图像窗口进行图像变换,具体的,通过相机的内参数,可以得到图像观察窗口的四个顶点在基准三维坐标系下的三维坐标,通过三维视线信息,可以得到视野窗口的四个顶点在基准三维坐标系下的三维坐标,由此可以计算出矩阵H,根据H将观察图像窗口进行转换,将转换后的观察图像窗口在全景图像上对应的图像作为用户视野图像输出。
[0298] 基于与图2中所示的确定关注点的方法相同的原理,本申请实施例还提供了一种确定关注点的装置,如图23所示,该确定关注点的装置100可以包括图像获取模块110和关注点确认模块120。
[0299] 图像获取模块110,用于获取场景的至少两幅图像;
[0300] 关注点确认模块120,用于基于至少两幅图像,确定图像中的对象在场景中的关注点。
[0301] 本申请实施例提供的确定关注点的装置,与现有技术相比,基于对象所在场景的至少两幅图像即可实现实际场景中对象的关注点的检测。该方案无需对象佩戴任何设备,即可确定对象在真实场景中的关注点,从而能够适用于无需对象配合佩戴使用额外设备的实际应用场景,能够为对象提供更自然的交互方式。
[0302] 本发明实施例提供的确定关注点的装置,可以实现本申请实施例中所提供的确定关注点的方法的实施例,确定关注点的装置的具体功能实现可参见确定关注点的方法实施例中的说明,在此不再赘述。
[0303] 基于与本申请实施例所提供的确定关注点的方法和确定关注点的方法相同的原理,本申请还提供了一种电子设备,如图24所示,该电子设备200可以包括图像采集模块210、存储器220和处理器230。
[0304] 图像采集模块210,用于采集场景的至少两幅图像;
[0305] 存储器220,用于存储机器可读指令,指令在由处理器执行时,将处理器230配置为基于图像采集模块采集的至少两幅图像,确定图像中的对象在场景中的关注点。
[0306] 本申请实施例提供的电子设备200,可以实现本申请实施例中所提供的确定关注点的方法的实施例,可以执行本申请实施例中所提供的确定关注点的装置的功能,电子设备200的详细描述可参见上述确定关注点的方法实施例中的说明,在此不再赘述。
[0307] 基于与本申请实施例所提供的确定关注点的方法和确定关注点的方法相同的原理,本申请还提供了一种确定关注点的系统,如图25所示,该确定关注点的系统300可以包括图像采集设备310、以及与图像采集设备310连接的电子设备320;
[0308] 图像采集设备310,用于获取场景的至少两幅图像,并将至少两幅图像发送至电子设备;
[0309] 电子设备320,用于接收图像采集设备发送的至少两幅图像,基于接收到的至少两幅图像,确定图像中的对象在场景中的关注点。
[0310] 本申请实施例提供的确定关注点的系统,可以实现本申请实施例中所提供的确定关注点的方法的实施例,可以执行本申请实施例中所提供的确定关注点的装置的功能,确定关注点的系统的详细描述可参见上述确定关注点的方法实施例中的说明,在此不再赘述。
[0311] 由图24和图25所示的方案可以看出,本申请实施例所提供的确定关注点的方法中获取至少两幅图像的步骤和确定关注点的步骤可以由一个包含图像采集模块的电子设备执行,也可以由图像采集设备和基于图像采集设备采集的图像实现关注点确定的电子设备执行。在由图像采集设备和电子设备共同执行完成该方法时,电子设备还可以是云端的服务器,也就是说,能够实现基于至少两幅图像,确定图像中的对象在场景中的关注点的软件可以运行在云端,云端通过获取图像采集设备采集的至少两幅图像,进行关注点的确定。
[0312] 本申请还提供了一种行为信息获取方法。图26中示出了本申请一实施例提供的该信息获取方法的流程示意图,如图26所示,该信息获取方法可以包括:
[0313] 步骤S210:获取对象的关注点;
[0314] 步骤S220:根据关注点,获取对象的行为信息。
[0315] 其中,步骤S210中对象的关注点可以是根据本申请上述任一实施例中所示的确定关注点的方法得到的关注点。也就是说,本申请实施例的信息获取方法可以是在基于本申请实施例的确定关注点的方法得到关注点之后继续实施,基于关注点获取到对象的行为信息。
[0316] 本申请实施例的信息获取方法,在得到对象的关注点之后,可以进一步根据关注点的信息来获取对象的行为信息,从而可以基于对象的行为信息为对象提供更加符合对象实际需求的服务,或者基于对象的行为信息进行对象意图进行分析,或者根据需要进行基于行为信息的其它处理。
[0317] 本申请实施例中,上述行为信息可以包括下述A~G中的至少一种:
[0318] A.对象关注的物体;
[0319] B.对象关注物体的时长;
[0320] C.对象关注的物体随时间的变化信息;
[0321] D.对象的关注点轨迹;
[0322] E.对象的关注图像;
[0323] F.对象与设备的交互信息;
[0324] G.对象的语音信息。
[0325] 对于信息A,可以根据关注点的坐标信息,确定关注点在空间中所在的物体,或者也可以基于关注点在用户确定关注点的图像上的投影点确定,投影点在图像上所位于的物体即为对象关注的物体。
[0326] 对于信息B,可以对对象不同时刻的关注点进行连续检测,得到关注点对物体的关注时长,该时长可以是对每个关注点所对应物体的关注时长,也可以是对同一物体上的关注时长,也可以是对同一类别物体的关注时长。
[0327] 对于信息C,可以根据不同时刻的关注点,确定不同时刻对象所关注的物体,进而得到对象关注的物体随时间的变化信息。
[0328] 对于信息D,可以根据对象的不同时刻的关注点,得到对象的关注点轨迹。
[0329] 对于信息E,对象的关注图像可以是基于关注点,通过图像采集设备获取到的图像,也可以是根据关注点和在确定关注点时所基于的场景图像,得到的图像,如可以是基于图22中所示的方式得到的关注图像。
[0330] 对于信息F,对象与设备的交互信息可以包括对象与设备之间的语音交互信息,和/或,对象与设备之间的接触信息,和/或,通过设备接收到的用户的指令等。例如,可以通过语音交互设备或触控设备与对象进行语音/触摸交互,得到与获取关注点的时刻或者确定出关注点的时刻相对应时段内的对象的语音信息或对设备的触摸动作信息。
[0331] 对于信息G,对象的语音信息,可以是通过语音采集设备/人机交互设备等采集的对象的语音信息,可以基于关注点的确定时刻获取到对应时段内对象的语音信息。
[0332] 图27示出了本申请另一实施例中提供的一种行为信息获取方法的流程示意图,由图27可以看出,在图26所示的信息获取方法的基础上,该信息获取方法还可以包括:
[0333] 步骤S230:根据对象的行为信息,进行处理。
[0334] 本申请实施例中,上述处理可以如下a至f中的至少一种:
[0335] a.保存对象关注的物体的图像或视频;
[0336] b.提供与对象关注的物体相关的服务或信息;
[0337] c.提供与所述对象的关注图像相关的信息或服务;
[0338] d.控制对象关注的物体的状态或自身的状态;
[0339] e.提供提示信息;
[0340] f.提供注意力相关信息。
[0341] 对于a,在获取到对象关注的物体时,可以将包括该物体的图像或视频保存下来,以提供给对象本身或相关人员使用。例如,在旅游景点中,游客骑车或乘车游玩时,可以在车上配置相关的电子设备,该电子设备可以通过确定对象的关注点,获取到对象所关注的景点中的物体,并保存相关的图像或视频,从而实现对游客所感兴趣景点图像或视频的自动保存,也可以是景点管理部通过在热门景点配置相关的电子设备,由该设备通过获取游客关注的物体后,保存相关的图像或视频,以提供给用户或者管理人员,便于管理人员基于保存的图像或视频进行景点的管理。
[0342] 对于b,提供与对象关注的物体相关的服务或信息可以包括:
[0343] 提供根据对象的指令获取的对象关注的物体的相关信息;和/或,提供结合对象关注的物体和对象的语音信息确定的服务或信息等。其中,对象的指令包括但不限于对象的语音搜索指令和/或触控指令等,例如,在对象的指令为语音搜索指令时,可以根据对象的语音搜索指令搜索对象关注的物体的相关信息,以基于搜索到的信息响应对象的搜索指令。
[0344] 在实际应用中,可以是将对象关注的物体的相关信息(如可以是互联网上检索到的物体的相关信息、在预配置的数据库中查找到的物体的相关信息、关注图像、或者关注物体的图像或视频等等)通过指定设备展示给对象本身或相关人员;还可以基于A至F中的至少一种信息,确定出对象的意图,基于对象的意图为对象提供相应的服务或信息。其中,指定设备可以是执行该信息获取方法的设备本身,也可以是与执行该信息获取方法的设备通信的其他设备。
[0345] 对于c,在获取到对象的关注图像时,可以基于图像或者图像中的物体,为对象本身或者相关对象提供相关的服务或信息。例如,可以将关注图像提供给对象,或者基于图像分析,得到关注图像中的所有物体,将每种物体的相关信息提供给对象,或者其它相关对象可以基于关注图像分析对象的意图,根据该意图采取相应动作等等。
[0346] 对于d,在得到对象关注的物体时,如物体是电子设备时,可以将物体的相关参数或控制信息发送到对象的关联设备上或者直接显示在该物体上,对象可以基于相关参数或控制信息对物体的状态、参数等进行控制。
[0347] 对于e,提示信息可以包括以下信息中的至少一种:
[0348] 针对对象的异常行为的提示信息;
[0349] 针对潜在威胁性物体的提示信息;
[0350] 针对对象的行为的提示信息。
[0351] 例如,在获取到对象关注的物体随时间的变化信息时,可以将对象关注的物体随时间的变化信息与标准变化信息比对,基于比对结果生成修正信息,以基于修正信息对对象的行为进行提醒或者使对象能够基于修正信息对物体的关注顺序,使修正后的对象关注的物体随时间的变化信息符合标准变化信息。
[0352] 再例如,还可以根据对象的关注图像和对象所在场景的图像,确定出对象未关注到的潜在危险物体,以及时生成相应的提醒信息。还可以基于对象的关注图像,预测对象的行为模式,在行为模式异常时生成对于异常行为模式的提示信息,以提醒对象或其它相关对象;还可以基于对象的位置和关注点轨迹,得到对象的预测行为,根据对象的预测行为生成提示信息,以基于该提示信息提示对象本身或场景中的其它关联对象,或者,可以将预测行为的提示信息发送至指定设备,以使指定设备根据预测行为调整设备状态。
[0353] 对于f,例如,可以基于对象不同时刻的关注点,得到对象在不同时刻所关注的物体,基于对象不同时刻关注的物体,分析或统计得出对象的注意力信息,可以将对象的注意力相关信息提供给对象本身或其他相关对象,以使对象本身或其他相关对象基于该信息调整状态或者对场景进行调整,也可以由电子设备基于注意力相关信息,根据一定的策略生成场景的调整信息等。
[0354] 基于与图26中所示的信息获取方法相同的原理,本申请实施例还提供了一种行为信息获取装置。如图28所示,该信息获取装置400可以包括关注点获取模块410和行为信息获取模块420。
[0355] 关注点获取模块410,用于获取对象的关注点;
[0356] 行为信息获取模块420,用于根据关注点,获取对象的行为信息。
[0357] 本申请实施例的信息获取装置,可以在获取到对象的关注点之后,可以进一步根据关注点来获取对象的行为信息,从而可以基于对象的行为信息为对象提供更加符合对象实际需求的服务,或者基于对象的行为信息进行对象意图进行分析,或者根据需要进行基于行为信息的其它处理等等,更好的满足了实际应用需求。
[0358] 本发明实施例提供的信息获取装置,可以实现本申请实施例中所提供的行为信息获取方法的实施例,信息获取装置的具体功能实现可参见信息获取方法的实施例中的说明,在此不再赘述。
[0359] 为了更好的理解本申请提供的确定关注点的方案和信息获取方案,下面以用户为对象,以用户的注视点为关注点,结合具体的实际应用场景对本申请实施例中所提供的信息获取方法进行详细说明。
[0360] 场景1:购物场景1
[0361] 在实际的购物场景中,可以将确定关注点的电子设备根据实际需要安装于场景中的不同位置。例如,可以安装于商品货架附近,如图29a所示,可以同时拍摄到货架上的商品和货架附近的购物者;也可以安装在一个移动平台上,如图29b所示,该移动平台相当于一个智能代理或机器人,可以同时拍摄到购物场所中摆放的商品和附近的购物者;还可以安装在一个移动购物车上,如图29c所示,可以同时拍摄到顾客和附近摆放的商品;还可以安装在前台桌面上,如图29d所示,可以同时看到来客和前台附近摆放的物品。
[0362] 确定关注点的电子设备在确定出用户的注视点之后,可以根据注视点得知用户注视的商品即用户关注的物体,并进一步基于该商品为用户提供相关的服务,具体的,可以该商品的关联信息通过电子设备(可以是确定关注点的设备,也可以是其它设备)展示给用户,关联信息可以是商品的详细信息,也可以是根据该商品预测出的用户可能感兴趣的商品或服务信息。
[0363] 场景2:购物或接待场景
[0364] 通过确定关注点的电子设备可以对用户的注视点进行持续检测,根据不同时刻的注视点,可以得知不同时刻用户所关注的商品,因此,可以获知用户对视野中同一个物体或者同一类别物体的注视时长,基于该时长可以进一步确定用户意图,基于用户意图为用户提供更加合适的服务或信息。
[0365] 图30中一种在购物或接待场景中提供以客户为中心的服务的方法的示意图。如图中所示,可以通过对用户视野的跟踪,得到用户在不同时刻的注视点,对用户视野内其所注视的物体进行持续检测,如图中所示的可以根据用户在T(i-2)、T(i-1)、T(i)等不同时刻的注视点,得到用户不同时刻所注视的物体,并可以通过记录用户对视野内同一物品或者同一物体类别的注视时间,分析出用户的意图类型。例如,当用户对某物品A进行超过一定时间长度阈值的注视时,可以将用户的意图分类为用户“对物品A感兴趣”。再例如,当用户对视野中的物品注视时间小于一定长度阈值的注视时间,并且用户注视点在场景中移动时,可以将用户的意图分类为“寻找”。
[0366] 在基于用户对商品的注视时长,针对对应时刻的用户意图进行分类后,可以基于分类出的用户意图提供更加符合用户需求的服务。例如,在意图为“对物品A感兴趣”时,可以将物品A的关联信息展示给用户,在意图为“寻找”时,可以将用户已关注过的物品之外的其它物品的信息展示给用户。
[0367] 此外,在实际应用中,还可以配置服务数据库,服务数据库中可以记录对应于不同的用户意图所最适用于的服务方案。例如:对应于“对物品A感兴趣”的用户意图,相应的服务可以配置为“推荐物品A的信息”,可以通过现场多媒体设备将相应的信息播放给用户,也可以通过通信设备将信息发送给用户个人的多媒体设备(如手机、智能眼镜等)。
[0368] 此外,在购物或接待场景中,还可以设置人工语音交互设备,通过该设备可以与场景中的用户进行语音交互,在确定出注视点时,可以再进一步基于注视点的确定时刻,得到该确定时刻对应时段内通过人工语音交互设备获得的用户与交互设备的对话信息,可以综合用户的注视点和该对话信息,更加准确的得出用户意图,为用户提供相关服务或信息,如图30中所示,可以通过用户对话引擎,来获取用户的语音信息。
[0369] 场景3:接待场景
[0370] 在接待场景中,可以根据用户在不同时刻的注视点,得到用户视线的转移即用户关注的物体随时间的变化情况,判断出用户的注意力或需求,为用户提供相关服务或信息;还可以基于该变化情况可以进一步预测用户行为,以及时为用户提供相关的服务或信息。
[0371] 场景4:物联网智能家居场景
[0372] 在智能家居场景中,家居中的家用电器可以相互联网通信,并且可以和智能代理连接。确定关注点的电子设备可以安装在一个移动平台上,在家居环境中移动,捕捉用户的图像,基于捕捉到的图像确定出用户的注视点,基于注视点分析出用户视线观察的智能家居物品,从而提供相应的服务或信息。
[0373] 如图31所示的智能家居场景中,当检测到用户注视某家居物品(如智能箱)时,能够确定注视点和获取用户行为信息的智能代理(可以是智能机器人或智能设备)可以连接到冰箱,调取存储在冰箱上的食品等信息,通过智能音箱或房间内的显示器等方式将调取的信息向用户进行展示,当然,如果智能代理具有显示功能,也可以直接由智能代理将调取的信息直接展示给用户。
[0374] 图32中示出了另一智能家居场景的示意图,图33中示出了一种在如图32所示的场景中根据用户视线显示物联网设备控制界面的方式的示意图,如图32和图33所示,智能代理可以对用户进行视线跟踪,在确定出用户注视点时,可以基于注视点得到用户的视野图像,通过对用户视野图像的检测,可以判断用户的视野中是否包含一组经过登记的物联网设备中的某一个。当检测到用户注视的物体匹配到某个经过登记的物联网设备时,如图中所示的物联网空调或物联网电视,智能代理可以通过物联网与该设备进行通信,将其设备状态及控制参数等信息进行同步读取,并将这些信息显示在用户的移动多媒体设备上,允许用户对该设备的状态进行检查或进行控制,如用户可以通过其移动设备上显示的物联网空调的控制界面,根据界面上显示的空调的状态及控制参数,控制打开空调或调整已经打开的空调的控制参数。
[0375] 场景5:游玩场景
[0376] 如图34所示的游玩场景中,确定关注点及获取行为信息的电子设备可以安装在骑行的车辆上,用户在游玩的过程中,设备可以通过获取用户和场景中物体的视频,基于获取视频中每一帧的图像可以对用户不同时刻的注视点检测,实现对用户视野的跟踪,可以基于注视点将视频中每一帧图像中用户的视野图像即视野视频保存下来,实现对用户旅游过程中所关注到的景点中感兴趣物体的自动化获取与保存,实现对用户旅游记忆的记录。
[0377] 场景6:辅助驾驶场景
[0378] 在如图35所示的辅助驾驶场景中,确定关注点及获取行为信息的电子设备可以安装在车辆上,对车辆周围的行人及环境中的物体进行观察,判断周围行人是否可能进入行车路线,从而为驾驶员提供预警或为自动化驾驶提供控制依据。
[0379] 图36中示出了在辅助驾驶场景中基于本申请实施例的方案,一种在车辆上自动判断周围行人的行进意图的方法的示意图。如图35和36所示,车辆上安装的电子设备可以通过获取场景图像,对图像中的行人进行检测,对每个行人进行注视点的不断检测,实现对每个行人的视野跟踪,从而可以识别出行人的行进方向,为车辆安全行驶提供帮助。
[0380] 具体的,基于对每个行人的视野跟踪,得到行人的视野图像和注视点变化轨迹,根据视野内容和变化的轨迹,分析行人的意图,预测行人的行为。例如,当行人走近十字路口,并且行人的视野轨迹显示行人在用视线扫描路口的路况时,可以判断行人要穿越十字路口。然后根据行人的意图和行人行为模型,可以预测出行人行为,例如,行人可能会横穿路。这些行人行为可以被传递给自动驾驶决策单元调整车辆状态以便达到安全驾驶的目的。当预测行人的行进路线和预测车辆的行进路线发生冲突时,可以判断为危险情形,可以通过向驾驶员进行预警,实现了在车辆上自动判断周围行人的行进意图。
[0381] 此外,该方案也可用于机器人的自主导航,为避免机器人在行进过程中与行人碰撞提供帮助。
[0382] 场景7:示教操作场景
[0383] 在厨房、工厂、实验室等场景中,示教智能代理可以通过观察用户和提供建议,辅助用户完成由一系列操作组成的特定任务。
[0384] 如图37所示的应用场景中,可以根据特定任务的标准操作顺序(标准操作序列),生成操作者注意力转移的序列标准(标准变化信息),即在什么时刻,操作者的关注点应该位于什么物体(如图中的物体A/B、C)上。
[0385] 图38中示出了一种在如图37所示的示教操作场景中为用户提供操作建议的方法的示意图。如图37和38所示,智能代理可以安装在操作环境中固定或移动的位置上,能够同时观察操作者和操作者完成任务需要使用的各种物品。具体的,智能代理可以通过获取场景中的图像,对用户的注视点进行持续检测,对用户视野进行跟踪,通过对操作者所在场景的图像的连续分析,可以跟踪操作者注视的物体类别随着时间的变化,得到操作者关注的物体类别随操作时间的变化信息。通过将操作者的上述操作变化信息与标准变化信息进行对比,可以判定操作者的操作是否符合标准,当通过比对发现操作者执行某一特定操作时,操作者的注意力即注视点没有放在应该注视的物体上,可以基于比对结果生成修正信息,基于该修正信息,通过多媒体的方式对操作者提出操作建议,使操作者能够根据操作建议对操作行为进行修正。
[0386] 场景8:驾驶员交互场景
[0387] 在如图39所示的场景中,用户在驾驶机动车辆自行车的过程中,用户的双手被驾驶设备(如方向盘、车把手)占用。基于本申请实施例的方案,能够对用户的视野进行提取,可以提供无需用户手势的自然的用户交互方式。
[0388] 图40中示出了一种在如图39所示的场景中基于用户的视野图像为人机交互系统提供输入的方法的示意图,如图39和图40所示,可以将确定关注点及获取行为信息的电子设备安装在车辆上,该设备可以同时观察到用户的图像和车外的景物图像。用户可以通过语音与车辆上的人机问答交互系统进行交互,例如,当用户观察到车外的某个物体时,通过语音向交互系统提出信息检索请求(如:“那是什么”),电子设备的图像采集模块(如可以是全景相机系统)捕捉到用户说出该检索请求时用户的视野图像,可以通过从视野图像中检测物体,针对该物体在互联网上进行检索,并给出合适的匹配信息,通过图像或者语音的方式呈现给用户。
[0389] 可以理解的是,在实际应用中,上述电子设备可以与车辆的车载电脑集成设置,即可以将确定注视点及获取行为信息的功能模块集成到车载设备中,由车载设备完成图40中所示的方法,例如,在捕捉到用户说出该检索请求时用户的视野图像时,可以自动将该图像交给车载电脑,由车载电脑通过从视野图像中检测物体,针对该物体在互联网上进行检索,并给出合适的匹配信息,通过图像或者语音的方式呈现给用户。此外,图像采集、和基于图像确定关注点及获取行为信息的功能部分可以是一个设备完成,也可以是多个设备完成。
[0390] 在如图41所示的场景中,可以基于本申请实施例的方案为骑车用户提供针对潜在威胁性物体的提示信息。图42中示出了一种在如图41所示的场景中检测并提醒用户注意周边交通环境中具有潜在威胁物体的方法的示意图。如图41和图42所示,安装在车辆上的电子设备可以通过获取交通环境中的全景图像,确定用户的注视点,得到用户的视野图像,实现对用户视野的跟踪,通过分析用户的视野图像,可以得知用户看到了哪些场景中的物体,通过分析全景图像,可以得知场景中有哪些物体以及这些物体哪些是具有潜在威胁性的物体,通过比对场景中的物体和用户视野图像中的物体,如果用户没有注视到周围交通场景中可能出现的具有潜在性物体(如从后方靠近的车辆),用户预警系统(可以是该电子设备,也可以是与该电子设备通信连接的其它设备)可以通过多媒体的方式为用户做出安全提示。
[0391] 场景9:安全监控场景
[0392] 在安全监控场景中,如图43所示的公共场所的安全监控场景中,基于本申请实施例的方案,可以为场景中的用户提供相匹配的服务。
[0393] 图44中示出了一种在如图43所示的场景中同时对多行人行为进行视野跟踪检测的方法的示意图。如图43和图44所示,确定关注点及获取行为信息的电子设备可以安装在场景中的固定或者移动平台上,同时观察和跟踪场景中多人的注视点,基于每个人的注视点可以得到每个人的视野图像,实现行人视野跟踪。通过分析每个人的视野图像,可以将分析出的行人意图与配置的行人意图数据库进行匹配,对监控下的行人的行为模式做出预测,如果出现异常行为模式,则可以生成相应的提示信息,以能够基于该提示信息采取相应的行为或提供匹配的服务。例如,某个用户的注视点一直在变化,用户的意图为寻找,基于数据库配置,预测寻找意图的该用户可能需要帮助,需要进行特殊处理,则可以生成对应的提示信息,以及时对需要帮助的用户提供帮助。
[0394] 场景10:会议或教室场景
[0395] 如图45所示的会场或教室等多用户的应用场景下,可以将确定关注点及获取行为信息的电子设备安装于场景中的固定或移动的位置上,该设备可以同时观察到位于会场或教室的多个用户的全景图像并提供注意力(关注点)分析,通过对与会者或学生的注意力进行统计分析,可以将注意力分析结果提供给与会者或老师,以使与会者或老师可以根据该分析结果对会议或讲课过程进行调整,或者也可以基于注意力分析结果生成场景的调整信息,将该调整信息提供给与会者或老师作为参考。
[0396] 图46中示出了一种如图45所示的场景中对用户的注意力进行分析的方法的示意图,如图45和图46中所示,通过对场景中多用户的(如学生)注视点的跟踪检测,得知用户的注意力是否在正确的地方,从而可以得到注意力偏离情况的统计结果和整体的注意力统计分析结果,基于偏离注意力的统计结果,可以提醒会议主持者或老师,以对会议或讲课过程进行相应调整。
[0397] 本申请还提供了一种电子设备,该电子设备包括存储器和处理器;
[0398] 存储器,用于存储机器可读指令,指令在由处理器执行时,使得处理器执行本申请人任一实施例中所示的确定关注点的方法,和/或,本申请任一实施例中所示的信息获取方法。
[0399] 本申请实施例还提供了一种计算机可读存储介质,该计算机存储介质用于存储计算机指令,当计算机指令在计算机上运行时,使得计算机可以执行本申请人任一实施例中所示的确定关注点的方法,和/或,本申请任一实施例中所示的信息获取方法。
[0400] 图47示出了本申请实施例提供的一种电子设备的结构示意图,该电子设备200可以包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如可以通过总线2002相连。可选的,该电子设备2000还可以包括收发器2004。需要说明的是,实际应用中处理器2001、收发器2004和存储器2003等都不限于一个,该电子设备2000的结构也并不构成对本申请实施例的限定。
[0401] 其中,处理器2001和存储器2003可以应用于本申请实施例中,用于实现本申请实施例中确定关注点的装置和/或获取信息的装置的功能。收发器2004可以包括接收机和/或发射机,用于信息的接收和/或发送功能,实现电子设备2000与其它设备的数据交互。
[0402] 处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0403] 总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线数据总线、控制总线等。为便于表示,图47中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0404] 存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0405] 可选的,存储器2003用于存储执行本申请实施例中的方案的应用程序代码,并由处理器2001来控制执行。处理器2001执行存储器2003中存储的应用程序代码时,可以实现本申请任一实施例中提供的确定关注点的方法和/或行为信息获取方法。
[0406] 下面结合以下的具体示例一至示例三对本申请的确定关注点的方法和/或信息获取方法进行进一步说明,这三个示例中是以用户的注视点为注视点、以三维视线信息为关注路线信息为例进行的说明。
[0407] 示例一
[0408] 本示例中以图3中所示的上下连接的两台全景相机获取两幅全景图像,基于两幅全景图像得到用户的注视点为例说明。图48中示出了该示例的流程示意图,如图中所示,该示例的方法主要可以包括以下步骤:
[0409] 步骤S1.1:全景相机标定及全景立体视频对矫正
[0410] 由前文描述可知,在通过全景相机采集图像/视频时,需要对全景相机进行标定,该标定包括每台全景相机自身的标定和两台全景相机之间的标定。完成全景相机标定后,上下两台全景相机可以分别拍摄用户所在场景的两组全景视频,两组全景视频形成全景立体视频对。基于拍摄得到的两组全景视频中相对应的每一帧的图像,可以得到场景的每一帧图像拍摄时刻的两幅全景图像,进而可以基于两组全景视频实现对用户不同时刻的关注点的持续确定,实现了对用户视线的跟踪。
[0411] 对于得到的全景立体视频对(两组球面全景视频)还需要进行经纬矫正,将矫正后的两组全景视频中相对应帧的球面全景图像经过经纬展开,得到两幅平面全景图像,场景空间中的同一物体点在两幅平面全景图像上的投影点位于相同的图像列上,如上述图5中所示。
[0412] 步骤S1.2:用户图像特征提取(人体/人脸/关键点)
[0413] 通过对步骤S1.1得到的两幅平面全景图像进行用户特征提取,可以得到用户的部位图像,本示例中,部位图像可以包括两幅身体图像、两幅头部图像、两幅脸部图像、两幅脸部关键点图像和两幅眼部图像组中的至少一种。
[0414] 步骤S1.3:三维视线提取算法和模型
[0415] 基于步骤S1.2中得到的用户的部位图像,可以确定出用户的三维视线信息,包括三维视线的起点信息和方向信息。三维视线提取算法模型可以采用基于深度学习训练得到的三维视线信息估计模型实现。该模型具体可以实现包括但不限于上述图11、图12和图13中的至少一种方案。
[0416] 步骤S1.4:视线三维交汇检测算法和模型
[0417] 该步骤中用于检测用户的三维视线与场景中物体在三维空间中的交汇情况,确定用户的注视点。该步骤的视线三维交汇检测算法和模型具体可以实现包括但不限于上述图12、图13和图14中的至少一种方案。
[0418] 步骤S1.5:用户视野提取算法
[0419] 该步骤可以基于用户的注视点和全景图像得到用户的视野图像,该步骤的具体实现可以采用本申请上述实施例中所记载的基于关注点得到对象的关注图像的方案,该示例中的关注点即为用户的注视点,关注图像即为用户的视野图像。
[0420] 步骤S1.6:基于用于视野分析的服务方法
[0421] 该步骤中可以基于步骤S1.5中得到的用户的视野图像,结合不同的应用场景,基于用于视野可以提取相应的服务。其中,应用场景可以包括但不限于上述图29(图29a、29b、29c、29d、)至图46中所示的应用场景。
[0422] 示例二
[0423] 本示例中以图6中所示的采用一台全景相机获取两幅全景图像,基于两幅全景图像得到用户的注视点为例说明。图49中示出了该示例的流程示意图,如图中所示,该示例的方法主要可以包括以下步骤:
[0424] 步骤S2.1:相机自运动获取、参考时刻全景图像捕捉、当前时刻全景图像捕捉[0425] 该步骤中通过控制一台全景相机的移动来获取两幅全景图像,该步骤的详细描述可参见前文中通过一台全景相机获取两幅全景图像的描述。其中,相机自运动获取是指获取全景相机的自运动信息,通过控制相机的运动得到不同时刻且拍摄位置大于设定距离阈值的两幅全景图像,即参考时刻全景图像和当前时刻全景图像。
[0426] 步骤S2.2:全景立体图像标定
[0427] 对于步骤S2.1中获取的参考时刻全景图像和当前时刻全景图像,需要进行全景立体图像标定,将两幅全景图像进行图像变换,形成一对全景立体图像对,经过标定后的两幅全景图像在经过经纬图像展开后,相同的空间点在两幅平面全景图像上的投影点对齐到相同的图像列方向上。
[0428] 步骤S2.3:用户图像特征提取
[0429] 步骤S2.4:三维视线信息估计
[0430] 步骤S2.5:三维视线交汇检测
[0431] 步骤S2.6:用户视野提取
[0432] 步骤S2.3至步骤S2.6分别用于实现用户的部位图像的获取、三维视线信息的确定、注视点的确定和用户的视野图像的获取,与上述示例1中的步骤S1.2至步骤S1.5对应,具体可采用与上述示例1中所描述的方案实现。
[0433] 示例三
[0434] 本示例中以图8a或图8b或图8c中所示的非全景相机获取两幅全景图像,基于两幅全景图像得到用户的注视点为例说明。图50中示出了该示例的流程示意图,如图中所示,该示例的方法主要可以包括以下步骤:
[0435] 步骤S3.1:相机运动控制以及相机三维位置获取
[0436] 由于非全景相机的视野有限,相机不能在同一时刻同时观察到场景中的所有物体和用户,因此需要靠控制相机运动的方式扫描周围环境,对场景中的物体和用户进行观察。相机运动控制包括通过控制相机旋转来获取不同场景区域的图像,通过控制相机平移来捕捉具有立体视差的图像。
[0437] 在控制相机运动时,可以通过相机运动控制以及相机三维位置获取模块来规划相机的运动轨迹,以此控制相机运动,并获取相机的三维位置。
[0438] 步骤S3.2:环境三维建模
[0439] 基于相机的三维位置信息,可以通过三维建模模块来建立场景周围环境中静止物体的三维深度图,得到场景中静止物体的深度信息。
[0440] 步骤S3.3:物体三维跟踪
[0441] 步骤S3.4:用户三维跟踪
[0442] 在图像拍摄过程中,可以通过物体三维跟踪模块对场景中的运动物体的三维位置进行跟踪,以对运动物体下一时刻的位置进行估计,根据估计出的位置控制相机在下一时刻指向该位置,捕捉下一时刻该运动问题的图像。通过用户三维跟踪模块对场景中用户三维运动轨迹进行跟踪,以预测用户下一时刻的位置,对用户下一时刻的图像进行拍摄。其中,如果用户或运动物体位于相机视野之外,通过控制相机旋转并进行拍摄,如果用户和运动物体都位于相机视野之外,可基于用户的位置控制相机旋转。
[0443] 基于步骤S3.1至步骤S3.4中的方案,可以得到场景的360度水平视野的图像,且每个场景中每个区域都应具有两个或两个以上拍摄距离大于设定距离的图像,基于获取到的图像,通过图像拼接的方式,可以得到两幅全景图像。步骤S3.1至步骤S3.4的详细描述可参见前文中通过一台或多台普通相机即非全景相机获取两幅全景图像部分的描述。
[0444] 步骤S3.5:三维视线信息估计
[0445] 步骤S3.6:三维视线交汇检测
[0446] 步骤S3.7:用户视野提取
[0447] 步骤S3.5至步骤S3.7具体用于实现基于获取的两幅全景图像,得到用户的注视点的方案,与上述示例1中的步骤S1.2至步骤S1.5对应,具体可采用与上述示例1中所描述的方案实现。
[0448] 应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0449] 以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈