一种人脸定位方法及装置专利检索-音频信号信号信号处理专利检索查询-专利查询网

一种人脸定位方法及装置

阅读：1040发布：2020-06-28

专利汇可以提供一种人脸定位方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种人脸定位方法及装置，获取多个音频信号，其中，多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到，依据多个音频采集设备的位置以及各个音频信号的频域特征，得到音频信号对应的声源位置信息，获取图像拍摄设备的视角范围内的多个人脸图像，依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置，依据各个对象的位置及声源位置信息确定出目标对象，获取目标对象的人脸图像。通过上述方案，依据各个对象的位置及声源位置信息确定出目标对象，获取目标对象的人脸图像，实现在摄像头的视角范围内存在多个正向人脸时，确定需要识别的人脸的目的，以便下一步对目标对象的人脸图像做进一步处理。，下面是一种人脸定位方法及装置专利的具体信息内容。

权利要求

1.一种人脸定位方法，其特征在于，所述方法包括：
获取多个音频信号，其中，所述多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到；
依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息；
获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置；
依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象；
获取所述目标对象的人脸图像。
2.根据权利要求1所述的方法，其特征在于，所述获取多个音频信号，包括：
获取多个音频采集设备分别采集的原始音频信号；
分别去除各个所述原始音频信号所包含的噪声信号，得到多个音频信号。
3.根据权利要求1所述的方法，其特征在于，所述依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息，包括：
获取所述多个音频信号分别对应的频域数据；
依据所述多个音频信号对应的频域数据计算得到各个音频信号之间的相位差；
依据各个音频信号的频率及相位差得到所述各个音频信号从声源位置分别传播到各个音频采集设备的时间差；
依据所述时间差及声音的传播速度得到所述音频信号对应的声源位置与各个音频采集设备之间距离差。
4.根据权利要求1所述的方法，其特征在于，所述获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置，包括：
分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与所述图像拍摄设备之间的距离；
基于各个人脸图像对应的对象与所述图像拍摄设备之间的距离，以及所述图像拍摄设备的位置，得到各个对象的位置信息。
5.根据权利要求1所述的方法，其特征在于，所述依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象，包括：
基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每个对象与各个音频采集设备之间的距离差值；
选取与所述各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。
6.一种人脸定位装置，其特征在于，所述装置包括：
第一获取单元，用于获取多个音频信号，其中，所述多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到；
第一确定单元，用于依据多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息；
第二确定单元，用于获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置；
第三确定单元，用于依据各个对象的位置及所述声源位置信息确定出目标对象；
第二获取单元，用于获取所述目标对象的人脸图像。
7.根据权利要求6所述的装置，其特征在于，所述第一获取单元，包括：
第一获取模块，用于获取多个音频采集设备分别采集的原始音频信号；
去除模块，用于分别去除各个所述原始音频信号所包含的噪声信号，得到多个音频信号。
8.根据权利要求6所述的装置，其特征在于，所述第一确定单元，包括：
第二获取模块，用于获取所述多个音频信号分别对应的频域数据；
计算模块，用于依据所述多个音频信号对应的频域数据计算得到各个音频信号之间的相位差；
传播模块，用于依据各个音频信号的频率及相位差得到所述各个音频信号从声源位置分别传播到各个音频采集设备的时间差；
第三获取模块，用于依据所述时间差及声音的传播速度得到所述音频信号对应的声源位置与各个音频采集设备之间距离差。
9.根据权利要求6所述的装置，其特征在于，所述第二确定单元，包括：
分析模块，用于分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与所述图像拍摄设备之间的距离；
第四获取模块，用于基于各个人脸图像对应的对象与所述图像拍摄设备之间的距离，以及所述图像拍摄设备的位置，得到各个对象的位置信息。
10.根据权利要求6所述的装置，其特征在于，所述第三确定单元，包括：
第五获取模块，用于基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每个对象与各个音频采集设备之间的距离差值；
确定模块，用于选取与所述各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。

说明书全文

一种人脸定位方法及装置

技术领域

[0001] 本发明涉及人脸识别技术领域，更具体地说，涉及一种人脸定位方法及装置。

背景技术

[0002] 随着人脸识别技术的发展，应用人脸识别的场景越来越多，例如，基于人脸识别的考勤系统、基于人脸识别的鉴权系统、基于人脸识别的支付系统等。

[0003] 应用人脸识别的场景通常是通过摄像头获取人脸图像，然后对该人脸图像进行人脸识别，若确定该人脸图像是目标对象的人脸则执行后续的处理。这种方式在摄像头的视角范围内只有一个人脸的场景下没有问题，但是，在摄像头的视角范围内存在多个正向人脸时，无法分辨视角范围内的哪个人脸才是需要进行识别的人脸，因此，上述的人脸识别方案无法应用于多人脸的场景中。

发明内容

[0004] 有鉴于此，本发明提供了一种人脸定位方法及装置，以解决在摄像头的视角范围内存在多个正向人脸时，无法分辨视角范围内的哪个人脸才是需要进行识别的人脸的问题，其公开的技术方案如下：

[0005] 第一方面，本发明公开了一种人脸定位方法，所述方法包括：

[0006] 获取多个音频信号，其中，所述多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到；

[0007] 依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息；

[0008] 获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置；

[0009] 依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象；

[0010] 获取所述目标对象的人脸图像。

[0011] 可选地，所述获取多个音频信号，包括：

[0012] 获取多个音频采集设备分别采集的原始音频信号；

[0013] 分别去除各个所述原始音频信号所包含的噪声信号，得到多个音频信号。

[0014] 可选地，所述依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息，包括：

[0015] 获取所述多个音频信号分别对应的频域数据；

[0016] 依据所述多个音频信号对应的频域数据计算得到各个音频信号之间的相位差；

[0017] 依据各个音频信号的频率及相位差得到所述各个音频信号从声源位置分别传播到各个音频采集设备的时间差；

[0018] 依据所述时间差及声音的传播速度得到所述音频信号对应的声源位置与各个音频采集设备之间距离差。

[0019] 可选地，所述获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置，包括：

[0020] 分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与所述图像拍摄设备之间的距离；

[0021] 基于各个人脸图像对应的对象与所述图像拍摄设备之间的距离，以及所述图像拍摄设备的位置，得到各个对象的位置信息。

[0022] 可选地，所述依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象，包括：

[0023] 基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每个对象与各个音频采集设备之间的距离差值；

[0024] 选取与所述各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0025] 第二方面，本发明公开了一种人脸定位装置，所述装置包括：

[0026] 第一获取单元，用于获取多个音频信号，其中，所述多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到；

[0027] 第一确定单元，用于依据多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息；

[0028] 第二确定单元，用于获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置；

[0029] 第三确定单元，用于依据各个对象的位置及所述声源位置信息确定出目标对象；

[0030] 第二获取单元，用于获取所述目标对象的人脸图像。

[0031] 可选地，所述第一获取单元，包括：

[0032] 第一获取模块，用于获取多个音频采集设备分别采集的原始音频信号；

[0033] 去除模块，用于分别去除各个所述原始音频信号所包含的噪声信号，得到多个音频信号。

[0034] 可选地，所述第一确定单元，包括：

[0035] 第二获取模块，用于获取所述多个音频信号分别对应的频域数据；

[0036] 计算模块，用于依据所述多个音频信号对应的频域数据计算得到各个音频信号之间的相位差；

[0037] 传播模块，用于依据各个音频信号的频率及相位差得到所述各个音频信号从声源位置分别传播到各个音频采集设备的时间差；

[0038] 第三获取模块，用于依据所述时间差及声音的传播速度得到所述音频信号对应的声源位置与各个音频采集设备之间距离差。

[0039] 可选地，所述第二确定单元，包括：

[0040] 分析模块，用于分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与所述图像拍摄设备之间的距离；

[0041] 第四获取模块，用于基于各个人脸图像对应的对象与所述图像拍摄设备之间的距离，以及所述图像拍摄设备的位置，得到各个对象的位置信息。

[0042] 可选地，所述第三确定单元，包括：

[0043] 第五获取模块，用于基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每个对象与各个音频采集设备之间的距离差值；

[0044] 确定模块，用于选取与所述各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0045] 本发明提供的人脸定位方法，通过由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到多个音频信号，然后，依据多个音频采集设备的位置以及各个音频信号的频域特征，确定音频信号对应的声源位置信息。通过图像拍摄设备获取其视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置。依据各个对象的位置及声源位置信息确定出目标对象，并获取目标对象的人脸图像。通过上述方案，在摄像头的视角范围内存在多个正向人脸时，采集目标对象产生的语音信号，并确定该语音信号的声源位置，然后，结合各个正向人脸对应对象的位置及该语音信号的声源位置确定出目标对象，并获取目标对象的人脸图像确定需要识别的人脸的目的，以便下一步对目标对象的人脸图像做进一步处理。附图说明

[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

[0047] 图1为本发明实施例公开的一种人脸定位方法的流程示意图；

[0048] 图2为本发明实施例公开的一种音频采集设备的布置示意图；

[0049] 图3为本发明实施例提供的一个实例中声源与两个音频采集设备之间的位置关系示意图；

[0050] 图4为本发明实施例公开的一种人脸定位装置的结构示意图。

具体实施方式

[0051] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0052] 传统的应用人脸识别的场景通常是通过摄像头获取人脸图像，然后对该人脸图像进行人脸识别，若确定该人脸图像是目标对象的人脸则执行后续的处理。这种方式在摄像头的视角范围内只有一个人脸的场景下没有问题，但是，在摄像头的视角范围内存在多个正向人脸时，无法分辨视角范围内的哪个人脸才是需要进行识别的人脸，因此，传统的人脸识别方案无法应用于多人脸的场景中。

[0053] 为了解决该问题，本发明公开了一种人脸定位方法及装置，依据各个对象的位置及目标对象产生的语音信号的声源位置信息确定出目标对象，然后获取目标对象的人脸图像，实现在摄像头的视角范围内存在多个正向人脸时，确定需要识别的人脸的目的。

[0054] 请参见图1，为本发明实施例公开的一种人脸定位方法的流程示意图，该方法应用于智能终端设备中，该智能终端设备集成有人脸识别功能，并能够基于人脸识别结果进行进一步的操作，如人脸支付终端、人脸考勤终端等等。

[0055] 如图1所示，该方法可以包括如下步骤：

[0056] S101：获取多个音频信号。

[0057] 在具体实现S101的过程中，多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到。

[0058] 在本实施例中，当图像采集设备的视角范围内存在多个人脸图像时，可以提示目标对象进行语音应答，此时音频采集设备采集目标对象产生的语音信号。

[0059] 需要说明的是，多个音频采集设备可以均匀分布在图像拍摄设备两侧，例如，图像拍摄设备两侧的音频采集设备的数量相同，且位于图像拍摄设备同一侧的各个音频采集设备之间的距离相等。其它实施例中，多个音频采集设备也可以不均匀分布在图像拍摄设备两侧，只需知道各个音频采集设备及图像拍摄设备的位置即可。本发明优选多个音频采集设备均匀分布在图像拍摄设备两侧的方案。

[0060] 图像拍摄设备可以是具有摄像功能的设备，如照相机，手机，监控摄像头等，具体图像拍摄设备的选取本方案不做具体限定。

[0061] 音频采集设备可以是麦克风、拾音器等，具体音频采集设备的选取本方案不做具体限定。

[0062] 通常通过音频采集设备采集的音频信号中包括目标对象产生的语音信号，同时还包括环境中的其它声音信号，即噪声信号。噪声信号是指不需要的语音信号，是由许多不同频率和强度的声波杂乱无章组合而成的，因此需要去除原始音频信号中的噪声信号。

[0063] 在一种应用场景中，音频采集设备不具备去噪功能，此种情况下，需要对音频采集设备提供的音频信号去噪，即获取多个音频采集设备采集的原始音频信号之后，分别去除各个原始音频信号所包含的噪声信号，得到多个需要分析的音频信号。

[0064] 在另一种应用场景中，音频采集设备自身具备去噪功能，此种情况下，音频采集设备采集同一对象所产生的语音信号得到多个需要分析的音频信号。

[0065] S102：依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息。

[0066] 在具体实现S102的过程中，对所述音频信号对应的声源进行定位，得到音频信号对应的声源的位置信息。

[0067] 需要说明的是，本实施例中的声源位置信息为音频数据对应的声源与各音频采集设备之间的距离差。

[0068] 在一个实施例中，确定音频信号对应的声源位置信息的过程如下：

[0069] 获取多个音频信号分别对应的频域数据，并依据该多个音频信号对应的频域数据计算得到各个音频信号之间的相位差。然后，依据各个音频信号的频率及相位差得到各个音频信号从声源位置分别传播到各个音频采集设备的时间差。最后，依据该时间差及声音的传播速度得到该音频信号对应的声源位置与各个音频采集设备之间距离差。

[0070] 在一种可能的实现方式中，可以通过双音频采集设备实现声源定位。通过将两个音频采集设备按一定距离放置，两个音频采集设备采集音频数据，该音频数据为时域数据，对该音频数据进行快速傅里叶变换得到对应的频域数据，通过比较两路音频数据在同一频率下的相位差来计算语音信号到达两个音频采集设备的时间差，依据该时间差及声音的传播速度得到该音频信号对应的声源位置与各个音频采集设备之间距离差。

[0071] 音频采集设备的数量可以为2个，也可以为4个或更多数量，音频采集设备的具体数量由技术人员根据实际情况自行设置，本发明不做具体限定。

[0072] 上述音频信号的频率获取过程如下：基于各音频信号的频域数据，确定出幅值最大的频域数据的频率，进一步判断这个频率是否是人的声音对应的频率，如果是，则确定这个频率即音频信号的频率。

[0073] 上述涉及到依据该时间差及声音的传播速度得到该音频信号对应的声源位置与各个音频采集设备之间距离差的过程，这里举例进行说明：

[0074] 在一种应用场景下，如图2所示，两个音频采集设备分别设置在图像拍摄设备的两侧，且两个音频采集设备分别与图像拍摄设备之间的距离相同。通过将2个通道采集的音频信号的时域数据换成对应的频域数据，进一步分析这两个频域数据得到这两路音频信号对应的相位。

[0075] 假设计算出左声道的相位为-15.87度，右声道的相位为-135.03度，2个通道的声音都是周期信号，可能是左声道提前右声道119.16度，也可能是右声道提前左声道360-119.16＝240.38度。其中，在本实例中，左声道是指第二音频采集设备与声源之间的声音传输通道，右声道是指第一音频采集设备与声源之间的声音传输通道。

[0076] 假设音频信号的频率是1KHz，一个周期(360度)的时间是1s/1000Hz＝1ms，119.16度对应的时间差是1ms/360度*119.16度＝0.33ms。声音在25℃空气中的传播速度是346米/秒，0.33ms对应的声音传播距离是346/1000*0.33＝0.114m＝11.4cm；同理，可以计算出第一音频采集设备的相位比第二音频采集设备的相位提前240.38度时，声源与两个音频采集设备之间的距离差为23.2cm。

[0077] 两个音频采集设备与声源形成一个三角形，假设两个音频采集设备之间的距离大约是16cm，以及，假设声源到达第一音频采集设备的距离是b，声源到达第二音频采集设备的距离是a任意三角形的三个边长之间存在“任意两边之差小于第三边”的关系，因此a-b＝23.2cm＞16cm这种情况不可能存在，即第一音频采集设备的相位比第二音频采集设备的相位提前240.38度的情况不存在。

[0078] 综上分析，声源与两个音频采集设备之间的位置关系如图3所示，即第二音频采集设备的相位提前第一音频采集设备119.16度，声源距离两个音频采集设备之间的距离差为11.4cm。

[0079] S103：获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置。

[0080] 在具体实现S103的过程中，获取图像拍摄设备的视角范围内的各个人脸图像对应的人物对象到图像拍摄设备之间的距离，根据各个人脸图像对应的人物对象到图像拍摄设备之间的距离和图像拍摄设备的位置，确定各个人脸图像对应对象的位置。

[0081] 在一种应用场景中，分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与图像拍摄设备之间的距离。其中，图像拍摄设备的位置已知，而且，该图像拍摄设备的视角范围已知，因此，基于各个人脸图像对应的对象与该图像拍摄设备之间的距离，以及该图像拍摄设备的位置，能够得到各个对象的位置信息。

[0082] S104：依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象。

[0083] 在具体实现S104的过程中，根据当前图像拍摄设备的视角范围内的各个人脸图像对应的人物对象到图像拍摄设备之间的位置信息，根据图像拍摄设备和音频采集设备的位置，得到各个人脸图像对应的人物对象到各音频采集设备的距离的差值，选取与各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0084] 在一种应用场景中，基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每一对象分别与各个音频采集设备之间的距离，进而得到同一对象分别与各个音频采集设备之间的距离的差值，即每个对象与各个音频采集设备之间的距离差值；然后，选取与各个音频采集设备之间的距离差值最接近声源与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0085] 例如，图2所示的场景中，8个人中只有第2个人分别到两个麦克风的距离差值与声源分别到两个麦克风的距离差最接近，因此，确定第2个人为目标对象。

[0086] S105：获取所述目标对象的人脸图像。

[0087] 依据上述过程从多个人物对象中确定出目标对象后，进一步利用图像拍摄设备拍摄该目标对象的人脸图像。

[0088] 获得目标对象的人脸图像之后，可以继续下一步处理，例如，刷脸支付、刷脸考勤等。

[0089] 本发明提供的人脸定位方法，通过由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到多个音频信号，然后，依据多个音频采集设备的位置以及各个音频信号的频域特征，确定音频信号对应的声源位置信息。通过图像拍摄设备获取其视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置。依据各个对象的位置及声源位置信息确定出目标对象，并获取目标对象的人脸图像。通过上述方案，在摄像头的视角范围内存在多个正向人脸时，采集目标对象产生的语音信号，并确定该语音信号的声源位置，然后，结合各个正向人脸对应对象的位置及该语音信号的声源位置确定出目标对象，并获取目标对象的人脸图像确定需要识别的人脸的目的，以便下一步对目标对象的人脸图像做进一步处理。

[0090] 基于上述本发明实施例公开的一种人脸定位方法，本发明实施例还对应公开了一种人脸定位装置，如图4所示，主要包括：

[0091] 第一获取单元401，用于获取多个音频信号，其中，所述多个音频信号由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到。

[0092] 进一步的，所述第一获取单元401，包括：

[0093] 第一获取模块，用于获取多个音频采集设备分别采集的原始音频信号。

[0094] 去除模块，用于分别去除各个所述原始音频信号所包含的噪声信号，得到多个音频信号。

[0095] 其中，噪声信号是指不需要的语音信号，是由许多不同频率和强度的声波杂乱无章组合而成的，因此需要去除模块去除原始音频信号中的噪声信号。

[0096] 第一确定单元402，用于依据所述多个音频采集设备的位置以及各个所述音频信号的频域特征，得到所述音频信号对应的声源位置信息。

[0097] 其中，音频采集设备可以是麦克风、拾音器等，具体音频采集设备的选取本方案不做具体限定。

[0098] 本发明一种应用场景中，第一确定单元402通过对音频信号对应的声源进行定位，得到音频信号对应的声源位置信息。

[0099] 进一步的，所述第一确定单元402，包括：

[0100] 第二获取模块，用于获取所述多个音频信号分别对应的频域数据。

[0101] 计算模块，用于依据所述多个音频信号对应的频域数据计算得到各个音频信号之间的相位差。

[0102] 传播模块，用于依据各个音频信号的频率及相位差得到所述各个音频信号从声源位置分别传播到各个音频采集设备的时间差。

[0103] 第三获取模块，用于依据所述时间差及声音的传播速度得到所述音频信号对应的声源位置与各个音频采集设备之间距离差。

[0104] 第二确定单元403，用于获取图像拍摄设备的视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置。

[0105] 进一步的，所述第二确定单元403，包括：

[0106] 分析模块，用于分析各个人脸图像的深度信息，得到各个人脸图像对应的对象与所述图像拍摄设备之间的距离。

[0107] 第四获取模块，用于基于各个人脸图像对应的对象与所述图像拍摄设备之间的距离，以及所述图像拍摄设备的位置，得到各个对象的位置信息。

[0108] 第三确定单元404，用于依据所述各个人脸图像对应对象的位置及所述声源位置信息确定出目标对象。

[0109] 在本发明一种应用场景中，第三确定单元404基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每一对象分别与各个音频采集设备之间的距离，进而得到同一对象分别与各个音频采集设备之间的距离的差值，即每个对象与各个音频采集设备之间的距离差值；然后，选取与各个音频采集设备之间的距离差值最接近声源与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0110] 进一步的，所述第三确定单元404，包括：

[0111] 第五获取模块，用于基于各个对象的位置信息，以及各个音频采集设备的位置信息，得到每个对象与各个音频采集设备之间的距离差值。

[0112] 确定模块，用于选取与所述各个音频采集设备之间的距离差值最接近声源位置与各个音频采集设备之间的距离差的对象，确定为目标对象。

[0113] 第二获取单元405，用于获取所述目标对象的人脸图像。

[0114] 本发明提供的人脸定位装置，通过由间隔一定距离的多个音频采集设备采集同一对象所产生的语音信号得到多个音频信号，然后，依据多个音频采集设备的位置以及各个音频信号的频域特征，确定音频信号对应的声源位置信息。通过图像拍摄设备获取其视角范围内的多个人脸图像，并依据各个人脸图像的深度信息确定各个人脸图像对应对象的位置。依据各个对象的位置及声源位置信息确定出目标对象，并获取目标对象的人脸图像。通过上述方案，在摄像头的视角范围内存在多个正向人脸时，采集目标对象产生的语音信号，并确定该语音信号的声源位置，然后，结合各个正向人脸对应对象的位置及该语音信号的声源位置确定出目标对象，并获取目标对象的人脸图像确定需要识别的人脸的目的，以便下一步对目标对象的人脸图像做进一步处理。

[0115] 对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

[0116] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0117] 本发明各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

[0118] 本发明各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

[0119] 本发明所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0120] 作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

[0121] 另外，在本发明各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

[0122] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0123] 对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

[0124] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
音频信号解码器中改进的频带扩展	2020-05-08	157
减振动圈扬声器	2020-05-08	759
一种进行卫星通信设备的方法	2020-05-08	727
一种用于声源定位的装置及方法	2020-05-11	870
一种语音信号处理方法、装置、设备及存储介质	2020-05-08	738
汉语拼音教具	2020-05-08	891
敏感词分数检测方法、装置、电子设备及存储介质	2020-05-08	272
一种PLC音频信号传输电路	2020-05-08	921
一种智能仓管理系统	2020-05-08	961
音频信号处理电路及车载导航设备	2020-05-08	262

一种人脸定位方法及装置

一种人脸定位方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：