Device and program for reconfiguring surface data of three-dimensional human face专利检索-三维人脸重建人工智能专利检索查询-专利查询网

Device and program for reconfiguring surface data of three-dimensional human face

阅读：813发布：2020-10-26

专利汇可以提供Device and program for reconfiguring surface data of three-dimensional human face专利检索，专利查询，专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a device for accurately reconfiguring a 3D human face.
SOLUTION: The device 86 comprises a module 150 for estimating a horopter range and a size of the human face based on a corrected image pair and calibration parameters of a stereo camera; a module 152 for estimating, for each pixel, a disparity value within the horopter range; a module 154 for reconfiguring 3D surface data of the human face; a module 156 for eliminating noise in the 3D surface data and interpolating an invalid data point with neighboring data points; a module 158 for applying a face plane to the 3D surface data and extracting those data of the 3D surface data within a predetermined distance from the face plane.
COPYRIGHT: (C)2009,JPO&INPIT，下面是Device and program for reconfiguring surface data of three-dimensional human face专利的具体信息内容。

权利要求

ステレオカメラの補正された画像対から３次元の人の顔表面データを再構築するための装置であって、
前記ステレオカメラのキャリブレーションパラメータと前記補正された画像対とに基づいて前記人の顔のサイズとホロプタ範囲とを推定するためのホロプタ範囲推定手段と、
前記画像対の一方の画像中の前記人の顔の各画素について、前記画像対の他方の画像における前記ホロプタ範囲内のディスパリティ値を推定するためのディスパリティ推定手段と、
前記補正された画像対、前記ディスパリティ値、及び前記ステレオカメラのキャリブレーションパラメータに基づいて、前記人の顔の３次元表面データを再構築するための３次元表面再構築手段と、
無効なディスパリティ値を有する無効なデータ点を見出し、前記無効なデータ点を隣接するデータ点で補間することによって、前記３次元表面データ内のノイズを消去するためのノイズ消去手段と、
予め定められた当てはめアルゴリズムを利用して、顔平面を前記３次元表面データに当てはめるための当てはめ手段と、
前記３次元表面データのうち前記顔平面から予め定められた距離以内にあるものを３次元の人の顔として抽出するための抽出手段と、を含む、装置。

前記ホロプタ範囲推定手段は、
前記画像対の前記一方の画像中の両眼間パターンを特定するための第１の特定手段と、
前記他方の画像において前記両眼間パターンに対応するエピポーラ線に沿った対応のパターンを特定するための第２の特定手段と、
前記一方の画像における前記両眼間パターン付近の顔候補と前記対応のパターンとが検証条件を満たしているか否かを検証するための検証手段と、
ある顔候補が前記認証条件を満たすまで、前記第１及び前記第２の特定手段と前記検証手段とを繰返し動作させるための手段と、
前記検証条件を満たす前記顔候補によって、顔領域を規定するための手段と、を含む、請求項１に記載の装置。

前記ディスパリティ推定手段は、
前記ホロプタ範囲及び前記顔領域の前記サイズについて、相関ウィンドウサイズを規定するための手段と、
予め選択された類似度尺度に従って、最も高い類似度尺度を生じる画素を、前記他方の画像で探索することによって、前記人の顔における各画素のディスパリティ値を計算するための手段と、を含む、請求項２に記載の装置。

前記ノイズ消去手段は、
前記顔の前記サイズについて偏差ウィンドウのサイズを規定して、前記偏差ウィンドウにおける画素の深さの標準偏差を求めるための手段と、
前記一方の画像において前記顔領域内の各画素について、前記一方の画像における前記顔領域の前記画素の各々について計算された前記ディスパリティと前記画像対とを用いて、前記各画素付近の前記サイズの偏差ウィンドウ内の画素の深さの局所標準偏差と平均とを計算する手段と、
前記各画素付近の偏差ウィンドウの平均からの前記各画素の深さの値の偏差が前記各画素付近の偏差ウィンドウの標準偏差値より小さいか否かに依存して、前記顔領域内の各画素を、有効と無効とに分類するための手段と、
無効と分類された画素の深さ値をそれぞれ隣接する画素の深さ値で補間するための手段と、を含む、請求項３に記載の装置。

前記当てはめ手段は、
前記３次元表面データにおいて左目と右目とをつなぐ目線を見出すための手段と、
前記目線に直交する３次元の顔対称線を見出すための手段と、
前記顔平面に当てはめるべきデータ点を選択するための手段と、を含み、前記区域は前記顔対称線に沿ったたんざく形領域を除く、前記顔の前記目線から顎まで延びており、
前記当てはめ手段はさらに、
前記予め定められた当てはめアルゴリズムを用いて、前記顔平面を前記当てはめるべきデータ点に当てはめるための手段を含む、請求項１〜請求項４のいずれかに記載の装置。

前記当てはめ手段は、
最小二乗誤差による当てはめを利用して、前記顔平面を前記当てはめるべきデータ点に当てはめるための手段と、
前記顔平面と前記３次元表面データとの間の誤差が全て予め定められたしきい値内にあるか否かを判定する手段と、
前記手段が、前記誤差の全てが前記予め定められたしきい値より小さくはないと判定したことに応じて、前記３次元表面からある高い誤差のある点を消去するための手段と、
前記判定手段が前記誤差の全てが前記予め定められたしきい値より小さいと判断するまで、前記当てはめ手段、前記判定手段、及び前記消去手段を繰返し動作させるための手段と、を含む、請求項５に記載の装置。

コンピュータ上で実行されると、コンピュータを、
前記ステレオカメラのキャリブレーションパラメータと前記補正された画像対とに基づいて前記人の顔のサイズとホロプタ範囲とを推定するためのホロプタ範囲推定手段と、
前記画像対の一方の画像中の前記人の顔の各画素について、前記画像対の他方の画像における前記ホロプタ範囲内のディスパリティ値を推定するためのディスパリティ推定手段と、
前記補正された画像対、前記ディスパリティ値、及び前記ステレオカメラのキャリブレーションパラメータに基づいて、前記人の顔の３次元表面データを再構築するための３次元表面再構築手段と、
無効なディスパリティ値を有する無効なデータ点を見出し、前記無効なデータ点を隣接するデータ点で補間することによって、前記３次元表面データ内のノイズを消去するためのノイズ消去手段と、
予め定められた当てはめアルゴリズムを利用して、顔平面を３次元表面データに当てはめるための当てはめ手段と、
前記３次元表面データのうち前記顔平面から予め定められた距離以内にあるものを３次元の人の顔として抽出するための抽出手段と、として機能させる、コンピュータプログラム。

说明书全文

この発明は、人の顔の表面データをリアルタイムで３Ｄ再構築するための装置及びコンピュータプログラムに関し、特に、とりわけ２Ｄ／３Ｄ顔検出、抽出、認識、３Ｄゲーム開発、アニメーション及び放送のための、ステレオ画像対から人の顔の平面データをリアルタイムで３Ｄ再構築するための装置及び方法に関する。

最近、３Ｄの表示技術とマルチメディア技術とが世界的に進歩しており、監視、認識、人とコンピュータとの対話及びマルチメディアへの応用に関して、人の顔データをリアルタイムに３Ｄで再生することが大いに関心を集めている（非特許文献１、２）。３Ｄの物体形状をディジタルで再構築するのに利用できる様々な商業製品もある。しかしながら、これらはレーザレンジスキャナ等の特別なセンサを必要とし、パブリックドメインでの顔認識又は３Ｄのテレビ放送といった一般的な用途での人の顔の３Ｄ再構築に好適とは言いがたい。

公知文献での顔再構築のアプローチは、センサデータの用途により、２つのカテゴリに分けられる。モノ（単一）カメラ画像データからの再構築（非特許文献３）と、ステレオ画像データからの再構築（非特許文献１）とである。再構築技術に関しては、シェーディングからの形状形成（非特許文献４）、３Ｄ顔モデル（非特許文献５、３）、マーカ又はモデル当てはめのためのマーカとしての顔と特徴の位置（非特許文献２、６）等の様々な方法を用いている。
Ｍ．チャン、Ｐ．デルマ、Ｇ．Ｌ．ギメルファーブ及びＰ．レクラルク、「３ｄ顔獲得技術の比較研究」、画像及びパターンのコンピュータ分析（ＣＡＩＰ）、２００５年、７４０−７４７ページ。（M. Chan, P. Delmas, GL Gimel'farb, and P. Leclercq, " Comparative study of 3d face acquisition techniques., " in Computer Analysis of Images and Patterns (CAIP), 2005, pp. 740-747.）Ｔ．Ａ．エルデム、「個人的ユーザ対話のための３ｄ顔モデル生成のための新たな方法」、ヨーロッパ信号処理会議予稿集、ＥＵＳＩＰＣＯ、２００５年。（TA Erdem, " A new method for generating 3d face models for personalized user interactions, " in Proceedings of European Signal Processing Conference EUSIPCO, 2005.）Ｖ．ブランツ及びＴ．ベッター、「３ｄ顔合成のための変形可能モデル」、コンピュータグラフィックス及び対話技術に関する国際会議、１９９９年。（V. Blanz and T. Vetter, " A morphable model for the synthesis of 3d faces, " in International Conference on Computer Graphics and Interactive Techniques, 1999.）Ｊ．Ｊ．アティック、Ｐ．Ａ．グリフィン及びＡ．Ｎ．レドリック、「シェーディングから形状への統計的アプローチ：単一の２次元画像からの３次元顔表面の再構築」、ニューラルコンピュテーション、第８巻、１３２１−１３４０ページ、１９９６年。（JJ Atick, PA Griffin, and AN Redlich, " Statistical approach to shape from shading: reconstruction of three-dimensional face surfaces from single two-dimensional images, " Neural Computation, vol. 8, pp. 1321-1340, 1996.）Ａ．Ｒ．チャウダリ、Ｒ．チェラパ、Ｓ．クリシュナマルチ、及びＴ．ヴオ、「ジェネリックモデルを用いたビデオからの３ｄ顔再構築」、マルチメディアに関するＩＥＥＥ国際会議予稿集及び展示会、２００２年。（AR Chowdhury, R. Chellappa, S. Krishnamurthy, and T. Vo, " 3d face reconstruction from video using a generic model, " in Proceedings of IEEE International Conference on Multimedia and Expo, 2002.）Ｂ．Ｗ．ハン、Ｖ．ブランツ、Ｔ．ベッター及びＳ−Ｗリー、「少数の特徴点からの顔の再構築」、第１５回パターン認識に関する国際会議予稿集、２０００年。（BW Hwang, V. Blanz, T. Vetter, and SW Lee, " Face reconstruction from a small number of feature points, " in Proceedings of 15th International Conference on Pattern Recognition, 2000.）

従来のステレオアルゴリズム（非特許文献１を参照）では、３Ｄの人の顔を正確に再構築できないことがしばしば起こる。これは、ディスパリティ検索アルゴリズムの検索ドメインが未知で、そのために広い場合に、画像対のいくつかの画素の場所がステレオ対応の一致に関して一義的な情報を提供しないためである。

このため、この発明の目的の一つは、３Ｄの人の顔を正確に再構築することのできる装置を提供することである。

この発明の別の目的は、画像対のいくつかの画素の場所がステレオ対応の一致に関して一義的な情報を与えない場合でも、３Ｄの人の顔を正確かつ頑健に再構築することのできる装置を提供することである。

この発明の第１の局面に従えば、ステレオカメラの補正された画像対から３次元の人の顔表面データを再構築するための装置は、ステレオカメラのキャリブレーションパラメータと補正された画像対とに基づいて人の顔のサイズとホロプタ範囲とを推定するためのホロプタ範囲推定手段と、画像対の一方の画像中の人の顔の各画素について、画像対の他方の画像におけるホロプタ範囲内のディスパリティ値を推定するためのディスパリティ推定手段と、補正された画像対、ディスパリティ値、及びステレオカメラのキャリブレーションパラメータに基づいて、人の顔の３次元表面データを再構築するための３次元表面再構築手段と、無効なディスパリティ値を有する無効なデータ点を見出し、無効なデータ点を隣接するデータ点で補間することによって、３次元表面データ内のノイズを消去するためのノイズ消去手段と、予め定められた当てはめアルゴリズムを利用して、顔平面を３次元表面データに当てはめるための当てはめ手段と、３次元表面データのうち顔平面から予め定められた距離以内にあるものを３次元の人の顔として抽出するための抽出手段と、を含む。

補正されたステレオ画像対がこの装置に与えられる。ホロプタ範囲推定手段が、ステレオカメラのキャリブレーションパラメータと補正された画像対とに基づいて、ホロプタ範囲と人の顔のサイズとを推定する。ディスパリティ推定手段は、一方の画像における人の顔の各画素のディスパリティ値を、他方の画像のホロプタ範囲内で推定する。ディスパリティ値の探索区域がホロプタ範囲に限定されるため、探索は頑健かつ高速である。ディスパリティ値が推定されると、人の顔の３次元表面データが再構築される。表面データからノイズが消去された後、無効データが隣接するデータ点によって補間される。当てはめ手段は顔の平面を３次元の表面データに当てはめる。最後に、３次元表面データのうち、顔の平面から予め定められた距離内にあるものが抽出され、３次元の人の顔が再構築される。

したがって、特別なセンサを何ら必要とせずに、３Ｄの人の顔を正確に再構築できる装置が提供される。

好ましくは、ホロプタ範囲推定手段は、画像対の一方の画像中の両眼間パターンを特定するための第１の特定手段と、他方の画像において両眼間パターンに対応するエピポーラ線に沿った対応のパターンを特定するための第２の特定手段と、一方の画像における両眼間パターン付近の顔候補と対応のパターンとが検証条件を満たしているか否かを検証するための検証手段と、ある顔候補が認証条件を満たすまで、第１及び第２の特定手段と検証手段とを繰返し動作させるための手段と、検証条件を満たす顔候補によって、顔領域を規定するための手段と、を含む。

さらに好ましくは、ディスパリティ推定手段は、ホロプタ範囲及び顔領域のサイズについて、相関ウィンドウサイズを規定するための手段と、予め選択された類似度尺度に従って、最も高い類似度尺度を生じる画素を、他方の画像で探索することによって、人の顔における各画素のディスパリティ値を計算するための手段と、を含む。

ノイズ消去手段は、顔のサイズについて偏差ウィンドウのサイズを規定して、偏差ウィンドウにおける画素の深さの値の標準偏差を求めるための手段と、一方の画像において顔領域内の各画素について、一方の画像における顔領域の画素の各々について計算されたディスパリティと画像対とを用いて、各画素付近のサイズの偏差ウィンドウ内の画素の深さの局所標準偏差と平均とを計算するための手段と、各画素付近の偏差ウィンドウの平均からの各画素の深さの値の偏差が各画素付近の偏差ウィンドウの標準偏差値より小さいか否かに依存して、顔領域内の各画素を、有効と無効とに分類するための手段と、無効と分類された画素の深さ値をそれぞれ隣接する画素の深さ値で補間するための手段と、を含んでもよい。

ノイズは３次元表面データから無効なデータとして消去され、欠落した無効データ点の深さ値は隣接するデータ点から補間されるので、画像対のいくつかの画素の場所がステレオ対応の一致に関して一義的な情報を与えない場合でも、３次元の人の顔が頑健かつ正確に再構築される。

好ましくは、当てはめ手段は、３次元表面データにおいて左目と右目とをつなぐ目線を見出すための手段と、目線に直交する３次元の顔対称線を見出すための手段と、顔の平面に当てはめるべきデータ点を選択するための手段と、を含む。区域は顔対称線に沿ったたんざく形領域を除く、顔の目線から顎まで延びている。当てはめ手段はさらに、前期予め定められた当てはめアルゴリズムを用いて、顔平面を当てはめるべきデータ点に当てはめるための手段を含む。

さらに好ましくは、当てはめ手段は、最小二乗誤差による当てはめを利用して、顔平面を当てはめるべきデータ点に当てはめるための手段と、顔平面と３次元表面データとの間の誤差が全て予め定められたしきい値内にあるか否かを判定するための手段と、この手段が、誤差の全てが予め定められたしきい値より小さくはないと判定したことに応じて、３次元表面からある高い誤差のある点を消去するための手段と、判定手段が誤差の全てが予め定められたしきい値より小さいと判断するまで、当てはめ手段、判定手段、及び消去手段を繰返し動作させるための手段と、を含む。

この発明の第２の局面に従えば、コンピュータプログラムは、コンピュータ上で実行されると、当該コンピュータを、ステレオカメラのキャリブレーションパラメータと補正された画像対とに基づいて人の顔のサイズとホロプタ範囲とを推定するためのホロプタ範囲推定手段と、画像対の一方の画像中の人の顔の各画素について、画像対の他方の画像におけるホロプタ範囲内のディスパリティ値を推定するためのディスパリティ推定手段と、補正された画像対、ディスパリティ値、及びステレオカメラのキャリブレーションパラメータに基づいて、人の顔の３次元表面データを再構築するための３次元表面再構築手段と、無効なディスパリティ値を有する無効なデータ点を見出し、無効なデータ点を隣接するデータ点で補間することによって、３次元表面データ内のノイズを消去するためのノイズ消去手段と、予め定められた当てはめアルゴリズムを利用して、顔の平面を３次元表面データに当てはめるための当てはめ手段と、３次元表面データのうち顔の平面から予め定められた距離以内にあるものを３次元の人の顔として抽出するための抽出手段と、として機能させる。

[構造]
この実施の形態は、リアルタイムの３Ｄ顔表面データの獲得のために、ステレオビジョン（立体視）に基づく３Ｄ顔表面再構築アルゴリズムを利用する。この実施の形態では、観察される個人の顔のホロプタ情報を利用して、ディスパリティアルゴリズムの探索ドメインを制限し、ディスパリティ探索範囲を選択する。

ステレオビジョンの分野における「ホロプタ」とは、ステレオ相関アルゴリズムの探索間隔によってカバーされる３Ｄ容積と定義される。この明細書で用いられる「ホロプタ範囲」は、ステレオカメラの前にある３Ｄ容積の範囲である。

この実施の形態ではさらに、探索のための相関ウィンドウのサイズを制限する。この実施の形態では、ホロプタ情報は高速ステレオアイトラッキングシステムによって推定される。提案されるアルゴリズムはさらに、３Ｄ顔表面データの高速で正確な抽出のために、顔の平面を推定しこれを利用する。この実施の形態によって再構築された３Ｄ顔表面は、自然な顔の表情での視覚的情報のほとんどを保持しているため、顔の視覚的ダイナミクスを保っている。

この実施の形態は、観察される個人の人の顔データをリアルタイムで３Ｄで再構築し抽出することに関する。

図１はこの実施の形態に従った３Ｄ顔姿勢推定システム５０の全体構造を示す図である。図１を参照して、３Ｄ顔姿勢推定システム５０は、ステレオカメラ６０と、モニタ６４と、ステレオカメラ６０からのステレオ画像対のストリームから、３Ｄの人の顔姿勢を推定し、３Ｄの人の顔を抽出するための、リアルタイム３Ｄ顔姿勢推定装置６２と、を含む。

リアルタイム３Ｄ顔姿勢推定装置６２は、後述の通りコンピュータのハードウェア及びソフトウェアで実現され、ステレオカメラ６０をキャリブレートし、ステレオカメラ６０のキャリブレーションパラメータを出力するためのキャリブレーションソフトウェア８０と、キャリブレーションソフトウェア８０によって出力されるキャリブレーションパラメータを記憶するためのキャリブレーションパラメータメモリ８２と、キャリブレーションパラメータメモリ８２に記憶されたキャリブレーションパラメータを利用してステレオカメラ６０からのステレオ画像対を補正するための補正ソフトウェア８４と、補正ソフトウェア８４からの補正されたステレオ画像対を分析することによって、抽出された３Ｄの顔を再構築するための３Ｄ顔再構築モジュール８６と、再構築された３Ｄ顔画像を利用して、３Ｄ空間における頭の姿勢、すなわち位置及び向きを推定するための、３Ｄ頭部姿勢推定モジュール８８と、を含む。

リアルタイム３Ｄ顔姿勢推定装置６２はさらに、キャリブレーションソフトウェア８０及び補正ソフトウェア８４からアクセス可能であって、３Ｄ顔再構築モジュール８６と３Ｄ頭部姿勢推定モジュール８８とに接続されたバス９２と、バス９２及びモニタ６４に接続された画像処理ユニット（Ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＧＰＵ）９０とを含む。

後述するように、キャリブレーションソフトウェア８０及び補正ソフトウェア８４の命令はコンピュータの中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）によって実行され、所望の機能を達成する。ＣＰＵはバス９２に接続されているため、キャリブレーションソフトウェア８０及び補正ソフトウェア８４は３Ｄ顔再構築モジュール８６、３Ｄ頭部姿勢推定モジュール８８及びＧＰＵ９０に、バス９２を介してアクセスすることができる。

図２はコンピュータによって実現されたこの実施の形態の３Ｄ顔姿勢推定システム５０のハードウェアブロック図である。図２を参照して、３Ｄ顔姿勢推定システム５０はハードウェア構成要素として、コンピュータ１００と、コンピュータ１００に接続された、マウス１０２と、キーボード１０４と、モニタ６４とを含む。

バス９２及びＧＰＵ９０に加えて、コンピュータ１００はさらに、ＣＰＵ１２０と、読出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）１２２と、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）１２４と、ハードディスク１２６と、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）メディア１０６を駆動するためのディジタル多用途ディスクドライブ１２８と、ステレオカメラ６０からのステレオ画像対のストリームを受けるためのビデオキャプチャボード１３０と、半導体メモリ１０８を駆動するための半導体メモリドライブ１３４と、を含む。コンピュータ１００内の構成要素は全てバス９２に接続され、互いにアクセス可能である。

ステレオカメラ６０は左カメラ６０Ｌと右カメラ６０Ｒとを含む。ステレオカメラ６０からの画像〜Ｌ _ｔと〜Ｒ _ｔ（ｔは時間を示す）（「〜」記号は本来文字の上に付されるものである）とは補正されていない。

この実施の形態では、キャリブレーションソフトウェア８０はステレオカメラ６０のキャリブレーションパラメータＡ _１及びＡ _２を計算するためにオフラインで用いられる。キャリブレーションは、カメラ６０Ｌ及び６０Ｒの各々のラジアルディストーション、レンズの偏心、焦点距離、画素アスペクト比、ベースライン及び配向を訂正するために行われる。キャリブレーションパラメータはキャリブレーションパラメータメモリ８２に記憶される。この実施の形態のキャリブレーション処理では、ユーザがステレオカメラ６０に予め規定されたパターンを提示する。キャリブレーションソフトウェア８０はステレオカメラ６０の出力〜Ｌ _ｔ及び〜Ｒ _ｔを利用して、パラメータを計算する。キャリブレーションのためのソフトウェアは商業的に入手可能である。例えば、ＳＲＩインターナショナルの頒布するスモールビジョンシステム（ｓｍａｌｌｖｉｓｉｏｎｓｙｓｔｅｍ：ＳＶＳ）が利用できる。

補正ソフトウェア８４はステレオカメラ６０の出力ステレオ画像〜Ｌ _ｔ及び〜Ｒ _ｔを補正するのに用いられる。ここで補正とは、左右の画像の対応するエピポーラ線を同じレベルに整列させることを意味する。この処理を図４に示す。

図４を参照して、ステレオカメラ６０の左右の画像１７０Ｌと１７０Ｒとが線１７２Ｌとこれに対応する線１７２Ｒとをそれぞれ含むと仮定する。レンズのディストーションとレンズの配向の差とにより、同じ線の画像が異なる位置をとり、パララックスを別として、左右の画像で異なる形状となっている。

これらの画像を補正することにより、対応する線１７２Ｌと１７２Ｒとは補正後の左右の画像１８０Ｌ及び１８０Ｒではエピポーラ線１８２Ｌ及び１８２Ｒとして画像の行に整列している。補正なしの場合、３Ｄステレオ画像からの３Ｄの顔再構築はほとんど不可能である。補正は、所定の計算によって実施できる。この計算では、キャリブレーションパラメータメモリ８２に記憶されたキャリブレーションパラメータが用いられる。補正ソフトウェアもまた、商業的に入手可能である。

補正された画像Ｌ _ｔ及びＲ _ｔが補正ソフトウェア８４から構成パラメータＡ _１及びＡ _２とともに３Ｄ顔再構築モジュール８６に与えられる。

図３は図１に示す３Ｄ顔再構築モジュール８６の全体構造を示す。３Ｄ顔再構築モジュール８６はコンピュータ１００上で実行されるソフトウェアで実現される。

図３を参照して、３Ｄ顔再構築モジュール８６は、補正された画像対Ｌ _ｔ及びＲ _ｔとキャリブレーションパラメータＡ _１及びＡ _２とに基づいて、入力された顔画像のホロプタ範囲ｈｔ＝[ｄ _１ ,ｄ _２ ]を推定するためのホロプタ推定モジュール１５０と、左右の画像における対応する画素間のディスパリティを計算し、ディスパリティ画像Ｄ _ｔをキャリブレーションパラメータＡ _１及びＡ _２と左カメラ画像Ｌ _ｔとともに出力するためのディスパリティ画像モジュール１５２と、ディスパリティ画像モジュール１５２によって計算されたディスパリティ画像Ｄ _ｔから顔の粗い３Ｄ表面データ〜Ｓ _ｔを再構築するための３Ｄ表面再構築モジュール１５４と、を含む。

３Ｄ顔再構築モジュール８６はさらに、粗い３Ｄ顔データ〜Ｓｔからのアウトライア又はノイズを消去し、３Ｄ表面データを平滑化して３Ｄ顔データＳｔを出力するためのノイズ消去及び補間モジュール１５６と、補間され平滑化された３Ｄ顔データＳｔに基づいて顔平面を推定し、３Ｄの顔を顔平面から予め定められた距離内にあるボクセルからなるセグメント〜Ｆｔを抽出するための３Ｄ表面抽出モジュール１５８と、を含む。

ここで用いる「顔平面」とは、顔の表面を平坦な表面に近似する、３Ｄの顔画像に関連して規定される面を意味する。

この実施の形態では、３Ｄ顔再構築モジュール８６はさらに、肌のテクスチャを３Ｄ表面抽出モジュール１５８から出力された３Ｄ顔セグメント〜Ｆｔにマッピングするためのテクスチャマッピングモジュール１６０を含む。肌のテクスチャがマッピングされた３Ｄ顔画像Ｆｔはモニタ６４に与えられ、表示される。

＜アイトラッキング＞
ホロプタ推定モジュール１５０はホロプタの推定にあたってアイトラッキングアルゴリズムを利用する。この作業にはどのようなアイトラッキングアルゴリズムも好適であろう。この実現例では、両目間のパターン（目の場所は頬と鼻梁に比べ光強度が低い）が、サイズを更新したパターンマッチングによって検出されトラッキングされる。顔のスケールに対応するために、検出の間に様々なスケールのパターンが考慮され、これに従ってトラッキングに適したスケールが選択される。

アルゴリズムは「積分画像」と称される、入力された画像の中間的表現を計算する。積分画像は、画像の各画素について、画素を包含する任意のサイズの長方形内の画素値を合計し、結果として得られる和をその画素に加算することで得られる。その後、６分割長方形状（ｓｉｘｓｅｇｍｅｎｔｅｄｒｅｃｔａｎｇｕｌａｒ：ＳＳＲ）フィルタを用いて、画像の目領域の明暗関係を高速でフィルタリングする。候補の初期検証のために、サポートベクタマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ：ＳＶＭ）アルゴリズムを用いる。

エピポーラの制約を用いて、右カメラ画像内のエピポーラ線に沿って、ステレオ目位置とユーザの頭部のホロプタとを推定するのための相関ベースのテンプレートマッチングアルゴリズムを用いて、対応する両目間のパターンを探索する。

ここで用いる「ホロプタ」はステレオ相関アルゴリズムの探索間隔でカバーされる３Ｄ
の容積を意味する。「ホロプタ範囲」はここで、ステレオカメラの前にある３Ｄの容積の範囲である。これらの用語はステレオビジョンの分野ではしばしば用いられ、ステレオ画像の３Ｄ座標点を見出すのに有用である。

例えば、３Ｄの世界の任意の未知点＜Ｘ，Ｙ，Ｚ＞に関して、（ｘ _Ｌ，ｙ _Ｌ）を左カメラ画像の座標とする。ステレオカメラシステムから＜Ｘ，Ｙ，Ｚ＞の値を計算するためには、ステレオ相関アルゴリズムを用いて「右」カメラ画像の対応の点（ｘ _Ｒ，ｙ _Ｒ）を求める必要がある。

未知の対象点＜Ｘ，Ｙ，Ｚ＞のホロプタについて全く見当がつかない場合には、右カメラの探索区間はｘ _Ｒ＝[０,ｘ _Ｌ］（画像が補正された場合にはｙ _Ｒ＝ｙ _Ｌ）でなければならない。これには２つの欠点がある。

１−探索範囲が広いため、計算費用が高い。

２−一致の誤検出を生じる可能性が高い。

未知の対象点＜Ｘ，Ｙ，Ｚ＞のホロプタについて大まかにわかっている場合には、探索区間は、右カメラ画像の範囲について、ｘ _Ｒ＝［ｘ _１，ｘ _２］（画像が補正された場合にはｙ _Ｒ＝ｙ _Ｌ）と設定することができる。

この場合、［ｘ _１，ｘ _２］の区間は、[０,ｘ _Ｌ］の区間の部分集合である。したがって、計算費用は低くなり、一致の誤検出を生じる確率は格段に下がり、したがって、（もしあれば）誤差を補正することが可能となる。

ホロプタは以下のように計算することができる。補正されたステレオカメラシステムの光軸に沿って、対象点＜Ｘ，Ｙ，７０ｃｍ＞があると仮定する。Ｌ＜１２５，２００＞をこの点の「左」カメラ画像の座標とし、Ｒ＜７０，２００＞をこの点の「右」カメラ画像の座標とする。対象点＜Ｘ，Ｙ，７０ｃｍ＞のステレオビジョンに基づく３Ｄの再構築は以下の通りである。

もし、Ｌ＜１２５，２００＞、Ｒ＜７０，２００＞及びカメラのキャリブレーションマトリクスが既知であれば、対象点の座標＜Ｘ，Ｙ，７０ｃｍ＞を３Ｄで計算することができる。

ホロプタ情報が未知の場合、利用できるのはこの点の「左」カメラ画像座標からのＬ＜１２５，２００＞である。まず、右カメラ画像から対応する点Ｒ＜７０，２００＞を求める必要がある。しかしながら、ｘ軸についてわかっているのはこれが０から１２５までであるということだけである。ここでは、対称点はいずれのカメラ画像でも可視であるとする。

ホロプタ情報が「既知」であれば、物体が位置する３Ｄ空間の３Ｄ容積がわかっていることになる。この容積は、例えば、[＜Ｘ，Ｙ，９０ｃｍ＞，＜Ｘ，Ｙ，５０ｃｍ＞］である。この投影を用いて、
＜Ｘ，Ｙ，９０ｃｍ＞に対しＬ＜ｘ _１Ｌ，ｙ _１Ｌ＞,Ｒ＜ｘ _１Ｒ，ｙ _１Ｒ＞
を得ることができ、ここで画像が補正されているので、ｙ _１Ｌ＝ｙ _１Ｒである。したがって、ディスパリティｄ _１はｄ _１＝ｘ _１Ｌ −ｘ _１Ｒとなる。

同様に、
＜Ｘ，Ｙ，５０ｃｍ＞に対しＬ _{＜ｘ2Ｌ，ｙ２Ｌ＞} ，Ｒ _{＜ｘ２Ｒ，ｙ２Ｒ＞}
を得ることができ、ここでｙ _２Ｌ＝ｙ _２Ｒである。したがってディスパリティｄ _２はｄ _２＝ｘ _２Ｌ −ｘ _２Ｒとなる。ここでｄ _２はｄ _１より大きい。

したがって、＜Ｘ，Ｙ，５０ｃｍ＞と＜Ｘ，Ｙ，９０ｃｍ＞の間にある全ての点は、[ｄ _１ ,ｄ _２ ]の間のディスパリティを有することになる。したがって、上述の例のホロプタに存在する左カメラ画像の任意の点Ｌ＜ｘ _Ｌ，ｙ _Ｌ＞について、その右カメラ画像の探索間隔はｘ軸の座標値[０、ｘ _Ｌ ]に代えてｘ _Ｒ＝［ｘ _Ｌ −ｄ _２，ｘ _Ｌ −ｄ _１］によりよく制限される。

ホロプタサイズは、顔のサイズから推定できる。この実施の形態では、左右の画像の両方から目を見出し、まず両目間の鼻梁の点の３Ｄ座標を推定する。これを＜Ｘ _ｎｂ，Ｙ _ｎｂ，Ｚ _ｎｂ＞とする。これで、顔のおおよそのサイズを知ることができる。したがって、この顔についてホロプタを規定することができる。ホロプタは顔のサイズに関連しているからである。例えば、この場合、ホロプタ範囲は顔の任意の点について＜Ｘ，Ｙ，［Ｚ _ｎｂ −１０ｃｍ，Ｚ _ｎｂ＋１０ｃｍ］＞となる。

３ＤのＸ、Ｙ座標値はディスパリティ探索範囲にはなんの影響も持たないことに注意されたい。影響があるのはＺ座標のみである。

したがって、前の例と同様に、右カメラ画像についてもディスパリティ探索範囲を規定することができる。すなわち、左カメラ画像の任意の点Ｌ＜ｘ _Ｌ，ｙ _Ｌ＞について、右カメラ画像における探索間隔はｘ _Ｒ＝［ｘ _Ｌ −ｄ _２，ｘ _Ｌ −ｄ _１］となる。ここでｙ _Ｌ＝ｙ _Ｒである。

図５は図３に示すホロプタ推定モジュール１５０を実現するコンピュータプログラムのフロー図である。図５を参照して、キャリブレーションパラメータと補正された左右のステレオ画像対が与えられると、プログラムはステップ２００で開始し、ここで左カメラ画像の両目間パターンが特定される。

プログラムはステップ２００に続いてさらに、右カメラ画像のエピポーラ線に沿って対応のパターンを見出すステップ２０２と、ステップ２０２に続いて、緩やかに規定されたヒューリスティックな制約及びＳＶＭ（サポートベクタマシン）とを用いて顔を検証するステップ２０４と、ステップ２０４に続いて、顔が認証されたか否かを判断しプログラムの実行フローを２方向に分離させるステップ２０６と、ステップ２０６で顔が検証されたときに実行され、顔ＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ：顔領域）とホロプタ範囲とを生成するステップ２０８と、を含む。ステップ２０６で顔が検証されなかった場合は、制御はステップ２００に戻る。したがって、顔が検証されるまで、ステップ２００から２０６が繰返し実行される。

図６は検証範囲の制限を示す。図６を参照して、左画像２２０Ｌの画素２２４Ｌが右画像２２０Ｒに対応の画素２２４Ｒを有すると仮定する。もし画像２２０Ｒを画像２２０Ｌの上に置いたとすれば、画素２２４Ｌと２２４Ｒとがホロプタの分だけずれた画像２２０が得られるはずである。この距離の最大値はホロプタサイズと顔のサイズとによって制限される。したがって、画素２２４Ｌに対応する画素２２４Ｒは画素２２４Ｌから距離Ｈｔ以内で、右画像内に見出されるはずである。画像２２０におけるこの画素２２４Ｌと２２４Ｒとの距離を「ディスパリティ」と呼ぶ。

＜３Ｄ顔データの再構築＞
ステレオコンピュータビジョンアルゴリズムは、対象点の３Ｄ（Ｘ，Ｙ，Ｚ）座標の計算に、カメラキャリブレーションパラメータと共にディスパリティを用いる。ディスパリティアルゴリズムはしばしば、差の二乗又は正規化された相関係数法等の様々な手法を用いて、左カメラ画像のテンプレートウィンドウを右カメラ画像のエピポーラ線に沿ったウィンドウと比較する、探索メカニズムに依存する。

すなわち、マッチングアルゴリズムは、左画像の２ＤテンプレートウィンドウＡの、右画像の２ＤウィンドウＢに対する類似性の尺度を計算する必要がある。一般に、ＡとＢとは以下のように表せる。

ここでγ及びΓはそれぞれ左右のカメラの任意の利得／スケーリング値である。＿Ｘ（ここで＿は式中文字の上に付されたオーバーバーを示す。）は平均値を表し、〜Ｘ（〜は式中文字の上に付されるものである）はウィンドウデータの真正の形状又はテクスチャ特性を表す。すなわち、〜Ａと〜Ｂとが同じ物体の表面部分に属するものであれば、理想的な条件下ではこれらは同一となる。

しかし現実世界の条件では、ビデオノイズのために、又は〜Ａと〜Ｂとが何の情報も保持していない、固有の真正形状特性を欠くために、ディスパリティ探索アルゴリズムがうまく働かないことがある。ビデオノイズは、左右のカメラの異なるレンズ焦点、異なる視野角、及び異なる照明効果のために起こりうる。

一致検出の失敗又は誤検出の数を減じるために、顔のホロプタがステレオアイトラッキングからオンザフライで推定される。すなわち、まず最初に３Ｄ空間における左右の目の座標が計算され、左右の目の間の距離から、顔のサイズが推定される。ホロプタのサイズは顔のサイズに依存するので、これもまた推定される。その後、ディスパリティアルゴリズムの探索ドメインがホロプタサイズによりこの顔について制限される。結果として得られたディスパリティが、さらに画素近傍内での一貫性チェックによって検証される。ディスパリティ探索アルゴリズムのフローを図７に示す。

図７はディスパリティ画像モジュール１５２を実現するソフトウェアのフロー図である。図７を参照して、キャリブレーションパラメータ、補正された左右の画像対、顔領域及びホロプタ範囲が与えられると、プログラムは、与えられた顔サイズとホロプタ範囲に対する相関ウィンドウサイズを規定するステップ２４０で始まり、さらに、ステップ２４０に続いて、顔領域内の各画素について、様々な類似性尺度を用いて、右画像の与えられたホロプタ範囲内でディスパリティ値を見出すステップ２４２と、ステップ２４２に続いて、顔領域の画素について全てのディスパリティが計算されたか否かを判断し、制御フローを２つに分岐させるステップ２４４と、を含む。すなわち、もし全てのディスパリティが計算されていれば、プログラムの実行は終了する。そうでなければ、制御フローはステップ２４２に戻る。

図８は左画像２６０Ｌの画素２６２Ｌについてディスパリティがどのように計算されるかを示す図である。図８を参照して、左画像２６０Ｌ内でウィンドウ２６４Ｌが規定される。ウィンドウ２６４Ｌのサイズは、顔のサイズとホロプタとによって決定される。右画像２６０Ｒでは、画素２６２Ｌに対応して右画像２６０Ｒ中のエピポーラ線上に、２６４Ｌと同じサイズのウィンドウ２６４Ｒが規定される。両方向矢印２６６によって示されるようにウィンドウ２６４Ｒを移動させることにより、かつウィンドウ２６４Ｌ及び２６４Ｒ間に様々な類似性尺度を用いることにより、画素２６２Ｌに対応する画素２６２Ｒが探索される。探索空間は、画素２６２Ｌからホロプタ範囲内に制限される。

＜３Ｄ表面再構築＞
左右画像から画素対とそのディスパリティとが与えられると、画素対に対応するボクセルの深さを、ステレオカメラ６０のキャリブレーションパラメータに基づいて決定することができる。ここで、ボクセルの深さとは、ステレオカメラ６０の画像面から３Ｄ空間におけるボクセルへの距離を意味する。この動作は、３Ｄ表面再構築モジュール１５４によって行われる。

＜ノイズ消去及び補間＞
ノイズ消去及び補間アルゴリズムは、３Ｄデータからスプリアスノイズを消去し、欠落したボクセルを回復する。この実現例では、欠落したボクセルは画素近傍の線形補間により推定される。

図９を参照して、ノイズ消去及び補間モジュール１５６は、各ボクセルの深さを平均深さ及びボクセルを包含する予め定められたウィンドウ内の深さの局部標準偏差と比較してボクセルを有効ボクセルと無効ボクセルとに分類することによって、３Ｄ表面再構築モジュール１５４から出力された３Ｄ顔データからノイズを消去するノイズ消去モジュール２８０と、有効な３Ｄ顔データに平滑化アルゴリズムを適用することによって３Ｄ顔データを平滑化するための平滑化モジュール２８２と、近接するボクセルの線形補間により、欠落した（無効の）ボクセルを推定するための補間モジュール２８４と、を含む。

図１０はノイズ消去モジュール２８０を実現するためのプログラムのフロー図である。図１０を参照して、プログラムは、左画像内の顔領域と関連した、再構築された初期の稠密な表面データが与えられると、局部標準偏差推定のための与えられた顔サイズに対しウィンドウサイズを規定するステップ３００から始まり、ステップ３００に続いて、左画像の顔領域内の各画素について、ｚ軸（深さ）平均とそのウィンドウ内の画素の局部標準偏差とを計算するステップ３０２と、ステップ３０２に続いて、その平均からのｚ軸値の偏差がその標準偏差より小さいか否かを判断するステップ３０４と、を含む。

プログラムはさらに、ステップ３０４での答えがＹＥＳであった場合に実行される、ボクセルの測定を有効と設定するステップ３０６と、ステップ３０４での答えがＮＯであった場合に実行される、ボクセルの測定を無効と設定するステップ３０８と、を含む。ステップ３０６及び３０８の後、制御はステップ３０２に戻る。図１０では明示しないが、ステップ３０４で全てのボクセルが検討されると、制御はこのプログラムから復帰する。

したがって、制御がこのプログラムから復帰するときには、全てのボクセルに有効か無効かのラベルが付されていることになる。

この処理を図１１に示す。図１１を参照して、左画像３２０Ｌと右画像３２０Ｒとから、画素３２２Ｌと３２２Ｒとのディスパリティと、キャリブレーションパラメータ８２とを用いて、顔領域の各ボクセルの深さが計算される（３３０）。結果として得られる、深さ値を有する稠密な表面データ３３２が、ノイズ消去プログラムに与えられる。稠密な表面データ３３２の各ボクセルについて、このボクセルを包含するウィンドウの平均深さからのその深さの偏差が計算され、ウィンドウの標準深さ偏差と比較され、これに従って、その深さ偏差が標準偏差より大きいか否かによって、有効／無効ボクセルマップ３３４に示されるように、ボクセルに有効又は無効のラベルが付される。

図１２は図９に示す平滑化モジュール２８２を実現するプログラムのフロー図である。図１２を参照して、プログラムは、左画像の顔領域に関連したノイズ消去後の表面データが与えられると、推定された顔サイズのための平滑化ウィンドウサイズを規定するステップ３５０で始まり、ステップ３５０に続いて、顔領域において有効な３Ｄ測定値を有する各画素について、平滑化ウィンドウ内のその平均値を計算し、これをその画素に新たな３Ｄ値として割当るステップ３５２と、ステップ３５２に続いて、顔領域の全ての画素が処理されたか否かを判断するステップ３５４と、を含む。もしステップ３５４の答えがＹＥＳであれば、制御はルーチンを出る。そうでなければ、制御はステップ３５２に戻る。

図１３は、図９に示す補間モジュール２８４を実現するフロー図である。図１３を参照して、プログラムは、左画像の顔領域に関連した平滑化後の３Ｄ表面データが与えられると、顔領域において無効の３Ｄ測定値を有する各画素について、その近傍の画素のデータの線形補間によって３Ｄ測定値を推定するステップ３７０で始まり、ステップ３７０に続いて、顔領域の全ての画素が処理されたか否かを判断するステップ３７２を含む。

プログラムはさらに、ステップ３７２での答えがＹＥＳであった場合に実行される、顔領域について図１２に示された平滑化アルゴリズムを実行するステップ３７４を含む。ステップ３７４が完了すると、制御はこのルーチンから復帰する。

ステップ３７２での答えがＮＯであれば、制御はステップ３７０に戻る。

＜３Ｄ顔平面抽出＞
図１４はこの実施の形態で用いられる３Ｄ顔データ抽出を実現するプログラムを実現するプログラムのフロー図である。図１４を参照して、左画像の顔領域に関連した稠密な３Ｄ表面データ（ボクセル）が与えられると、プログラムはステップ３９０で始まり、ここで鼻と口の領域を含むたんざく形領域を除いた、目と顎との間のボクセルデータを用いて、顔の平面が推定される。この実施の形態では、新規な３Ｄ顔平面推定アルゴリズムがステップ３９０で用いられる。このステップの詳細は図１５から図２１を参照して後述する。

プログラムはさらに、ステップ３９０に続いて、顔平面への距離が±δ（δは予め定められたしきい値）以内である全てのボクセルが顔ボクセルとして抽出されるステップ３９２を含む。

プログラムはさらに、顔領域内の全てのボクセルが処理されたか否かを判断するステップ３９４を含む。全てのボクセルが処理されていれば、制御はこのルーチンを出る。そうでなければ、制御はステップ３９２に戻る。

図１５は図１４のステップ３９０で利用される新規な３Ｄ顔平面推定アルゴリズムを実施するプログラムの詳細なフロー図である。顔の平面は両目と顎との間で、口と鼻とを含むたんざく形部分を除いた部分の３Ｄ顔データから推定される。しかし、頭部が極端な向きであると、３Ｄ顔データはアウトライアを含む可能性がある。このため、繰返し最小二乗法を利用し、顔データと推定された面との間の誤差ヒストグラムを用いて、ある高い誤差のある点を消去する。繰返しは２回又は３回で止まるので、重い計算上の負担は生じない。（ａＸ＋ｂＹ＋ｃＺ＋ｄ＝０）における顔平面パラメータａ、ｂ、ｃ及びｄは、残りの３Ｄ顔データで、最小二乗解を用いてステップ３９０で推定される。

図１５を参照して、このルーチンは、左画像内の顔領域に関連する稠密な３Ｄ表面データ（ボクセル）が与えられるとステップ４１０で始まり、ここで両目と顎との間で鼻と口との区域を含むたんざく形部分を除いた対称ボクセルデータが３Ｄ目線に直交する顔の対称線の両側から抽出される。

図１６から図１９にこの処理を示す。図１６を参照して、左カメラ画像４３０において、左目の位置４４０と右目の位置４４２とが与えられると、目の位置４４０及び４４２を結ぶ線４４４上の中心点４４６が規定される。その後線４４４から特定の距離にあるいくつかの点４６０、４６２、４６４、…が３Ｄ空間内に規定される。これらの点の各々について、中心点４４６から３Ｄベクトルが規定される。このベクトルと線４４４に平行なベクトルとの内積を計算することで、どの点が両目と顎との間の対称データを規定するかが決定される。

図１６において点４６２が対称データであると仮定して、点４６２の下に別の点の組を仮に規定する。別の対称データ点がこの点の組から規定されることになる。この動作を繰返すことにより、図１７に示すように、中心点４４６と顎のと間の対称データ点の組４８０が規定される。この線は顔の対称線であり、この実施の形態ではこれを「Ｓｌｉｎｅ」と呼ぶ。

図１８を参照して、対称データ点４８０の各々、例えば対称データ点５００に対して、特定の長さの、線４４４に平行な線５０２が選択される。これらの線が、両目と顎との間の正面顔区域を形成する。選択された区域の幅は、この実施の形態では積分された目の距離の１．３倍であり、高さは顎が境界となる。

図１８を参照して、このようにして規定された正面顔区域が３つのたんざく形領域に分割される。これらの線の中央部は除外されこれらの線の残りの部分が、鼻と口とを含むたんざく形領域を除いた、両目と顎との間の対称ボクセル区域５０４（左顔：ＬＦ）と５０６（右顔：ＲＦ）とを形成する。ＬＦたんざく形領域及びＲＦたんざく形領域は正面顔区域全体の１／４に等しく、中心のたんざく形領域は１／２に等しい。

これらの区域５０４と５０６とを、図１９で顔画像上に示す。

再び図１５を参照して、プログラムはさらに、区域５０４及び５０６中の有効なボクセルデータに平面を当てはめることによって顔の平面を推定するステップ４１２を含む。計算効率のため、この当てはめには、全てのボクセルではなく、区域５０４及び５０６において（図１９参照）疎にサンプリングされた線上のボクセルのみを用いる。

プログラムはさらに、ステップ４１２に続いて、所与の全てのボクセルデータを推定された顔の平面に当てはめて評価し、最も悪い当てはめデータのε％を無効にするステップ４１４と、ステップ４１４に続いて、当てはめ誤差率が１ｃｍ（１０ｍｍ）より小さいか否かを判断するステップ４１６と、を含む。もし全ての当てはめ誤差が１ｃｍより小さければ、制御はこのプログラムを出る。そうでなければ、制御はステップ４１２に戻る。

当てはめアルゴリズムの詳細を以下で説明する。この処理は顔平面推定のための、繰返し最小二乗当てはめ及び評価アルゴリズムである。一般に、ステレオデータからの当てはめで得られた３Ｄ顔平面は、頭部が動くと顔の可視データ量が変動するため、誤差を生じやすい。したがって、顔の両側からの対称データが選択されるが、このデータセットでは、鼻及び口といった個々人の顔の特徴にかかる区域は含まれない。このため、正面３Ｄ顔データは図１９に示すように、両目に整列した３個のたんざく形領域に分割される。

実際的な理由から、データの疎なサンプリングが行われる（例えば、両目と顎の線の間で２０行）。最後に、部分的なオクルージョン（部分的に隠れること）又は頭部の動きからくると思われるアーチファクトを繰返し最小二乗当てはめと除去−加算アルゴリズムとによって消去する。このアルゴリズムで用いられるパラメータは、４０人を上回る人の対応する顔画像を検討することで、経験的に決定された。

抽出された３Ｄ顔データの組が与えられた場合、アルゴリズムのフローは以下のように記すことができる。

２）両目間の３Ｄ顔表面データから積分ユークリッド距離を計算する。

３）中心が各行について顔の対称点と整列している、正面顔データ区域を規定する。選択された区域の幅は積分目距離のξ（ξ＝１．３）倍であり、高さは顎によって規定される。

４）正面顔区域を３つのたんざく形領域に分割する。左顔（ＬＦ）たんざく形領域と右顔（ＲＦ）たんざく形領域とは全正面顔区域の１／４であり、中央たんざく形領域は全正面顔区域の１／２である。

５）３Ｄデータ区域において３Ｄ目線に平行な疎のデータ行を規定し、ＬＦ行とＲＦ行との双方において、内側から外へと同じ長さのデータを収集する（顎まで全ての行についてこれを繰返す）。

６）繰返し：最小二乗当てはめアルゴリズムによって最もよく当てはまる３Ｄ平面のパラメータ（顔データ座標Ｘｉ，Ｙｉ，Ｚｉ、ここでｉ＝１，２… Ｎｋ、Ｎｋはｋ回目の繰返しにおけるサンプル数、が与えられたときのａ，ｂ，ｃ及びｄ）を推定する。

８）評価：もし誤差がτ（τ＝１０）ミリメートルより小さいか、又は繰返し数がκ（この実施の形態では、κ＝４）より大きければ、ステップ１１（ＥＮＤ）に進む。

９）高い誤差を有する顔データのε（ε＝５）％を組から除去。

１０）もし以前に破棄されたデータの誤差距離が新たに推定された面からτミリメートルより小さい場合、このデータを組に加え、「繰返し」に進む。

１１）ＥＮＤ。

このアルゴリズムはパラメータをどのように選択するかによって大きな影響を受けない。幅パラメータξは０．９より大きくてもよいが、１．５より小さくなければならない。誤差しきい値パラメータτは５ミリメートルより大きくてもよいが、１５ミリメートルより小さくなければならない。データ除去率は１％から１０％の間であればよく、最大繰返し数は２から１０の間である。

図２０はステップ４１２から４１６までの繰返しの例を示す。図２０を参照して、この例では、第１回の繰返しで最も上の誤差ヒストグラムが得られた。これには１０ｍｍをこえるロングテールがあった。最も悪い当てはめデータのε％を無効にし、２回目の繰返しを行なった。２回目と３回目の繰返しで、図２０の２番目と３番目のヒストグラムが得られた。「テール」が短くなっているのがわかる。しかしながら依然として、３回目の繰返しでも誤差のいくつかは１０ｍｍを超えている。

図２０の最も下のヒストグラムからわかるように、４回目の繰返し後は全ての誤差が当てはめられた顔の平面から１０ｍｍ以内となり、繰返しは終了する。

図２１は、図１４のステップ３９２での顔抽出を示す。図２１を参照して、顔の平面５２０がステップ３９０で推定され、顔の平面５２０から距離が±δ以内の全てのボクセルが顔ボクセルとして抽出される。

図３に示すテクスチャマッピングモジュール１６０が、３Ｄ顔抽出モジュール１５８によって抽出された顔データにテクスチャをマッピングする。

図２２は（Ａ）及び（Ｂ）でステレオ画像対を示し、（Ｃ）でそのディスパリティを示す。検出された両目間の位置が、左カメラ画像及び右カメラ画像の両方でマークされ、これらが顔のホロプタ推定に利用される。

図２３は（Ａ）及び（Ｂ）でステレオ対を示し、（Ｃ）でそれらの抽出され再構築された３Ｄ顔データを示す。顔ホロプタの外側では、３Ｄの再構築の信頼性が低いことが認められる。

図２４は異なる視野角から保存された３Ｄ顔画像を示す。

＜３Ｄ顔座標系の形成＞
ある面のベクトルとその面の法線とで、任意の３Ｄ座標系を説明することができる。したがって、３Ｄの目の位置と顔平面を得た後のこの実施の形態の目標とするところは、フレームごとに頭部の姿勢を推定するための３Ｄ顔座標系を形成することである。これは、図１に示す３Ｄ頭部姿勢推定モジュール８８によって行われ、その詳細を図２５に示す。

図２５を参照して、３Ｄ頭部姿勢推定モジュール８８は、左右の３Ｄ目位置ｅ _Ｌｔ及びｅ _Ｒｔと３Ｄ顔平面パラメータＰｔとを受けるように結合され、図３の３Ｄ表面抽出モジュール１５８から３Ｄ顔座標系を形成しかつ顔座標系を表すマトリックスＦＣＳ _ｔを出力するための３Ｄ顔座標系形成モジュール５４０と、３Ｄ顔座標系形成モジュール５４０から出力されたマトリックスＦＣＳｔを受けるように結合され、後述する３Ｄ頭部姿勢マトリックスＭを推定するための３Ｄ頭部姿勢推定モジュール５４２と、を含む。

この実施の形態では、３Ｄ顔座標系は目線、顔の平面及び顔の平面の法線で規定される。

顔の平面のパラメータａ，ｂ，ｃ及びｄは図１４に示すステップ３９０で計算される。顔平面の法線が利用可能であり、以下のベクトルで表される。

Ｅ１とＥ２とを、以下のような３Ｄ空間における顔平面の左右の目の位置とする。

ここで＾Ｚｉ（「＾」は式中文字の上に付されたものである）はそのＸｉ及びＹｉの値が与えられたときの顔平面上の再計算されたＺ値である。３Ｄ空間における目線（Ｅｌｉｎｅ）の式は、点Ｅ１及びＥ２を利用して、以下のように規定することができる。

ここでｔはＥｌｉｎｅ上の点のスカラー値（ｔ∈Ｒ）であり、→Ｖ

_x ＝→Ｅ

₁ Ｅ

₂ （「→」は式中文字の上に付されたものである）が成り立ち、これは顔平面の法線に垂直なベクトルを規定する。

顔平面の法線であるベクトル→Ｖｚと、式３の３Ｄ目線から得られるベクトル→Ｖｘとのクロス乗積はベクトル→Ｖ _ｙとなり、これは→Ｖ _ｘと→Ｖ _ｙとの両方に垂直である。これら３つのベクトルが顔座標系を形成する。したがって、顔座標系のｘ軸とｚ軸とは３Ｄの目の位置と３Ｄの顔平面とにそれぞれロックされる。したがって、３Ｄ座標系の形成は、フレームごとに繰返して可能である。

３Ｄ顔座標系形成モジュール５４０及び３Ｄ頭部姿勢推定モジュール５４２は共に、図２６及び図３０でそれぞれ示されるコンピュータプログラムルーチンで実現される。

図２６及び図２７を参照して、３Ｄ顔座標系形成モジュール５４０を実現するコンピュータプログラムルーチンは、ある時点での３Ｄの目の位置５８０Ｌ及び５８０Ｒと３Ｄ顔平面パラメータとが与えられると、ステップ５６０で開始し、ここで左の目の位置５８０Ｌから右の目の位置５８０Ｒまでの３Ｄ目線５８２と、３Ｄの目線５８２に平行な単位ベクトル５８６と、が計算される。この実施の形態では、単位ベクトル５８６の始点は両目間の点５８４である。

図２６及び図２８を参照して、プログラムはさらに、ステップ５６０に続いて、顔座標系のｚ軸へ顔平面５２０の単位法線ベクトル５８８を割当て、さらに、顔座標系のｘ軸へ３Ｄ目線５８２に平行な単位ベクトル５８６を割当るステップ５６２を含む。

図２６及び図２９を参照して、プログラムはさらに、ステップ５６２に続いて、顔座標系のｚ軸ベクトル５８８とｘ軸ベクトル５８６とのクロス乗積５９０を計算して、顔座標系のｙ軸ベクトル５９０を得るステップ５６４を含む。

プログラムルーチンは３個のベクトル５８６、５９０及び５８８を用いて３Ｄ座標系を形成する最後のステップ５６６を含む。

＜３Ｄ頭部姿勢推定＞
顔座標系とグローバル（基準）座標系との間の、この３Ｄ頭部姿勢を表す変換は以下のようになる。

２つの座標系の間の回転のみの変換は次のように表すことができる。

図３１を参照して、一般に、顔座標系６３２は世界座標系６３０を回転させ平行移動させた形であると考えることができる。すなわち、顔座標系６３２と世界座標系６３０とは図３１に破線矢印６３４で示すように、３×３の回転マトリックスＲ（Φ）と３×１平行移動ベクトルＴとによって関連付けられている。

したがって、式４における３Ｄ頭部姿勢マトリックスＲ（Φ）の解は自明となり、以下で表すことができる。

式８を満たすそれぞれの軸に対する回転角は以下で与えられる。

この処理は、コンピュータプログラムルーチンで実現される。このルーチンのフロー図を図３０に示す。図３０を参照して、ある時点での顔座標系が与えられると、ルーチンは式（９）から（１１）により、各フレーム時点について、基準（共通）座標系６３０に対する３Ｄ頭部姿勢を推定するステップ６１０で始まる。ステップ６１０の後、制御はこのルーチンを出る。

［動作］
図１から図３０を参照して、上述の３Ｄ顔姿勢推定システム５０は以下のように動作する。特に図１を参照して、始めにキャリブレーションが行われる。このキャリブレーションプロセスにおいて、予め定められたパターンプレートがステレオカメラ６０に提示され、キャリブレーションソフトウェア８０がキャリブレーションパラメータを計算する。パラメータはキャリブレーションパラメータメモリ８２に記憶される。

動作において、システム５０はまず、ステレオカメラ６０からステレオ画像を取得する。キャプチャされた画像は、キャリブレーションパラメータメモリ８２に記憶されたキャリブレーションパラメータを用いて補正ソフトウェア８４によって補正され、エピポーラ線が画像の行と対応するようにされる。補正された画像は、３Ｄ顔再構築モジュール８６に与えられる。

特に図３を参照して、ホロプタ推定モジュール１５０は、ステレオ画像を利用して顔のホロプタを推定する。ホロプタ推定モジュール１５０はこの実現例ではステレオアイトラッキングアルゴリズムに依拠する。ステレオアイトラッキングにより、ホロプタ推定モジュール１５０は顔ホロプタ情報を生成することができる。顔ホロプタ情報ｈｔは左右の画像において対応する画素を見出すための探索区域ｈｔ＝［ｄ１，ｄ２］を計算する助けとなる。ディスパリティ探索アルゴリズムは、より良いディスパリティの結果を得るために、ホロプタ情報と相関テンプレートサイズとを利用する。

ホロプタ情報と左右の画像Ｌｉ及びＲｉと、計算パラメータＡｉとがディスパリティ画像モジュール１５２に与えられる。ディスパリティ画像モジュール１５２では、画像中の各画素についてディスパリティＤｔが計算される。ある点の３Ｄの位置は、＜ｘ,ｙ＞座標と、そのディスパリティとが与えられると、先行技術のステレオ再構築アルゴリズムで再構築することができる。３Ｄ表面は計算されたデータに基づいて再構築される。

再構築された３Ｄ顔表面はいくつかのアウトライアを含むので、ノイズ消去及び補間モジュール１５６が無効ボクセルを消去し、近接するボクセル間の補間により、欠落したボクセルを補間する。３Ｄ表面データはさらに、ノイズ消去及び補間モジュール１５６内で平滑化され、これによって稠密な３Ｄ顔表面データが得られ、これは３Ｄ表面抽出モジュール１５８に与えられる。

３Ｄ表面抽出モジュール１５８は両目間の点を求め、目と顎との間の対称顔ボクセルデータを抽出する。図１５のステップ４１０及び図１９に示すように、鼻と口の区域を含むたんざく形領域は顔の対称線の両側から除外される。抽出された対象顔ボクセルデータにおけるボクセルを用いて、平面を当てはめ、最も悪い当てはめデータを除外しながら残りの対称顔ボクセルすべてが顔平面から予め定められた、例えば１０ｍｍの距離以内になるまでこれを繰返すことによって、顔平面が推定される。

顔平面パラメータを用いて、顔平面から±δの距離にある顔ボクセルが顔ボクセルとして抽出される。

テクスチャマッピングモジュール１６０は抽出された顔ボクセルの肌テクスチャをマッピングし、これによって抽出された顔画像が図２３（Ｃ）及び図２４に示すように生成される。

顔平面パラメータが図１に示す３Ｄ頭部姿勢推定モジュール８８にさらに与えられる。図２５を参照して、３Ｄ顔座標系形成モジュール５４０は、まず図２７に示すように眼の線に平行な単位ベクトル５８６を求め、図２８に示すように顔平面５２０に垂直な単位ベクトル５８４を求め、その後、図２９に示すようにベクトル５８６及び５８８のクロス乗積である単位ベクトル５９０を計算する。これら３個のベクトルが３Ｄ顔座標系を形成する。

＜実験的セットアップ＞
ビデオステレオビジョンハードウェアとＳＶＳソフトウェアがこの実現に利用される。カメラのキャリブレーション及び補正はＳＶＳライブラリを用いて自動的に行われる。ＳＶＳソフトウェアはステレオビデオシーケンスをキャプチャすることができ、ステレオ対の３Ｄデータを３２０×２４０の全画像解像度で３０Ｈｚで再構築する。しかしながら、３Ｄの再構築に関係ある領域はこの実験においてユーザの顔区域であるので、ディスパリティ探索区域を、上述の説明の通り、顔のホロプタ周辺に限定した。したがって、顔の外側で深さの異なる再構築された３Ｄデータは、図２３（Ｃ）に示すように３Ｄ推定が不正確である。

３Ｄ座標値は、世界座標系で計算される。この実現例では、世界座標系（原点）は左カメラの焦点と規定され、右手座標系である。

頭部姿勢推定スキームの正確さを評価するために、マーカベースの頭部姿勢推定から得られた測定値との比較を行なった。図３２の参照符号６５０で示すように、ユーザの額に半径５ミリの３個の黒のマーカを、２５ミリずつ離して時計回りに９０度回転させたＬ字型を形成するように位置づけ、ステレオ処理アルゴリズムを利用してマーカ位置の３Ｄ座標を推定した。マーカベースの頭部姿勢推定アルゴリズムの正確さは、マーカ位置検出におけるジッタのために、±３度であった。

図３３で、提案されたアルゴリズムで推定された角度を、マーカベースのアルゴリズムによって得られた値と比較している。この実施の形態の結果を細い実線６６０、６７２及び６８２で示し、マーカベースのアルゴリズムで測定されたものを太い破線６６２、６７０及び６８０で示す。

当然、マーカが位置づけられた額は、そのそれぞれのオフセット値により、プロットに反映された顔のそれとは異なる姿勢になる。図３３に示されたｘ、ｙ及びｚ軸の角度データでは、相関係数はそれぞれ０．８７、０．９２及び０．９８であった。ｘ軸周りの回転について相関係数がｙ軸及びｚ軸についての結果に比較して低いのは、アイトラッキングアルゴリズムによって検出される目の位置のジッタによるものである。しかし、アイトラッキングにおけるジッタは、３Ｄ顔構造情報又はより良いアイトラッカを用いることで修正可能である。

結論上述の実施の形態は、実世界の状況下で人とコンピュータとのインターフェイス応用に好適な、頑健な３Ｄ顔抽出及び３Ｄ頭部姿勢推定スキームを与える。提案されたスキームはモデルを必要とせず、初期化も必要とせず、さらに単一の画像対から３Ｄの顔を抽出し３Ｄ頭部姿勢情報を推定することができる。これはまた、顔の表情及び鼻の形状等の人によって異なる顔の特徴に対して頑健である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の実施の形態に従った３Ｄ顔姿勢推定システムの全体構成を示す図である。

コンピュータによって実現されたこの発明の３Ｄ顔姿勢推定システム５０のハードウェアブロック図である。

図１に示す３Ｄ顔再構築モジュール８６の全体構成を示す図である。

補正プロセスを示す図である。

ホロプタ推定アルゴリズムの詳細なフローを示す図である。

ステレオ画像中で両目間のパターンを見出すための探索範囲の限定を示す図である。

提案されたディスパリティ探索アルゴリズムの全体の処理ステップを示すフローチャートである。

左画像２６０Ｌ内の画素２６２Ｌのディスパリティをどのように計算するかを示す図である。

図３に示すノイズ消去及び補間モジュールの詳細構造を示す図である。

ノイズ消去アルゴリズムの全体の処理ステップを示すフローチャートである。

顔データのボクセルを検証する処理を示す図である。

図９に示す平滑化モジュール２８２を実現するプログラムのフロー図である。

図９に示す補間モジュール２８４を実現するフロー図である。

この発明の一実施の形態で用いられる３Ｄ顔データ抽出を実現するプログラムのフロー図である。

図１４のステップ３９０で用いられる新規な３Ｄ顔平面推定アルゴリズムを実現するプログラムの詳細なフロー図である。

両目と顎との間の対称ボクセルデータの抽出処理を示す図である。

顔画像上の抽出された対称ボクセルデータを示す図である。

アウトライアデータを除外するための繰返しの例を示す図である。

図１４のステップ３９２での顔抽出を示す図である。

（Ａ）及び（Ｂ）はステレオ画像対を示す図であり、（Ｃ）はそのディスパリティマップを示す図である。

（Ａ）及び（Ｂ）はステレオ画像対を示す図であり、（Ｃ）はその抽出されかつ再構築された３Ｄ顔データを示す図である。

異なる視野角から保存された３Ｄ顔画像を示す図である。

３Ｄ頭部姿勢推定モジュール８８の詳細なブロック図である。

３Ｄ顔座標系形成モジュール５４０を実現するためのフロー図である。

３Ｄ顔座標系を形成する処理を示す図である。

基準座標系に対し３Ｄ頭部姿勢を推定するためのコンピュータプログラムルーチンを示すフロー図である。

顔座標系６３２と世界座標系６３０とが３×３回転マトリクスＲ（Φ）及び３×１平行移動ベクトルＴによってどのように関連づけられるかを示す図である。

マーカベースの頭部姿勢推定から得られた測定値のための設定を示す図である。

この発明の実施の形態から推定された角度をマーカベースのアルゴリズムから得られた値と比較して示す図である。

符号の説明

５０３Ｄ顔姿勢推定システム６０ステレオカメラ６２リアルタイム３Ｄ顔姿勢推定装置８０キャリブレーションソフトウェア８２キャリブレーションパラメータメモリ８４補正ソフトウェア８６３Ｄ顔再構築モジュール８８３Ｄ頭部姿勢推定モジュール１３０ビデオキャプチャボード１５０ホロプタ推定モジュール１５２ディスパリティ画像モジュール１５４３Ｄ表面再構築モジュール１５６ノイズ消去及び補間モジュール１５８３Ｄ表面抽出モジュール１６０テクスチャマッピングモジュール２８０ノイズ消去モジュール２８２平滑化モジュール２８４補間モジュール５２０顔平面５４０３Ｄ顔座標系形成モジュール５４２３Ｄ頭部姿勢推定モジュール６３０世界座標系６３２顔座標系

标题	发布/更新时间	阅读量
一种基于人脸三维重建的改进PCA算法	2020-05-11	146
一种基于3D打印技术精准修复遗体面部残缺的方法	2020-05-14	586
定制人脸混合表情模型自动生成方法及装置	2020-05-18	483
一种高压氧舱人脸识别交互方法及系统	2020-05-15	388
一种基于面部运动单元的三维非真实感表情生成方法	2020-05-11	951
一种实时人脸表情重建方法	2020-05-15	723
基于切片数据对称性分析的三维缺损颜面模型重建方法	2020-05-16	975
一种基于神经网络的端到端的三维人脸重建方法	2020-05-20	441
基于多列多尺度图卷积神经网络的3D人脸生成方法	2020-05-16	685
一种基于核磁共振数据的三维形变模型生成方法、系统及电子设备	2020-05-08	124

Device and program for reconfiguring surface data of three-dimensional human face

该功能需要专业版企业版VIP权限，您可以：