首页 / 专利库 / 显示技术 / 增强现实眼镜 / Video processing device, video processing method and video communication system

Video processing device, video processing method and video communication system

阅读:571发布:2021-03-23

专利汇可以提供Video processing device, video processing method and video communication system专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a new use field of spectacles for observing stereoscopic images.SOLUTION: A video processing device comprises: an imaging part which photographs a subject including a face of a person wearing spectacles for observing a stereoscopic image which includes a first parallax image and a second parallax image when the subject in a three dimensional space is seen from different view points; a spectacles identification part 306 which identifies the spectacles from the image of the subject photographed by the imaging part; a face detection part 308 which detects a face area of a person from the image of the subject photographed by the imaging part based on the spectacles identified by the spectacles identification part 306; and an augmented reality rendering part 314 which adds virtual features to the face area of a person detected by the face detection part.,下面是Video processing device, video processing method and video communication system专利的具体信息内容。

  • 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、
    前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
    前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、
    前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含むことを特徴とする映像処理装置。
  • 前記めがねは、左右のレンズが交互に時分割で当該レンズを通過する映像を遮蔽するシャッタめがねであり、
    前記めがね特定部は、前記撮像部が撮像した映像から被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、前記シャッタめがねを特定するシャッタ領域特定部をさらに含むことを特徴とする請求項1に記載の映像処理装置。
  • 前記拡張現実演出部は、前記めがね特定部が特定しためがねを除去し、当該めがねをかけない場合の顔の映像を生成する顔演出部をさらに含むことを特徴とする請求項1または2に記載の映像処理装置。
  • 前記撮像部は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とをそれぞれ撮像する第1のカメラと第2のカメラとを含むステレオカメラであり、
    前記顔検出部は、前記第1の視差画像と前記第2の視差画像とのそれぞれについて顔領域を検出するものであり、
    前記顔検出部が前記第1の視差画像と前記第2の視差画像とのそれぞれから検出した被写体の顔領域から特徴点を検出する特徴点検出部と、
    前記顔検出部が検出した被写体の顔領域および前記特徴点検出部が前記第1の視差画像と前記第2の視差画像とのそれぞれから検出した特徴点をもとに、前記人物の3次元モデルを生成する3次元モデル生成部と、
    前記3次元モデル生成部が生成した人物の3次元モデルをもとに、当該人物を任意の方向から撮像した場合の映像を生成する撮像位置補正部とをさらに含むことを特徴とする請求項1から3のいずれかに記載の映像処理装置。
  • 前記拡張現実演出部は、前記3次元モデル生成部が生成した人物の3次元モデルをもとに、当該人物が鏡に映った場合の3次元モデルを生成する鏡像生成部をさらに含み、
    前記鏡像生成部が生成した人物の鏡像モデルをもとに、仮想的な3次元空間における当該人物の3次元モデルを異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を生成する立体映像生成部と、
    前記立体映像生成部が生成した立体映像を、当該立体映像を表示するための3次元テレビに出力する出力部とをさらに含むことを特徴とする請求項4に記載の映像処理装置。
  • 請求項1から5のいずれかに記載の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されていることを特徴とする映像通信システム。
  • 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、
    撮像した被写体の映像から前記めがねを特定するステップと、
    特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、
    検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させることを特徴とする映像処理方法。
  • 3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する機能と、
    撮像した被写体の映像から前記めがねを特定するステップと、
    特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出する機能と、
    検出した人物の顔領域に仮想的な特徴を付加する機能とをコンピュータに実現させることを特徴とするプログラム。
  • 说明书全文

    本発明は、映像処理装置、映像処理方法、および映像通信システムに関する。

    近年、民生用テレビの高性能化が進み、奥行きを持った立体映像を提示することが可能な3次元テレビが普及してきている。 このような3次元テレビを実現するための方式は種々存在するが、中には立体映像を観察するためにユーザが専用のめがねを着用する方式が存在する。

    立体映像を観察するために専用のめがねを要する方式においては、当然のことながら、ユーザは必ず専用のめがねを着用することになる。 本発明者は、ユーザが必ず専用のめがねを着用する点に着目し、本めがねを立体映像を観察するために利用するのみならず、新たな利用の可能性を探求できると考えた。

    本発明はこのような状況を鑑みてなされたものであり、その目的は、立体映像を観察するためのめがねの新たな利用分野を提供することにある。

    上記課題を解決するために、本発明のある態様は映像処理装置である。 この装置は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
    前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含む。

    本発明の別の態様は映像通信システムである。 このシステムは、上記の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されている映像通信システムである。

    本発明のさらに別の態様は、映像処理方法である。 この方法は、3次元空間における被写体を異なる視点から見た場合の第1の視差画像と第2の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、撮像した被写体の映像から前記めがねを特定するステップと、特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させる。

    なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

    本発明によると、立体映像を観察するためのめがねの新たな利用分野を提供することができる。

    実施の形態に係る映像処理システムの概観を示す図である。

    3次元めがねのシャッタのタイミングと、3次元テレビにおけるバックライトの点灯のタイミングとの関係を示す図である。

    実施の形態に係る映像処理装置の機能構成を模式的に示す図である。

    図4(a)は、3次元めがねの左右のレンズのシャッタが閉じている場合の映像を示す図である。 図4(b)は、3次元めがねの右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像を示す図である。 図4(c)は、3次元めがねの左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像を示す図である。 図4(d)は、3次元めがねのレンズ領域を出発点としてユーザの顔領域を抽出した結果を示す図である。

    図5(a)は、人物の表情が現れやすい目や口付近の表情エリアを示す図である。 図5(b)は、図5(a)に示す表情エリアの特徴点を示す図である。

    実施の形態に係る撮像位置補正部の動作を説明する図である。

    実施の形態に係る顔演出部による変装の演出の例を示す図である。

    実施の形態に係る顔演出部が3次元めがねを除去した画像をもとに、鏡像生成部が生成した鏡像画像の例を示す図である。

    実施の形態に係る映像処理装置300における拡張実現の処理手順を示すフローチャートである。

    実施の形態に係る3次元テレビ電話システムを模式的に示す図である。

    実施の形態に係る3次元テレビ電話システムの使用例を示す図である。

    実施の形態に係る3次元テレビ電話システムにおいて送信する情報の種類に応じた送信頻度を示す図である。

    本発明の実施の形態の概要を述べる。 実施の形態は、立体映像を観察するためのめがねを着用した人物の顔を含む映像を取得し、そのめがねをランドマークとして人物の顔領域を検出する。 検出した顔領域を中心に、仮想的な特徴を付加する拡張現実による演出を施す。

    図1は、実施の形態に係る映像処理システム100の概観を示す図である。 映像処理システム100は、ステレオカメラ200、映像処理装置300、3次元テレビ400、および3次元テレビ400が表示する立体映像を観察するための3次元めがね500を含む。

    ステレオカメラ200は、被写体であるユーザを異なる視点から撮像するための第1のカメラ202と第2のカメラ204とを含む。 ここで、3次元空間における被写体を異なる視点から見た場合の画像を「視差画像」という。 人間の左右の目は6cm程度離れているため、左目から見える映像と右目から見える映像には視差が生じる。 人間の脳は、左右の目で知覚した視差画像を利用して物体の奥行きを認識しているといわれている。 そのため、左目で知覚される視差画像と右目で知覚される視差画像とをそれぞれの目に投影すると、人間には奥行きを持った立体映像として認識される。 以下、3次元空間における被写体を異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む映像を単に「立体映像」という。 ステレオカメラ200は、例えばCCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の個体撮像素子を用いて実現できる。

    映像処理装置300は、ステレオカメラ200が撮像した被写体の映像を処理する。 映像処理装置300の詳細については後述する。 3次元テレビ400は、映像処理装置300が生成した立体映像を表示する。 ユーザは3次元めがね500を着用することにより、3次元テレビ400に表示される映像を奥行きを持った立体映像として認識することが可能となる。

    視差画像を利用して人間に奥行きを持った映像を見せるための3次元テレビには様々な方式があるが、本実施の形態では左目用の視差画像と右目用の視差画像とを交互に時分割で表示する方式の3次元テレビを例に説明する。

    3次元テレビ400は、映像処理装置300が生成した左目用の視差画像と右目用の視差画像とを交互に時分割で提示する。 映像処理装置300は、3次元テレビ400の視差画像の表示タイミングを同期信号として3次元めがね500に送信する。 3次元めがね500は、受信した同期信号に応じて左右のレンズにシャッタをかける。 シャッタは、例えば既知の液晶シャッタの技術を用いることで実現できる。

    具体的には、3次元テレビ400が左目用の視差画像を表示する場合、3次元めがね500は右目のレンズのシャッタを閉じることで、ユーザの右目に入る映像を遮蔽する。 これにより、3次元テレビ400が左目用の視差画像を表示する場合、ユーザの左目にのみ左目用の視差画像が投影される。 反対に、3次元テレビ400が右目用の視差画像を表示する場合、3次元めがね500が左目のレンズのシャッタを閉じることにより、ユーザの右目にのみ右目用の視差画像が投影される。

    図1は映像処理装置300と3次元テレビ400とが別の装置の場合について図示したものであり、映像処理装置300は例えば据置型のゲーム機である。 映像処理装置300の機能の全部または一部は、3次元テレビ400の一部として組み込まれていてもよい。

    図2は、3次元めがね500のシャッタのタイミングと、3次元テレビ400における視差画像の表示のタイミングとの関係を示す図である。 図2においては、時刻2tにおいて所定の時間(例えば10ミリ秒)3次元めがね500の右目のシャッタが開くと同時に同じ期間3次元テレビ400の表示パネルのバックライトが点灯することを示している。 また、時刻4tにおいて所定の時間3次元めがね500の左目のシャッタが開くと同時に同じ期間3次元テレビ400の表示パネルのバックライトが点灯することを示している。 それ以外の時刻においては3次元めがね500の右目のシャッタおよび左目のシャッタが閉じ、かつ3次元テレビ400の表示パネルのバックライトは消灯する。

    時刻2tにおいて3次元テレビ400が右目用の視差画像を表示してユーザの右目に右目用視差画像を提示し、時刻4tにおいて3次元テレビ400が左目用の視差画像を表示してユーザの左目に左目用視差画像を提示することで、ユーザに奥行き感のある3次元映像を提示することが可能となる。

    図3は、実施の形態に係る映像処理装置300の機能構成を模式的に示す図である。 映像処理装置300は、左目映像生成部302、右目映像生成部304、めがね特定部306、顔検出部308、特徴点検出部310、3次元モデル生成部312、拡張現実演出部314、立体映像生成部316、および出部318を含む。

    左目映像生成部302は、第1のカメラ202から取得した情報を画像化して、左目用の視差画像を生成する。 右目映像生成部304は、第2のカメラ204から取得した情報を画像化して、右目用の視差画像を生成する。

    めがね特定部306は、ステレオカメラ200が撮像し、左目映像生成部302および右目映像生成部304がそれぞれ画像化した被写体の映像から、3次元めがね500を特定する。 前述したように、本実施の形態は、映像処理装置300から受信した同期信号に応じて左右のレンズにシャッタをかける方式のシャッタめがねを採用する。 このため、めがね特定部306は、シャッタ領域特定部320とフレーム特定部322とを含む。

    3次元めがね500は、レンズのシャッタを交互に時分割で閉じることにより、ユーザの目に投影される映像を遮蔽する。 このことは、3次元めがね500を装着しているユーザの顔を撮像した映像においては、3次元めがね500の左右のレンズを通して見えるユーザの目が交互に時分割に遮蔽され、撮像されなくなることを意味する。 そこでシャッタ領域特定部320は、3次元めがね500を着用したユーザの顔を含む被写体の映像から、被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、3次元めがね500を特定する。

    フレーム特定部322は、シャッタ領域特定部320が特定したレンズの領域を出発点として、3次元めがね500のめがねフレームを追跡して特定する。 顔検出部308は、めがね特定部306が特定しためがね領域を出発点として、ユーザの顔を検出する。

    このように、専用のめがねを着用する方式の3次元テレビ400を鑑賞するユーザは、3次元めがね500を着用することが保証される。 このため、めがね領域を特定することから始めることが可能となる。 特にシャッタ方式の3次元めがね500の場合、3次元めがね500のレンズ領域をランドマークとして特定することが可能となる。 レンズ領域は人間の顔の大きさと比較しても大きめの領域であり、安定かつ高速に検出することができる。 例えばめがねフレームを検出する場合と比較して、レンズは2次元的な広がりを持っているため、安定かつ高速に検出することができる。

    図4は、3次元めがね500を着用したユーザの顔部分の映像と、シャッタ領域をもとに抽出したユーザの顔領域を示す図である。 図4(a)は、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像を示す図である。 図4(b)は、3次元めがね500の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像を示す図である。 図4(c)は、3次元めがね500の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像を示す図である。 図4(d)は、3次元めがね500のレンズ領域を出発点としてユーザの顔領域を抽出した結果を示す図である。 図4の各図において、斜線のハッチングで示す領域はシャッタの閉じている領域である。

    シャッタ領域特定部320は、例えば図4(a)に示すような、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像と、図4(b)に示す3次元めがね500の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。 両者は左目用のレンズの領域に大きな相違点があるため、この領域の画素の差分値が大きくなる。 そこでシャッタ領域特定部320は、がsの差分値の大きな領域を左目用のレンズの領域として特定する。 また、シャッタ領域特定部320は、図4(a)に示すような、3次元めがね500の左右のレンズのシャッタが閉じている場合の映像と、図4(c)に示す3次元めがね500の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。 これにより、シャッタ領域特定部320は右目用のレンズ領域を特定することができる。

    3次元めがね500のレンズ領域が特定できれば、フレーム特定部322はその領域と連結しているエッジを追跡することで、3次元めがね500のフレームを特定することができる。 また、3次元めがね500のレンズ領域が特定できればユーザの両目を特定できるので、両目間の距離からユーザの顔のおおよその大きさも推定できる。 顔検出部308は、3次元めがね500のレンズ領域を出発点として肌色領域やエッジを検出することで、ユーザの顔領域を特定することができる。

    図5は、人物の表情エリアや、表情エリアの特徴点を示す図である。 図5(a)は、人物の表情が現れやすい目や口付近の表情エリアを示す図である。 図5(a)は、表情エリア334と総称する目付近の表情エリア334aと、口付近の表情エリア334bとを示す。 表情エリア334は人物の感情(例えば怒りや戸惑い、笑い等)の特徴が出やすい領域であり、後述する拡張現実(Augmented Reality;AR)の演出に利用される。

    図5(b)は、図5(a)に示す表情エリア334の特徴点(符号334で総称する。)を示す図である。 特徴点とは、例えば、眉尻(符号336aおよび336d)、眉頭(符号336bおよび336c)、目尻(符号336eおよび336g)、目頭(符号336fおよび336h)、口(符号336iおよび336k)、上唇の中央部336j、下唇の中央部336l、あご336m、および瞳の中央などである。 これらの特徴点は、後述する拡張現実の演出や、ユーザの顔の向き、表情の解析、および三角測量の原理を用いてユーザの顔の奥行き情報を計算する際に利用される。

    図3の説明に戻る。 特徴点検出部310は、顔検出部308が検出したユーザの顔領域をもとに、図5(b)に示す特徴点を検出する。 これは例えばエッジ検出等の汎用的な技術を用いて実現できる。 3次元モデル生成部312は、ユーザの顔を汎用的な人物の顔の3次元モデルにマッピングする。 これは例えば、複数のポリゴン等で構成される顔のワイヤーフレームモデルを用いて、ポリゴンの頂点に特徴点検出部310が検出した特徴点をマッピングした後、顔検出部308が検出した顔領域をテクスチャマッピングすることで実現できる。 あるいは、三角測量の原理を用いて特徴点からユーザの顔の奥行き情報を計算し、3次元モデルを生成してもよい。 以下、顔検出部308が検出したユーザの顔領域の画像を「表情画像」、特徴点検出部310が検出したユーザの顔の特徴点を「表情データ」と呼ぶことがある。

    拡張現実演出部314は、顔検出部が検出した人物の顔領域、およびその周辺の領域に仮想的な特徴を付加する。 ここで「拡張現実」とは、3次元めがね500を着用して観察する3次元テレビ400に映される現実の空間に3次元モデルを投影することによって、現実の空間に様々な仮想的な特徴を付加するという考え方や、それを実現するための技術の総称である。

    具体的には、拡張現実演出部314は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、種々の拡張現実を付加する。 このため、拡張現実演出部314は、背景演出部326、鏡像生成部328、撮像位置補正部330、顔演出部332、およびこれら各部の動作を制御する演出制御部324を含む。

    背景演出部326は、顔検出部308が検出し、3次元モデル生成部312がモデル化したユーザの顔以外の領域である背景領域に対して拡張現実による演出を施す。 例えば、背景領域を他の画像に差し替えたり、背景領域をぼかしたりする。 後述するように、映像処理システム100はネットワークを介して他の映像処理システム100と接続することにより、例えばテレビ電話として利用可能である。 この場合、ステレオカメラ200はユーザの家庭内に設置されることが通常であると考えられるが、家庭内の様子をありのまま送信することは好ましくない場合もある。 このようなとき、背景演出部326が背景領域を他の画像に差し替えたり、背景領域をぼかしたりすることにより、家庭内の様子をありのまま送信することを防止できる点で有利である。

    図6は、実施の形態に係る撮像位置補正部330の動作を説明する図である。 ユーザは通常3次元テレビ400を正面から見るため、ステレオカメラ200はユーザを正面から撮像する位置(図6において符号216)に設置することができず、例えば3次元テレビ400の上部(図6において符号212)または、下部(図6において符号214)に設置することになる。 この場合、ステレオカメラ200が取得するユーザの映像はユーザを見下ろした場合の映像となるか、あるいはユーザを見上げる場合の映像となる。

    3次元モデル生成部312がユーザの顔の3次元モデルを生成しているため、撮像位置補正部330は、ユーザを任意の方向から撮像した場合の映像を生成することが可能である。 そこで撮像位置補正部330は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、ユーザを正面の方向から撮像した場合の映像を生成する。 これにより、ユーザは自分の顔を正面から撮像した場合の映像を観察することが可能となる。 また、テレビ電話をする場合には、相手はユーザの顔を正面から撮像した場合の映像を見ることができ、互いにアイコンタクトができるため、相手を正面以外から撮像した映像を用いて会話する場合と比較して、会話をする上での違和感を低減することが可能となる。

    図3に戻り、顔演出部332は、めがね特定部306が特定した3次元めがね500を除去し、ユーザが3次元めがね500をかけない場合の顔の映像を生成する。 顔演出部332はまた、ユーザの顔に化粧をしたり、美肌にしたりする等の画像処理を施す。 顔演出部332はユーザの顔を別人の顔、あるいは動物等のキャラクタに置換する等の画像処理による変装を施す。 このように、顔演出部332は、重要な被写体と考えられるユーザの顔に、拡張現実による演出を施す。 ユーザに非日常的な演出を提供できる点で有利である。

    図7は、顔演出部332による変装の演出の例を示す図である。 この例では、顔演出部332は、特徴点検出部310が検出した特徴点と、あらかじめ用意してある犬の画像およびその特徴点(図示せず)とをマッチングすることにより、ユーザの顔を犬の顔に変装させる演出を施す。

    鏡像生成部328は、顔検出部308が検出し、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、ユーザが鏡に映った場合の3次元モデルを生成する。 ユーザはテレビ電話の送信の前に、拡張現実の施された自分の顔を鏡のように映る映像として観察することが可能となる。 3次元めがね500を着用して本システムを利用することにより、いわばサイバーワールドに入る前に拡張現実による演出が施された自分の姿を確認し、日常的な光景から非日常への切り替わりを実感することができる。

    図8は、顔演出部332が3次元めがね500を除去した画像をもとに、鏡像生成部328が生成した鏡像画像の例を示す図である。 現実のユーザは3次元めがね500を着用しているのであるが、3次元テレビ400の画面には3次元めがね500をかけていない場合の映像が提示されている。 また、3次元テレビ400の画面には現実のユーザの鏡像が提示されている。

    立体映像を観察するために3次元めがね500の着用が必要ではあるが、ユーザは、3次元めがね500を着用している映像をそのまま3次元テレビ400に映したり、相手に送信したりすることを必ずしも望むわけではない。 むしろ、拡張現実を用いたテレビ電話でにおいては、ユーザはありのままの映像を映し出したり送信したりすることにはそれほど積極的ではなく、映像に対して非日常的な演出を施すことを望む場合がある。

    本実施の形態では、3次元モデル生成部312がユーザの顔の3次元モデルを生成するため、映像に種々の拡張現実による非日常的な演出を施すことが可能となる。 そして、3次元モデルを生成するための前処理としての顔検出処理に、3次元めがね500を利用することができる。 ユーザが3次元めがね500を着用していることが保証されているからである。

    演出制御部324は、図示しないリモコン等のユーザインタフェースを介してユーザからの指示を受け付け、拡張現実演出部314内の各部の演出を制御する。 なお、図示はしないが、拡張現実演出部314は、例えばユーザの顔付近に「吹き出し」を用いて文字を表示する等、他の拡張現実を付加する機能を備えていてもよい。

    立体映像生成部316は、3次元モデル生成部312が生成したユーザの3次元モデル、または拡張現実演出部314が演出を施したユーザの3次元モデルをもとに、仮想的な3次元空間におけるユーザの3次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する。 出力部318は、立体映像生成部316が生成した立体映像を3次元テレビ400に出力したり、インターネット等のネットワークを介して他の映像処理システム100に送信したりする。

    図3は、実施の形態に係る映像処理装置300を実現するための機能構成を示しており、その他の構成は省略している。 図3において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メインメモリ、その他のLSIで構成することができ、ソフトウェア的には、メインメモリにロードされたプログラムなどによって実現される。 したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

    図9は、実施の形態に係る映像処理装置300における拡張実現の処理手順を示すフローチャートである。 以下フローチャートにおいては、各部の処理手順を、ステップを意味するS(Stepの頭文字)と数字との組み合わせによって表示する。 本フローチャートにおける処理は、左目映像生成部302および右目映像生成部304がステレオカメラ200の出力を映像化したときに開始する。

    左目映像生成部302および右目映像生成部304は、ステレオカメラ200から出力された3次元めがね500をかけたユーザの顔を含む被写体を映像化する(S10)。 めがね特定部306は、左目映像生成部302および右目映像生成部304が映像化した被写体の映像から3次元めがね500を特定する(S12)。

    顔検出部308は、めがね特定部306が特定した3次元めがねをもとに、左目映像生成部302および右目映像生成部304が映像化したユーザの顔を含む被写体の映像からユーザの顔領域を検出する(S14)。 特徴点検出部310は、顔検出部308が検出したユーザの顔領域から特徴点を検出する(S16)。

    3次元モデル生成部312は、顔検出部308が検出したユーザの顔領域および特徴点検出部310が検出した特徴点をもとにユーザの顔の3次元モデルを生成する(S18)。 拡張現実演出部314は、3次元モデル生成部312が生成したユーザの顔の3次元モデルをもとに、拡張現実による演出を施す(S20)。

    立体映像生成部316は、3次元モデル生成部312が生成したユーザの3次元モデルまたは拡張現実演出部314が演出を施したユーザの3次元モデルをもとに、仮想的な3次元空間におけるユーザの3次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する(S22)。 出力部318は、立体映像生成部316が生成した立体映像を3次元テレビ400等の外部デバイスに出力する(S24)。 出力部318が立体映像を出力すると、本フローチャートにおける処理は終了する。

    図10は、実施の形態に係る3次元テレビ電話システム700を模式的に示す図である。 3次元テレビ電話システム700は、少なくともふたつの映像処理システム100が通信回線600を介して通信可能に接続された映像通信システムである。 図10に示す例では、第1のステレオカメラ200a、第1の映像処理装置300a、および第1の3次元テレビ400aを含む第1の映像処理システム100aと、第2のステレオカメラ200b、第2の映像処理装置300b、および第2の3次元テレビ400bを含む第2の映像処理システム100bとが、インターネット等の通信回線600を通じて相互に通信可能に接続されている。

    図11は、実施の形態に係る3次元テレビ電話システム700の使用例を示す図である。 第1のステレオカメラ200aは、3次元めがね500aを着用した第1のユーザ800の顔を含む被写体を撮像する。 第1のステレオカメラ200aが撮像した映像は図10における第1の映像処理装置300aにおいて、例えばめがね除去や撮像位置補正等の様々な拡張現実による演出が施され、通信回線600を介して第2の3次元テレビ400bに送信される。 第2のユーザ900は、3次元めがね500bを着用して第2の3次元テレビ400bを見ることにより、第1の映像処理装置300aから送られた立体映像を鑑賞することができる。

    図11において、第1のステレオカメラ200aが撮像した映像は拡張現実による演出が施されているため、第1のユーザ800は3次元めがね500aを着用していても、第2の3次元テレビ400bに映される第1のユーザ800の映像においては、3次元めがね500aが除去されている。

    同様に、3次元めがね500bを着用している第2のユーザ900の映像も拡張現実による演出が施された後、第1のユーザ800の鑑賞する第1の3次元テレビ400aに送信される。 このように、3次元テレビ電話システム700を利用することで、ユーザは拡張現実による演出を施した映像でビデオチャットを実行することができる。

    図12は、実施の形態に係る3次元テレビ電話システム700において送信する情報の種類に応じた送信頻度を示す図である。 実施の形態に係る3次元テレビ電話システム700においては、送信側で生成した立体映像をMVC(Multiview Video Coding)等の立体映像の伝送フォーマットに変換した後に送信する。

    前述したとおり、本実施の形態では3次元めがねをランドマークとすることにより、顔の3次元モデルの生成を高精度かつ安定して生成したり、背景画像や表情画像等のレンダリング素材の分離したりすることが可能となる。 そこで、本実施の形態では、ユーザの顔の位置、向き、表情画像、表情データ等のリアルタイム性が要求される情報はMVCのフレーム単位にまとめられ、リアルタイムに送信される。 一方で、顔の3次元モデルや拡張現実による演出等は、3次元テレビ電話による通信に先立ってあらかじめ送信しておき、フレーム単位での送信は行わない。

    図12に示すように、リアルタイム性が要求される度合いが高い情報はリアルタイム性が要求される度合いが低い情報よりも高頻度で送信することにより、高品質かつ低ビットレートでの3次元テレビ電話が可能となる。 また背景画像は分離されているので、差し替えや送信の際のフレームレートを低くしたり、圧縮率を高めたりすることも可能である。

    以上の構成による動作は以下のとおりである。 ユーザは3次元めがね500を着用して映像処理システム100を利用する。 ステレオカメラ200は、3次元めがね500を着用したユーザの顔を含む被写体を撮像する。 3次元めがね500をランドマークとしてユーザの顔領域が検出され、種々の拡張現実による演出が施される。 拡張現実による演出が施された映像は3次元テレビ400に映されたり、通信回線600を介して他の映像処理システム100に送信されたりする。

    以上説明したように、実施の形態によれば、3次元めがね500を立体映像を観察するためのみならず、拡張現実による演出を施す際のランドマークとして利用するという新たな利用分野を提供することができる。

    以上、本発明を実施の形態をもとに説明した。 この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

    上記の説明では3次元めがね500としてシャッタ方式のめがねを採用する場合について説明したが、3次元めがね500はシャッタ方式に限らず、例えば偏光を利用した方式のめがねでもよい。 この場合、めがねフレームにレンチキュラーマーカや発光ダイオード等を付加すれば、ランドマークとして利用可能となる。 特にレンチキュラーマーカは見る角度によって絵柄のパターンが変化する特性があるため、めがねとカメラとの相対角度をパターンの変化に変換することにより、顔の向きや角度を測定することができる点で有利である。 また、表情エリア334を観察しやすくするために、レンズの下半分のみを覆うアンダーリム方式のめがねフレームを採用してもよい。

    上記の説明では、ユーザを異なる視点から撮像するための第1のカメラ202と第2のカメラ204とを含むステレオカメラ200を利用する場合ついて説明したが、撮像装置はステレオカメラに限らず、単眼カメラでもよい。 この場合、特徴点検出部310が検出した特徴点をそのまま汎用的な顔の3次元モデルにマッピングすることになる。 ステレオカメラを用いる場合と比較してマッピングの精度が落ちる可能性もあるが、3次元モデルを用いる拡張現実においては正確性はそれほど重要でないことを考えると、むしろカメラがひとつで済むことによるコスト抑制の点で有利である。

    100,200 ステレオカメラ、 202 第1のカメラ、 204 第2のカメラ、 300 映像処理装置、 306 特定部、 308 顔検出部、 310 特徴点検出部、 312 3次元モデル生成部、 314 拡張現実演出部、 316 立体映像生成部、 318 出力部、 320 シャッタ領域特定部、 322 フレーム特定部、 324 演出制御部、 326 背景演出部、 328 鏡像生成部、 330 撮像位置補正部、 332 顔演出部、 400 3次元テレビ、 600 通信回線、 700 3次元テレビ電話システム。

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈