Face picture coding system专利检索-表情符号电脑图像专利检索查询-专利查询网

Face picture coding system

阅读：839发布：2021-04-14

专利汇可以提供Face picture coding system专利检索，专利查询，专利分析的服务。并且PURPOSE: To obtain the face picture coding system in which the processing is facilitated and the data compression efficiency is high.
CONSTITUTION: An face original picture 401 is given to an expression analysis section 402 and an expression parameter conversion section 403, from which an expression deformation parameter (except mouth) 404 is obtained with respect to a 3-dimension model 405a. On the other hand, an original voice signal 101 is given to a mouth shape parameter conversion section 104 via a characteristic extraction section 102 and a phoneme recognition section 103, in which the signal is converted into a mouth shape parameter 105, the 3-dimension model 405a is subject to model deformation 406 via the expression deformation parameter 404 and the mouth shape parameter 105, and a decoding picture 408 is obtained through the luminance and color addition processing 407.
COPYRIGHT: (C)1993,JPO&Japio，下面是Face picture coding system专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】符号化側、および、復号化側において、
同様に、顔画像の２次元、あるいは、３次元モデルを所有し、符号化側では顔原画像から表情分析を行い、前記２次元、あるいは、３次元モデルの変形情報を出力し、
復号化側では前記変形情報をもとに、２次元、あるいは、３次元モデルを変形させて画像を合成する顔画像符号化方式において、顔原画像に付随する音声情報が存在する場合には、該音声情報より音素を認識して、３次元モデルにおける口、
および、口周辺の変形情報として使用し、音声情報が存在しない場合には、原画像から認識した変形情報のみを使用して符号化を行うことを特徴とする顔画像符号化方式。

【請求項２】前記音素認識結果から抽出した、顔画像における口、および、口周辺の変形情報を基に合成した画像と、入力された原画像との差分値から、２次元、あるいは、３次元モデルの変形情報を補正することを特徴とする請求項１記載の顔画像符号化方式。

说明书全文

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、画像通信、あるいは、画像蓄積等への応用を目的とした、顔画像データ圧縮のための画像符号化方式に関するものである。

【０００２】

【従来の技術】近年、テレビ電話、テレビ会議等の画像の狭帯域通信、あるいは、蓄積メデイア等への応用を目指して、画像データ圧縮のための画像符号化方式の開発、実用化が盛んに行われている。例えば、画像を小さいブロックに分割して、ブロック内画素を互いに無相関な軸へ変換することにより冗長性を取り除く変換符号化、あるいは、ブロック内の画素から構成されるベクトルを代表ベクトルに写像して、その代表ベクトルの番号を符号化データとするベクトル量子化等様々な符号化方式が存在する。しかしながら、前記、変換符号化、ベクトル量子化に代表される従来の符号化方式は、総括すると、画像における輝度、色、あるいは、色差などの空間的な変化そのものを忠実に再現することを目的とした、
波形符号化に分類されるものであり、その符号化効率には限界がある。例えば、画像通信において、６４Ｋｂｐ
ｓ（ｂｐｓ：ビットパーセカンド、１秒間に送ることのできるビット数）の伝送路で動画を送る場合、波形符号化では、一般のテレビ放送と比較して、動き、画質とも満足のいくものではない。そこで、最近、従来のデータ圧縮の考え方を大きく転換させ、高画質、高効率を目指した分析・合成符号化と呼ばれる画像符号化方式が研究されている。分析・合成符号化は波形符号化の限界を越えるものとして注目されはじめており、近年においては、特に、テレビ電話、テレビ会議等への応用を目指して、人間の顔画像の分析・合成符号化の研究が盛んに行われている。顔画像の分析・合成符号化においては、符号化側と復号化側で、同じ顔画像の３次元モデルを所有し、符号化側では、各画素値の集合として与えられる顔画像データを分析して、３次元モデルに対する変形情報を抽出し、符号化データとする。一方、復号化側では、
前記符号化データ、即ち、３次元モデルの変形情報に基づき、予め所有する３次元モデルを変形させ、輝度や色データを付加して、顔画像を再生する。

【０００３】さて、従来、顔画像を対象としたこの種の分析・合成符号化方式の概念を示したものとしては、例えば、信学論Ｂ−１Ｖｏｌ．Ｊ７２−Ｂ−１Ｎｏ．
３（１９８９）相澤・原島・斉藤「構造モデルを用いた画像の分析合成符号化方式」に示されたものがある。図４は、前記引用例に示されている図を、本発明との比較を容易にするために修正して示したものである。図において、顔原画像４０１はカメラ、スキャナ等の画像入力装置から入力される人間の顔画像、表情分析４０２は、
前記顔原画像４０１を入力データとし、表情を分析する。表情パラメータ変換４０３では、前記表情分析４０
２の出力データに基づき、３次元モデル４０５ａを基準とした時の表情パラメータ４０４を抽出し、符号化データとして出力する。一方、復号化側では、まず、受け取った符号化データ、即ち、表情パラメータ４０４に基づき、モデル変形４０６において３次元モデル４０５ｂを変形させる。さらに、輝度・色付加４０７では、変形後のモデル画像に対して、画素毎に輝度・色をつけ、表示するための復号画像４０８が生成される。

【０００４】次に動作について説明する。

【０００５】図４において、画像入力装置等から入力された人間の顔原画像４０１は、いわゆる、ビットマップ画像と呼ばれるものであり、画像を構成する各画素毎に画素値を持った、圧縮されていない状態のデジタル画像である。この顔原画像４０１は、次段の表情分析４０２
において、まず、フィルタリング処理等を用いたノイズ除去、輝度や色や顔の大きさ等の正規化、顔輪郭線の抽出、あるいは、目、眉、鼻、口などの、顔を構成する各要素の抽出処理が行われる。次に、抽出された各要素の相対位置関係、輪郭線との相対位置関係、あるいは、各要素の大きさ等の情報を用いて、表情の分析が行われる。表情の種類としては、例えば、典型的なものとして、無表情（中立）、喜び、怒り、驚き、哀しみ、恐れ、嫌悪などがあるが、ここでは、「表情」を広義にとらえ、瞳の向きやまばたき、あるいは頭部全体の動き等についても含むものとする。ただし、現時点においては、前記の喜怒哀楽等の表情を認識することはむづかしい状況であるため、顔の各要素毎に基本となる動きパターンを数種類ずつ決め、その基本パターンを抽出しているのが現状である。たとえば、眉に関する基本パターンとしては、（１）眉の内側を上げる、（２）眉の外側を上げる、（３）眉を下げる、などがある。さて、上記のようにして求められた表情分析データは、次に表情パラメータ変換４０３において、３次元モデル４０５ａの変形パラメータに変換される。３次元モデル４０５ａは、
ワイヤー（線分）によって形状を表現する、例えば、図５に示したようなワイヤーフレームモデルが使用される。各ワイヤーの始点、終点の座標は、予め、入力される顔原画像４０１に適合するように、拡大、縮小、平行移動、回転等によって変換されている。即ち、顔原画像４０１と図５のワイヤーフレームモデルは、重なるように変換されており、当然のことながら、復号化側に対しても同様の変換情報が送られて３次元モデル４０５ｂ
は、３次元モデル４０５ａに全く等しく変形されている。この状態において、前記表情分析４０２から表情分析データが送られてくると、表情パラメータ抽出４０３
では、表情分析データを３次元モデル４０５ａ用の変形パラメータに変換し、その変形のための表情パラメータ４０４を最終的な符号化データとする。一方、復号化側では、まず、前記表情パラメータ４０４によって、３次元モデル４０５ｂを変形させることにより、３次元モデル４０５ｂの表情を変更する。即ち、図５におけるワイヤーフレームモデルの座標点が変換される。輝度・色付加４０７においては、変形されたワイヤーフレームモデルの各パッチ（線分によって囲まれる平面、あるいは曲面）に対応した、輝度、色等の変形前の画素情報をピックアップして、ワイヤフレームモデルにはりつけ、最終的な復号画像４０８を得る。さて、上記においては、符号化側から復号化側へ伝送される情報は３次元モデル変形用の表情パラメータ４０４のみでよく、極端に送信データの圧縮が実現できる。なお、これは、文字の場合にあてはめると、文字の原画像をそのまま送る場合と、文字を認識してそのコード情報を送る場合に相当する。

【０００６】さらに、以上の従来例においては、画像のみについて説明したが、実際のシステム、例えば、テレビ電話、テレビ会議等においては、画像とともに、音声の伝送も不可欠であり、符号化方式は個々独立であっても、両者は切り放して考えるべきものではない。

【０００７】

【発明が解決しようとする課題】従来の顔画像符号化方式は、以上のように処理されており、それだけでも、もちろん、有効な方式である。しかしながら、画像システムを構築する場合において、画像からは切り放して考えることのできない音声を、全く別のものとしてとらえ、
両者、即ち、画像と音声の間にある相関性を全く利用していないため、さらなるデータ圧縮の高効率化を見逃してしまっている。相関の存在とは、即ち、さらなるデータ圧縮の可能性があることに等しい。

【０００８】

【課題を解決するための手段】本発明は、音声の認識・
合成符号化課程において発生する情報、即ち、音声認識情報を、画像の分析合成符号化課程における３次元モデルの変形情報として利用する。

【０００９】

【作用】２次元情報である画像からの表情解析処理の一部が、１次元情報である音声からの認識処理に置き代わるため、表情解析における処理時間が大幅に短縮される。

【００１０】

【実施例】（実施例１）以下、この発明の実施例について図面を参照しながら説明する。

【００１１】図１は本発明の第１の実施例における顔画像符号化方式の処理を示したブロック図である。図において、顔原画像４０１はカメラ、スキャナ等の画像入力装置から入力される人間の顔画像、表情分析４０２は、
前記顔原画像４０１を入力データとし、表情を分析する。表情パラメータ変換４０３では、前記表情分析４０
２の出力データ、および、後記口形状パラメータ１０５
に基づき、３次元モデル４０５ａを基準とした時の表情パラメータ４０４を抽出し、符号化データとして出力する。一方、復号化側では、まず、受け取った符号化データ、即ち、表情パラメータ４０４に基づき、モデル変形４０６において３次元モデル４０５ｂを変形させる。さらに、輝度・色付加４０７では、変形後のモデル画像に対して、画素毎に輝度・色をつけ、表示するための復号画像４０８が生成される。一方、音声系において、原音声１０１はマイク等から入力される人間の音声、特徴抽出１０２は前記原音声１０１から認識に必要な特徴量を抽出する。音素認識１０３では、前記特徴抽出１０２の出力をもとに、音素を認識する。音素認識結果１０６は口形状パラメータ変換１０４において、３次元モデルの口、あるいは、口周辺を変形させるための口形状パラメータ１０５に変換され、モデル変形４０６で使用される。一方、前記音素認識１０３における音素認識結果１
０６は、音声合成１０７で逆に合成され、再生音声１０
８として出力される。

【００１２】次に動作について説明する。

【００１３】図１において、画像系の処理順序は従来例の場合と殆ど同様であるので、個々の動作説明は省略する。以下、本発明が従来例と大きく異なる点、即ち、画像と音声の間に存在する相関性を利用して画像の符号化を行う点を中心に説明する。一般に、音声情報と画像情報は、それぞれ独立した情報源として考えられ、ゆえに、データ圧縮の分野においても、これまでは独立に符・復号化処理されていた。例えば、風景画面を音楽とともに映し出すテレビ画像を考えた場合、風景そのものと、同時に流される音声との間には、通常全く関連性はない。しかしながら、ある状況下においては、画像と音声の間に相関性が生ずる場合がある。例えば、人間が話している画像などが前記相関が生ずる場合に相当する。
即ち、図２に示すように、無表情の時には閉じていた唇が、「あ」という音声を発する時には「あ」という口形状に、また、「い」という音声を発する時には「い」という口形状に変形する。従って、音声情報から音素を認識すれば、その認識情報を使用して顔画像における口形状を変形させることができる。

【００１４】図１において、特徴抽出１０２は、マイク等から入力された原音声１０１を、ある一定の間隔で周波数分析し、音素の特徴を抽出する。なお、ここで言う「音素」とは、音韻や音節などの総称である。また、特徴抽出１０２では、音声の有無を判別し、音声が存在する時のみ音素の特徴抽出を行う。次に、音素認識１０３
では、前記特徴抽出１０２で得られた音素の特徴を、予め決めてある音素の標準パターンと比較して音素を認識する。音素の標準パターンは、個人差があるため、話者に応じて適応的に学習、書換えが行われる場合もある。
音素認識結果１０６には、例えば、５０音の他に継続時間、音の高低、強弱、あるいは、包絡線等の音韻的な情報も含まれる。こうして得られた音素認識結果１０６
は、従来、表情分析４０２、および、表情パラメータ変換４０３の処理を経て抽出された表情パラメータ４０４
の一部として、モデル変形４０６に送られ、３次元モデル４０５ｂを変形させる。輝度、色付加４０７において、変形後のモデルに輝度、色等の画素値をはり付け、
復号画像４０８とするのは従来例の場合と全く同様である。また、音素認識結果１０６は、復号側に送られ、音声合成１０７において合成され、再生音声１０８となってスピーカ等から出力される。

【００１５】（実施例２）図３は、本発明の第２の実施例における顔画像符号化方式の処理を示したブロック図である。

【００１６】本実施例が上記第１の実施例と相違する点は、上記第１の実施例が、前記音素認識１０３、口形状パラメータ変換１０４の処理を経て抽出された口形状パラメータ１０５を、直接３次元モデルの変形に使用するのに対して、本実施例では口形状パラメータ１０５から、３次元モデルの口周辺を局部的に変形させ、原画像との差分をとり、この差分から３次元モデルの変形量、
即ち、口周辺の表情パラメータ４０４の補正値を求めるようにした点である。図３において、口形状パラメータ１０５はモデル局部変形１０９によって、３次元モデルの口周辺を局部的に変形させ、顔原画像４０１との間で差分が取られる。この差分は実際の顔原画像４０１と、
復号画像の間の差であるから、両者は小さい方が好ましい。そこで、既に求められている表情パラメータに対する補正値を、口形状パラメータ予測１１０において前記差分から予測し、補正後の表情パラメータを最終的な表情パラメータ４０４とする。以下、第１の実施例と同様な処理が行われる。

【００１７】なお、以上説明した本発明による実施例の動作は、顔原画像に付随する音声情報が存在する場合のものであり、音声情報が存在しない場合には、顔の目や鼻等の他の部分と同様、顔原画像から表情分析されて口形状パラメータが求められる。上記の動作の切り替えは、音声情報の有無を検出する特徴抽出１０２がこれを行う。

【００１８】

【発明の効果】以上説明したように本発明によれば、２
次元空間情報としての顔画像の表情分析に比べ、１次元情報として処理の容易な音声認識の結果を利用して、３
次元モデルにおける口形状の変形を行うため、顔画像の符号化、具体的には、表情分析に要する時間が大幅に短縮される。さらに、第２の実施例では、上記の効果に加えて、より原画像に近い画像の再現が可能となる。

【００１９】なお、上記では、３次元モデルを使用する場合を例にとり説明したが、２次元モデルであっても同様の効果が得られる。

【００２０】また、上記本発明による実施例において、
音声認識は、音声自体の符号化、伝送のために存在するものであるため、画像と音声の両方を扱うシステムであれば、負担になるものではない。あるいは、上記では、
音声の符号化方式として音声認識、合成による方法を例にとったが、音声合成が存在せず音声認識処理のみの場合でも本発明の効果は変わらない。この場合、音声自体は別の符号化方式、たとえば、波形符号化等を用いて符号化してもよい。さらに、上記では、画像符号化方式として、分析合成符号化のみを使用する場合を例にとったが、従来の波形符号化方式と分析合成符号化方式を組み合わせた混合方式であっても、同様の効果が得られる。

【図面の簡単な説明】

【図１】本発明の第１の実施例による顔画像符号化方式の処理ブロックを示した図である。

【図２】本発明の第１の実施例による顔画像符号化方式において、音声と画像の相関を直感的に説明した図である。

【図３】本発明の第２の実施例による顔画像符号化方式の処理ブロックを示した図である。

【図４】従来例における顔画像符号化方式の処理ブロックを示した図である。

【図５】従来例、および、本発明の実施例における顔画像符号化方式の３次元モデル用ワイヤーフレームモデルを示した図である。

【符号の説明】

１０１原音声１０２特徴抽出１０３音素認識１０４口形状パラメータ変換１０５口形状パラメータ１０６音素認識結果１０７音声合成１０８再生音声１０９モデル局部変形１１０口形状パラメータ予測４０１顔原画像４０２表情分析４０３表情パラメータ変換４０４表情パラメータ４０５３次元モデル４０６モデル変形４０７輝度・色付加４０８復号画像

标题	发布/更新时间	阅读量
车辆和车辆系统	2020-05-12	345
用于用户与计算机系统之间通信的方法和系统	2020-05-08	184
一种商品知识图谱的构建方法	2020-05-12	784
机器人动画表情实现方法、装置及存储介质	2020-05-11	818
具有用于广域广播的延迟管理的视听协作方法	2020-05-16	301
地理位置定位方法、系统、计算机设备和存储介质	2020-05-12	638
反应性简档肖像	2020-05-15	408
一种基于深度学习的肢体语言检测与行为分析方法及系统	2020-05-12	48
一种评论扩展方法及系统	2020-05-15	484
端末装置に適用される情報生成方法および装置	2020-05-16	27

Face picture coding system

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：