Translingual combination of visual voice专利检索-面部动画计算机图形学电脑图像专利检索查询-专利查询网

Translingual combination of visual voice

阅读：728发布：2020-07-31

专利汇可以提供Translingual combination of visual voice专利检索，专利查询，专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a computer packaging method in which audio driving type face animation is generated employing a voice recognition system for only one language in a system that is independent of language.
SOLUTION: The method is based on the recognition in which mapping and animation are practically independent of language after matching is generated. When a first step of matching generation is made independent of voice, translingual combining of visual voice is achieved. In this method, the video is combined with any new language voice to be inputted if a voice recognition system for a base language exists.
COPYRIGHT: (C)2001,JPO，下面是Translingual combination of visual voice专利的具体信息内容。

权利要求

【特許請求の範囲】

【請求項１】第２の言語による音声認識システムを利用して、第１の言語による所与のオーディオ信号から視覚的音声をトランスリンガルに合成する方法であって、前記第１の言語の入力オーディオおよびテキストを受け取るステップと、前記第２の言語の前記音声認識システムおよびそれ自体の音セットを使用して音境界に基づく表音整合を生成し、前記第２の言語の音から前記第１の言語の音に変換するためのマッピングを行って前記第１の言語の音セットで効果的な整合を得るステップと、音ヴァイジーム・マッピングを行って対応するヴァイジーム整合を得て、前記整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスを生成するステップと、ヴァイジーム画像の前記シーケンスをアニメートして、
前記第１の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップとを含む方法。

【請求項２】音ヴァイジーム・マッピングを行う前記ステップが、前記第２の言語のヴァイジーム・データベースを使用して行われる、請求項１に記載の視覚的音声をトランスリンガルに合成する方法。

【請求項３】音ヴァイジーム・マッピングを行う前記ステップが、前記第１の言語のヴァイジーム・データベースを使用して行われる、請求項１に記載の視覚的音声をトランスリンガルに合成する方法。

【請求項４】ベース言語と呼ばれる第２の言語の音声認識システムを使用して、新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、前記新規言語のオーディオ音声信号と前記ベース言語の音との間に対応関係があるかどうかを判定するステップと、前記新規言語の語をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップとを含む方法。

【請求項５】前記新規言語のオーディオ・データと前記ベース言語の音素との間に対応関係がない場合に、前記新規言語の音に最もよく合致する、前記ベース言語の最も近い音を検出するステップをさらに含む、請求項４に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【請求項６】表音上最も近い音が選択される、請求項５
に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【請求項７】ヴァイジームからみて最も近い音が選択される、請求項５に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【請求項８】前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙の表音語との時間整合を生成するステップをさらに含む、請求項５に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【請求項９】前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を生成するステップをさらに含む、請求項８に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【請求項１０】前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を使用して、前記第１の言語の前記顔アニメーション・システムにおいて、アニメートされたビデオを生成するためにビデオ・アニメーション中で画像を駆動するステップをさらに含む、請求項９に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

说明书全文

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般に視覚的音声の合成に関し、より詳細には、異なる言語の音声認識システムおよびヴァイジーム（viseme）を使用して、任意の言語によるオーディオ駆動型の顔アニメーション・システムを実施する方法に関する。

【０００２】

【従来の技術】関連出願の相互参照本出願の主題は、米国特許出願第０９／３８４７６３号に関する。米国特許出願第０９／３８４７６３号の開示を参照により本明細書に組み込む。

【０００３】ヒューマン・コンピュータ対話の分野で、
オーディオ駆動型の顔アニメーションは、興味深く、かつ進化しつつある技術である。ヒューマン・コンピュータ・インタフェースでは、自然でフレンドリなインタフェースの実現が非常に重要である。マシンとの情報対話のための入力手段として、音声認識およびコンピュータ読唇が開発されてきた。また、情報をレンダリングするための自然で使いやすい手段を提供することも重要である。この点に関連して、視覚的音声の合成が非常に重要である。というのは、これは、非常に現実的に見える様々なアニメーテッド・コンピュータ・エージェントを実現することができるからである。さらにこれは、遠距離学習アプリケーションに使用して、ビデオの伝送を不要にすることもできる。またこれは、聴覚障害者が聴覚情報の不足を補うための有用な道具にもなり得る。

【０００４】テキストがシステムに入力されれば音声を合成する技術は存在する。これらのテキスト音声合成器は、発音されることになるテキストの表音整合を作成し、次いで、対応する音へのスムーズな変換を生成して所望の文を得ることによって機能する。 RE Donovan
およびEM Eideの「The IBM Trainable Speech Synth
esis System」, International Conference on Speech
and Language Processing, 1998を参照されたい。２モードの音声認識における最近の研究は、オーディオとそれに対応するビデオ信号とが有する依存性を活用して音声認識の正確度を向上させることができることを利用する。 T. ChenおよびRR Raoの「Audio-Visual Integra
tion in Multimodal Communication」, Proceedings of
the IEEE, vol. 86, no. 5, May 1998, pp. 837〜852
と、ED Petajan、B. Bischolf、D.Bodolf、およびN.
M. Brookeの「An Improved Automatic Lipreading Sys
tem toEnhance Speech Recognition」, Proc. OHI, 199
8, pp. 19〜25を参照されたい。ビデオ空間からオーディオ空間にスコアを変換するには、ヴァイジームから音素へのマッピングが必要とされる。このようなマッピングと、テキスト音声合成を利用して、テキスト・ビデオ合成器を構築することができる。この合成すなわち顔アニメーションは、アプリケーションの希望に応じて、テキストでも音声オーディオでも駆動することができる。
後者の場合、表音整合は、話される語を表す本物の語のストリングを利用してオーディオから生成される。

【０００５】研究者らは、所与のオーディオ信号から視覚的音声を合成する様々な方式を試みてきた。最も単純な方法では、ベクトル量子化が使用されて音響ベクトル空間がいくつかのサブスペース（一般に音の数と等しい）に分割され、各サブスペースの図心が、異なるヴァイジームにマッピングされる。合成時間中に、入ってきたオーディオ・ベクトルに対して最も近い図心が検出され、対応するヴァイジームが出力として選択される。 F.
Lavagetto、Arzarello、およびM. Caranzanoの「Lipre
adable Frame Automation Driven by Speech Parameter
s」, International Symposium on Speech, Image Proc
essing and Neural Networks, 1994, ISSIPNNでは、次のようにオーディオ機能とビデオ機能を両方とも使用して訓練された隠れマルコフ・モデル（ＨＭＭ、Hidden M
arkov Model）が使用されている。訓練期間中、ビタビ・アルゴリズムを使用して、所与の音声に対する最尤Ｈ
ＭＭ状態シーケンスが得られる。このとき、所与のＨＭ
Ｍ状態に対し、対応するすべての画像フレームが選択され、それらの視覚パラメータの平均がそのＨＭＭ状態に割り当てられる。合成時には、ビタビ復号を使用して、
入力音声が最尤ＨＭＭシーケンスに整合される。最尤Ｈ
ＭＭ状態シーケンスに対応する画像パラメータが検索され、この視覚パラメータ・シーケンスが、適切な平滑化によってアニメートされる。

【０００６】最近では、ヴァイジーム・ベースのＨＭＭ
を使用し、かつオーディオ信号からヴァイジーム整合を生成する新しい方式が、米国特許出願第０９／３８４７
６３号に記載されている。この手法では、所与のヴァイジームに対応するすべてのオーディオ・ベクトルが、単一のクラスにマージされる。この場合、このヴァイジーム・ベースのオーディオ・データを使用して、ヴァイジーム・ベースのオーディオＨＭＭが訓練される。合成時間中は、入力音声がヴァイジーム・ベースのＨＭＭ状態シーケンスと整合される。この場合、これらヴァイジーム・ベースのＨＭＭ状態シーケンスに対応する画像パラメータが、必要な平滑化によってアニメートされる。 T.
EzzaiおよびT. Poggioの「Miketalk: A Talking Facia
l Display Based on Morphing Visemes」, Proceedings
of IEEE Computer Animation '98, Philadelphia, PA,
June 1998, pp. 96〜102も参照されたい。

【０００７】前述のすべての手法では、合成に必要な入力音声の整合を生成するのに使用される音声認識システムを訓練することが必要である。さらに、これらの手法では、オーディオを提供するのに使用される言語の音声認識システムが、オーディオ信号の表音シーケンスに対して時間整合を得ることが必要である。しかし、音声認識システムの構築は、非常に単調で時間のかかる作業である。

【０００８】

【発明が解決しようとする課題】したがって、本発明の一目的は、ただ１つの言語、例えば英語に対する音声認識システムがある場合に言語独立のオーディオ駆動型顔アニメーション用システムを実施する、新しい方式を提供することである。同じ方法を、テキスト・オーディオビジュアル音声合成に使用することもできる。

【０００９】

【課題を解決するための手段】本発明は、整合が生成された後はマッピングおよびアニメーションにほぼどんな言語依存性もないという認識に基づく。整合生成の第１
ステップを音声独立にすることができれば、視覚的音声のトランスリンガル（translingual）な合成を達成することができる。以下に、視覚的音声のトランスリンガルな合成を実施する方法を提案する。すなわち本発明は、
ある言語（ベース言語）用の音声認識システムがあれば、ビデオを、入力としての他のどんな言語（新規言語）の音声とも合成する方法を提供する。

【００１０】

【発明の実施の形態】本発明によるトランスリンガルな合成を理解するために、まず、シーケンスをアニメートするのに必要なステップを以下に呈示する。

【００１１】１．所与の入力オーディオおよび本物のテキストから表音整合を生成する。これには、テキストの表音ベース形を理解することのできる音声認識エンジンが必要とされる。これは、入力オーディオが、認識システムの訓練に使用された言語と同じ言語である場合にうまく機能することになる。

【００１２】２．ビデオの合成に使用すべき言語が異なる言語である場合は、その異なる言語の音セットは、訓練された言語以外のものである可能性がある。しかし、
整合生成システムは、それ自体の音素セットを使用して、最良の音境界に基づく整合を生成する。次いで、新規言語の音セットにおける効果的な整合を得るために、
一方の言語からの音を他方の言語の音に変換することのできるマッピングが必要である。

【００１３】３．次いで、音ヴァイジーム・マッピングを使用して、対応するヴァイジーム整合を得ることができる。この整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスが生成される。

【００１４】４．ヴァイジーム画像のシーケンスをアニメートして、入力オーディオ信号と整合された所望のビデオ合成出力を得る。

【００１５】本発明は、ある言語の音声認識システムを利用して、任意の言語による所与のオーディオ信号から視覚的音声を合成する、新しい手法を提供する。これ以後、音声認識システムを訓練する言語をベース言語と呼び、ビデオの合成に使用すべき言語を新規言語と呼ぶ。
例では、新規言語にヒンディー語を、ベース言語に英語を選択した。

【００１６】新規言語の語が整合ジェネレータに呈示される場合、整合ジェネレータは、そのような語が訓練システムの表音語彙中にないために、その語に対して整合を生成することができないことになる。さらに、新規言語の語の表音スペルが、ベース言語の表音セットでは完全に表されない可能性がある。以下に、これらの問題を克服して、最終的に言語独立の整合生成システムを得る技法を呈示する。このシステムは、ベース言語用の訓練済み整合生成システムおよびヴァイジーム画像を有することになるが、任意の言語のオーディオ入力に対してアニメーションを生成するように機能させることができる。

【００１７】語彙適応レイヤ新規言語の語に対する整合を生成するために、この言語の表音語彙が最初に作成されるが、この中で語は、新規言語の音セットを使用した表音ベース形で表される。認識システムはベース言語の音セットに対して訓練されているため、これらの語が今度はベース言語の音セットでベース形を表すように、語彙を修正する必要がある。このような修正は、語彙修正レイヤ（Vocabulary Modific
ation Layer）によって可能にされる。このレイヤは、
一方の言語の音セットから他方の言語へのマッピングを使用することによって機能する。例示のために、ヒンディー語の音から英語の音へのマッピングを表１に示す。表１．ヒンディー語から英語への音素マッピング

【表１】

【００１８】表１には、ヒンディー語の音から英語の音セットへのマッピングの一例が示されている。見れば分かるように、英語の音のすべてがこの新規言語に使用されるわけではない。また、多数の音には、厳密な１つのマッピングが存在する。これらは、その行にアスタリスク３つ（＊＊＊）を付けて示す。行にアスタリスクが２
つ（＊＊）あるのは、そのマッピングが厳密ではないが、音響上最も近いマップであることを意味する。マッピング中にアスタリスクが１つ（＊）あるのは、音響上の類似性から、新規言語の音が英語からの２つ以上の音（または音素）の繋がりに近いものとされていることを示す。

【００１９】以下の３つの場合があり得る。

【００２０】１．新規言語の語がベース言語の音で表せる。このような語の場合、ベース形は、単純にベース言語の音セットを使用して書くことができる。

【００２１】２．新規言語の語がベース言語の音セットで表せない。この場合、この語は新規言語の音セットで書かれ、表１にあるようなマッピングを使用して、ベース形がベース言語に変換される。

【００２２】３．ベース言語の音が新規言語の語にまったく現れない。このような場合、ベース言語のこの特定の音は余分であり、「配慮しない」として残される。

【００２３】音響整合によって最良の音境界を生成することが音セットをマッピングする目的であるため、マッピングは、類似する響きを有する音に基づく。すなわち、新規言語の音に関連付けることのできる、厳密に類似する音がベース言語中にない場合は、音響上類似するベース言語音が選択される。ただし両方とも、異なるヴァイジームにマッピングすることができる。

【００２４】前述の語彙修正レイヤは、新規言語オーディオのベース言語整合を生成する際に役立つ。次に、どのようにベース言語ヴァイジーム整合を抽出するかを述べる。

【００２５】ヴァイジーム整合の生成このシステムは、ベース言語の訓練済み整合ジェネレータ、音ヴァイジーム・マッピング、およびヴァイジーム・セットを使用して、どんな新規言語に対しても機能しなければならないため、ヴァイジーム整合は、従来生成されているように表音整合から単純に生成することはできない。上に示したように、語彙修正レイヤは、音響上類似する音に基づくマッピングを基礎としていた。しかし、このマッピングは、このような各音に対応するヴァイジームを考慮していないため、ヴァイジーム整合を歪める可能性がある。したがって、ベース言語の音セットで新規言語の語を表す追加の語彙が作成される。これには、表１のマッピングは使用されない。同じ行にある２
つの音のヴァイジーム類似性に基づくマッピングが使用される。この追加の語彙、ベース言語の整合、およびベース言語の音ヴァイジーム・マッピングを使用して、ヴァイジーム整合が得られる。このヴァイジーム整合を使用して、アニメートされたビデオ・シーケンスが生成される。マッピングは１対１ではない。したがって、ベース言語の単一の音が新規言語の２つ以上の音を表す場合がある。しかし、語彙修正レイヤが多対１のマッピングを考慮した後に新規言語で出力するため、このことは矛盾を生じない。

【００２６】また、アプリケーションはアニメーションの目的でヴァイジーム整合を使用するため、あるヴァイジームから別のヴァイジームへのモーフィングも行われる。したがって、表１で＊＊および＊で表された音が不正確にマッピングされたために、生成された整合が厳密な音境界を表さない場合があるが、これは、これらの境界中でヴァイジームが常に遷移しているため、アニメートされたビデオ中では目に留まらない。したがって、どんな不正確な音境界も反映しない、スムーズで連続的なビデオが生成される。

【００２７】図面の説明ここで図面、特に図１を参照すると、ベース言語のヴァイジーム・データベースを有するアニメーション・システムのブロック図が示されている。最初に、ベース言語によって修正された語彙を使用して、ベース言語で表音整合が生成される。新規言語のオーディオまたはテキストが表音整合ジェネレータ１０１に入力され、この表音整合ジェネレータは、表音語彙修正機構１０２から対応するベース言語の表音語Ｖｏｃａｂ ^P _Bを受け取る。表音整合ジェネレータ１０１の出力はＡｌｉｇｎｍｅｎｔ ^P _B
であり、次いでこれは、ヴァイジーム整合ジェネレータ１０３を使用することによって、ベース言語ヴァイジーム整合に変換される。このヴァイジーム整合ジェネレータは、ヴァイジーム語彙修正機構１０４を使用して訂正を取り込むことによって形成された、ベース言語のヴァイジーム語彙Ｖｏｃａｂ ^V _Bを使用する。このヴァイジーム語彙修正機構は、ベース言語から新規言語への、ヴァイジームからみた類似のマッピングを使用して、Ｖｏｃ
ａｂ ^V _Bを生成する。次いで、生成されたベース言語ヴァイジーム整合Ａｌｉｇｎｍｅｎｔ ^V _Bを使用して、アニメートされたビデオを生成するためにヴァイジーム画像がビデオ・アニメーション１０５中で駆動される。

【００２８】本発明の代替実施形態では、ヴァイジーム・セットが新規言語用に利用可能な場合、その言語の音ヴァイジーム・マッピングを使用してヴァイジーム整合を直接与えるように下位レイヤを修正することができる。この場合、ベース言語で生成された表音整合は、２
つの言語中の対応する語彙エントリを使用することによって新規言語に変換される。次いで、新規言語の音素ヴァイジーム・マッピングが適用される。このように生成されるヴァイジーム整合は新規言語によるものであり、
これはヴァイジームがベース言語ではなくその言語で利用可能なために望まれたものであることに留意されたい。

【００２９】図２は、新規言語のヴァイジーム・データベースを有するアニメーション・システムのブロック図である。図１と同様、最初に、ベース言語によって修正された語彙を使用して、ベース言語で表音整合が生成される。新規言語のオーディオまたはテキストが表音整合ジェネレータ２０１に入力され、この表音整合ジェネレータ２０１は、表音語彙修正機構２０２から対応するベース言語の表音語Ｖｏｃａｂ ^P _Bを受け取る。表音整合ジェネレータ２０１の出力はＡｌｉｇｎｍｅｎｔ ^P _Bであり、次いでこれは、ヴァイジーム整合ジェネレータ２０
３中で変換される。ベース言語の表音整合は、ベース言語のヴァイジーム語彙Ｖｏｃａｂ ^V _Nに加えて新規言語の語彙Ｖｏｃａｂ _Nを使用して、新規言語ヴァイジーム整合に変換される。次いで、新規言語ヴァイジーム整合Ａ
ｌｉｇｎｍｅｎｔ ^V _Nを使用して、アニメートされたビデオを生成するために画像（新規言語のヴァイジームを表す）がビデオ・アニメーション２０４中で駆動される。

【００３０】図３は、ベース言語の音素セットを使用した変形体で表された新規言語の語を有する語彙を作成するのに使用されるプロセスの流れ図である。このような語彙を使用して、表音整合が生成される。新規言語ｌａ
ｎｇ _N中の各語について、それがベース言語ｌａｎｇ _B中に存在するかどうかが決定ブロック３０１中で判定される。存在する場合は、機能ブロック３０２で、その語がとる特定のベース形が選択される。次いでその語は、機能ブロック３０３でベース言語の語彙中にコピーされる。一方、その語がベース言語中に存在しないと決定ブロック３０１で判定された場合は、それが語彙に書き込めるようになる前にベース形表現が必要となる。決定ブロック３０４で、語彙が２つの言語の表音類似性に基づくべきかヴァイジーム類似性に基づくべきかが判定される。表音類似性が使用される場合は、機能ブロック３０
５で、表音類似マッピングを使用した対応する変形体がベース言語ｌａｎｇ _Bから選択される。一方、ヴァイジーム類似性が使用される場合は、機能ブロック３０６
で、ヴァイジーム類似音素セットがベース言語から選択されて、新規言語の語からベース言語の語への変換が行われる。機能ブロック３０３で、ベース言語に近づけられたこの語の表現が書き込まれ、ベース言語語彙が形成される。このように生成されたこれらの表音／ヴァイジーム語彙は、次いで、図１および２に示したようにアニメーションに使用される。

【００３１】

【発明の効果】本発明を使用する利点は、視覚的音声を合成するのに使用すべき言語と同じ言語用の音声認識エンジンを構築する必要がないことである。いずれか所与の言語用の音声認識システムがあれば、２層のレイヤを容易かつ迅速にカストマイズして、他のどんな言語でも合成ビデオを得ることができる。さらに、ヴァイジーム画像もまた、整合生成システムの構築に使用されている言語のものだけがあればよく、したがって、言語ごとに毎回新しいヴァイジーム画像を生成する必要が除去される。このシステムはまた、代替手法に示したように、新規言語がベース言語のヴァイジームと完全に異なるヴァイジームを有する場合にも機能する。同様に、テキスト・オーディオビジュアル音声合成の場合も、合成を行うのに使用しなければならない言語と同じ言語のテキスト音声合成器は必要ない。

【００３２】まとめとして、本発明の構成に関して以下の事項を開示する。

【００３３】（１）第２の言語による音声認識システムを利用して、第１の言語による所与のオーディオ信号から視覚的音声をトランスリンガルに合成する方法であって、前記第１の言語の入力オーディオおよびテキストを受け取るステップと、前記第２の言語の前記音声認識システムおよびそれ自体の音セットを使用して音境界に基づく表音整合を生成し、前記第２の言語の音から前記第１の言語の音に変換するためのマッピングを行って前記第１の言語の音セットで効果的な整合を得るステップと、音ヴァイジーム・マッピングを行って対応するヴァイジーム整合を得て、前記整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスを生成するステップと、ヴァイジーム画像の前記シーケンスをアニメートして、前記第１の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップとを含む方法。（２）音ヴァイジーム・マッピングを行う前記ステップが、前記第２の言語のヴァイジーム・データベースを使用して行われる、上記（１）に記載の視覚的音声をトランスリンガルに合成する方法。（３）音ヴァイジーム・マッピングを行う前記ステップが、前記第１の言語のヴァイジーム・データベースを使用して行われる、上記（１）に記載の視覚的音声をトランスリンガルに合成する方法。（４）ベース言語と呼ばれる第２の言語の音声認識システムを使用して、新規言語と呼ばれる第１の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、前記新規言語のオーディオ音声信号と前記ベース言語の音との間に対応関係があるかどうかを判定するステップと、前記新規言語の語をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップとを含む方法。（５）前記新規言語のオーディオ・データと前記ベース言語の音素との間に対応関係がない場合に、前記新規言語の音に最もよく合致する、前記ベース言語の最も近い音を検出するステップをさらに含む、上記（４）に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。（６）表音上最も近い音が選択される、上記（５）に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。（７）ヴァイジームからみて最も近い音が選択される、
上記（５）に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。（８）前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙の表音語との時間整合を生成するステップをさらに含む、上記（５）
に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。（９）前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を生成するステップをさらに含む、上記（８）に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。（１０）前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を使用して、前記第１の言語の前記顔アニメーション・システムにおいて、アニメートされたビデオを生成するためにビデオ・アニメーション中で画像を駆動するステップをさらに含む、上記（９）に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

【図面の簡単な説明】

【図１】ベース言語のヴァイジーム・データベースを有するアニメーション・システムを示すブロック図である。

【図２】新規言語のヴァイジーム・データベースを有するアニメーション・システムを示すブロック図である。

【図３】ベース言語のベース形を使用した新規言語の語を有する語彙を作成するプロセスを示す流れ図である。

【符号の説明】

１０１表音整合ジェネレータ１０２表音語彙修正機構１０３ヴァイジーム整合ジェネレータ１０４ヴァイジーム語彙修正機構１０５ビデオ・アニメーション２０１表音整合ジェネレータ２０２表音語彙修正機構２０３ヴァイジーム整合ジェネレータ２０４ビデオ・アニメーション

───────────────────────────────────────────────────── フロントページの続き (72)発明者タンヴィー・アフザイ・ファルクイエインドニュー・デリームニルカディー・ディー・エイ・フラッツビー・ジー・６ディー (72)発明者チャパティ・ネティアメリカ合衆国1059 ニューヨーク州ヨークタウン・ハイツハイ・リッジ・コート 235 (72)発明者ニテンドラ・ラジプトインド110028 ニュー・デリーナライナ・ヴィハルジー９ (72)発明者エル・ヴェンカタ・スブラマニアムインド11002 ニュー・デリーサロリニ・ナガル１−344 (72)発明者アシシ・ヴェルマインド110016 ニュー・デリーハウズ・カスサフダルジュング・ディヴェロップメント・エリアシー４／74

标题	发布/更新时间	阅读量
一种使用语音触发虚拟人物表情及口型动画的语音系统	2020-05-13	94
实时的三维眼皮重建方法及装置	2020-05-18	824
使用头戴式显示器内的面部传感器的面部和眼睛跟踪以及面部动画	2020-05-08	700
一种VR虚拟现实动作捕捉系统和动作捕捉方法	2020-05-17	671
实时面部动画的在线建模	2020-05-11	227
级联卷积LSTM的语音驱动唇形同步人脸视频合成算法	2020-05-15	902
FACIAL GESTURE DRIVEN ANIMATION OF NON-FACIAL FEATURES	2020-05-21	962
モーションキャプチャデータを使用する顔面アニメーション	2020-05-26	785
AUGMENTED FACIAL ANIMATION	2020-05-23	357
MÉTODO DE SÍNTESE DE ANIMAÇÃO FACIAL 2D DE FALA EXPRESSIVA	2020-05-20	728

Translingual combination of visual voice

【発明の詳細な説明】

该功能需要专业版企业版VIP权限，您可以：