首页 / 专利库 / 电脑图像 / 计算机图形学 / 面部动画 / Translingual combination of visual voice

Translingual combination of visual voice

阅读:728发布:2020-07-31

专利汇可以提供Translingual combination of visual voice专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a computer packaging method in which audio driving type face animation is generated employing a voice recognition system for only one language in a system that is independent of language.
SOLUTION: The method is based on the recognition in which mapping and animation are practically independent of language after matching is generated. When a first step of matching generation is made independent of voice, translingual combining of visual voice is achieved. In this method, the video is combined with any new language voice to be inputted if a voice recognition system for a base language exists.
COPYRIGHT: (C)2001,JPO,下面是Translingual combination of visual voice专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的音声をトランスリンガルに合成する方法であって、 前記第1の言語の入力オーディオおよびテキストを受け取るステップと、 前記第2の言語の前記音声認識システムおよびそれ自体の音セットを使用して音境界に基づく表音整合を生成し、前記第2の言語の音から前記第1の言語の音に変換するためのマッピングを行って前記第1の言語の音セットで効果的な整合を得るステップと、 音ヴァイジーム・マッピングを行って対応するヴァイジーム整合を得て、前記整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスを生成するステップと、 ヴァイジーム画像の前記シーケンスをアニメートして、
    前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップとを含む方法。
  • 【請求項2】音ヴァイジーム・マッピングを行う前記ステップが、前記第2の言語のヴァイジーム・データベースを使用して行われる、請求項1に記載の視覚的音声をトランスリンガルに合成する方法。
  • 【請求項3】音ヴァイジーム・マッピングを行う前記ステップが、前記第1の言語のヴァイジーム・データベースを使用して行われる、請求項1に記載の視覚的音声をトランスリンガルに合成する方法。
  • 【請求項4】ベース言語と呼ばれる第2の言語の音声認識システムを使用して、新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、 前記新規言語のオーディオ音声信号と前記ベース言語の音との間に対応関係があるかどうかを判定するステップと、 前記新規言語の語をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップとを含む方法。
  • 【請求項5】前記新規言語のオーディオ・データと前記ベース言語の音素との間に対応関係がない場合に、前記新規言語の音に最もよく合致する、前記ベース言語の最も近い音を検出するステップをさらに含む、請求項4に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 【請求項6】表音上最も近い音が選択される、請求項5
    に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 【請求項7】ヴァイジームからみて最も近い音が選択される、請求項5に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 【請求項8】前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙の表音語との時間整合を生成するステップをさらに含む、請求項5に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 【請求項9】前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を生成するステップをさらに含む、請求項8に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 【請求項10】前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を使用して、前記第1の言語の前記顔アニメーション・システムにおいて、アニメートされたビデオを生成するためにビデオ・アニメーション中で画像を駆動するステップをさらに含む、請求項9に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は一般に視覚的音声の合成に関し、より詳細には、異なる言語の音声認識システムおよびヴァイジーム(viseme)を使用して、任意の言語によるオーディオ駆動型の顔アニメーション・システムを実施する方法に関する。

    【0002】

    【従来の技術】関連出願の相互参照本出願の主題は、米国特許出願第09/384763号に関する。 米国特許出願第09/384763号の開示を参照により本明細書に組み込む。

    【0003】ヒューマン・コンピュータ対話の分野で、
    オーディオ駆動型の顔アニメーションは、興味深く、かつ進化しつつある技術である。 ヒューマン・コンピュータ・インタフェースでは、自然でフレンドリなインタフェースの実現が非常に重要である。 マシンとの情報対話のための入手段として、音声認識およびコンピュータ読唇が開発されてきた。 また、情報をレンダリングするための自然で使いやすい手段を提供することも重要である。 この点に関連して、視覚的音声の合成が非常に重要である。 というのは、これは、非常に現実的に見える様々なアニメーテッド・コンピュータ・エージェントを実現することができるからである。 さらにこれは、遠距離学習アプリケーションに使用して、ビデオの伝送を不要にすることもできる。 またこれは、聴覚障害者が聴覚情報の不足を補うための有用な道具にもなり得る。

    【0004】テキストがシステムに入力されれば音声を合成する技術は存在する。 これらのテキスト音声合成器は、発音されることになるテキストの表音整合を作成し、次いで、対応する音へのスムーズな変換を生成して所望の文を得ることによって機能する。 RE Donovan
    およびEM Eideの「The IBM Trainable Speech Synth
    esis System」, International Conference on Speech
    and Language Processing, 1998を参照されたい。 2モードの音声認識における最近の研究は、オーディオとそれに対応するビデオ信号とが有する依存性を活用して音声認識の正確度を向上させることができることを利用する。 T. ChenおよびRR Raoの「Audio-Visual Integra
    tion in Multimodal Communication」, Proceedings of
    the IEEE, vol. 86, no. 5, May 1998, pp. 837〜852
    と、ED Petajan、B. Bischolf、D.Bodolf、およびN.
    M. Brookeの「An Improved Automatic Lipreading Sys
    tem toEnhance Speech Recognition」, Proc. OHI, 199
    8, pp. 19〜25を参照されたい。 ビデオ空間からオーディオ空間にスコアを変換するには、ヴァイジームから音素へのマッピングが必要とされる。 このようなマッピングと、テキスト音声合成を利用して、テキスト・ビデオ合成器を構築することができる。 この合成すなわち顔アニメーションは、アプリケーションの希望に応じて、テキストでも音声オーディオでも駆動することができる。
    後者の場合、表音整合は、話される語を表す本物の語のストリングを利用してオーディオから生成される。

    【0005】研究者らは、所与のオーディオ信号から視覚的音声を合成する様々な方式を試みてきた。 最も単純な方法では、ベクトル量子化が使用されて音響ベクトル空間がいくつかのサブスペース(一般に音の数と等しい)に分割され、各サブスペースの図心が、異なるヴァイジームにマッピングされる。 合成時間中に、入ってきたオーディオ・ベクトルに対して最も近い図心が検出され、対応するヴァイジームが出力として選択される。 F.
    Lavagetto、Arzarello、およびM. Caranzanoの「Lipre
    adable Frame Automation Driven by Speech Parameter
    s」, International Symposium on Speech, Image Proc
    essing and Neural Networks, 1994, ISSIPNNでは、次のようにオーディオ機能とビデオ機能を両方とも使用して訓練された隠れマルコフ・モデル(HMM、Hidden M
    arkov Model)が使用されている。 訓練期間中、ビタビ・アルゴリズムを使用して、所与の音声に対する最尤H
    MM状態シーケンスが得られる。 このとき、所与のHM
    M状態に対し、対応するすべての画像フレームが選択され、それらの視覚パラメータの平均がそのHMM状態に割り当てられる。 合成時には、ビタビ復号を使用して、
    入力音声が最尤HMMシーケンスに整合される。 最尤H
    MM状態シーケンスに対応する画像パラメータが検索され、この視覚パラメータ・シーケンスが、適切な平滑化によってアニメートされる。

    【0006】最近では、ヴァイジーム・ベースのHMM
    を使用し、かつオーディオ信号からヴァイジーム整合を生成する新しい方式が、米国特許出願第09/3847
    63号に記載されている。 この手法では、所与のヴァイジームに対応するすべてのオーディオ・ベクトルが、単一のクラスにマージされる。 この場合、このヴァイジーム・ベースのオーディオ・データを使用して、ヴァイジーム・ベースのオーディオHMMが訓練される。 合成時間中は、入力音声がヴァイジーム・ベースのHMM状態シーケンスと整合される。 この場合、これらヴァイジーム・ベースのHMM状態シーケンスに対応する画像パラメータが、必要な平滑化によってアニメートされる。 T.
    EzzaiおよびT. Poggioの「Miketalk: A Talking Facia
    l Display Based on Morphing Visemes」, Proceedings
    of IEEE Computer Animation '98, Philadelphia, PA,
    June 1998, pp. 96〜102も参照されたい。

    【0007】前述のすべての手法では、合成に必要な入力音声の整合を生成するのに使用される音声認識システムを訓練することが必要である。 さらに、これらの手法では、オーディオを提供するのに使用される言語の音声認識システムが、オーディオ信号の表音シーケンスに対して時間整合を得ることが必要である。 しかし、音声認識システムの構築は、非常に単調で時間のかかる作業である。

    【0008】

    【発明が解決しようとする課題】したがって、本発明の一目的は、ただ1つの言語、例えば英語に対する音声認識システムがある場合に言語独立のオーディオ駆動型顔アニメーション用システムを実施する、新しい方式を提供することである。 同じ方法を、テキスト・オーディオビジュアル音声合成に使用することもできる。

    【0009】

    【課題を解決するための手段】本発明は、整合が生成された後はマッピングおよびアニメーションにほぼどんな言語依存性もないという認識に基づく。 整合生成の第1
    ステップを音声独立にすることができれば、視覚的音声のトランスリンガル(translingual)な合成を達成することができる。 以下に、視覚的音声のトランスリンガルな合成を実施する方法を提案する。 すなわち本発明は、
    ある言語(ベース言語)用の音声認識システムがあれば、ビデオを、入力としての他のどんな言語(新規言語)の音声とも合成する方法を提供する。

    【0010】

    【発明の実施の形態】本発明によるトランスリンガルな合成を理解するために、まず、シーケンスをアニメートするのに必要なステップを以下に呈示する。

    【0011】1. 所与の入力オーディオおよび本物のテキストから表音整合を生成する。 これには、テキストの表音ベース形を理解することのできる音声認識エンジンが必要とされる。 これは、入力オーディオが、認識システムの訓練に使用された言語と同じ言語である場合にうまく機能することになる。

    【0012】2. ビデオの合成に使用すべき言語が異なる言語である場合は、その異なる言語の音セットは、訓練された言語以外のものである可能性がある。 しかし、
    整合生成システムは、それ自体の音素セットを使用して、最良の音境界に基づく整合を生成する。 次いで、新規言語の音セットにおける効果的な整合を得るために、
    一方の言語からの音を他方の言語の音に変換することのできるマッピングが必要である。

    【0013】3. 次いで、音ヴァイジーム・マッピングを使用して、対応するヴァイジーム整合を得ることができる。 この整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスが生成される。

    【0014】4. ヴァイジーム画像のシーケンスをアニメートして、入力オーディオ信号と整合された所望のビデオ合成出力を得る。

    【0015】本発明は、ある言語の音声認識システムを利用して、任意の言語による所与のオーディオ信号から視覚的音声を合成する、新しい手法を提供する。 これ以後、音声認識システムを訓練する言語をベース言語と呼び、ビデオの合成に使用すべき言語を新規言語と呼ぶ。
    例では、新規言語にヒンディー語を、ベース言語に英語を選択した。

    【0016】新規言語の語が整合ジェネレータに呈示される場合、整合ジェネレータは、そのような語が訓練システムの表音語彙中にないために、その語に対して整合を生成することができないことになる。 さらに、新規言語の語の表音スペルが、ベース言語の表音セットでは完全に表されない可能性がある。 以下に、これらの問題を克服して、最終的に言語独立の整合生成システムを得る技法を呈示する。 このシステムは、ベース言語用の訓練済み整合生成システムおよびヴァイジーム画像を有することになるが、任意の言語のオーディオ入力に対してアニメーションを生成するように機能させることができる。

    【0017】語彙適応レイヤ 新規言語の語に対する整合を生成するために、この言語の表音語彙が最初に作成されるが、この中で語は、新規言語の音セットを使用した表音ベース形で表される。 認識システムはベース言語の音セットに対して訓練されているため、これらの語が今度はベース言語の音セットでベース形を表すように、語彙を修正する必要がある。 このような修正は、語彙修正レイヤ(Vocabulary Modific
    ation Layer)によって可能にされる。 このレイヤは、
    一方の言語の音セットから他方の言語へのマッピングを使用することによって機能する。 例示のために、ヒンディー語の音から英語の音へのマッピングを表1に示す。 表1. ヒンディー語から英語への音素マッピング

    【表1】

    【0018】表1には、ヒンディー語の音から英語の音セットへのマッピングの一例が示されている。 見れば分かるように、英語の音のすべてがこの新規言語に使用されるわけではない。 また、多数の音には、厳密な1つのマッピングが存在する。 これらは、その行にアスタリスク3つ(***)を付けて示す。 行にアスタリスクが2
    つ(**)あるのは、そのマッピングが厳密ではないが、音響上最も近いマップであることを意味する。 マッピング中にアスタリスクが1つ(*)あるのは、音響上の類似性から、新規言語の音が英語からの2つ以上の音(または音素)の繋がりに近いものとされていることを示す。

    【0019】以下の3つの場合があり得る。

    【0020】1. 新規言語の語がベース言語の音で表せる。 このような語の場合、ベース形は、単純にベース言語の音セットを使用して書くことができる。

    【0021】2. 新規言語の語がベース言語の音セットで表せない。 この場合、この語は新規言語の音セットで書かれ、表1にあるようなマッピングを使用して、ベース形がベース言語に変換される。

    【0022】3. ベース言語の音が新規言語の語にまったく現れない。 このような場合、ベース言語のこの特定の音は余分であり、「配慮しない」として残される。

    【0023】音響整合によって最良の音境界を生成することが音セットをマッピングする目的であるため、マッピングは、類似する響きを有する音に基づく。 すなわち、新規言語の音に関連付けることのできる、厳密に類似する音がベース言語中にない場合は、音響上類似するベース言語音が選択される。 ただし両方とも、異なるヴァイジームにマッピングすることができる。

    【0024】前述の語彙修正レイヤは、新規言語オーディオのベース言語整合を生成する際に役立つ。 次に、どのようにベース言語ヴァイジーム整合を抽出するかを述べる。

    【0025】ヴァイジーム整合の生成 このシステムは、ベース言語の訓練済み整合ジェネレータ、音ヴァイジーム・マッピング、およびヴァイジーム・セットを使用して、どんな新規言語に対しても機能しなければならないため、ヴァイジーム整合は、従来生成されているように表音整合から単純に生成することはできない。 上に示したように、語彙修正レイヤは、音響上類似する音に基づくマッピングを基礎としていた。 しかし、このマッピングは、このような各音に対応するヴァイジームを考慮していないため、ヴァイジーム整合を歪める可能性がある。 したがって、ベース言語の音セットで新規言語の語を表す追加の語彙が作成される。 これには、表1のマッピングは使用されない。 同じ行にある2
    つの音のヴァイジーム類似性に基づくマッピングが使用される。 この追加の語彙、ベース言語の整合、およびベース言語の音ヴァイジーム・マッピングを使用して、ヴァイジーム整合が得られる。 このヴァイジーム整合を使用して、アニメートされたビデオ・シーケンスが生成される。 マッピングは1対1ではない。 したがって、ベース言語の単一の音が新規言語の2つ以上の音を表す場合がある。 しかし、語彙修正レイヤが多対1のマッピングを考慮した後に新規言語で出力するため、このことは矛盾を生じない。

    【0026】また、アプリケーションはアニメーションの目的でヴァイジーム整合を使用するため、あるヴァイジームから別のヴァイジームへのモーフィングも行われる。 したがって、表1で**および*で表された音が不正確にマッピングされたために、生成された整合が厳密な音境界を表さない場合があるが、これは、これらの境界中でヴァイジームが常に遷移しているため、アニメートされたビデオ中では目に留まらない。 したがって、どんな不正確な音境界も反映しない、スムーズで連続的なビデオが生成される。

    【0027】図面の説明 ここで図面、特に図1を参照すると、ベース言語のヴァイジーム・データベースを有するアニメーション・システムのブロック図が示されている。 最初に、ベース言語によって修正された語彙を使用して、ベース言語で表音整合が生成される。 新規言語のオーディオまたはテキストが表音整合ジェネレータ101に入力され、この表音整合ジェネレータは、表音語彙修正機構102から対応するベース言語の表音語Vocab P Bを受け取る。 表音整合ジェネレータ101の出力はAlignment P B
    であり、次いでこれは、ヴァイジーム整合ジェネレータ103を使用することによって、ベース言語ヴァイジーム整合に変換される。 このヴァイジーム整合ジェネレータは、ヴァイジーム語彙修正機構104を使用して訂正を取り込むことによって形成された、ベース言語のヴァイジーム語彙Vocab V Bを使用する。 このヴァイジーム語彙修正機構は、ベース言語から新規言語への、ヴァイジームからみた類似のマッピングを使用して、Voc
    ab V Bを生成する。 次いで、生成されたベース言語ヴァイジーム整合Alignment V Bを使用して、アニメートされたビデオを生成するためにヴァイジーム画像がビデオ・アニメーション105中で駆動される。

    【0028】本発明の代替実施形態では、ヴァイジーム・セットが新規言語用に利用可能な場合、その言語の音ヴァイジーム・マッピングを使用してヴァイジーム整合を直接与えるように下位レイヤを修正することができる。 この場合、ベース言語で生成された表音整合は、2
    つの言語中の対応する語彙エントリを使用することによって新規言語に変換される。 次いで、新規言語の音素ヴァイジーム・マッピングが適用される。 このように生成されるヴァイジーム整合は新規言語によるものであり、
    これはヴァイジームがベース言語ではなくその言語で利用可能なために望まれたものであることに留意されたい。

    【0029】図2は、新規言語のヴァイジーム・データベースを有するアニメーション・システムのブロック図である。 図1と同様、最初に、ベース言語によって修正された語彙を使用して、ベース言語で表音整合が生成される。 新規言語のオーディオまたはテキストが表音整合ジェネレータ201に入力され、この表音整合ジェネレータ201は、表音語彙修正機構202から対応するベース言語の表音語Vocab P Bを受け取る。 表音整合ジェネレータ201の出力はAlignment P Bであり、次いでこれは、ヴァイジーム整合ジェネレータ20
    3中で変換される。 ベース言語の表音整合は、ベース言語のヴァイジーム語彙Vocab V Nに加えて新規言語の語彙Vocab Nを使用して、新規言語ヴァイジーム整合に変換される。 次いで、新規言語ヴァイジーム整合A
    lignment V Nを使用して、アニメートされたビデオを生成するために画像(新規言語のヴァイジームを表す)がビデオ・アニメーション204中で駆動される。

    【0030】図3は、ベース言語の音素セットを使用した変形体で表された新規言語の語を有する語彙を作成するのに使用されるプロセスの流れ図である。 このような語彙を使用して、表音整合が生成される。 新規言語la
    ng N中の各語について、それがベース言語lang B中に存在するかどうかが決定ブロック301中で判定される。 存在する場合は、機能ブロック302で、その語がとる特定のベース形が選択される。 次いでその語は、機能ブロック303でベース言語の語彙中にコピーされる。 一方、その語がベース言語中に存在しないと決定ブロック301で判定された場合は、それが語彙に書き込めるようになる前にベース形表現が必要となる。 決定ブロック304で、語彙が2つの言語の表音類似性に基づくべきかヴァイジーム類似性に基づくべきかが判定される。 表音類似性が使用される場合は、機能ブロック30
    5で、表音類似マッピングを使用した対応する変形体がベース言語lang Bから選択される。 一方、ヴァイジーム類似性が使用される場合は、機能ブロック306
    で、ヴァイジーム類似音素セットがベース言語から選択されて、新規言語の語からベース言語の語への変換が行われる。 機能ブロック303で、ベース言語に近づけられたこの語の表現が書き込まれ、ベース言語語彙が形成される。 このように生成されたこれらの表音/ヴァイジーム語彙は、次いで、図1および2に示したようにアニメーションに使用される。

    【0031】

    【発明の効果】本発明を使用する利点は、視覚的音声を合成するのに使用すべき言語と同じ言語用の音声認識エンジンを構築する必要がないことである。 いずれか所与の言語用の音声認識システムがあれば、2層のレイヤを容易かつ迅速にカストマイズして、他のどんな言語でも合成ビデオを得ることができる。 さらに、ヴァイジーム画像もまた、整合生成システムの構築に使用されている言語のものだけがあればよく、したがって、言語ごとに毎回新しいヴァイジーム画像を生成する必要が除去される。 このシステムはまた、代替手法に示したように、新規言語がベース言語のヴァイジームと完全に異なるヴァイジームを有する場合にも機能する。 同様に、テキスト・オーディオビジュアル音声合成の場合も、合成を行うのに使用しなければならない言語と同じ言語のテキスト音声合成器は必要ない。

    【0032】まとめとして、本発明の構成に関して以下の事項を開示する。

    【0033】(1)第2の言語による音声認識システムを利用して、第1の言語による所与のオーディオ信号から視覚的音声をトランスリンガルに合成する方法であって、前記第1の言語の入力オーディオおよびテキストを受け取るステップと、前記第2の言語の前記音声認識システムおよびそれ自体の音セットを使用して音境界に基づく表音整合を生成し、前記第2の言語の音から前記第1の言語の音に変換するためのマッピングを行って前記第1の言語の音セットで効果的な整合を得るステップと、音ヴァイジーム・マッピングを行って対応するヴァイジーム整合を得て、前記整合により、所望のビデオを得るためにアニメートされることになるヴァイジームのシーケンスを生成するステップと、ヴァイジーム画像の前記シーケンスをアニメートして、前記第1の言語の前記入力オーディオ信号と整合された所望のビデオ合成出力を得るステップとを含む方法。 (2)音ヴァイジーム・マッピングを行う前記ステップが、前記第2の言語のヴァイジーム・データベースを使用して行われる、上記(1)に記載の視覚的音声をトランスリンガルに合成する方法。 (3)音ヴァイジーム・マッピングを行う前記ステップが、前記第1の言語のヴァイジーム・データベースを使用して行われる、上記(1)に記載の視覚的音声をトランスリンガルに合成する方法。 (4)ベース言語と呼ばれる第2の言語の音声認識システムを使用して、新規言語と呼ばれる第1の言語によるオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法であって、前記新規言語のオーディオ音声信号と前記ベース言語の音との間に対応関係があるかどうかを判定するステップと、前記新規言語の語をベース言語データベースに書き込み、それを前記ベース言語の音声認識システムの新しい語彙に追加するステップとを含む方法。 (5)前記新規言語のオーディオ・データと前記ベース言語の音素との間に対応関係がない場合に、前記新規言語の音に最もよく合致する、前記ベース言語の最も近い音を検出するステップをさらに含む、上記(4)に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。 (6)表音上最も近い音が選択される、上記(5)に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。 (7)ヴァイジームからみて最も近い音が選択される、
    上記(5)に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。 (8)前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙の表音語との時間整合を生成するステップをさらに含む、上記(5)
    に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。 (9)前記新しい語彙を使用して、前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を生成するステップをさらに含む、上記(8)に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。 (10)前記オーディオ音声信号とそれに対応する前記ベース言語語彙のヴァイジーム語との時間整合を使用して、前記第1の言語の前記顔アニメーション・システムにおいて、アニメートされたビデオを生成するためにビデオ・アニメーション中で画像を駆動するステップをさらに含む、上記(9)に記載のオーディオ駆動型の顔アニメーション・システムを実施するためのコンピュータ実装方法。

    【図面の簡単な説明】

    【図1】ベース言語のヴァイジーム・データベースを有するアニメーション・システムを示すブロック図である。

    【図2】新規言語のヴァイジーム・データベースを有するアニメーション・システムを示すブロック図である。

    【図3】ベース言語のベース形を使用した新規言語の語を有する語彙を作成するプロセスを示す流れ図である。

    【符号の説明】

    101 表音整合ジェネレータ 102 表音語彙修正機構 103 ヴァイジーム整合ジェネレータ 104 ヴァイジーム語彙修正機構 105 ビデオ・アニメーション 201 表音整合ジェネレータ 202 表音語彙修正機構 203 ヴァイジーム整合ジェネレータ 204 ビデオ・アニメーション

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 タンヴィー・アフザイ・ファルクイエ インド ニュー・デリー ムニルカ ディ ー・ディー・エイ・フラッツ ビー・ジ ー・6ディー (72)発明者 チャパティ・ネティ アメリカ合衆国1059 ニューヨーク州ヨー クタウン・ハイツ ハイ・リッジ・コート 235 (72)発明者 ニテンドラ・ラジプト インド110028 ニュー・デリー ナライ ナ・ヴィハル ジー9 (72)発明者 エル・ヴェンカタ・スブラマニアム インド11002 ニュー・デリー サロリ ニ・ナガル 1−344 (72)発明者 アシシ・ヴェルマ インド110016 ニュー・デリー ハウズ・ カス サフダルジュング・ディヴェロップ メント・エリア シー4/74

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈