首页 / 专利库 / 人工智能 / 语音语料库 / Rhythm database which store fundamental frequency templates for voice synthesizing

Rhythm database which store fundamental frequency templates for voice synthesizing

阅读:458发布:2021-02-24

专利汇可以提供Rhythm database which store fundamental frequency templates for voice synthesizing专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide the rhythm database which store fundamental frequency templates for voice synthesizing.
SOLUTION: The rhythm database hold the fundamental frequency templates for a voice synthesizing system. The rhythm database templates hold the fundamental frequency values related to the sound syllables in a prescribed sentence. These values are applicable to the synthesis of a voiced sentence. These templates are indexed by tone color pattern markings. Predicted tone color marking patterns are generated for each sentence of the text to be synthesized and the predicted patterns of the tone color markings are used to find and optimum template. The template is obtained by computing the fundamental frequency of the base which is pursuable relative to a prescribed non-indexed corpus and relative to the sentence spoken by a human trainer.
COPYRIGHT: (C)1998,JPO,下面是Rhythm database which store fundamental frequency templates for voice synthesizing专利的具体信息内容。

【特許請求の範囲】
  • 【請求項1】 音声合成用システムにおいて、 合成されるべき音声に関するテキストを設け、 各テンプレートが音声のユニットに関する一連の基本周波数を保持する、韻律データベースを設け、 前記テキストのために合成される音声について韻律を確立するにあたって使用するためのテンプレートの1つを選択し、 音声に関する韻律を確立するにあたって、選択されたテンプレートから基本周波数のうちの少なくとも1つを使用してテキストのための音声を合成する、コンピュータで実施される段階を含む方法。
  • 【請求項2】テキストのセグメンテーションを確立するためにテキストを音声のユニットに区分けする段階を更に含む、請求項1に記載の方法。
  • 【請求項3】音声のユニットが音節である、請求項1に記載の方法。
  • 【請求項4】テキストが句である、請求項1に記載の方法。
  • 【請求項5】テキストが文である、請求項1に記載の方法。
  • 【請求項6】音色マーカがテキストにおける音声の各ユニットのために設けられ、各韻律テンプレートが音色強調マーカパターンによって指標付けされる、請求項1に記載の方法。
  • 【請求項7】テキストに関する予測音色マーカパターンを作り出す段階を更に含み、テンプレートのうちの1つを選択する前記段階が、予測音色マーカパターンと最適合するインデックスを有するテンプレートを選択することによって行われる、請求項6に記載の方法。
  • 【請求項8】 音声合成用のシステムにおいて、 合成されるべき音声に関するテキストを設け、 各々が、音声のユニットについての一連の基本周波数値を保持する韻律テンプレートを設け、 テキストのために合成される音声についての韻律を確立するにあたって使用するためのテンプレートのうちの1
    つを選択し、 音声に関する韻律を確立するにあたって、選択されたテンプレートから基本周波数の少なくとも1つを使用して、前記テキストのための音声を合成する、コンピュータで実施される段階を含む方法を実行するための命令を保持する、コンピュータ読み取り可能記憶媒体。
  • 【請求項9】記憶媒体がまた、テキストを音声のユニットに分割するための命令を保持する、請求項8に記載のコンピュータ読み取り可能記憶媒体。
  • 【請求項10】音声のユニットが音節である、請求項9
    に記載のコンピュータ読み取り可能記憶媒体。
  • 【請求項11】各韻律テンプレートが音色強調マーカパターンによって指標付けされ、音色マーカがテキストにおける音声の各ユニットのために提供される、請求項8
    に記載のコンピュータ読み取り可能記憶媒体。
  • 【請求項12】 テキストに関する予測音色マーカパターンを作り出す、段階を更に含み、 テンプレートのうちの1つを選択する前記段階が、予測音色マーカパターンと最適合するインデックスを有するテンプレートを選択することによって行われる、請求項9に記載のコンピュータ読み取り可能記憶媒体。
  • 【請求項13】 音声合成用システムにおいて、 前記韻律データベースにおける各エントリが、基本周波数が保持されている音声のユニットに関して強調の度合いと一致する音色マーキングのパターンによって指標付けされている、音声のユニットに関する基本周波数の韻律データベースを設け、 所定のテキストで自然言語解析を行い、 自然言語解析の結果に基づいて、テキストにおける音声のユニットに関して音色マーキングの予測パターンを予測し、 韻律データベースのエントリのインデックスを持ったテキストにおいて音声のユニットに関して音色マーキングの予測パターンと比較することによって、韻律データベースにおいて最適合インデックスを識別し、 テキストに関する音声を合成するにあたって韻律を確立するために最適合インデックスによって指標付けされた韻律データベースのエントリの基本周波数値の少なくとも1つを使用する、コンピュータで実施される段階を含む方法。
  • 【請求項14】最適合インデックスが音色マーキングの予測パターンと正確に適合する、請求項13に記載の方法。
  • 【請求項15】最適合インデックスによって指標付けされたエントリにおける全ての基本周波数値が、韻律を確立する際に使用される、請求項13に記載の方法。
  • 【請求項16】最適合インデックスが音色マーキングの予測パターンと正確に適合しない、請求項13に記載の方法。
  • 【請求項17】音色マーカが、高音強調マーカと、低音強調マーカと、特別な強調がない音色マーカと、無標ストレスを明記するマーカとを含む、請求項13に記載の方法。
  • 【請求項18】最適合インデックスが、音声のユニットに関して連続無標ストレスの数において音色マーキングの予測パターンと異なる、請求項17に記載の方法。
  • 【請求項19】 最適合インデックスの不適合部分に対応する最適合インデックスによって指標付けされた韻律データベースへのエントリにおいて、音色マーキングの予測パターン及び基本周波数値と適合しない、最適合インデックスの不適合部分を識別し、 最適合インデックスの不適合部分と対応するエントリでの識別された基本周波数値を拘束する最適合インデックスによって指標付けされた韻律データベースエントリにおける拘束性基本周波数値の間に線形補間を適用して、
    拘束性基本周波数値の間に連続関数を作り、 音色マーキングの予測パターンにおいて連続無標ストレスマーカの数と適合する音声の無標ストレスユニットに関する多数の基本周波数値を得るために連続関数を再サンプリングし、 テキストのための音声を合成する際に韻律を確立するにあたって該再サンプリングによって得られた基本周波数値を使用する、段階を更に含む、請求項18に記載の方法。
  • 【請求項20】最適合インデックスを識別するためにヴィテルビ検索が採用される、請求項13に記載の方法。
  • 【請求項21】 音声合成用システムにおいて、 前記韻律データベースにおける各エントリが、基本周波数が保持されている音声のユニットに関して強調の度合いと一致する音色マーキングのパターンによって指標付けされている、音声のユニットに関する基本周波数の韻律データベースを設け、 所定のテキストで自然言語解析を行い、 自然言語解析の結果に基づいて、テキストにおける音声のユニットに関して音色マーキングの予測パターンを予測し、 韻律データベースのエントリのインデックスを持ったテキストにおいて音声のユニットに関して音色マーキングの予測パターンと比較することによって、韻律データベースにおいて最適合インデックスを識別し、 テキストに関して音声を合成するにあたって韻律を確立するために最適合インデックスによって指標付けされた韻律データベースのエントリの基本周波数値の少なくとも1つを使用する、コンピュータで実施される段階を含む方法を実行するための命令を保持するコンピュータ読取り可能記憶媒体。
  • 【請求項22】最適合インデックスが音色マーキングの予測パターンと正確に適合する、請求項21に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項23】最適合インデックスによって指標付けされたエントリにおける全ての基本周波数値が、韻律を確立する際に使用される、請求項21に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項24】最適合インデックスが音色マーキングの予測パターンと正確に適合しない、請求項21に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項25】音色マーカが、高音強調マーカと、低音強調マーカと、特別な強調がない音色マーカと、無標ストレスを明記するマーカとを含む、請求項21に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項26】最適合インデックスが、音声のユニットに関して連続無標ストレスの数において音色マーキングの予測パターンと異なる、請求項25に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項27】 最適合インデックスの不適合部分に対応する最適合インデックスによって指標付けされた韻律データベースへのエントリにおいて、音色マーキングの予測パターン及び基本周波数値と適合しない、最適合インデックスの不適合部分を識別し、 最適合インデックスの不適合部分と対応するエントリでの識別された基本周波数値を拘束する最適合インデックスによって指標付けされた韻律データベースエントリにおける拘束性基本周波数値の間に線形補間を適用して、
    拘束性基本周波数値の間に連続関数を作り、 音色マーキングの予測パターンにおいて連続無標ストレスマーカの数と適合する音声の無標ストレスユニットに関する多数の基本周波数値を得るために連続関数を再サンプリングし、 テキストのための音声を合成する際に韻律を確立するにあたって該再サンプリングによって得られた基本周波数値を使用する、段階のための命令をも保持する、請求項26に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項28】最適合インデックスを識別するためにヴィテルビ検索が採用される、請求項21に記載のコンピュータ読取り可能記憶媒体。
  • 【請求項29】 人間トレーナによって話されるテキストの複数の対応する部分の各々について該人間トレーナがテキストの対応する部分を話すときに生じる信号として音響信号を得、 テキストの前記部分が話されるとき、話されるテキストの各部分に関する喉頭グラフ信号を人間トレーナに付随する喉頭グラフから得、 各音節が母音部分を含むテキスト内の音節を表わすセグメントに前記音響信号を区分けし、 音響信号のセグメントに適合するセグメントに喉頭グラフ信号を区分けし、 基本周波数が喉頭グラフ信号から得られ、且つ、重みが音響信号から得られるような形でテキストの各部分において、各音節の母音部分に関する瞬間的な基本周波数の重み合計を計算し、 テキストの各部分に関して、韻律データベースにおいてテキストの部分の各音節に関する瞬間的な基本周波数の重み合計をストアし、 合成される音声の韻律を確立するために韻律データベースにおいて瞬間的な基本周波数の重み合計を使用する、
    コンピュータで実施する段階を含む、コンピュータシステムにおいて韻律データベースを構築する方法。
  • 【請求項30】 音節の各母音部分に関して、喉頭グラフ信号がピークを含み、各瞬間的な基本周波数が、すぐ隣接したピークを分離する時間量分の1として計算される、請求項29に記載の方法。
  • 【請求項31】 各瞬間的な基本周波数が、喉頭信号におけるすぐ隣接したピークと対応する音響信号の間の音響信号の大きさに基づいて重み付けされる、請求項30
    に記載の方法。
  • 【請求項32】 人間トレーナによって話されるテキストの複数の対応する部分の各々について、該人間トレーナがテキストの対応する部分を話すときに生じる信号として各音響信号を得、 テキストの部分が話されるとき、話されるテキストの各部分に関する喉頭グラフ信号を人間トレーナに付随する喉頭グラフから得、 各音節が母音部分を含むテキスト内の音節を表わすセグメントに前記音響信号を区分けし、 音響信号のセグメントに適合するセグメントに喉頭グラフ信号を区分けし、 基本周波数が喉頭グラフ信号から得られ、且つ、重みが音響信号から得られるような形で、テキストの各部分において、各音節の母音部分に関する瞬間的な基本周波数の重み合計を計算し、 テキストの各部分に関して、韻律データベースにおいてテキストの部分の各音節に関する瞬間的な基本周波数の重み合計をストアし、 合成される音声の韻律を確立するために韻律データベースにおいて瞬間的な基本周波数の重み合計を使用する、
    段階を含む、コンピュータシステムにおいて韻律データベースを構築する方法を実施するための命令を保持するコンピュータ読取り可能記憶媒体。
  • 【請求項33】 入力テキストを音声のユニットに分解するパーサと、 各々が、音声のユニットについての一連の基本周波数値を保持する韻律テンプレートを備えた韻律データベースと、 韻律データベース内のテンプレートのうちの選択された1つを使用して入力テキスト内の音声のユニットに関する基本周波数値を得ることによって、入力テキストに対応する音声を作り出すための音声合成手段と、を含む、
    音声テキスト(text-to-speech)システム。
  • 【請求項34】 システムが、入力テキストに関する音色パターンを予測するための音色パターン予測手段を更に含み、音声合成手段が、韻律データベースにおいて選択されたテンプレートを選択するように、入力テキストに関して予測音色パターンを使用する、請求項33に記載の音声テキスト(text-to-speech)システム。
  • 【請求項35】 音声生成用システムにおいて、 音声の異なるスタイルに関する韻律テンプレートを保持する韻律データベースを設け、 作り出されるべき音声の部分に適応するような韻律スタイルを求め、 求められた韻律スタイルをもった音声の部分を作り出すために、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つを使用する、コンピュータで実行される段階を含む方法。
  • 【請求項36】 音声生成用システムにおいて、 音声の異なるスタイルに関する韻律テンプレートを保持する韻律データベースを設け、 作り出されるべき音声の部分に適応するような韻律スタイルを求め、 求められた韻律スタイルをもった音声の部分を作り出すために、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つを使用する、コンピュータで実行される段階を含む方法を実施するためのコンピュータで実行可能な命令を保持するコンピュータ読取り可能媒体。
  • 【請求項37】 音声生成用システムにおいて、 単一の話者のために異なる韻律スタイルの韻律テンプレートを保持する韻律データベースを設け、 作り出されるべき音声の部分に適用されるべきである韻律スタイルを求め、 求められた韻律スタイルを持った音声の部分を作り出すために、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つを使用する、コンピュータで実行される段階を含む方法。
  • 【請求項38】 音声生成用システムにおいて、 単一の話者のために異なる韻律スタイルの韻律テンプレートを保持する韻律データベースを設け、 作り出されるべき音声の部分に適用されるべきである韻律スタイルを求め、 求められた韻律スタイルを持った音声の部分を作り出すために、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つを使用する、コンピュータで実行される段階を含む方法を実施するためのコンピュータ実行可能命令を保持するコンピュータ読取り可能媒体。
  • 说明书全文

    【発明の詳細な説明】

    【0001】

    【発明の属する技術分野】本発明は、一般的には、データ処理システムに関し、特に、音声合成用の基本周波数テンプレートを収容する韻律データベースに関する。

    【0002】

    【従来の技術】音声テキスト(text-to-speech)システムは原文通りの入によって指定された音声を合成する。 従来の音声テキストシステムの限界の1つは、それらが非常に不自然なロボットのような合成された音声を作り出していたということである。 かかる合成された音声は、典型的には人間の音声である韻律的特徴を示さない。 従来の音声テキストシステムのほとんどは、時間に伴う韻律パラメータの展開を定義するために、僅かなセットのルールを適用することによって韻律を生み出す。
    韻律は一般的には、音の持続期間と、音の大きさと、音に関係するピッチアクセントとを含むように考えられる。 所定の音声テキストシステムは、そのシステムによって作り出されたかかる合成された音声の本質を高める推測統計学的技術を採用するように試みられている。 これらの推測統計学的学習技術は、口述された句又は文のコーパスから導かれる統計に基づいた韻律を求めるように試みられている。 しかし、これらの推測統計学的技術はまた、自然な音声を一貫して作り出すのに失敗してきている。

    【0003】

    【課題を解決するための手段】本発明の第1の態様によれば、コンピュータで実施される方法は、音声を合成するためのシステムで実行される。 この方法によれば、合成されるべき音声に関するテキストは韻律テンプレートに沿って設けられる。 各韻律テンプレートは、音声のユニットに関する一連の基本周波数値を保持する。 テンプレートのうちの1つは、テキストに関して合成された音声に関する韻律の確立用に選択される。 次いで、音声は、音声に関する韻律を確立する際に、選択されたテンプレートから基本周波数のうちの少なくとも1つを使用してテキストに関して合成される。 本発明の別の態様によれば、音声のユニットに関する基本周波数の韻律データベースが提供される。 韻律データベースの各エントリは、基本周波数が保持される音声のユニットに関する強調の度合いと対応する音色マーキングのパターンによって指標付けされる。 自然言語解析を所定のテキストで実施する。 自然言語解析の結果に基づいて、音色マーキングの予測パターンがテキストにおける音声のユニットに関して予測される。 韻律データベースにおける最適合インデックスが、韻律データベースにおけるエントリのインデックスを持ったテキストにおける音声のユニットに関する音色マーキングの予測パターンと比較することによって識別される。 最適合インデックスによって指標付けされた韻律データベースにおけるエントリの基本周波数のうちの少なくとも1つは、テキストに関して合成された音声において韻律を確立するために使用される。

    【0004】本発明の更なる態様によれば、韻律データベースを構築する方法がコンピュータシステムで実行される。 人間のトレーナによって話される、話されたテキストの複数の対応する部分の各々に関して、音響信号が得られる。 各音響信号は、人間トレーナがテキストの対応する部分を話すときに生じる信号である。 話されるテキストの各部分に関する喉頭グラフ(laryngograph)
    は、テキストの部分が話されるとき、人間トレーナに付随する喉頭グラフから得られる。 音響信号は、テキストの音節を表わすセグメントに区分けられる。 各音節は母音部分を含む。 喉頭グラフ信号は、音響信号のセグメントと適合するセグメントに区分けられる。 テキストの各部分で各音節の母音部分に関する瞬間的な基本周波数の重み合計が計算される。 基本周波数は、喉頭グラフ信号から得られ、重みは音響信号から得られる。 テキストの各部分に関して、韻律データベースにおけるテキストの部分の各音節に関する瞬間的な基本周波数の重み合計はストアされ、これらの重み合計は合成された音声の韻律を確立するために使用される。

    【0005】本発明の追加の態様によれば、音声テキストシステムは入力テキストを音声のユニットに解析するためのパーサを含む。 このシステムはまた、韻律テンプレートを保持する韻律データベースを含み、各韻律テンプレートは音声のユニットに関する一連の基本周波数値を保持する。 このシステムは、入力テキストにおける音声のユニットに関して基本周波数値を得るために、韻律データベースにおけるテンプレートのうちの選択された1つを使用することによって、入力テキストに対応する音声を作り出すための音声合成手段を更に含む。 本発明の更なる態様によれば、音声の異なるスタイルに関する韻律テンプレートを保持する韻律データベースが設けられる。 作り出されるべき音声の部分に適用されるべきである韻律スタイルが求められ、求められた韻律スタイルに関する韻律データベースにおけるテンプレートのうちの少なくとも1つは、求められた韻律スタイルを持った音声の部分を作り出すのに使用される。

    【0006】本発明の更に別の態様によれば、韻律データベースは、単一の話者に関する異なる韻律スタイルの韻律テンプレートを保持することが設けられる。 システムによって作り出されるべきである音声の部分に適用されるべきである韻律スタイルが求められ、韻律データベースにおけるテンプレートのうちの少なくとも1つが、
    求められた韻律スタイルを持った音声の部分を作り出すために求められた韻律スタイルのために使用される。

    【0007】

    【発明の実施の形態】本発明の典型的な実施形態は、句又は文に関する基本周波数のテンプレートを保持する1
    又はそれ以上の韻律データベースを設ける。 複数の話者に関する韻律データベースを保持し、異なる韻律スタイルに関する複数の韻律データベースを保持することができる。 これらのデータベースの各々は、一種の「ボイスフォント」としての役割を果たす。 韻律データベースは、より自然な合成された音声を作り出すように利用される。 音声合成では、所望の韻律をセットするためにこれらのボイスフォントの間から選択することができる。
    特に、合成された音声の出力における音節に割り当てられるべき基本周波数を決定するために、韻律データベースのうちの1つからの最も適合したテンプレートを使用する。 本発明の典型的な実施形態の音声テキストシステムへのテキスト入力は、韻律データベースにおける最も適合したテンプレートを決定するように処理される。 正確な一致が見つからないならば、最も適合するテンプレートから無標の領域に一致を作り出すように改竄技術を適用しうる。 かかる合成された音声は、従来の音声テキストシステムによって作り出された音声より、より自然な音である。

    【0008】各韻律データベースは、無標コーパスから人間の話者が話す文を有することによって構築されている。 次いで、これらの文は、自然言語処理エンジンによって処理され、隠れマルコフモデル(HMM)を使用して音素と音節に区分される。 この喉頭グラフ出力は、H
    MMによってマイクロフォン音声信号に作り出された区分に従って区分されている。 区分された喉頭グラフ出力は、各音節の母音部分における重み基本周波数を求めるように処理される。 これらの重み基本周波数は韻律データベースのエントリにストアされ、韻律データベースのエントリは音色マーキングによって指標付けられる。 本発明の典型的な実施形態は、所定の話者に関する韻律を判断するために、迅速で且つ容易なアプローチを提供する。 このアプローチは、全てのタイプのテキストに偏在して適用されるべく広範囲に及ぶ。 典型的な実施形態はまた、扱いやすく、該システムを扱ったオリジナルスピーカーと非常に似ているように発する音声を作り出す機構を提供する。

    【0009】図1は、本発明の典型的な実施形態を実行するのに適当なコンピュータシステム10を示す。 当業者は、図1におけるコンピュータシステム構成が単に説明することを意図したものであり、本発明を限定するものではないことを認識するであろう。 本発明はまた、分散型システム及び密結合多重プロセッサシステムを含む、他のコンピュータシステム構成の状態で実行されうる。 コンピュータシステム10は、中央処理装置(CP
    U)12及びたくさんの入出力デバイスを含む。 例えば、これらのデバイスはキーボード14、ビデオディスプレィ16、及び、マウス18を含みうる。 CPU12
    はメモリ20へのアクセスを有する。 メモリ20は音声テキスト(text-to-speech)(TTS)機構28のコピーを保持する。 TTS機構28は、本発明の典型的な実施形態を実行するための命令を保持する。 コンピュータシステム10はまた、CPU12をネットワーク24と接続するためのネットワークアダプタ22を含む。 コンピュータシステム10は更に、モデム26と、オーディオ出力を発生させるために(ラウドスピーカのような)
    オーディオ出力デバイス27とを含みうる。

    【0010】TTS機構28は、1又はそれ以上の韻律データベースを含む。 単一の話者に関する複数のデータベースが保持されうる。 例えば、話者は異なる領域内のアクセントに関する別々のデータベースを作り出すことができ、各アクセントは、それら自体の韻律スタイルを有する。 更に、話者は、ニュース放送を読むことによってデータベースを作ることができ、子供向けの本を読むことによって別のデータベースを作りうる。 更に、別の韻律データベースを多数の話者のために保持しうる。 上で述べたように、これらのデータベースの各々は、別々の「ボイスフォント」を斟酌しうる。 図2は、入力テキストの単一の文に関する合成された音声出力を作り出すために、本発明の典型的な実施形態によって行われる段階の概観をなすフローチャートである。 複数の入力テキスト文が処理されるべきならば、図2(即ち、ステップ32乃至44)に示された多くのステップは各文に関して繰り返されうる。 図2のフローチャートを、本発明の典型的な実施形態のTTS機能28の基本的な構成を図示する図3に関連して説明する。 本発明の典型的な実施形態において実施される第1の段階は、韻律データベースを構築する(図2のステップ30)。 韻律データベースは図3に示される韻律テンプレート60の部分である。 テンプレート60は、複数の韻律データベース即ちボイスフォントを含みうる。 上で議論したように、各韻律データベースは、無標コーパスからの多くの文を人間の話者に話させることによって、且つ、かかるアナログ音声信号及び喉頭グラフを寄せ集めることによって作り出される。 次いで、このデータは韻律データベースを構築するために処理される。

    【0011】図4は、より詳細に韻律データベースを構築するために実施される段階を図示したフローチャートである。 図4に示されたステップは、話者によって話された無標コーパス50における各文に関して実施される。 最初に、話されるトレーニング文に関する喉頭グラフ信号を受信する(図4のステップ70)。 図5Aは、
    マイクロフォン音声信号の例を示す。 図5Bは対応する喉頭グラフ信号を示す。 この信号は、その時点での話者の音声コードがどの程度に開いているか又は閉じているかの指示を与える。 トレーニング文に関する音素及び音節によるセグメンテーションを受信し、同様な仕方で喉頭グラフ信号を区分する。 特に、喉頭グラフ信号は、マイクロフォン信号が区分けされたのと丁度同じ時間サイズで区分けされる。 特に、HMMトレーニング52は、
    区分けされたコーパス54をもたらすように、無標コーパス50の話される文で実施される。 HMM技術は当該技術分野で周知である。 適当なHMMトレーニング技術は、1996年5月1日に出願された「連続密度隠れマルコフモデルを使用して音声認識をする方法及びシステム(Method and System for Speech Recognition Using C
    ontinuousDensity Hidden Markov Models)」と題する継続出願第08/655,273号に記載されており、本出願と共通の譲受人に譲渡されている。 これらのHMM技術により、音素及び音節によって区分された音声信号になる。
    音節区分は、本発明の典型的な実施形態に対して特別に重要なものである。

    【0012】喉頭グラフは、エポック情報を識別するように、且つ、瞬間的な基本周波数(F0)情報を作り出すように処理される。 この文脈中では、エポックとは、音声コードが開いている及び閉じている継続時間のことを言う。 言い換えれば、1つのエポックが音声コードの1
    つの開き及び閉じに対応する。 基本周波数は、話者の音声コードが音節に関して振動する基本周波数を言う。 これは、本発明の典型的な実施形態の最も重要なものである韻律パラメータである。 エポック情報は、喉頭グラフ信号の継続時間のスムージング評価の局所的最大から得られる。 母音領域は、典型的には、最も強く強調される音節の部分だから、解析のために選択される。 音節の母音部分に関する喉頭グラフ信号から選られた瞬間的な基本周波数値の重み合計として、重みF0(weighted F0 )
    を計算する。 より数式的には、重み基本周波数は数学的に以下のように表わしうる:

    【0013】

    【数1】

    【0014】ここで、W iは重み、F0 iは時間i での基本周波数である。 基本周波数F0 iを、喉頭グラフの信号における隣接したピークを分離する時間分の1として計算する。 典型的には、音節の母音部分は複数のピークを含むであろう。 重みWは音響信号から得られ、式的には以下のように表わしうる:

    【0015】

    【数2】

    【0016】ここで、A(t)は時間tでの音響信号の振幅、t aは第1のピークでの時間、t bは第2のピークでの時間である。 t a及びt bの値は、それぞれ第1及び第2のピークに関する喉頭グラフ信号のピークに対応する時間における点を表わしているものである。 この重み機構により、音節毎の知覚重みF0を計算する際に、速度信号のより大きな振幅の部分に、より大きな重みを与えることができる。 この重み機構は、F0カーブの知覚的に重要な部分(即ち、振幅が高い場所)に更なる重みを与える。 自然言語処理(NLP)は文で実行され(即ち、テキスト解析56が実行される)、自然言語処理から得られた情報は音色マーキングを予測するように使用される(図4のステップ76)。 多くのどんな周知の技術でも、この解析を実行するように使用されうる。 自然言語処理は文を解析するので、音声の部分の同一性、文脈単語、文の文法構造、文のタイプ、及び、文における単語の発音が生ずる。 かかるNLPパーズから得られた情報は、文の各音節に関して音色マーキングを予測するように使用される。 音声の人間的韻律パターンの多くが各音節に関して3つの音色マーキングのうちの1つを予測することによって表現されることは認識されていた。
    これらの3つの音色マーキングは、高音、低音、又は、
    特別な強調の無いものである。 本発明の典型的な実施形態は、音節基(syllable basis)毎に解析された入力文に関して、音色マーキングのパターンを予測する。 音色マーキングを予測及び割り当てるための適当なアプローチは、John Goldsmith著「English as a Tone Languag
    e」(Communication and Cognition, 1978 )と、Janet
    Pierrehumbert 著「The Phonology and Phonetics of
    English Intonation 」(学位論文、マサチューセッツ工科大学、1980)に説明されている。 予測された音色マーキングストリングの例は「2 H 0 H 0 N 0 L 1 - 」である。 このストリングは数字と、H,L,h,l,+ 及び- の組から選択された記号とから構成される。 記号は、所定の高い突出音節の音色の特徴、第1のアクセント、及び、
    最後の音節を示し、数字は、これらのアクセント又は最後の音節の間にいくつの音節が生じるかを示す。 H 及び
    L はそれぞれ強調された音節での高音及び低音を示し、
    + 及び- は最後の音節での高音及び低音を示し、h 及び
    l は以下に続く強調された音節の最左端の音節での(以下に続く音節が無ければ、それ自身の強調された音節での)高音及び低音を示す。

    【0017】エントリは、文の音節に関する重み基本周波数の連続を保持するために韻律データベースに作成される。 各エントリを、文に関する関連した音色マーキングストリングによって指標付けする(図4のステップ7
    8)。 基本周波数値は、符号無しのキャラクタ値として韻律データベースにストアされうる(図4のステップ8
    0)。 上述したステップは、韻律データベースを構築するために各文に関して実行される。 一般的には、セグメンテーション及び原文通りの解析は、韻律データベース60を構築するために、本発明の典型的な実施形態によって採用された韻律モデルによって使用される。 韻律データベースが構築された後(図2のステップ30参照)、データベースを音声合成に利用しうる。 音声合成における第1の段階は、作り出されるべき音声を識別する(図2のステップ32)。 本発明の典型的な実施形態では、この音声は、文を表わすテキストのチャンクである。 それにもかかわらず、当業者は、本発明がまた、成句、単語又はパラグラフさえも含むテキストの他の細分性を伴って実行されうることを理解するであろう。 合成段階(図3)における次のステップは、入力テキストを解析し、入力文に関する音色マーキング予測を作り出す(図2のステップ34)。 一般的には、上で議論した同じ自然言語処理は、音声の部分、文法構造、単語の発音、及び、入力テキスト文に関する文のタイプの同一性を判断するために適用される。 この処理は、図3のテキスト解析ボックス56として指定される。 音色マーキングは、上で議論したGoldsmith の技術を使用して自然言語処理パーズから得られた情報を使用して予測される。
    典型的な実施形態のこの態様は、合成段階48の韻律生成段階66で実行される。

    【0018】予測された音色マーキングを与えるので、
    韻律データベースにおける韻律テンプレート60はインデックスとして予測された音色マーキングを使用して、
    アクセスされうる(図2のステップ36)。 正確な調和(即ち、入力文に関して予測されたものと同じ音色マーキングパターンによって指標付けされるエントリ)があるならば、それは初めに決定される(図2のステップ3
    8)。 調和したエントリがあるならば、エントリにストアされた重み基本周波数は、入力文に関して合成された音声に関する韻律を確立するのに使用される。 次いで、
    システムは、これらの重み基本周波数を利用する音声出力を生成するために進行する(図2のステップ44)。
    図3に示したように、本発明の典型定期名実施形態は音声合成への連鎖的なアプローチを使用する。 特に、区分けされたコーパス55は、2音素(diphone )、3音素(triphone)等のような音響単位を識別するために処理され、合成された音声を作り出すのに使用されうる。 このプロセスは図3のユニット生成段階46によって示され、ユニットの目録を与える。 入力テキスト文に関するユニットの適当なセットはユニット目録62から引き出され、合成された音声出力を作り出すために連結される。 韻律データベースからの基本周波数は、合成された音声出力の韻律を確立するために採用される。

    【0019】正確な調和が図2のステップ38で見つからなければ、韻律データベースにおける最適合エントリは判断され、最適合エントリ内の基本周波数値は、合成された音声出力の生成に用いられる基本周波数とより近く適合するように修正される(図2のステップ42及び44)。 本発明の典型的な実施形態は最適合エントリを見つけるために最適化された検索ストラテジを使用する。 特に、予測された音色マーキングは、韻律データベースのエントリに関する音色マーキングインデックスと比較し、音色マーキングインデックスは、予測された音色マーキングとの類似性に基づいてスコアされる。 特に、ダイナミックプログラミング(即ち、ヴィテルビ)
    検索は、インデックス音色マーキングに対して予測された音色マーキングで実行される(図6のステップ8
    2)。 ヴィテルビアルゴリズムについて詳細に述べるために、まず初めに幾らかの名称集を確立する必要がある。 ヴィテルビアルゴリズムは所定の観測(observatio
    n )シーケンスによって最も良いステートシーケンスを見つけるためにシークする。 所定の観測シーケンスO=
    (o 12・・・o T )に関して、ステートシーケンスはqとして指定され、ここでqは(q 12・・・
    T )であり、λはパラメータセットであり、Tはステート及び観測のそれぞれのシーケンスにおける数である。 ステートiにおける最初のt観測と最後のものを説明する、時間Tでの単一のパスに沿った最も良いスコアは、以下のように定義される:

    【0020】

    【数3】

    【0021】この文脈では、各音色マーカはステートを表わし、音色マーカの各値は観測を表わす。 ヴィテルビアルゴリズムは以下のように数式化して表わしうる: 1. 初期設定

    【0022】

    【数4】 δ 1 (i)=π 11 (o 1 ) 1≦i≦N Φ 1 (i)=0

    【0023】ここで、Nはステートの数であり、π i
    P[ q i =i] である。 2. 再帰

    【0024】

    【数5】

    【0025】ここで、a ijはステートiからステートj
    までのステート遷移確率であり、b j (o t )は、o t
    が観測されるステートjに関する観測確率である。

    【0026】

    【数6】

    【0027】3. 終了

    【0028】

    【数7】

    【0029】4. パス(ステートシーケンス)バックトラッキング

    【0030】

    【数8】 q * t =Φ t+1 (q * t+1 )、 t=T−1,T−2,....1

    【0031】従って、図6に示したように、最適合を見つけるためにヴィテルビアルゴリズムを適用する(ステップ82)。 アルゴリズムはクイックアウトを行うために修正される。 特に、システムは、これまで見つけられた最も安いコスト解のトラックを維持し、ストリングを修正する最小コストが以前に見つけられた最も良いストリングのコストを上回ることが発見されるとすぐに、各連続ストリングに関するアルゴリズムを中止する。 コストは、多くの経験的に得られた方法で割り当てられうる。 ある解は、2つの数字の間の違いのコストを割り当て、ここで、予測音色パターンストリングにおける数字はインデックス音色パターンストリングにおける数字と適合する。 従って、予測音色パターンストリングがある場所にストアされた2の値を有し、インデックス音色パターンストリングにストアされた同じ場所値が3ならば、1のコストはこのミスマッチのために割り当てられうる。 ノンストレスキャラクタの包含又は削除に関するキャラクタのミスマッチには10のコストが割り当てられる。

    【0032】クイックアウトアプローチは、明らかに最適合ではないインデックス音色パターンができる限り早急に無視されるように、実質的に検索スペースを切り詰める。 次いで、システムは、より近い適合シーケンスを得るように、基本周波数の最適合ストリングを修正するように探す。 特に、2つのストリングが、連続して現れる無標の音節の数において異なっている場所に関して、
    最適合インデックスと予測音色パターンとの間の違いを計算するように、基本周波数を修正する。 次いで、連続関数を作るための領域におけるオリジナル基本周波数値の間の線形補間によって、異なる基本周波数の最適合ストリングの部分を修正する。 次いで、領域の所望の新しい数にレンジを分割し、領域に関する所望の出力基本周波数サンプルポイントを表わす離散点の新しいセットを作るためにこれらの点でレンジを再びサンプリングする。 最適合インデックスが「H 5 H 」の音色マーキングパターンを有している例を考える。 このパターンは、初めの音節が高音マーキングを有し、5つの無標音節が続き、今度は高音マーク音節が続いていることを示す。 予測音色パターンが「H 4 H 」であると仮定する。 最適合インデックスは追加の無標音節を有する。 4つの無標音節を作り出すために修正しなければならない。 最適合韻律データベースエントリの7つの基本周波数値は、6つの線形セグメントから成り立つ連続関数を作り出すために、7つの点の間で線形補間するように処理される。 6
    つの線形セグメントは4つの新しい中間無標点で再びサンプリングされ、高音にマークされたエンドポイントに対応する以前の2つの基本周波数値は保持される。

    【0033】本発明の典型的な実施形態の主な利益の1
    つは、望みの音声のスタイルの選択を合成することを可能にすることである。 複数のボイスフォントは、所定の話者に関して種々の個人の特異性のスタイルを迅速且つ容易に作り出すことができる能力を備える。 作り出された音声は、個人の特異性スタイルの全てを必要とせず、
    単一の話者から得られる。 本発明の典型的な実施形態に関して説明したけれども、当業者は添付した特許請求の範囲に定義する本発明の意図した範囲から逸脱すること無く種々の変更がなされることを理解するであろう。 例えば、本発明は、文の代わりに句を解析するシステムで実施されても良く、音素のような別の音声のユニットを使用しても良い。 更に、他のセグメンテーション技術が使用されうる。

    【図面の簡単な説明】

    【図1】本発明の典型的な実施形態を実施するのに適当なコンピュータシステムのブロック図である。

    【図2】所定の入力テキスト文に関する音声を合成するために、本発明の典型的な実施形態によって実行される段階の概観を図示するフローチャートである。

    【図3】本発明の典型的な実施形態の音声テキスト(T
    TS)機能のコンポーネントを図示するブロック図である。

    【図4】韻律データベースにおけるエントリを構築するために実行される段階を図示するフローチャートである。

    【図5A】実例となる音響信号を示す。

    【図5B】図5Aの音響信号と対応する実例となる喉頭グラフ(laryngograph)信号を示す。

    【図6】正確な適合が韻律データベースにおいて見つからないとき、基本周波数値を得るために実行される段階を図示するフローチャートである。

    【符号の説明】

    12 CPU 28 TTS機能 50 無標コーパス 54 区分けられたコーパス 60 韻律テンプレート 62 ユニット目録

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェームズ エル アドコック アメリカ合衆国 ワシントン州 98006 ベルヴィュー ワンハンドレッドアンドフ ィフティフィフス プレイス サウスイー スト 5005 (72)発明者 ジョン エイ ゴールドスミス アメリカ合衆国 ワシントン州 98008 ベルヴィュー ノースイースト トゥエン ティエイス プレイス 17126

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈