首页 / 专利库 / 广播 / 音频信号 / 语音信号 / Speech synthesizer and speech synthesis method

Speech synthesizer and speech synthesis method

阅读:741发布:2024-01-26

专利汇可以提供Speech synthesizer and speech synthesis method专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a speech synthesizer capable of reducing time required for generating synthesized speech even when the synthesize speech is generated by using any of plural synthesis conditions different from one another for a predetermined original.SOLUTION: A speech synthesizer 1 includes: a matching determination unit 10 for determining whether a set of input text information or input phonetic information and an input synthesis condition matches any of sets of at least one piece of registered text information or registered phonetic information and a registered synthesis condition; and an automatic update unit 17 for, when the set of the input text information and the like does not match any of the sets of the registered text information and the like, generating a set of derivative text information and derivative synthesis condition by correcting the input text information or the input synthesis condition, and making a storage unit 3 store a set of a set of the derivative text information and the derivative synthesis condition and derivative intermediate information generated during generation of a synthesized speech signal by a speech synthesis unit 11 based on the derivative text information and the derivative synthesis condition, as a set of a set of the registered text information and the registered synthesis condition and registered intermediate information.,下面是Speech synthesizer and speech synthesis method专利的具体信息内容。

  • 合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得する入力部と、
    登録テキスト情報と登録合成条件の組と、該登録テキスト情報と該登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、
    前記入力テキスト情報または前記入力テキスト情報により表される入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致するか否か判定する一致判定部と、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する前記登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成する音声合成部と、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて前記音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる自動更新部と、
    を有する音声合成装置。
  • 前記自動更新部は、前記入力テキスト情報に含まれる原文を所定単位ごとに分割することにより複数の第2の原文を作成し、該複数の第2の原文のうちの何れかを含むように前記派生テキスト情報を作成する分割処理部を有する、請求項1に記載の音声合成装置。
  • 前記所定単位は、前記原文中に設定された呼気段落である、請求項2に記載の音声合成装置。
  • 前記音声合成部は、前記原文に対して形態素解析を実行することにより当該原文を区切る第1の位置を求める言語処理部を有し、
    前記分割処理部は、前記第1の位置で前記原文を分割することにより前記複数の第2の原文のうちの一つの原文を作成するとともに、前記第1の位置と異なり、かつ句読点を設定できる第2の位置で前記原文を分割することにより前記複数の第2の原文のうちの他の原文を作成する、請求項2に記載の音声合成装置。
  • 前記自動更新部は、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少ない登録中間情報を消去する、請求項1〜4の何れか一項に記載の音声合成装置。
  • 前記入力部は、前記入力テキスト情報の重要度を当該入力テキスト情報とともに取得し、
    前記自動更新部は、前記入力テキスト情報の重要度に応じて前記中間情報の第2の重要度を決定し、かつ、当該第2の重要度を、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組と関連付けて前記記憶部に記憶させ、
    かつ、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少なく、かつ前記第2の重要度が第1の重要度閾値未満である登録中間情報を消去する、請求項1〜4の何れか一項に記載の音声合成装置。
  • 合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得し、
    前記入力テキスト情報または当該入力テキスト情報により表される入力表音情報と前記入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件の組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
    ことを含む音声合成方法。
  • 说明书全文

    本発明は、例えば、音声信号を合成する音声合成装置及び音声合成方法に関する。

    近年、音声を自動合成する音声合成技術が開発されている。 音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。 特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。 しかし、このようなアプリケーションでは、音声合成技術を用いて合成音声を作成する装置に対して、視聴者にとってメッセージの内容が分かり易いように、合成音声の品質が高いこと、及び短時間で大量の合成音声を作成できることが求められる。

    そこで、公知技術の一例では、音声合成装置は、一旦作成した音声に関して、原文情報の音声出の要求の参照頻度に応じて、原文情報、音素列情報及び音声波形情報の何れかを選択的に蓄積する。 そしてこの音声合成装置は、出力しようとする音声について、既に蓄積されている情報があれば、その情報を音声波形の合成に利用することで、音声合成に要する時間を短縮する(例えば、特許文献1を参照)。

    特開平5−19790号公報

    上記の従来技術では、音声合成装置は、一つの原文に対して、特定の話速またはピッチといった特定の合成条件に基づいて作成された一種類の音素情報等の中間情報のみを記憶する。 ところが、音声合成装置は、一つの原文に対して、異なる話速または異なるピッチ(すなわち、声の高さ)の出力音声を作成することもある。 例えば、商業施設の館内放送で用いられるナレーションについて、緊急時(例えば、火災発生時)の話速は通常時の話速よりも速い方が好ましい。 しかし、音声合成装置が、ある原文について、特定の合成条件で作成された音素情報等の中間情報を、その原文について他の合成条件の音声出力を作成するために利用すると、新たに生成された合成音声の韻律が不自然となる。 その結果として新たに生成された合成音声の品質が劣化する。 また、既に作成された合成音声を直接話速変換することにより修正された合成音声の品質も、元の合成音声の品質よりも低下する。
    また、記憶されている中間情報を作成するために用いられた合成条件と異なる合成条件下で合成音声を作成することが要求された場合に、音声合成装置が、中間情報を利用せずに原文から合成音声を再度作成すると、音声合成に要する時間を短縮できない。

    そこで本明細書は、所定の原文に対して互いに異なる複数の合成条件の何れかにて合成音声を作成する場合でも、合成音声の作成に要する時間を短縮できる音声合成装置及び音声合成方法を提供することを目的とする。

    一つの実施形態によれば、音声合成装置が提供される。 この音声合成装置は、合成音声信号の元となる原文を含む入力テキスト情報と、合成音声信号を作成するための入力合成条件とを取得する入力部と、登録テキスト情報と登録合成条件の組と、その登録テキスト情報と登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、入力テキスト情報または入力テキスト情報により表される入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定する一致判定部と、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致する場合、登録テキスト情報または登録表音情報と登録合成条件との組に対応する登録中間情報を用いて合成音声信号を作成し、一方、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報及び入力合成条件に基づいて合成音声信号を作成する音声合成部と、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報または入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、その派生テキスト情報と派生合成条件の組と、その派生テキスト情報及び派生合成条件に基づいて音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、登録テキスト情報と登録合成条件の組と登録中間情報との組の一つとして記憶部に記憶させる自動更新部とを有する。

    また他の実施形態によれば、音声合成方法が提供される。 この音声合成方法は、合成音声信号の元となる原文を含む入力テキスト情報と、合成音声信号を作成するための入力合成条件とを取得し、入力テキスト情報または入力テキスト情報により表される入力表音情報と入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件の組の何れかと一致する場合、記憶部に記憶され、かつ、登録テキスト情報または登録表音情報と登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報及び入力合成条件に基づいて合成音声信号を作成し、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報または入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、その派生テキスト情報と派生合成条件の組と、その派生テキスト情報及び派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、登録テキスト情報と登録合成条件の組と登録中間情報との組の一つとして記憶部に記憶させることを含む。

    本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
    上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

    本明細書に開示された音声合成装置及び音声合成方法は、所定の原文に対して互いに異なる複数の合成条件の何れかにて合成音声を作成する場合でも、合成音声の作成に要する時間を短縮できる。

    第1の実施形態による音声合成装置の概略構成図である。

    第1の実施形態による音声合成装置が有する処理部の概略構成図である。

    中間情報テーブルの一例を示す図である。

    中間情報テーブルの他の一例を示す図である。

    第1の実施形態による音声合成処理の動作フローチャートを示す図である。

    第2の実施形態による音声合成装置の処理部の概略構成図である。

    第2の実施形態による中間情報テーブルの一例を示す図である。

    登録中間情報の存続判定処理の動作フローチャートである。

    第3の実施形態による音声合成装置の処理部の概略構成図である。

    変形例による中間情報テーブルの他の一例を示す図である。

    以下、図を参照しつつ、様々な実施形態による音声合成装置について説明する。
    この音声合成装置は、所定の原文に対して特定の合成条件にて新規に合成音声を作成する際、他の合成条件でも中間情報を作成して記憶しておくことにより、様々な合成条件でその所定の原文についての合成音声の作成に要する時間を短縮する。

    図1は、一つの実施形態による音声合成装置の概略構成図である。 本実施形態では、音声合成装置1は、入力部2と、記憶部3と、処理部4と、出力部5とを有する。

    入力部2は、合成音声の原文であるテキスト情報と、話速、ピッチまたは声の高低の幅といった音声合成条件を規定する合成パラメータを取得する。 そのために、入力部2は、例えば、キーボードを有する。 また、入力部2は、マウスなどのポインティングデバイスとそのポインティングデバイスにより指示される入力すべき文字または数値などを表示するディスプレイとを有する。 あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
    さらにまた、入力部2は、テキスト情報及び合成パラメータを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。 この場合、入力部2は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有する。
    そして入力部2は、入力されたテキスト情報及び合成パラメータを処理部4へ渡す。

    記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。 そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音声合成処理に用いられる各種のデータを記憶する。
    記憶部3は、音声合成処理に用いられるデータとして、例えば、言語辞書と、韻律モデルと、音声波形辞書を記憶する。 さらに記憶部3は、合成音声信号を作成する途中の段階で生成される、表音情報または波形生成情報といった中間情報を登録した中間情報テーブルを記憶する。 なお、言語辞書、韻律モデル、音声波形辞書、中間情報及び中間情報テーブルの詳細については後述する。

    出力部5は、処理部4から受け取った合成音声信号をスピーカ6へ出力する。 そのために、出力部5は、例えば、スピーカ6を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
    また出力部5は、合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。 この場合、出力部5は、その通信ネットワークに音声合成装置1と接続するためのインターフェース回路を有する。 なお、入力部2も通信ネットワークを介してテキスト情報及び合成パラメータを取得する場合、入力部2と出力部5は一体化されていてもよい。

    処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。 そして処理部4は、入力されたテキスト情報に示された原文及び合成パラメータ、あるいはその原文と合成パラメータの組に対応する中間情報に基づいて、合成音声信号を作成する。 そのために、処理部4は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17とを有する。
    処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。 あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声合成装置1に実装されてもよい。 さらに、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。

    一致判定部10は、入力部2を介して入力されたテキスト情報またはそのテキスト情報により表される表音情報と合成パラメータとの組が、中間情報テーブルに登録されている何れかのテキスト情報または表音情報と合成パラメータとの組と一致するか否か判定する。 そして入力されたテキスト情報または表音情報と合成パラメータとの組が中間情報テーブルに登録されている何れかのテキスト情報または表音情報と合成パラメータとの組と一致する場合、その入力されたテキスト情報と合成パラメータの組に対応する中間情報も中間情報テーブルに登録されている。 一致判定部10は、既に作成されている中間情報を合成音声信号の生成に利用するために、入力されたテキスト情報または表音情報と合成パラメータとの組と一致する、中間情報テーブルに登録されたテキスト情報または表音情報と合成パラメータの組の識別番号を制御部16へ渡す。
    なお、中間情報テーブルに登録されているテキスト情報、合成パラメータ及び中間情報を、便宜上、以下では、登録テキスト情報、登録合成パラメータ及び登録中間情報と呼ぶ。

    一方、入力されたテキスト情報と合成パラメータの組が何れの登録テキスト情報と登録合成パラメータの組とも一致しない場合、音声合成装置1は、入力されたテキスト情報と合成パラメータの組に基づいて合成音声信号を作成する。 そこで一致判定部10は、入力されたテキスト情報と合成パラメータの組を音声合成部11へ渡す。
    さらに、入力されたテキスト情報の原文と一部が異なる原文を含むテキスト情報が後で入力されたり、あるいは入力された合成パラメータの少なくとも一つが異なる合成パラメータが後で入力されることがある。 そこでこのような場合に、合成音声信号の作成に利用できる中間情報を作成するために、一致判定部10は、入力されたテキスト情報及び合成パラメータを自動更新部17へ渡す。

    音声合成部11は、入力されたテキスト情報と合成パラメータの組に基づいて合成音声信号を作成する。 あるいは、音声合成部11は、記憶部3に記憶されている中間情報に基づいて合成音声信号を作成する。 さらに、音声合成部11は、自動更新部17からの指示に応じて中間情報を作成する。 そのために、音声合成部11は、言語処理部12と、韻律生成部13と、素片選択部14と、波形生成部15とを有する。

    言語処理部12は、入力されたテキスト情報を表音情報に変換する。 表音情報は、テキスト情報に含まれる原文の読みなどを表す情報であり、例えば、原文の読みをカタカナ文字で表し、さらにアクセントの位置及び区切りの位置を追加した情報である。
    言語処理部12は、入力されたテキスト情報を表音情報に変換するために、記憶部3に記憶されている言語辞書を読み込む。 言語辞書には、例えば、テキスト情報中に出現すると想定される様々な単語、その単語の読み、品詞及び活用形が登録されている。 そして言語処理部12は、例えば、その言語辞書を用いて、テキスト情報に含まれる原文に対して形態素解析を行って、原文中に出現する各単語の順序及び読み、アクセントの位置及び区切りの位置を決定する。 その際、言語処理部12は、例えば、原文中で句読点が設定された位置を区切りの位置とする。 なお、句読点が設定された位置で原文を区切ることにより得られる文の単位を、本明細書では呼気段落と呼ぶ。
    言語処理部12は、形態素解析として、例えば、動的計画法または隠れマルコフモデルを用いる方法を利用できる。 そして言語処理部12は、各単語の順序、読み、アクセントの位置及び区切りの位置に応じて表音情報を作成する。
    言語処理部12は、表音情報を韻律生成部13へ出力する。 また言語処理部12は、中間情報を生成するために、表音情報を自動更新部17の分割処理部18へ出力してもよい。

    韻律生成部13は、一致判定部10から受け取った合成パラメータと、言語処理部12から受け取った表音情報に基づいて、合成音声を生成する際の目標韻律を生成する。 そのために、韻律生成部13は、記憶部3から複数の韻律モデルを読み込む。 この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。 そして韻律生成部13は、複数の韻律モデルのうち、表音情報に示されたアクセントの位置などに最も一致する韻律モデルを選択する。 そして韻律生成部13は、選択した韻律モデル及び合成パラメータに従って、表音情報に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。 目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。 なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。 また本実施形態では、母音と子音とをそれぞれ1個以上組み合わせた音節も、音素に含まれるものとする。
    韻律生成部13は、目標韻律を素片選択部14へ出力する。
    また音声合成部11は、自動更新部17からの指示に応じて中間情報を生成する場合、韻律生成部13は、テキスト情報と合成パラメータの組を自動更新部17から取得する。 そして韻律生成部13は、自動更新部17から取得したテキスト情報と合成パラメータに基づいて目標韻律を作成し、その目標韻律を素片選択部14へ出力する。

    素片選択部14及び波形生成部15は、例えば、音素接続方式、コーパスベース方式または大規模コーパスベース方式によって合成音声信号を作成する。
    素片選択部14は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。 そのために、素片選択部14は、記憶部13から音声波形辞書を読み込む。 音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。 また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
    さらに、素片選択部14は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
    素片選択部14は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。 波形生成情報は、波形変換情報をさらに含んでもよい。 そして素片選択部14は、波形生成情報を波形生成部15へ出力する。 また素片選択部14は、波形生成情報を中間情報として保存するために、その波形生成情報を自動更新部17へ出力する。
    さらに、音声合成部11が自動更新部17から受け取ったテキスト情報と合成パラメータの組に基づく中間情報を作成する場合、素片選択部14は、作成した波形生成情報を自動更新部17へ出力する。

    波形生成部15は、波形生成情報に基づいて合成音声信号を作成する。 そのために、波形生成部15は、素片選択部14または制御部16から受け取った波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部3から読み込む。 そして波形生成部15は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。 なお、波形生成情報に波形変換情報が含まれている場合、波形生成部15は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
    波形生成部15は、合成音声信号を出力部5へ出力する。

    制御部16は、入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに登録されている場合、その登録テキスト情報と登録パラメータの組に対応する登録中間情報を記憶部3から読み込む。 登録中間情報に波形生成情報が含まれている場合、制御部16は、登録中間情報に含まれる波形生成情報を波形生成部15へ出力する。 また、登録中間情報に表音情報が含まれており、かつ波形生成情報が含まれていない場合、制御部16は、登録中間情報に含まれる表音情報を韻律生成部13へ出力する。
    これにより、音声合成部11は、表音情報、目標韻律及び波形生成情報の生成に関する処理の少なくとも一部を省略できる。 その結果として、音声合成部11は、合成音声信号の作成に要する処理時間を短縮できる。

    自動更新部17は、入力されたテキスト情報を修正した派生テキスト情報または入力された合成パラメータの少なくとも一つの値を変えた派生合成パラメータに基づく中間情報を音声合成部11に作成させる。 そのために、自動更新部17は、分割処理部18とパラメータ調整部19とを有する。

    分割処理部18は、一致判定部10が入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに登録されていないと判定した場合に、その入力されたテキスト情報を一致判定部10から受け取る。 そして分割処理部18は、中間情報として利用し易いように、入力されたテキスト情報に含まれる原文を所定の単位に分割する。
    例えば、分割処理部18は、原文中に含まれる各句読点を検出することにより、一つの句読点から次の句読点までの区間が一つの文の単位となるように原文を分割する。 あるいは、分割処理部18は、原文に付された句読点とは関係無く、原文中で句読点を付すことができる区切り可能位置を検出し、隣接する区切り可能位置間の区間が一つの文の単位となるように原文を分割してもよい。 なお、区切り可能位置を検出するために、分割処理部18は、例えば、形態素解析を行って文節境界を検出し、その文節境界を区切り可能位置としてもよい。

    また、分割処理部18は、入力されたテキスト情報に基づいて言語処理部12により作成された表音情報を受け取って、その表音情報に基づいて原文を分割してもよい。 この場合、分割処理部18は、例えば、表音情報において設定された区切り位置で原文を分割する。 あるいは、分割処理部18は、表音情報に設定された区切り位置以外で、原文を区切ることが可能な区切り位置で原文を分割してもよい。 この場合も、分割処理部18は、例えば、形態素解析を行って文節境界を検出することにより区切り位置を検出する。

    分割処理部18は、原文を分割することにより作成された文の単位の何れかを含むテキスト情報を派生テキスト情報として作成する。
    さらに、分割処理部18は、原文を異なる位置で分割することにより、一つの原文に対して複数種類の文の単位を作成してもよい。 例えば、テキスト情報に含まれる原文が「名古屋方面を走行中のドライバーに、渋滞のお知らせです。」であったとする。 この場合、分割処理部18は、原文を、「名古屋方面を走行中のドライバーに、」という単位と「渋滞のお知らせです。」という二つの単位に分割してもよい。 あるいは、分割処理部18は、原文を、「名古屋方面を」という単位と、「走行中のドライバーに、」という単位と「渋滞のお知らせです。」という三つの単位に分割してもよい。 さらにまた、分割処理部18は、原文を、「名古屋方面を」という単位と、「走行中のドライバーに、渋滞のお知らせです。」という二つの単位に分割してもよい。 この場合、分割処理部18は、上記のそれぞれの文の単位についてそれぞれ派生テキスト情報を作成してもよい。

    パラメータ調整部19は、入力された合成パラメータの少なくとも何れかを変更することで派生合成パラメータを作成する。 例えば、合成パラメータに含まれる話速とピッチがそれぞれ'1'〜'5'で表されるとする。 この場合において、入力された合成パラメータの話速及びピッチがそれぞれ'3'であれば、パラメータ調整部19は、話速を'1'、'2'、'4'または'5'に修正するか、あるいは、ピッチを'1'、'2'、'4'または'5'に修正することで派生合成パラメータを作成する。
    そして自動更新部17は、派生テキスト情報と派生合成パラメータの組を、音声合成部11へ渡し、音声合成部11に派生テキスト情報と派生合成パラメータの組に対する表音情報及び波形生成情報を作成させる。
    なお、派生テキスト情報と派生合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに既に登録されていることもある。 このような場合、自動更新部17は、派生テキスト情報と派生合成パラメータの組について音声合成部11に表音情報及び波形生成情報を作成させなくてもよい。

    自動更新部17は、派生テキスト情報と派生合成パラメータの組に対する表音情報及び波形生成情報を音声合成部11から受け取ると、派生テキスト情報と派生合成パラメータの組を表音情報及び波形生成情報とともに中間情報テーブルに追加登録する。 このように、自動更新部17は、記憶部3に記憶された中間情報テーブルを更新することで、以降に入力されたテキスト情報と合成パラメータの組に対する合成音声信号の作成に利用できる中間情報の数を増やす。 すなわち、派生テキスト情報と派生合成パラメータの組は、新たな登録テキスト情報と登録合成パラメータの組となる。 そして派生テキスト情報と派生合成パラメータの組について作成された表音情報及び波形生成情報は、その新たな登録テキスト情報と登録合成パラメータの組に対応する登録中間情報となる。
    なお、自動更新部17は、入力されたテキスト情報と合成パラメータのうち、何れか一方のみを変更して中間情報を作成してもよい。 すなわち、派生テキスト情報及び派生合成パラメータの何れか一方が、入力されたテキスト情報または入力された合成パラメータと同じでもよい。 また、自動更新部17は、派生テキスト情報及び派生合成パラメータの組について作成された表音情報及び波形生成情報のうちの一方のみを、登録中間情報として中間情報テーブルに登録してもよい。

    図3は、中間情報テーブルの一例を示す図である。 中間情報テーブル300の各行は、一つの登録中間情報に対応する。 そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報が格納される。 この例では、行301に入力されたテキスト情報及び合成パラメータに対応する中間情報が登録されており、一方、行302及び303には、入力されたテキスト情報と派生合成パラメータに基づいて作成された中間情報が登録されている。
    この例では、合成パラメータとして話速とピッチが規定されている。 そのため、派生合成パラメータの話速またはピッチの少なくとも一方が、行301に示された元の話速またはピッチと異なっている。 なお、合成パラメータには、抑揚、音量、声の高さなど、他のパラメータが含まれていてもよい。

    また、テキスト情報は、例えば、合成される音声が日本語であれば、一般的な文章のように、かな文字、漢字及び句読点の組み合わせにより表記される。 例えば、この例では、テキスト情報は、「お客様に・・・申し上げます。」という文を含む。
    表音情報は、例えば、電子情報技術産業協会規格TT-6004(車載用音声合成記号規格)に従って表記される。 また表音情報は、テキスト情報に含まれる文中でのアクセントの位置、区切り位置と、各音素の読みが分かる他の表記形式に従って記述されてもよい。 なお、この例では、派生テキスト情報に含まれる文及び表音情報は、入力されたテキスト情報に含まれる文及び表音情報と同一となっている。
    また、波形生成情報が登録される欄には、時系列に沿って各音素について使用される音声波形の識別番号と、場合によっては波形変換情報が記述される。 なお、識別番号と波形変換情報の記述形式は、適宜適切なものが選択されればよい。

    図4は、中間情報テーブルの他の一例を示す図である。 中間情報テーブル400の各行は、一つの登録中間情報に対応する。 そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報が格納される。 この例では、入力されたテキスト情報は、「名古屋方面を走行中のドライバーに、渋滞のお知らせです。」という原文を含んでいる。 そして行401及び402には、それぞれ、入力されたテキスト情報において文中に付された句読点で分割されたテキスト情報及び入力された合成パラメータに対応する中間情報が登録されている。 一方、行403及び404には、入力されたテキスト情報において付された句読点の位置とは異なる位置で原文を分割することにより作成された派生テキスト情報と入力された合成パラメータに基づいて作成された中間情報が登録されている。
    この例では、行403には、派生テキスト情報として、「名古屋方面を、」との文が登録されており、一方、行404には、派生テキスト情報として、「走行中のドライバーに渋滞のお知らせです。」との文が登録されている。
    このように、一つの文に対して分割する単位を様々に変えることで生成された派生テキスト情報に対する中間情報も中間情報テーブルに登録することで、その後に入力されたテキスト情報と中間情報テーブルに登録されているテキスト情報が一致する確率が上がる。 そのため、音声合成装置1は、合成音声の作成に要する時間を短縮できる可能性を高くできる。

    図5は、音声合成装置1の処理部4により実行される音声合成処理の動作フローチャートを示す。
    処理部4は、入力部2を介してテキスト情報及び合成パラメータを取得する(ステップS101)。
    一致判定部10は、入力されたテキスト情報またはそのテキスト情報により表される表音情報と合成パラメータとの組が中間情報テーブルに登録された登録テキスト情報または表音情報と登録合成パラメータとの組の何れかと一致するか否か判定する(ステップS102)。
    入力されたテキスト情報または表音情報と合成パラメータとの組が登録テキスト情報または表音情報と登録合成パラメータとの組の何れかと一致する場合(ステップS102−Yes)、一致判定部10は、その一致した登録テキスト情報または表音情報と登録合成パラメータとの組の識別番号を制御部16へ渡す。 制御部16は、中間情報テーブルを参照して、一致判定部10から受け取った識別番号に対応する登録中間情報を記憶部3から読み出す(ステップS103)。 そして制御部16は、その登録中間情報を音声合成部11へ渡す。
    音声合成部11は、その登録中間情報を用いて合成音声信号を作成する(ステップS104)。 そして音声合成部11は、合成音声信号を出力部5を介してスピーカ6へ出力する。

    一方、入力テキスト情報または表音情報と合成パラメータとの組は登録テキスト情報または表音情報と登録合成パラメータとの組の何れとも一致しない場合(ステップS102−Yes)、一致判定部10は入力されたテキスト情報と合成パラメータの組を音声合成部11へ渡す。 そして音声合成部11は、入力されたテキスト情報と合成パラメータに基づいて合成音声信号を作成する(ステップS105)。 音声合成部11は、合成音声信号を出力部5を介してスピーカ6へ出力する。 また音声合成部11は、合成音声信号を作成するためにその途中で作成した表音情報及び波形生成情報を中間情報として、入力テキスト情報及び合成パラメータとともに自動更新部17へ渡す。
    自動更新部17は、入力テキスト情報、合成パラメータ、及び作成された表音情報と波形生成情報とを、それぞれ登録テキスト情報、登録合成パラメータ及び登録中間情報として中間情報テーブルに登録する(ステップS106)。

    また、自動更新部17は、入力テキスト情報及び合成パラメータを一致判定部10から受け取る。 そして自動更新部17の分割処理部18は、テキスト情報に含まれる原文を複数の所定の文の単位に分割し、その文の単位ごとに派生テキスト情報を作成する(ステップS107)。
    また自動更新部17のパラメータ調整部19は、入力された合成パラメータに含まれる少なくとも一つのパラメータを修正することにより派生合成パラメータを作成する(ステップS108)。

    自動更新部17は、派生テキスト情報及び派生合成パラメータを音声合成部11へ出力する。 なお、自動更新部17から音声合成部11に派生テキスト情報及び派生合成パラメータが渡されるタイミングは、音声合成部11の負荷を軽減するために、音声合成部11が合成音声信号を作成していないときであることが好ましい。 そこで、例えば、自動更新部17は、音声合成部11の波形生成部15から、入力テキスト情報と入力合成パラメータの組についての合成音声信号の作成が終了したことを表す通知を受け取った後、派生テキスト情報及び派生合成パラメータを音声合成部11へ渡す。 そして音声合成部11は、派生テキスト情報と派生合成パラメータに基づいて表音情報及び波形生成情報を作成する(ステップS109)。
    音声合成部11は、作成した表音情報及び波形生成情報を中間情報として自動更新部17へ渡す。 そして自動更新部17は、派生テキスト情報、派生合成パラメータ、及び作成された表音情報と波形生成情報とを、それぞれ登録テキスト情報、登録合成パラメータ及び登録中間情報として中間情報テーブルに登録する(ステップS110)。
    ステップS104またはステップS110の後、処理部4は音声合成処理を終了する。
    なお、入力テキスト情報に含まれる原文の一部及び入力合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組が中間情報テーブルに登録されていることもある。 このような場合、処理部4は、原文の一部及び入力合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組について、ステップS103及びステップS104の処理を実行する。 一方、処理部4は、原文のその他の部分について、ステップS105〜ステップS110の処理を実行する。
    また、処理部4は、ステップS107の処理とステップS108の処理の順序を入れ換えてもよく、あるいは、ステップS107の処理とステップS108の処理の何れか一方を省略してもよい。

    以上に説明してきたように、この音声合成装置は、入力されたテキスト情報と合成パラメータの組に対応する中間情報が記憶されていなければ、その入力されたテキスト情報と合成パラメータに基づいて合成音声信号を作成する。 そしてこの音声合成装置は、合成音声信号の作成の途中で作成される波形生成情報等を中間情報として入力されたテキスト情報と合成パラメータの組とともに記憶する。 さらにこの音声合成装置は、入力されたテキスト情報を修正した派生テキスト情報と合成パラメータの一部を修正した派生合成パラメータについても、波形生成情報等の中間情報を作成する。 そしてこの音声合成装置は、その中間情報を、音声合成に利用できるように、派生テキスト情報及び派生合成パラメータとともに記憶する。 そのため、この音声合成装置は、一旦作成された合成音声信号の原文の少なくとも一部が同一の原文について、その合成音声信号の合成条件と異なる合成条件で合成音声信号を作成することが要求された場合に、音声合成に要する時間を短縮できる。

    次に、第2の実施形態による音声合成装置について説明する。
    この第2の実施形態による音声合成装置は、中間情報テーブルに登録されている各中間情報の使用回数を調べる。 そしてこの音声合成装置は、使用回数が少ない中間情報と、対応する登録テキスト情報と登録合成パラメータの組とを消去する。 これにより、この音声合成装置は、入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組の探索に要する時間を短縮する。

    図6は、第2の実施形態による音声合成装置の処理部41の概略構成図である。 処理部41は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17とを有する。 また自動更新部17は、分割処理部18と、パラメータ調整部19と、存続判定部20とを有する。
    図6において、処理部41の各構成要素には、図2に示された第1の実施形態による音声合成装置1の処理部4の対応する構成要素の参照番号と同じ参照番号を付した。 この第2の実施形態による処理部41は、第1の実施形態による処理部4と比較して、自動更新部17が存続判定部20を有する点で異なる。
    そこで以下では、処理部41が第1の実施形態による処理部4と異なる点について説明する。 第2の実施形態による音声合成装置のその他の構成要素については、図1、2及び第1の実施形態の関連する部分の説明を参照されたい。

    この実施形態では、中間情報テーブルは、登録テキスト情報及び登録合成パラメータの組のそれぞれについて、合成音声信号の作成に利用された回数をチェックした最新の日時と、そのチェック時以降に合成音声信号の作成に利用された回数とをさらに記録する。

    図7は、第2の実施形態による中間情報テーブルの一例を示す図である。 中間情報テーブル700の各行は、一つの登録中間情報に対応する。 そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報、使用回数及びチェック日時が格納される。 例えば、行701に登録された中間情報について、2010年8月25日の0時に使用回数がチェックされたことが示されている。 そして行701に登録された中間情報は、前回のチェック時以降、132回使用されたことが示されている。 同様に、行702に登録された中間情報について、2010年8月20日の0時に使用回数がチェックされたことが示されている。 そして行702に登録された中間情報は、前回のチェック時以降、16回使用されたことが示されている。

    この実施形態において、制御部16は、何れかの登録中間情報が合成音声信号の作成に利用されると、中間情報テーブルに記憶されている、その登録中間情報についての使用回数を1増加させる。 すなわち、一致判定部10により入力されたテキスト情報及び合成パラメータの組と一致すると判定された登録テキスト情報及び登録合成パラメータの組に対応する登録中間情報の使用回数が1増加する。
    また、自動更新部17は、中間情報を新たに中間情報テーブルに登録する際、その中間情報についての使用回数を'0'とし、チェック日時をその登録日時とする。

    自動更新部17の存続判定部20は、中間情報テーブルに登録されている各登録中間情報のうち、直近の所定期間においてあまり使用されていない登録中間情報を消去する。
    図8は、存続判定部20により実行される登録中間情報の存続判定処理の動作フローチャートである。
    存続判定部20は、定期的に(例えば、毎日午前0時に)記憶部3に記憶されている中間情報テーブルを参照して、前回のチェック日時から所定期間経過した登録中間情報を特定する(ステップS201)。 あるいは、存続判定部20は、特定のタイミングにおいて(例えば、音声合成装置の起動時または終了時に)、前回のチェック日時から所定期間経過した登録中間情報を特定してもよい。 この所定期間は、音声合成装置自体が使用される頻度、記憶部3の記憶容量または処理部41が有するプロセッサの処理速度に応じて定められる。 例えば、音声合成装置の使用頻度が高いほど、所定期間は短く設定され、一方、記憶部3の記憶容量が大きいほど、または処理部41が有するプロセッサの処理速度が速いほど、所定期間は長く設定される。 例えば、所定期間は、1週間、1ヶ月、6ヶ月または1年に設定される。

    存続判定部20は、特定された登録中間情報の使用回数が所定の閾値未満か否か判定する(ステップS202)。 所定の閾値は、例えば、1回から数回程度に設定される。 使用回数が所定の閾値未満であれば(ステップS202−Yes)、その使用回数に対応する中間情報は、合成音声信号の作成に殆ど使用されていない。 そこで存続判定部20は、使用回数が所定の閾値未満となる登録中間情報及び対応する登録テキスト情報と登録合成パラメータの組を中間情報テーブルから消去する(ステップS203)。
    一方、使用回数が所定の閾値以上である場合(ステップS202−No)、登録中間情報は、合成音声信号の作成に使用されている。 そのため、音声合成装置は、このような中間情報を残しておくことが好ましい。 そこで存続判定部20は、使用回数が所定の閾値以上となる登録中間情報について、中間情報テーブルに記録されているチェック日時を、今回のチェックを行った日時に修正する。 また存続判定部20は、チェックした中間情報についての使用回数を'0'にリセットする(ステップS204)。
    存続判定部20は、前回のチェック日時から所定期間経過した登録中間情報が複数存在する場合、その登録中間情報のそれぞれについて、ステップS202〜S204の処理を実行する。 そして存続判定部20は、全ての登録中間情報についてステップS202〜S204の処理が終了すると、存続判定処理を終了する。

    これにより、この音声合成装置は、使用頻度の低い中間情報を記憶部から消去できる。 そのため、この音声合成装置は、中間情報テーブルに登録された中間情報の数が不必要に増加することを抑制できる。 したがって、この音声合成装置は、入力されたテキスト情報及び合成パラメータの組と一致する、登録テキスト情報及び登録合成パラメータの組に相当する登録中間情報の探索に要する時間を短縮できる。 さらにこの音声合成装置は、各登録中間情報について、直近の一定期間の使用回数に基づいて消去するか否かを判定するので、消去する登録中間情報を適切に選択できる。

    次に、第3の実施形態による音声合成装置について説明する。
    この第3の実施形態による音声合成装置は、登録中間情報を編集する手段を有する。 これにより、この音声合成装置は、中間情報テーブルに登録されている中間情報が不適切である場合に、手動でその登録中間情報を消去したり、あるいは、その登録中間情報を修正できる。

    図9は、第3の実施形態による音声合成装置の処理部42の概略構成図である。 処理部42は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17と、編集部21とを有する。
    図9において、処理部42の各構成要素には、図2に示された第1の実施形態による音声合成装置1の処理部4の対応する構成要素の参照番号と同じ参照番号を付した。 この第3の実施形態による処理部42は、第1の実施形態による処理部4と比較して、編集部21を有する点で異なる。
    そこで以下では、処理部42が第1の実施形態による処理部4と異なる点について説明する。 第3の実施形態による音声合成装置のその他の構成要素については、図1、2及び第1の実施形態の関連する部分の説明を参照されたい。

    この実施形態では、入力部2は、例えば、キーボード、またはマウスなどのポインティングデバイスとディスプレイとを有する。 あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
    そして処理部42は、入力部2から登録中間情報の編集を行うことを示す操作信号を受け取ると、処理部42は、編集部21を起動する。

    編集部21は、例えば、編集対象となる登録中間情報をユーザが選択するためのメニュー、または操作ボタンなどを入力部2が有するディスプレイに表示させる。 また編集部21は、編集対象となる登録中間情報を消去するための操作ボタン、またはその登録中間情報に含まれる表音情報などを修正するためのテキストボックスなどをディスプレイに表示させる。
    そして編集部21は、入力部2のキーボード等から編集対象の登録中間情報の識別番号を取得すると、記憶部3からその識別番号に相当する登録中間情報及び対応する登録テキスト情報と登録合成パラメータとを読み込む。 そして編集部21は、登録テキスト情報及び登録合成パラメータと、その登録中間情報に含まれる表音情報または波形生成情報等を入力部2のディスプレイに表示させる。
    また編集部21は、入力部2のキーボード等から編集対象の登録中間情報を消去する操作信号及びその登録中間情報の識別番号を受け取ると、中間情報テーブルからその登録中間情報を削除する。
    あるいは、編集部21は、入力部2のキーボード等から編集対象の登録中間情報の一部、例えば、表音情報の一部を修正する操作信号及びその登録中間情報の識別番号を受け取ると、その操作信号に従って、その識別番号で特定される登録中間情報の表音情報を修正する。 そして編集部21は、修正された表音情報を音声合成部11へ入力することにより、修正された表音情報に応じた波形生成情報を得る。

    このように、この音声合成装置は、既に登録されている中間情報を編集する手段を有するので、例えば、テキスト情報に示された文の本来の読みと異なる読みで表された表音情報に基づく中間情報のように、不適切な中間情報を編集できる。 そのため、この音声合成装置は、適切な中間情報のみを残すことができる。

    なお、上記の各実施形態の変形例によれば、自動更新部のパラメータ調整部は、入力テキスト情報または派生テキスト情報に含まれる固有名詞を、その固有名詞と同種類の他の固有名詞に置換することで、別の派生テキスト情報を作成してもよい。 例えば、テキスト情報に「名古屋方面を走行中のドライバーに、」という文が含まれている場合、パラメータ調整部は、地名についての固有名詞である「名古屋」を、その固有名詞と同じ地名の固有名詞である「東京」または「京都」に置換してもよい。 なお、このような固有名詞の置換を行うために、例えば、記憶部に記憶されている単語辞書は、固有名詞の種類を表す識別情報も含む。 また分割処理部は、パラメータ調整部に、形態素解析の結果として得られる、テキスト情報に含まれる各単語の品詞を通知する。
    これにより、自動更新部は、より多くの派生テキスト情報について音声合成部に中間情報を作成させることができるので、次回以降の入力テキスト情報と合成パラメータの組についての合成音声信号の作成に中間情報を利用できる可能性をより高めることができる。

    他の変形例によれば、自動更新部は、派生テキスト情報及び派生合成パラメータに対応する合成音声信号を音声合成部に作成させてもよい。 この場合、自動更新部は、音声合成部から合成音声信号を受け取り、その合成音声信号を登録中間情報として記憶部に記憶させてもよい。 同様に、自動更新部は、入力テキスト情報及び入力合成パラメータに基づいて作成された合成音声信号を、登録中間情報として記憶部に記憶させてもよい。 このように、記憶部が合成音声信号を記憶することで、その後に入力されたテキスト情報及び合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組が中間情報テーブルに登録されている場合、音声合成装置は、波形生成部の処理も省略できる。 したがって、音声号装置は、音声合成に要する時間をさらに短縮できる。

    さらに、上記の各実施形態において、音声合成装置は、入力部を介して、入力されるテキスト情報と合成パラメータの組とともに、入力されるテキスト情報についての重要度を取得してもよい。 重要度は、例えば、2段階、あるいは、3段階以上に設定される。 そして例えば、重要度を表す数値が大きいほど、入力されるテキスト情報の重要度は高い。
    自動更新部は、重要度が所定の重要度閾値以上である場合に限り、派生テキスト情報及び派生合成パラメータの組に対する中間情報を音声合成部に作成させてもよい。 重要度閾値は、例えば、重要度が'0'と'1'の何れかに設定される場合、'1'に設定される。 また、重要度が'0'〜'n'(ただしnは2以上の整数)といった3段階以上の何れかに設定される場合、重要度閾値は、'1'〜'n'の何れかに設定される。

    さらに、重要度が3段階の何れかに設定される場合、自動更新部は、重要度に応じて、中間情報テーブルに登録する中間情報を決定してもよい。 例えば、重要度が最も低い段階(例えば、'0')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報も中間情報テーブルに登録しない。 また、重要度が中間の段階(例えば、'1')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報を中間情報テーブルに登録する。 しかし自動更新部は、派生テキスト情報及び派生合成パラメータの組についての中間情報を中間情報テーブルに登録しない。 また、重要度が最も高い段階(例えば、'2')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報を中間情報テーブルに登録する。 さらに自動更新部は、派生テキスト情報及び派生合成パラメータの組についての中間情報も中間情報テーブルに登録する。 さらに、重要度が4段階以上の何れかに設定される場合、自動更新部は、重要度が'2'以上であり、かつ高い値であるほど、多数の派生テキスト情報と派生合成パラメータの組についての中間情報を登録してもよい。

    この変形例では、自動更新部は、中間情報テーブルに、各中間情報とともに重要度も記録する。 例えば、自動更新部は、入力テキスト情報及び合成パラメータの組について作成された中間情報に対して、その組とともに入力された重要度を中間情報テーブルに記録する。 また自動更新部は、入力テキスト情報及び合成パラメータの組から作成された派生テキスト情報及び派生合成パラメータの組について求められた中間情報についても、元の入力テキスト情報及び合成パラメータの組について設定された重要度を記録する。 あるいは、自動更新部は、派生テキスト情報及び派生合成パラメータの組について求められた中間情報について、元の入力テキスト情報及び合成パラメータの組について設定された重要度よりも低い重要度を中間情報テーブルに記録してもよい。

    さらに、自動更新部が存続判定部を有する場合、その存続判定部は、中間情報テーブルに記録された重要度に応じて、登録中間情報を消去するか否か判定してもよい。 例えば、存続判定部は、重要度が第2の重要度閾値よりも高い登録中間情報については、使用回数が所定の閾値未満となっても、その登録中間情報を消去しない。 この第2の重要度閾値は、例えば、上記の重要度閾値よりも高い値に設定される。 あるいは、存続判定部は、ある登録中間情報について記録された重要度が中間情報が登録される重要度の段階のうちで最も低い段階である場合、その登録中間情報の使用回数との比較に用いる閾値を、通常用いられる閾値よりも高く設定してもよい。

    図10は、この変形例による中間情報テーブルの他の一例を示す図である。 中間情報テーブル1000の各行は、一つの登録中間情報に対応する。 そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報、重要度、使用回数及びチェック日時が格納される。 例えば、行1001に登録された中間情報について、重要度は'5'であることが示されている。 またこの登録中間情報は、前回のチェック時以降、1回も使用されていないことが示されている。 同様に、行1002に登録された中間情報について、重要度は'1'であることが示されている。 またこの登録中間情報も、前回のチェック時以降、1回も使用されていないことが示されている。 この場合、第2の重要度閾値が例えば'2'であり、使用回数との比較に用いる閾値が'1'以上であれば、行1002に登録された中間情報は、重要度、使用回数とも閾値未満であるため、存続判定部により消去される。 一方、行1001に登録された中間情報は、重要度が第2の重要度閾値よりも高いので消去されない。

    さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。

    ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。 本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

    以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
    (付記1)
    合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得する入力部と、
    登録テキスト情報と登録合成条件の組と、該登録テキスト情報と該登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、
    前記入力テキスト情報または前記入力テキスト情報により表される入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致するか否か判定する一致判定部と、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する前記登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成する音声合成部と、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて前記音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる自動更新部と、
    を有する音声合成装置。
    (付記2)
    前記自動更新部は、前記入力テキスト情報に含まれる原文を所定単位ごとに分割することにより複数の第2の原文を作成し、該複数の第2の原文のうちの何れかを含むように前記派生テキスト情報を作成する分割処理部を有する、付記1に記載の音声合成装置。
    (付記3)
    前記所定単位は、前記原文中に設定された呼気段落である、付記2に記載の音声合成装置。
    (付記4)
    前記所定単位は、前記原文中に句読点を設定できる少なくとも一つの位置で区切られた文の単位である、付記2に記載の音声合成装置。
    (付記5)
    前記音声合成部は、前記原文に対して形態素解析を実行することにより当該原文を区切る第1の位置を求める言語処理部を有し、
    前記分割処理部は、前記第1の位置で前記原文を分割することにより前記複数の第2の原文のうちの一つの原文を作成するとともに、前記第1の位置と異なり、かつ句読点を設定できる第2の位置で前記原文を分割することにより前記複数の第2の原文のうちの他の原文を作成する、付記2に記載の音声合成装置。
    (付記6)
    前記自動更新部は、前記原文中の固有名詞を、当該固有名詞と同種類の他の固有名詞に置換することにより、前記派生テキスト情報を作成する、付記1に記載の音声合成装置。
    (付記7)
    前記自動更新部は、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少ない登録中間情報を消去する、付記1〜6の何れか一項に記載の音声合成装置。
    (付記8)
    前記入力部は、前記入力テキスト情報の重要度を当該入力テキスト情報とともに取得し、
    前記自動更新部は、前記入力テキスト情報の重要度に応じて前記中間情報の第2の重要度を決定し、かつ、当該第2の重要度を、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組と関連付けて前記記憶部に記憶させ、
    かつ、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少なく、かつ前記第2の重要度が第1の重要度閾値未満である登録中間情報を消去する、付記1〜6の何れか一項に記載の音声合成装置。
    (付記9)
    前記入力部は、前記入力テキスト情報の重要度を当該入力テキスト情報とともに取得し、前記自動更新部は、前記入力テキスト情報の重要度が第2の重要度閾値以上である場合、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組を前記記憶部に記憶し、一方、前記入力テキスト情報の重要度が前記第2の重要度閾値未満である場合、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組を前記記憶部に記憶しない、付記1〜6の何れか一項に記載の音声合成装置。
    (付記10)
    合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得し、
    前記入力テキスト情報または当該入力テキスト情報により表される入力表音情報と前記入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件の組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
    ことを含む音声合成方法。
    (付記11)
    合成音声信号をコンピュータに作成させる音声信号合成用コンピュータプログラムであって、
    合成音声信号の元となる原文を含む入力テキスト情報または当該入力テキスト情報により表される入力表音情報と該合成音声信号を作成するための入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
    前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
    ことをコンピュータに実行させるコンピュータプログラム。

    1 音声合成装置 2 入力部 3 記憶部 4、41、42 処理部 5 出力部 6 スピーカ 10 一致判定部 11 音声合成部 12 言語処理部 13 韻律生成部 14 素片選択部 15 波形生成部 16 制御部 17 自動更新部 18 分割処理部 19 パラメータ調整部 20 存続判定部 21 編集部

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈