首页 / 专利库 / 人工智能 / 声学模型 / Device, method and program for detecting ingressive in voice

Device, method and program for detecting ingressive in voice

阅读:1022发布:2021-06-13

专利汇可以提供Device, method and program for detecting ingressive in voice专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a technology capable of detecting an ingressive in a voice signal with a high detection rate and a high degree of accuracy.SOLUTION: An ingressive detection device refers to each acoustic model of ingressive and non-ingressive for determining an ingressive candidate and generates a feature vector with setting simplex information meaning information on ingressive candidate simplex, and context information as an element. The context information means information on a relation between the ingressive candidate and a speech section including the ingressive candidate, a relation between the ingressive candidate and an ingressive candidate before and after the ingressive candidate or both relations. The ingressive detection device obtains classification reference information for classifying the ingressive candidate into either the ingressive or the non-ingressive, through machine learning with setting the feature vector as input, and classifies the ingressive candidate into either the ingressive or the non-ingressive based on the classification reference information.,下面是Device, method and program for detecting ingressive in voice专利的具体信息内容。

  • 音声に含まれる吸気音を検出する装置であって、
    入力された音声信号に対し発話が行われている区間である発話区間を検出する発話区間検出手段と、
    吸気音及び非吸気音のそれぞれについて音響モデルを格納する音響モデル格納手段と、
    入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定する吸気音候補決定手段と、
    前記吸気音候補の特徴ベクトルを抽出する特徴量抽出手段であって、前記吸気音候補単体の情報である単体情報を前記特徴ベクトルの1要素として抽出する単体情報抽出手段と、前記吸気音候補を含む前記発話区間との関係、該吸気音候補の前後の吸気音候補との関係又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するコンテキスト情報抽出手段とを含む前記特徴量抽出手段と、
    前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を格納する分類基準情報格納手段と、
    前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類する分類手段と を含む、装置。
  • 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内における前記吸気音候補の時間的な位置を示す情報を含む、請求項1に記載の装置。
  • 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記吸気音候補と、該吸気音候補に先行する又は該吸気音候補の後続の吸気音候補との時間間隔を示す情報を更に含む、請求項2に記載の装置。
  • 前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内の吸気音候補の個数を示す情報を更に含む、請求項3に記載の装置。
  • 前記吸気音候補の時間的な位置に関する情報は、前記吸気音候補が前記発話区間内において、発話開始直後の位置、発話終了直前の位置、及びそれ以外の位置のいずれに位置するかを示す情報である、請求項4に記載の装置。
  • 前記単体情報抽出手段により抽出される単体情報は、該吸気音候補の零交差数、パワー、及び吸気行動に伴い吸気音前後に観測される無音区間に関する情報のうちの少なくとも1つを含む、請求項4に記載の装置。
  • 学習用の音声信号を入力として前記吸気音候補決定手段により求められた学習用の吸気音候補に対して前記単体情報抽出手段により抽出された単体情報と、前記学習用の吸気音候補に対して前記コンテキスト情報抽出手段により求められたコンテキスト情報と、吸気音又は非吸気音のいずれであるかを示す、前記学習用の音声信号のフレームごとのラベル情報とを用いて、前記学習用の前記吸気音候補の前記コンテキスト情報と前記単体情報とを素性とした機械学習により、前記学習用の吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める学習手段を更に含む、請求項4に記載の装置。
  • 前記機械学習は、サポートベクターマシーン、ニューラルネットワーク、条件付確率場、最近傍識別器のうちの1による機械学習である、請求項4に記載の装置。
  • 前記音響モデルは、ガウス混合モデル(GaussianMixture Model)又はラプラス分布である、請求項4に記載の装置。
  • 音声に含まれる吸気音をコンピュータによって検出する方法であって、
    入力された音声信号に対し発話が行われている区間である発話区間を検出するステップと、
    吸気音及び非吸気音のそれぞれについて音響モデルを記憶する音響モデル記憶装置から各音響モデルを読み出すステップと、
    入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定するステップと、
    前記吸気音候補に対し、前記吸気音候補単体の情報である単体情報を、前記吸気音候補の特徴ベクトルの1要素として抽出するステップと、
    前記吸気音候補に対し、該吸気音候補を含む発話区間との関係、該吸気音候補の前後の吸気音候補との関係、又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するステップと、
    前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を記憶する分類基準情報記憶装置から前記分類基準情報を読み出すステップと、
    前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類するステップと を含む、方法。
  • コンピュータによって音声に含まれる吸気音を検出するためのプログラムであって、該プログラムは、前記コンピュータに、
    入力された音声信号に対し発話が行われている区間である発話区間を検出するステップと、
    吸気音及び非吸気音のそれぞれについて音響モデルを記憶する音響モデル記憶装置から各音響モデルを読み出すステップと、
    入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定するステップと、
    前記吸気音候補に対し、前記吸気音候補単体の情報である単体情報を、前記吸気音候補の特徴ベクトルの1要素として抽出するステップと、
    前記吸気音候補に対し、該吸気音候補を含む発話区間との関係、該吸気音候補の前後の吸気音候補との関係、又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するステップと、
    前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を記憶する分類基準情報記憶装置から前記分類基準情報を読み出すステップと、
    前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類するステップと を実行させる、前記プログラム。

    識別器を構成する手法である。 )を求めるという基準で、線形入力素子のパラメータが学習される。
  • 说明书全文

    本発明は、音声に含まれる吸気音を検出するための技術に関する。

    従来知られている音声区間検出(Voice ActivityDetection: VAD)では、パワーや零交差数等の音声特徴量に基づいて入音声から発話が行われた区間が検出される。 検出された音声区間の情報は、音声認識における認識単位の切り出しや、音声からテキストデータを書き起こす作業における発話単位の区切りとして利用される。

    しかし従来手法のVADでは、実行環境ごとに閾値の調整が必要であり、SN比が低い環境では性能が著しく悪化する。 また、従来手法のVADは、ポーズに含まれる無音フレームや無音区間の情報を利用するため(例えば、特許文献1参照)、話者が多数の文を連続して発話する場合、即ち無音区間がない又は非常に短いような場合は、音声認識処理や認識結果の表示に適合しない長さの音声セグメントが、認識単位又は発話単位として生成されてしまう。 この現象は、吸気音そのものが振幅の大きい信号として入力される電話音声や、接話マイクの利用時によく見受けられる。

    上記のような問題を解決するため、特許文献2は、ポーズ検出部によって検出されたポーズの中で、最も信頼性の高いポーズにより入力音声信号を分割し、分割の結果、短期記憶が可能な所定の時間以上または所定の文字数以上である部分については、次に信頼性の高いポーズにより入力音声信号を分割し、分割の結果、短期記憶が可能な所定の時間以上または所定の文字数以上である部分については、次の次に信頼性の高いポーズにより入力音声信号を分割するか、または予め決定された時間若しくは文字数で機械的に分割する技術を開示する。

    また、特許文献3は、入力された音声信号の低域成分を抽出して信号レベルを一定化するレベル補正手段と、レベル補正後の音声信号に対して遅延信号と元の信号とを加算する遅延加算を行って短スピーチ部分を広げる短スピーチ補償手段と、短スピーチ補償がされた後の音声信号から通常の速度におけるスピーチの変動特性を示す特定周波数成分を抽出する特定周波数成分抽出手段と、抽出された特定周波数成分のエンベロープ信号または平均レベル信号を求め、求められたエンベロープ信号または平均レベル信号に対して所定のスライスレベルを設定してスピーチ区間とポーズ区間とを検出するスピーチ/ポーズ区間検出手段とを備えるスピーチ/ ポーズ区間検出装置を開示する。

    また、特許文献4は、一つないし複数の短時間音声パワーと、音声波を分析することにより得られるスペクトル包絡に関係付けられるパラメータベクトルと、これと同種のパラメータでスペクトルが平坦なパラメータベクトルとのベクトル間距離と、音声のピッチ周期をほぼカバーする範囲内での音声波の自己相関の最大値とをニューラルネットワークに入力し、その出力によって有音/休止区間の判定を行う手法を開示する。

    また、特許文献5は、単語の表記および発音を記憶した単語データベースと、単語間の接続情報を含む文法を記憶した文法データベースと、少なくとも2チャネルで入力された対話音声について、主発話を行っているチャネルのポーズの位置を検出するポーズ検出部と、主発話を行っていないチャネルの確認応答の位置を検出する確認応答検出部と、前記確認応答の位置を基点として前後一定区間に存在する前記ポーズを抽出することにより、前記主発話の境界候補を抽出する境界候補抽出部と、前記抽出された境界候補で分割される発話について、前記単語データベースおよび前記文法データベースを参照して最適となる発話単位に分割して単語列を出力する認識部を有する対話音声を発話単位に分割する装置を開示する。

    また、非特許文献1は、ポピュラー音楽の歌唱におけるマイク収録されたブレス(吸気、息継ぎ) 音について、その位置を自動検出するために、MFCCといったスペクトル包絡に基づく特徴量を利用し、HMM(Hidden Markov Model)を用いたブレス検出法を開示する。 なお、非特許文献1には、音声認識分野においては、ブレス位置が自然な区切り箇所であることについて指摘がある。

    特開2001−184087号公報

    特開2004−212799号公報

    特開2006−350246号公報

    特開平11−24692号公報

    特開2008−164647号公報

    中野 倫靖、外3名、「無伴奏歌唱におけるブレスの音響特性と自動検出」、日本音響学会講演論文集、2008年3月、P.265−268

    上述したように、特許文献1の技術では、無音フレームや無音区間を利用してポーズを検出するため、話者が連続して発話する場合、即ち無音区間がない又は非常に短いような場合は、長い音声セグメントが認識単位又は発話単位として生成されてしまう。

    特許文献2の技術は、信頼性の高いポーズにより入力音声信号を分割した結果長い発話が残った場合には、信頼性の低いポーズにより更なる分割が行うか、または予め決定された時間若しくは文字数で機械的に分割する。 そのため、特許文献2の技術によれば、誤ってポーズと判断された位置または不自然な位置で発話が分割される可能性がある。

    特許文献3の技術は、音声パワー値の適当な周波数範囲の抽出とレベル補償など各種の補正処理を行ってポーズ部分を検出するが、検出に使用する情報は主としてパワー情報であるため、話者が連続して発話する場合に非常に長いセグメントが認識単位又は発話単位として生成されてしまうという問題に対処できない。

    特許文献4の技術は、音声の短時間パワー以外にスペクトル包絡に関係付けられたパラメータベクトルのその平坦特性のベクトルとのベクトル誤差および一定時間内の音声波の自己相関最大値を用いることにより、背景雑音が有音/休止区間判定に及ぼす影響を軽減することを可能とする。 しかし、この技術は、発話を適切な位置で分割するというものではないため、話者が連続して発話する場合に非常に長いセグメントが認識単位又は発話単位として生成されてしまうという問題に十分に対処できない。

    特許文献5の技術は、対話音声を処理の対象としており、話者の内容に呼応して確認を行う確認応答の存在を前提とする。 そのため、そのような確認応答の情報が得られない場合は、話者が連続して発話する場合に非常に長いセグメントが認識単位又は発話単位として生成されてしまうという問題に対処できない。

    一方、非特許文献1の技術は、上述した複数の特許文献のように、ポーズ、即ち、音のない無音区間を検出対象とするのではなく、吸気音という音のある位置を検出対象とする。 吸気音の位置は、音声認識分野において自然な区切り箇所であることが指摘されており、また、吸気音は、話者が多数の文を連続して発話する場合、即ち、無音区間が検出できないような場合でも分割するに適切な位置に存在することが多く、検出可能である。

    音声認識分野における従来の吸気音の検出方法は、非特許文献1に記載されるように、特徴量をケプストラムとしたGMM (混合ガウス分布モデル) ベースの識別であり、93%の検出率を達成している。 しかし、吸気音はスペクトルの形状が雑音や子音の/s/と似ていることから、判定誤り、即ち、湧き出し誤りが多く発生し、湧き出し誤りも含めた指標でみると低い性能に留まる。 なお、非特許文献1が開示する吸気音の検出方法は対象を歌唱音声とし、通常の会話では見られないような特徴的な吸気音を検出対象とするため、会話等の一般的な音声における吸気音の全てに対応できるわけではない。

    この発明は、上記の問題点を解決するためになされたものであって、話者が連続して発話する場合、即ち無音区間がない又は非常に短いような場合に、長い音声セグメントが認識単位又は発話単位として生成されてしまうといった問題を、発話の分割位置として吸気音を利用することにより解決することを目的とする。 より具体的には、本発明は、音声信号における吸気音を、高い検出率で、かつ、精度よく検出することのできる技術を提供することを目的とする。

    上記課題を解決するために、本発明の第1の態様においては、音声に含まれる吸気音を検出する装置であって、入力された音声信号に対し発話が行われている区間である発話区間を検出する発話区間検出手段と、吸気音及び非吸気音のそれぞれについて音響モデルを格納する音響モデル格納手段と、入力された前記音声信号について、前記吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定する吸気音候補決定手段と、前記吸気音候補の特徴ベクトルを抽出する特徴量抽出手段であって、前記吸気音候補単体の情報である単体情報を前記特徴ベクトルの1要素として抽出する単体情報抽出手段と、前記吸気音候補を含む前記発話区間との関係、該吸気音候補の前後の吸気音候補との関係又はその両方に関する前記吸気音候補のコンテキスト情報を、前記特徴ベクトルの他の1要素として抽出するコンテキスト情報抽出手段とを含む前記特徴量抽出手段と、前記吸気音候補を、該吸気音候補の前記特徴ベクトルに基づき、吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を格納する分類基準情報格納手段と、前記吸気音候補の前記特徴ベクトルを入力し、前記吸気音候補を前記分類基準情報に基づき吸気音と非吸気音のいずれか一方に分類する分類手段とを含む、装置を提供する。

    好ましくは、前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内における前記吸気音候補の時間的な位置を示す情報を含む。

    より好ましくは、前記吸気音候補の時間的な位置に関する情報は、前記吸気音候補が前記発話区間内において、発話開始直後の位置、発話終了直前の位置、及びそれ以外の位置のいずれに位置するかを示す情報である。

    また好ましくは、前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記吸気音候補と、該吸気音候補に先行する又は該吸気音候補の後続の吸気音候補との時間間隔を示す情報を含む。

    また好ましくは、前記コンテキスト情報抽出手段が抽出する前記吸気音候補のコンテキスト情報は、前記発話区間内の吸気音候補の個数を示す情報を含む。

    また好ましくは、前記単体情報抽出手段により各吸気音候補で独立に抽出される単体情報は、該吸気音候補の零交差数、パワー、及び吸気行動に伴い吸気音前後に観測される無音区間に関する情報のうちの少なくとも1つを含む。

    また好ましくは、前記音声に含まれる吸気音を検出する装置は、学習用の音声信号を入力として前記吸気音候補決定手段により求められた学習用の吸気音候補に対して前記単体情報抽出手段により抽出された単体情報と、前記学習用の吸気音候補に対して前記コンテキスト情報抽出手段により求められたコンテキスト情報と、吸気音又は非吸気音のいずれであるかを示す、前記学習用の音声信号のフレームごとのラベル情報とを用いて、前記学習用の前記吸気音候補の前記コンテキスト情報と前記単体情報とを素性とした機械学習によって、前記学習用の吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める学習手段を更に含む。

    より好ましくは、前記機械学習は、サポートベクターマシーン、ニューラルネットワーク、条件付確率場、及び最近傍識別器のうちの1による機械学習である。

    また好ましくは、前記音響モデルは、ガウス混合モデル(GaussianMixture Model)、又はラプラス分布である。

    以上、音声に含まれる吸気音を検出する装置として本発明を説明したが、本発明は、プロセッサと記憶領域を備えたコンピュータの計算処理によって音声に含まれる吸気音を検出する方法、及びプロセッサと記憶領域を備えたコンピュータによって実行される、音声に含まれる吸気音を検出するプログラムとして把握することもできる。

    本発明は、最初に音響モデルを用いて吸気音の候補を決定し、その後、吸気音候補を吸気音と非吸気音の2クラスに分類する、2段階構成を採用する。 このため、本発明によれば、吸気音候補の決定段階において吸気音の可能性あるものを吸気音候補として検出して吸気音の検出率を高めると同時に、その後の2クラス分類において吸気音ではないものを除外することにより吸気音の検出精度を上げることが可能となる。 更に本発明によれば、従来吸気音の特徴量として知られている、零交差数やパワーのように吸気音ごとに独立に求まる吸気音単体の情報のみならず、吸気音候補を含む発話区間との関係等、吸気音のコンテキスト情報をも2クラス分類のための特徴量として利用するので、吸気音の検出精度がより一層上がる。 本発明のその他の効果については、各実施の形態の記載から理解される。

    図1は、本発明の実施の形態による音声に含まれる吸気音を検出する装置を実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。

    図2は、本発明の実施形態に係る吸気音検出装置200の機能構成を示す

    図3は、発話区間内における吸気音候補の時間的な位置を示す情報を抽出する処理の流れの一例を示す。

    図4(a)は、吸気音候補と、該吸気音候補の後続の吸気音候補との時間間隔を示す情報を抽出する処理の流れの一例を示す。 図4(b)は、吸気音候補と、該吸気音候補に先行する吸気音候補との時間間隔を示す情報を抽出する処理の流れの一例を示す。

    図5は、学習時における吸気音検出装置200による処理の流れの一例を示す。

    図6は、テスト時における吸気音検出装置200による処理の流れの一例を示す。

    図7は、吸気音検出の正解率と精度とを、従来方式と本発明とで比較した表の一例を示す。

    以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

    図1は、本発明を実施するためのコンピュータ100の例示的なハードウェア構成を示す。 図1においてマイク105付近で発生した音は、マイク105によってアナログ信号としてA/D変換器110に入力され、そこでCPU125が処理可能なディジタル信号に変換される。

    なお、本発明による処理は、ディジタル信号に変換された音声に対してリアルタイムに行ってよい。 しかし以下では、本発明による処理はオフラインで行うものとして説明し、ディジタル信号に変換された音声は後述する外部記憶装置115に一旦格納するものとする。

    外部記憶装置115やROM120は、オペレーティング・システムと協働してCPU125に命令を与え、本発明を実施するための吸気音検出プログラムを含む複数のコンピュータ・プログラムのコードや各種データを記録することができる。 そして外部記憶装置115やROM120に格納された複数のコンピュータ・プログラムは各々RAM130にロードされることによってCPU125により実行される。 なお、外部記憶装置115は、SCSIコントローラなどのコントローラ(図示しない)を経由してバス145へ接続されている。

    コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。 なお、CPU125が、A/D変換器110又は外部帰国装置115から渡されるディジタル信号に対して、吸気音検出プログラムにより行う処理の詳細は後述する。

    コンピュータ100はまた、視覚データをユーザに提示するための表示装置135を含む。 表示装置135は、グラフィックスコントローラ(図示しない)を経由してバス145へ接続されている。 コンピュータ100は、通信インタフェース140を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

    上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。 同様に本発明を実施するためのコンピュータ100は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。

    図2は、本発明の実施形態に係る吸気音検出装置200の機能構成を示す。 本発明の実施形態に係る吸気音検出装置200の機能構成は、大きく、入力音声から漏れなく吸気音を検出するために吸気音候補を決定する第1処理部202と、吸気音候補から検出誤りを除外して絞り込みを行い、吸気音を決定する第2処理部204とに分かれる。

    吸気音検出装置200は、学習時には、学習用の音声信号を入力として受け付ける。 第1処理部202は、学習用の音声信号に対し、吸気音及び非吸気音の各音響モデルを用いて吸気音候補を決定する。 第2処理部204は、学習用の音声信号から決定された吸気音候補に対し、教師データ、即ち、吸気音又は非吸気音のいずれであるかを示すラベル情報を用いて機械学習を行い、吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める。

    吸気音検出装置200は、テスト時には、テスト用の音声信号を入力として受け付ける。 第1処理部202は、テスト用の音声信号に対し、吸気音及び非吸気音の各音響モデルを用いて吸気音候補を決定する。 第2処理部204は、テスト用の音声信号から決定された吸気音候補に対し、学習時に求めた分類基準情報を使用して、該吸気音候補を吸気音と非吸気音とのいずれか一方に分類する。

    より詳細には、第1処理部202は、発話区間検出部205と、吸気音及び非吸気音の音響モデル格納部310と、吸気音候補決定部215とを含む。 また、第2処理部204は、特徴量抽出部220と、スイッチ232と、ラベル情報格納部235と、学習部240と、分類基準格納部245と、分類部250とを含む。 特徴量抽出部220は更に単体情報抽出部225と、コンテキスト情報抽出部230とを含む。 スイッチ232は、学習時には学習部240側に、テスト時には分類部250側へ倒される。 以下に各部の詳細を説明する。

    発話区間検出部205は、入力された音声信号に対し発話が行われている区間である発話区間を検出する。 検出した発話区間の情報は、その開始時刻と終了時刻とからなる情報として、後述する吸気音候補決定部215及び特徴量抽出部220に渡される。 発話区間の検出は、従来手法により行ってよい。 例えば、一定のレベルを超える振幅又はパワースペクトルの強度が一定数A1を超えたときを発話区間の開始位置とし、値が一定数B1(A1≧B1)以下になったときを発話区間の終了位置として発話区間を検出してよい。

    これに代えて発話区間検出部205は次のようにして発話区間の検出を行ってよい。 まず、発話区間検出部205に入力される音声信号は、図2において図示しない前処理部により、ケプストラム特徴量と、その時間方向の変動を表現する動的特徴量とからなる特徴ベクトルに変換されているものとする。 ケプストラム特徴量は、音声信号波形のパワースペクトルの対数のフーリエ変換として定義される。 一例として、前処理部は、ディジタル信号に変換された音声信号を入力し、これをハニング窓、ハミング窓などの適当な方法でフレーム化した後、離散フーリエ変換によりパワースペクトルを求め、離散コサイン変換を通じてケプストラム特徴量を取得してよい。 前処理部は、フレーム化の後に高域強調処理を行ったり、パワースペクトルを求めた後24チャンネルの帯域通過フィルタを適用したりしてもよい。

    発話区間検出部205は、上記のようにして求められた音声特徴ベクトルを入力として受け付け、事前に学習された音声/非音声モデルに対する尤度の比較によって、発話区間を検出してよい。

    吸気音及び非吸気音の音響モデル格納部210は、吸気音及び非吸気音のそれぞれについて音響モデルを格納する。 音響モデルは、ガウス混合モデル(GaussianMixture Model: GMM)やラプラス分布等の統計モデルであってよい。 以下の説明では音響モデルはGMMであるとする。 吸気音及び非吸気音に対応する各GMMは、一例として、上述したケプストラム特徴量と、その時間方向の変動を表現する動的特徴量とからなるフレーム毎の特徴ベクトルを入力とし、吸気音又は非吸気音のいずれのフレームであるかを示すラベル情報を用いてGMMを学習することにより求めてよい。 GMMの構成及び学習方法は、公知の技術(例えば、鹿野清宏、外4名、「ITText 音声認識システム」、オーム社を参照)であり、本発明の要旨ではないのでこれ以上の説明は省略する。

    吸気音候補決定部215は、入力された音声信号について発話区間ごと、音響モデル格納部210に格納されている吸気音及び非吸気音の各音響モデルを参照して、吸気音候補を決定する。 決定された吸気音候補の情報は、その開始時刻と終了時刻とからなる情報として、後述する特徴量抽出部220に渡される。 より具体的には、吸気音候補決定部215は、上述した前処理により処理されたフレーム毎の特徴ベクトルを入力として受け付け、吸気音GMMに対する尤度と、非吸気音GMMに対する尤度とを求めて、両尤度を比較することにより、吸気音候補のフレームを決定する。

    これに加えて、吸気音候補決定部215は、更に次の処理を行うことにより、最終的な吸気音候補のフレームを決定してよい。 即ち、例えば20フレーム程度のバッファを用意し、バッファ内の吸気音候補のフレーム数が一定数A2を超えたときを吸気音候補のフレーム開始位置とし、値が一定数B2(A2≧B2)以下になったときを吸気音候補のフレーム終了位置として決定してよい。

    特徴量抽出部220は、吸気音候補決定部215から受け取った吸気音候補の情報と、発話区間検出部205から受け取った発話区間の情報とに基づいて、各発話区間について、入力された音声信号から、吸気音候補の開始時刻から終了時刻までの区間(以下、単に吸気音候補区間という)ごとに該吸気音候補を表現する一つの特徴ベクトルを抽出する。 なお、ここでいう特徴ベクトルとは、上述した前処理部により求められる特徴ベクトルとは異なるものであり、後述する学習部240及び分類部250の入力として利用するものである。 以下の説明では、特徴量抽出部220において抽出される特徴ベクトルを、前処理部により求められる特徴ベクトルと区別するために絞り込み用特徴ベクトルと呼ぶことにする。

    より具体的には、特徴量抽出部220は、吸気音候補単体の情報である単体情報を絞り込み用特徴ベクトルの1要素として抽出する単体情報抽出部225を含む。 特徴量抽出部220はまた、吸気音候補のコンテキスト情報を、絞り込み用特徴ベクトルの他の1要素として抽出するコンテキスト情報抽出部230を含む。 なお、吸気音候補のコンテキスト情報は、吸気音候補と、該吸気音候補を含む発話区間との関係、該吸気音候補の前後の吸気音候補との関係、又はその両方に関するものである。

    単体情報抽出部225が吸気音候補ごとに独立して抽出する単体情報は、各吸気音候補区間の零交差数、パワー、及び吸気行動に伴う前後の無音区間に関する情報のうちの少なくとも1つを含む。 好ましくは、単体情報抽出部225は、吸気音候補区間の零交差数の絶対値ではなく、吸気音候補区間の零交差回数と非吸気音候補区間の零交差回数の比若しくは差分を、零交差情報として抽出する。 このようにして取得される零交差情報は、吸気音の誤検出を防止するのに役立つ。

    また好ましくは、単体情報抽出部225は、平均音素継続長以下の短い窓幅で、吸気音候補の前後の無音区間の情報を抽出し、無音区間に関する情報とする。 これは、吸気音の前後の無音区間は非常に短くあいまいであることから、無音区間の情報として信頼のおける領域の情報を利用するためである。 一例として、単体情報抽出部225は、吸気音候補区間の始端から、先行Nフレーム(例えばN=5)内の無音フレームの数と、吸気音候補区間の終端から、後続Mフレーム(例えばM=3)内の無音フレームの数を、吸気音候補の前後の無音区間の情報として取得する。

    また好ましくは、単体情報抽出部225は、吸気音候補の後半部分の平均パワーを抽出し、パワーに関する情報とする。 これは、吸気音のパワーの変遷は、全体的に上がり調子、即ち、後半ほど音が大きい傾向にあるからである。

    コンテキスト情報抽出部230は、吸気音候補のコンテキスト情報として、発話区間内における吸気音候補の時間的な位置、即ち、出現位置を示す情報を抽出する。 発話中に行われる呼吸のタイミングは人それぞれである。 しかし、吸気音と発話区間の関係をみると、吸気音が発話開始直後や発話終了直前付近に出現する確率は非常に低いということが観測結果から明らかになった。 つまり、発話開始または終了付近に吸気音が検出された場合、それは検出誤りである可能性が高いといえる。 そこで本発明では、発話区間内における吸気音候補の出現位置を、吸気音候補の絞り込み用特徴ベクトルの1要素として利用する。

    より好ましくは、コンテキスト情報抽出部230は、発話区間内において吸気音候補が、発話開始直後の位置、発話終了直前の位置、及びそれ以外の位置のいずれにおいて出現するかを示す情報を抽出する。 例えば、発話区間を次のように(1)〜(3)の3つの領域に分割し、それぞれの領域に対して抽出すべき特徴量F(t)の値を割り当てる。
    (1)発話区間開始時刻<t<発話区間開始時刻+n秒、F(t)=1
    (2)発話区間開始時刻+n秒<t<発話区間終了時刻−m秒、F(t)=0
    (3)発話区間終了時刻−m秒<t<発話区間終了時刻、F(t)=2
    ここで、tは吸気音候補の出現位置を示し、n及びmの値は例えば1秒である。

    図3は、上記のように取り決めた場合における、吸気音候補の出現位置情報の抽出処理の流れの一例を示すフローチャートである。 処理はステップ300で開始し、コンテキスト情報抽出部230は、吸気音候補の出現位置tが上記(1)〜(3)のいずれの領域に属するかを判定する。 吸気音候補の出現位置は、吸気音候補区間の中間の時刻tを代表時刻と見なして利用してよい。 吸気音候補の出現位置が発話区間の先頭付近である場合、コンテキスト情報抽出部230は発話区間内における吸気音候補の時間的な位置情報F(t)として値1を抽出する(ステップ305)。

    吸気音候補の出現位置が発話区間の中盤である場合、コンテキスト情報抽出部230は発話区間内における吸気音候補の時間的な位置情報F(t)として値0を抽出する(ステップ310)。 吸気音候補の出現位置が発話区間の終了付近である場合、コンテキスト情報抽出部230は発話区間内における吸気音候補の時間的な位置情報F(t)として値2を抽出する(ステップ315)。 そして処理を終了する。

    コンテキスト情報抽出部230はまた、吸気音候補のコンテキスト情報として、吸気音候補と、該吸気音候補に先行する又は該吸気音候補の後続の吸気音候補との時間間隔を示す情報を抽出する。 発話の内容や心理的な状況にもよるが、通常、息継ぎは数秒の間隔をおいて行われる。 例えば1秒程度の短い間隔で息継ぎが行われることは稀であるが、従来の吸気音の検出手法では、そのように非常に短い間隔で吸気音が検出されることもあった。 そこで本発明では、吸気音候補と、該吸気音候補に先行する又は後続の吸気音候補との時間間隔を、吸気音候補の絞り込み用特徴ベクトルの1要素として利用する。

    図4(a)は、後続の吸気音候補との時間間隔を抽出する処理の流れの一例を示すフローチャートである。 処理はステップ400で開始し、コンテキスト情報抽出部230は、処理対象の吸気音候補が現在処理中の発話区間内に含まれる最後の吸気音候補であるか否かを判定する。 最後の吸気音候補でない場合(ステップ400:NO)、コンテキスト情報抽出部230は、後続の吸気音候補の検出時間を取得する(ステップ405)。 ここで吸気音候補の検出時間は、吸気音候補区間の中間の時刻tを代表時刻と見なして利用してよい。 続いてコンテキスト情報抽出部230は、処理対象の吸気音候補と後続の吸気音候補の検出出時間の差分を算出し、後続の吸気音候補との時間間隔を示す情報を抽出する(ステップ410)。

    一方、処理対象の吸気音候補が現在処理中の発話区間内に含まれる最後の吸気音候補である場合(ステップ400:YES)、コンテキスト情報抽出部230は、発話区間の終了時刻を取得する(ステップ415)。 続いてコンテキスト情報抽出部230は、処理対象の吸気音候補と発話区間の終端の検出時間の差分を算出し、後続の吸気音候補との時間間隔を示す情報とする(ステップ420)。 そして処理は終了する。

    一方、図4(b)は、先行する吸気音候補との時間間隔を抽出する処理の流れの一例を示すフローチャートである。 処理はステップ430で開始し、コンテキスト情報抽出部230は、処理対象の吸気音候補が現在処理中の発話区間内に含まれる最初の吸気音候補であるか否かを判定する。 最初の吸気音候補である場合(ステップ430:YES)、コンテキスト情報抽出部230は、発話区間の開始時刻を取得する(ステップ435)。 続いてコンテキスト情報抽出部230は、処理対象の吸気音候補と発話区間の始端の検出時間の差分を算出し、先行する吸気音候補との時間間隔を示す情報とする(ステップ440)。 続いてコンテキスト情報抽出部230は、処理対象の吸気音候補の検出時間を保持する(ステップ445)。

    一方、処理対象の吸気音候補が現在処理中の発話区間内に含まれる最初の吸気音候補でない場合(ステップ430:NO)、コンテキスト情報抽出部230は、ステップ445において保持しておいた、現在の処理対象の吸気音候補に先行する吸気音候補の検出時間と、現在の処理対象の吸気音候補の検出時間の差を算出し、先行する吸気音候補との時間間隔を示す情報とする(ステップ440)。 そして処理はステップ445へ進み、コンテキスト情報抽出部230は、現在の処理対象の吸気音候補の検出時間を保持する。 そして処理は終了する。

    コンテキスト情報抽出部230はまた、吸気音候補のコンテキスト情報として、発話区間内の吸気音候補の個数を示す情報を抽出する。 息継ぎの回数は発話の長さによって異なる。 しかし、吸気音の観測結果から、VADが出力する1発話内における吸気音の回数は、多くても0〜5回程度であることが分かった。 従って、発話区間の長さに関わらず、1発話に対して検出される吸気音の回数が一般的に検出される回数よりも多すぎる場合、それは検出誤りである可能性が高いといえる。 そこで本発明では、発話区間に含まれる吸気音候補の個数を、吸気音候補の絞り込み用特徴ベクトルの1要素として利用する。 なお、発話区間に含まれる吸気音候補の個数のコンテキスト情報は、同じ発話区間に含まれる吸気音候補に対してはすべて同じ値となる。

    特徴量抽出部220は、このようにして単体情報抽出225により求められた1以上の単体情報と、コンテキスト情報抽出部230により求められた1以上のコンテキスト情報とを要素とする特徴ベクトルを生成し、絞り込み用特徴ベクトルとして、学習時には学習部240へ、テスト時には分類部250へ渡す。

    ラベル情報格納部235は、吸気音又は非吸気音のいずれであるかを示す、学習用の音声信号のフレームごとのラベル情報を格納する。 このようなラベル情報は、人手で付与してよく、具体的には、学習用の音声信号の何秒から何秒までが吸気音であり、何秒から何秒までが非吸気音であるといった情報である。

    学習部240は、学習用の音声信号を入力として吸気音候補決定部215により求められた吸気音候補について特徴量抽出部220により生成された絞り込み用特徴ベクトルと、ラベル情報格納部235から読み出した、学習用の音声信号のフレームごとのラベル情報を入力として受け付ける。 そして、学習部240は、絞り込み用特徴ベクトル、即ち、学習用の吸気音候補の単体情報とコンテキスト情報とを素性とした機械学習により、学習用の吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める。 ここで、吸気音候補区間の中間時刻がラベル情報において吸気音区間に含まれる場合、該吸気音候補の絞り込み用特徴ベクトルを吸気音用の学習データの一つとして扱う。 一方、吸気音候補区間の中間時刻がラベル情報において非吸気音区間に含まれる場合は、その絞り込み用特徴ベクトルを非吸気音用の学習データの一つとして扱う。 求められた分類基準情報は、分類基準情報格納部245に格納される。

    上記機械学習は、サポートベクターマシーン(Support Vector Machine: SVM)、ニューラルネットワーク、条件付確率場、最近傍識別器のうちの1であってよい。 以下の説明では、機械学習はSVMであるとする。 SVMは、線形入力素子を利用して2クラスの識別器を構成する手法である。 SVMでは、学習用データから、各データ点との距離が最大となる分離平面(超平面)を求めるという基準で、線形入力素子のパラメータが学習される。 学習された線形入力素子のパラメータは、分類基準情報として、分類基準情報格納部245に格納される。 SVM学習方法は、公知の技術(例えば、小野田崇、「サポートベクターマシーン」、オーム社を参照)であり、本発明の要旨ではないのでこれ以上の説明は省略する。

    分類部250は、テスト用の音声信号を入力として吸気音候補決定部215により求められた吸気音候補について特徴量抽出部220により生成された絞り込み用特徴ベクトルとを入力として受け付ける。 そして分類部250は、分類基準情報格納部245から読み出した分類基準情報に基づいて、吸気音候補を吸気音と非吸気音のいずれか一方に分類する。 機械学習がSVMである場合、分類部250は、分類基準情報格納部245から線形入力素子のパラメータを読み出し、該パラメータを利用した2クラスの分類器として機能し、絞り込み用特徴ベクトルを入力して、吸気音候補を吸気音と非吸気音のいずれか一方に分類する。 SVMの学習結果に基づく分類処理も公知技術であるため説明を省略する。 詳細については、小野田崇、「サポートベクターマシーン」、オーム社を参照されたい。 一例として、分類部250の出力は、吸気音候補の始端と終端の時間情報と、該吸気音候補が吸気音であるか否かを示す情報の組であってよい。

    分類部250の出力情報は、音声認識における認識単位の切り出し情報や、音声からテキストデータを書き起こす作業における発話単位の区切り情報として利用してよい。 また、特許文献5によれば、人間同士の会話において、聞き手(非発話者)は主発話者発声のポーズ区間で相槌をうつ傾向があるので、対話音声システムにおいて、ユーザ発話の吸気音検出タイミングを、システム側の相槌応答のタイミングとしてもよい。 さらに、吸気音は音声認識にとって湧き出し誤りの原因になり得るため、分類部250の出力情報に従い、吸気音区間の音声信号をゼロ、もしくは非常に小さな値に置き換えてもよい。

    次に図5を参照して、吸気音検出装置200の動作を説明する。 図5は、学習時における吸気音検出装置200による処理の流れの一例を示す。 処理はステップ500より開始し、発話区間検出部205は、入力された学習用の音声信号に対し、発話が行われている区間である発話区間を検出する。 続いて吸気音候補決定部215は、音響モデル格納部310から吸気音及び非吸気音のそれぞれの音響モデル(例えば、GMM)を読み出し、各音響モデルを参照して、検出された発話区間について、吸気音候補を決定する(ステップ505)。

    続いて、特徴量抽出部220は、吸気音候補に対し、吸気音候補単体の情報である単体情報と、該吸気音候補を含む発話区間との関係又は該吸気音候補の前後の吸気音候補との関係又はその両方に関する吸気音候補のコンテキスト情報を抽出し、抽出した情報を要素とする特徴ベクトルを生成する(ステップ510)。

    続いて学習部240は、ラベル情報格納部235から、吸気音又は非吸気音のいずれであるかを示す、学習用の音声信号のフレームごとのラベル情報を読み出し、該ラベル情報を用いて、上記特徴ベクトルのコンテキスト情報と単体情報とを素性とした機械学習(例えば、SVM)を行い、吸気音候補を吸気音と非吸気音とのいずれか一方に分類するための分類基準情報を求める(ステップ515)。 学習部240は、求めた分類基準情報を分類基準格納部245に格納する(ステップ520)。 そして処理は終了する。

    図6は、テスト時における吸気音検出装置200による処理の流れの一例を示す。 処理が開始するステップ600から特徴ベクトルを抽出するステップ610までは、図5に示した学習時の吸気音検出装置200による処理の流れと同じであるため説明を省略する。 ステップ610において、各吸気音候補について特徴量ベクトルが抽出されると、処理はステップ610へ進み、分類部250は、吸気音候補の特徴ベクトルを入力として受け付け、分類基準格納部245から読み出した分類基準情報に基づき、吸気音候補を、吸気音と非吸気音のいずれか一方に分類する。 そして処理は終了する。

    次に図7に示す実験結果を参照して、本発明が提案する吸気音検出の性能を検証する。 図7に示す表は、吸気音検出実験における吸気音検出の正解率と精度とを、従来方式と本発明とで比較した結果を示す。 実験では、音響モデルとしてGMMを、分類基準を求めるための機械学習としてSVMを利用した。 また、GMM及びSVMの学習には、3.42時間の電話音声データを使用し、テスト時には約2.1時間の電話音声データを使用した。 なお、正解率は、吸気音のトータルの回数Nに対する正しく検出された吸気音の回数N の比N /Nとして定義する。 また、精度は、吸気音のトータルの回数Nに対する、正しく検出された吸気音の回数N から間違って検出された吸気音の回数N 除いた回数(N ―N )の比(N ―N )/Nとして定義する。

    また、表中1行目において従来方式とは、GMMのみを用いた吸気音検出方法を意味する。 また、2及び3行目において本発明とは、GMMを用いて吸気音候補を検出し、その後SVMを用いて吸気音候補の絞込みを行うという2段階構成を利用した吸気音検出方法を意味する。 但し、2行目における本発明では、絞込み用特徴ベクトルとして、吸気音候補の単体情報のみを用いており、一方3行目における本発明では、絞込み用特徴ベクトルとして、吸気音候補の単体情報に加えてコンテキスト情報を用いている。 なお、単体情報としては、どちらの場合も零交差数、パワー、及び前後の無音区間に関する情報を利用している。 また、コンテキスト情報としては、発話区間内における吸気音候補の出現位置を示す情報、先行する吸気音候補との時間間隔を示す情報、発話区間内における吸気音候補の個数を示す情報を利用している。

    まず従来方式の吸気音検出と本発明の2段階構成を利用した吸気音検出とでその性能を比較してみると、正解率に関してはほとんど差はない。 しかし、精度に関しては本発明の2段階構成を利用した吸気音検出のほうが劇的によくなっており、SVMを用いた吸気音候補の絞込み効果が大きいことが分かる。 更に、2段階構成を利用した吸気音検出で比較すると、絞込み用特徴ベクトルとして、吸気音候補の単体情報に加えてコンテキスト情報を利用することにより、精度が95.7から97.4%に上がっており(40%のエラー削減)、その精度が大きく改善されていることが分かる。

    以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。 上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。 従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈