首页 / 专利库 / 人工智能 / 情感识别 / Emotion recognition method and device

Emotion recognition method and device

阅读:189发布:2021-01-08

专利汇可以提供Emotion recognition method and device专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a method and device which can discriminate emotions of even a short speech and a speech in acoustically band environment at a good accurate rate with a light operation load. SOLUTION: Emotion recognition is performed by: extracting (70) a set comprising at least one feature derived from a voice signal, and processing (84, 90) the set of extracted feature(s) to detect an emotion therefrom. There is further provided a step of low-pass filtering (74) the voice signal prior to extracting therefrom at least one feature of the set. The cut-off frequency for the low pass filtering is typically centered around 250 Hz. The features are e.g. statistical quantities extracted from sampling a signal of the intensity or pitch of the voice signal.,下面是Emotion recognition method and device专利的具体信息内容。

  • 【特許請求の範囲】 【請求項1】 音声信号に由来する少なくとも1つの特徴からなるセットを抽出(70)するステップと、抽出された特徴の上記セットを処理(84,90)してその感情を検出するステップとを有し、上記音声信号によって伝達される感情を検出する方法であって、 上記音声信号から上記セットの少なくとも1つの特徴を抽出する前に、上記音声信号をローパスフィルタで処理(74)するステップを有することを特徴とする前記方法。 【請求項2】 請求項1記載の方法において、 上記ローパスフィルタ処理ステップでは、上記音声信号の強度が150乃至400Hzの範囲のカットオフ周波数(Fco)でフィルタリング処理(74)されることを特徴とする前記方法。 【請求項3】 請求項2記載の方法において、 上記カットオフ周波数(Fco)が250乃至300H
    zの範囲内であることを特徴とする前記方法。 【請求項4】 請求項3記載の方法において、 上記カットオフ周波数(Fco)が250Hzに等しいことを特徴とする前記方法。 【請求項5】 請求項1乃至請求項4のいずれか1項記載の方法において、 上記特徴抽出ステップは、以下のパラメータI、II及び
    III、すなわち、 −パラメータI: i)上記ローパスフィルタ処理ステップ(74)後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピッチ、及びiv)上記ローパスフィルタ処理ステップ(74)後の信号のピッチ−パラメータII(上記音声信号の継続時間に亘って得られたパラメータIの数値列から): 1)極小値に対応する上記数値列の値からなる局所極小値の系列、 2)極大値に対応する上記数値列の値からなる局所極大値の系列、 3)局所的な(隣接する)極値を分離する時間値からなる継続時間長(時間間隔)の系列、及び4)上記数値列の全ての連続するサンプル値からなる系列、そして、 −パラメータIII(パラメータIIの系列から計算される): 1)平均値2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差5)分散6)中間値7)第1の四分位数8)第3の四分位数9)第3の四分位数と第1の四分位数との差で定義される四分位数間範囲10)局所微分の絶対値の平均値の組み合わせで得られた160個の特徴から、1以上の特徴を選択的に抽出するステップを有し、 少なくとも1つの上記特徴は、パラメータIのi)ローパスフィルタ処理ステップ(74)後の信号強度、又は
    iv)ローパスフィルタ処理ステップ(74)後の信号のピッチに由来することを特徴とする前記方法。 【請求項6】 請求項5記載の方法において、 上記パラメータIは、 i)ローパスフィルタ処理ステップ(74)後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
    及びiii)ローパスフィルタ処理を行わない場合の信号のピッチからなり、上記組み合わせによって合計で120個の特徴を生成し、 少なくとも1つの上記特徴は、パラメータIのi)ローパスフィルタ処理ステップ(74)後の信号強度に由来することを特徴とする前記方法。 【請求項7】 請求項5又は請求項6記載の方法において、 上記パラメータIIIは、 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 6)中間値7)第1の四分位数8)第3の四分位数からなり、上記組み合わせによって請求項5では合計で80個、請求項6では合計で50個の特徴を生成することを特徴とする前記方法。 【請求項8】 請求項7記載の方法において、 上記特徴抽出ステップでは、以下の特徴、 −最大値(すなわち全体で最も大きな値) −最小値(すなわち全体で最も大きな値) −中間値−第1の四分位数−第3の四分位数の少なくとも1つが抽出され、 −上記音声信号をローパスフィルタで処理した後における信号の強度値の系列、 −上記音声信号をローパスフィルタで処理しない場合における信号の強度の最小値の系列、 −上記音声信号をローパスフィルタで処理した場合における信号のピッチ値の系列、及び−上記音声信号をローパスフィルタで処理しない場合における信号のピッチ値の系列から計算されることを特徴とする前記方法。 【請求項9】 請求項1乃至請求項8のいずれか1項記載の方法において、 上記特徴抽出ステップでは、ローパスフィルタ処理ステップ(74)後の音声信号とローパスフィルタ処理を行わない場合の音声信号との両方に由来する特徴が抽出されることを特徴とする前記方法。 【請求項10】 請求項1乃至請求項8のいずれか1項記載の方法において、 上記特徴抽出ステップでは、ローパスフィルタ処理ステップ(74)後の音声信号からのみ特徴が抽出されることを特徴とする前記方法。 【請求項11】 請求項1乃至請求項10のいずれか1
    項記載の方法において、 上記特徴セットには、 1:上記音声信号をローパスフィルタで処理した後における信号強度の中間値、 2:上記音声信号をローパスフィルタで処理した後における信号強度の平均値、 3:上記音声信号をローパスフィルタで処理した後における信号強度の第3の四分位数、 4:上記音声信号をローパスフィルタで処理した後における信号強度の第1の四分位数、 5:上記音声信号をローパスフィルタで処理した後における信号強度の最大値、及び6:上記音声信号をローパスフィルタで処理した後における信号強度の系列の最大値の少なくとも1つが含まれることを特徴とする前記方法。 【請求項12】 請求項1乃至請求項11のいずれか1
    項記載の方法において、 上記特徴抽出ステップの前に、上記音声信号から抽出された信号を平滑化するステップをさらに有することを特徴とする前記方法。 【請求項13】 請求項1乃至請求項12のいずれか1
    項記載の方法において、 教師アルゴリズムを用いて感情検出アルゴリズムを生成するステップをさらに有し、 上記教師アルゴリズムは、ローパスフィルタ処理後の音声信号から抽出された特徴の少なくとも1つを利用することを特徴とする前記方法。 【請求項14】 請求項13記載の方法において、 オフライン感情検出アルゴリズム(84)及び/又はオンライン感情検出アルゴリズム(90)により感情検出装置(60)をプログラム(PU)するステップを有し、 上記アルゴリズムは、ローパスフィルタ処理後の音声信号から抽出された特徴の少なくとも1つを利用することを特徴とする前記方法。 【請求項15】 音声信号に由来する少なくとも1つ特徴からなるセットを抽出する抽出手段(70)と、抽出された特徴の上記セットを処理してその感情を検出する処理手段(84,90)とを備え、上記音声信号によって伝達される感情を検出する装置であって、 上記音声信号から上記セットの少なくとも1つの特徴を抽出する前に、上記音声信号をローパスフィルタで処理するローパスフィルタ処理手段(74)を備えることを特徴とする前記装置。 【請求項16】 請求項15記載の装置において、 上記ローパスフィルタ処理手段(74)は、150乃至400Hzの範囲のカットオフ周波数(Fco)を有することを特徴とする前記装置。 【請求項17】 請求項16記載の装置において、 上記カットオフ周波数(Fco)が250乃至300H
    zの範囲内であることを特徴とする前記装置。 【請求項18】 請求項17記載の装置において、 上記カットオフ周波数(Fco)が250Hzに等しいことを特徴とする前記装置。 【請求項19】 請求項15乃至請求項18のいずれか1項記載の装置において、 上記特徴抽出手段(70)は、以下のパラメータI、II
    及びIII、すなわち−パラメータI: i)上記ローパスフィルタ処理ステップ(74)後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピッチ、及びiv)上記ローパスフィルタ処理ステップ(74)後の信号のピッチ−パラメータII(上記音声信号の継続時間に亘って得られたパラメータIの数値列から): 1)最小値に対応する上記数値列の値からなる局所最小値の系列、 2)最大値に対応する上記数値列の値からなる局所最大値の系列、 3)局所的な(隣接する)極値を分離する時間値からなる継続時間長(時間間隔)の系列、及び4)上記数値列の全ての連続するサンプル値からなる系列、そして、 −パラメータIII(パラメータIIの系列から計算される) 1)平均値2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差5)分散6)中間値7)第1の四分位数8)第3の四分位数9)第3の四分位数と第1の四分位数との差で定義される四分位数間範囲10)局所微分の絶対値の平均値の組み合わせで得られた160個の特徴から、1以上の特徴を選択的に抽出する手段を有し、 少なくとも1つの上記特徴は、パラメータIのi)ローパスフィルタ処理ステップ(74)後の信号強度、又は
    iv)ローパスフィルタ処理ステップ(74)後の信号のピッチに由来することを特徴とする前記装置。 【請求項20】 請求項15乃至請求項19のいずれか1項記載の装置において、 上記特徴抽出手段(70)は、ローパスフィルタ処理手段(74)後の音声信号とローパスフィルタ処理を行わない場合の音声信号との両方に由来する特徴を抽出するように設定されていることを特徴とする前記装置。 【請求項21】 請求項15乃至請求項19のいずれか1項記載の装置において、 上記特徴抽出手段(70)は、ローパスフィルタ処理手段(74)後の音声信号からのみ特徴を抽出するように設定されていることを特徴とする前記装置。 【請求項22】 請求項15乃至請求項21のいずれか1項記載の装置において、 上記特徴セットには、 1:上記音声信号をローパスフィルタで処理した後における信号強度の中間値、 2:上記音声信号をローパスフィルタで処理した後における信号強度の平均値、 3:上記音声信号をローパスフィルタで処理した後における信号強度の第3の四分位数、 4:上記音声信号をローパスフィルタで処理した後における信号強度の第1の四分位数、 5:上記音声信号をローパスフィルタで処理した後における信号強度の最大値、及び6:上記音声信号をローパスフィルタで処理した後における信号強度の系列の最大値の少なくとも1つが含まれることを特徴とする前記装置。 【請求項23】 請求項15乃至請求項22のいずれか1項記載の装置において、 上記特徴抽出手段の前段に、上記音声信号から抽出された信号を平滑化する手段をさらに備えることを特徴とする前記装置。 【請求項24】 請求項15乃至請求項23のいずれか1項記載の装置において、 上記処理手段は、プログラム化されたアルゴリズムを含むオフライン感情認識アルゴリズムユニット(84)を有することを特徴とする前記装置。 【請求項25】 請求項15乃至請求項24のいずれか1項記載の装置において、 上記処理手段は、オンライン感情認識アルゴリズムユニット(90)を有し、 当該装置は、上記特徴抽出手段(70)の生成した信号に対応して感情認識アルゴリズムを生成する教師アルゴリズムユニット(88)をさらに備えることを特徴とする前記装置。 【請求項26】 請求項15乃至請求項25のいずれか1項記載の装置に適合する音声信号処理装置であって、 上記特徴抽出手段(70)にローパスフィルタ処理後の音声信号を供給するためのローパスフィルタ処理手段(74)を備えることを特徴とする前記装置。
  • 说明书全文

    【発明の詳細な説明】 【0001】本発明は、感情認識の分野に関し、より詳細には、音声信号から感情を検出する方法及び装置に関する。 今日では、例えばマンマシンインターフェースのコミュニケーション手法をより自然且つ直観的なものにするためなど、人間の(又は合成された又は動物の)音声により伝達される感情を検出する技術的手段が必要となるアプリケーションが非常に増えてきている。 例えば、ペット型ロボットやヒューマノイドの行動は、実際の生物のそれに非常に近づいている。 この観点から、ロボットに対して、何らかの基本感情、例えば「平静(ca
    lm)」、「喜び(happiness)」、「悲しみ(sadnes
    s)」、「怒り(anger)」などを伴った発声を識別することを要求するのは自然なことである。 また、その他のアプリケーションとしては、教育、訓練、スピーチ療法や、装置、乗り物、道具等の人間による制御が挙げられる。 【0002】現在までこの感情認識分野でなされている研究の殆ど(全てではない)は、人間によって読まれたテキストにおける感情を検出することに傾注しており、
    そのテキストは短い発声というよりは一般的にパラグラフというべきものである。 また、その発声(recitatio
    n)は、防音室のようなよい環境下でなされたものである。 【0003】ところで、近年、個人用ロボットの開発が非常に発展してきており、新たな教育技術(Druin A.,H
    endler J. (2000) "Robots for Kids: Exploring new t
    echnologies for learning", Morgan Kauffman Publish
    ers 参照)や、純粋なエンターテイメント(Fujita M.,
    Kitano H. (1998) "Development of an autonomous qua
    druped robot for robot entertainment", Autonomous
    Robots, 5; Kusahara.M. (2000) "The art of creating
    subjective reality: an analysis of Japanese digit
    al pets, in Boudreau E.,ed., in Artificial Life 7
    Workshop Proceedings, pp.141-144 参照)の用途に用いられている。 【0004】特に、これらのロボットは、犬や猫等の馴染み深いペットを模していたり(ソニー株式会社のAI
    BOを参照)、時には人間型のSDR3−X(ソニー株式会社)のように、人間の子供を模していたりする。 【0005】これらの装置とのインタラクションは、人間が従来のコンピュータに対して行ってきたものとは著しく異なる。 従来、人間は、非常に不自然な規則や、キーボード、ダイアログウィンドウといった手段を学習する必要があり、コンピュータを動作させるために膨大な知識を身につけなければならなかった。 【0006】このような個人用ロボットに必要な機能のうち、最も基本的なものの1つとして、人間の感情を捉えることが挙げられ(Picard R. (1997) "Affective Co
    mputing", MIT Press 参照)、特に人間の感情を認識すると共に自身の感情を表現することが必要となる。尤も、人間を理解する際には感情以外も重要であるが、感情は社会規範の中心であり(Halliday M. (1975) "Lear
    ning hou to mean: explorations in the development
    of language, Elsevier, NY 参照)、特に会話の流れを左右する中心である(orality and gestuality)。 【0007】ここで、言葉によるものを除けば、人間は主として2つの方法で感情を表現することができる。 すなわち、顔の表情の変化と(Ekman,P. (1982) "Emotion
    s inthe human face", Cambridge University Press, C
    ambridge 参照)、声のイントネーションの変化とである(Banse,R. and Sherer,KR, (1996) "Acoustic Pro
    files in Vocal Emotion Expression, Journal of Pers
    onality and Social Psychology, 70(3): 614-636 参照)。 【0008】顔の表情に表れる感情を自動で認識する研究は、現在非常に多くなされているが(A.Samal,P.Iyen
    ger (1992) "Automatic recognition and analysis of
    himan faces and facial expression: A survay". Patt
    ern Recognition, 25(1):65--77 参照)、自動で生成し機械で認識するための会話のモダリティに関連する研究は、最近になってなされるようになった(Bosh LT (2
    000) "Emotions: whatis possible in the ASR framewo
    rk ?", in Proceedings of the ISCA Workshop on Spee
    ch and Emotion 参照)。 【0009】この研究の出発点は、感情と、対応する音声信号の音響特性に対するその感情の効果との間の音響的相関を調べるものである(Fairbanks 1940, Burkhard
    andSendlemeier 2000, Bense and Sherer 1996 参照)。 【0010】これらの報告によると、発話は心理学的な条件や幾つかの基本的な情動クラスとの相関があることが判っている。 また逆に驚きと怖れ、退屈と悲しみなどのある特定の感情に関しては違いを見つけることが難しいことなども報告されている。 実際、特定の情動がある身体的な状態と結びついていることはよくあり(Picard
    1997 前掲参照)、機械的な(したがって予測可能な)
    影響を発話に対してもたらす。 この影響は、特にピッチ(基本周波数F0)、タイミング、そして声質に対してもたらされる。 例えば、ある人が怒りや怖れや喜びを覚えたときは交感神経系が興奮し、心拍数や血圧が上昇し、口内は乾き、時には筋肉に震えが起こる。 こうしたときには発話は大きく速くなり、高周波成分に強いエネルギーを持つことになる。 またある人が退屈や悲しみを感じているときは、副交感神経系が興奮し、心拍数や血圧が減少し、唾液が多く分泌される。 この結果、発話はゆっくりとしたピッチの遅いものになり、高周波成分のエネルギーは弱くなる(Breazal,C. (2000) Sociable M
    achines: "Expressive social exchange between human
    s and robots", PhD Thesis, MIT AI Lab. 参照)。 【0011】さらに、これらの身体的影響は万国共通であるために、基本的な情動と発話の音響的な特性の間には民族や文化に寄らない相関関係が存在すると考えられている。このことは、例えば文献「Abelin A, Allwood
    J., (2000) "Cross-linguistic interpretation of emo
    tional prosody", in Proceedings of the ISCA Worksh
    op on Speech and Emotion」や、文献「Tickle A. (200
    0) "English and Japanese speaker's emotion vocalis
    ations and recognition: a comparison highlighting
    vowel quality", ISCA Workshop on Speech and Emotio
    n, Belfast 2000」において詳しく調査されている。 これらの研究では、例えばアメリカ人に対して音響的な情報のみ(発話は意味がないため、意味的な情報はない)
    によって他のアメリカ人や日本人の感情を理解させる実験が行われた。 【0012】同様に、日本人も、他の日本人やアメリカ人がどのような感情を伝えようとしているかを言い当てさせられた。 この結果から、以下の2つの点が明らかにされている。 すなわち、1)同じ言語を話す人か異なる言語を話す人かによって、伝えられる感情の認識率に変化はなく、このことは日本人の被験者についてもアメリカ人の被験者についてもあてはまる。 そして、2)被験者の認識結果は芳しくなく、最高でも60%程度であった(なお、この結果は、被験者が非常に不自然な意味のない言葉を発するように言われていた事実からある程度は説明がつくが、意味的には中立であるが意味のある文を発するようにした研究によっても、この結果は裏付けられている(Burkhart F., Sendlemeier W.,(2000) "Ve
    rification of acoustical correlates of emotional s
    peech using formant-systhesis", in Proceedings of
    the ISCA Workshop in speech and Emotion 参照))。 【0013】1つ目の結果は、無意味語によって機械に感情を表現させ、様々な文化的背景を持つ人にその感情を正確に伝達させるという目標が理論的に可能であることを示している。 また、2つ目の結果は、完璧な結果は期待し得ず、機械の成果を人間の成果と関連させて比較すべきでないことを示している。 人間がそれほどよく理解できないという事実は、主として、幾つかの感情が心理学的に非常に相関しているため、音響的にも相関するという事実による。 現実の状況では、人間は発話文の内容、及び/又はその他のモダリティによって、その曖昧さを解決している。 実際、幾つかの実験によって、情動表現のマルチモーダルな性質により感情のマガーク(Mc
    Gurk)効果が得られることや(Massaro D., (2000) "Mu
    ltimodalemotion perception : analogous to speech p
    rocesses", ISCA Workshop on Speech and Emotion, Be
    lfast 2000 参照)、内容が異なれば、人間はそれぞれの内容について同じイントネーションであっても異なる感情を表すと解釈する(Cauldwell R. (2000) "Where d
    id the anger go ? The role of context in interpret
    img emotions in speech" ISCA Workshop on Speech an
    d Emotion 参照)ということが示されている。 これらの発見は、機械がより識別可能な言葉を発する必要がないことを示している。 したがって、最も基本的は情動についてのみ調べればよい。 【0014】ところで、コンピュータ技術を用いた音声処理の実験の多くは、音声のどの特徴が感情を最も正確に反映しているかを調べるものであった(Murray E. an
    d Arnott JL (1993) "Towards a simulation of emot
    ion in synthetic speech",Speech Communication, 16
    (4), pp.1097-1108; Banse R. and Scherer KR (199
    6) "Acoustic profiles in vocal emotion expressio
    n", Journal of Personality and Social Psycology, 7
    0(3):616-636; Burkhardt and Sendlmeier (2000)"Veri
    fication of acoustical correlate of emotinal speec
    h using Formant-synthesis", Proceedings of the ISC
    A Workshop in Speech and Emotion; Williams U. and
    Stevens KN (1972) "Emotions in speech: some acou
    stical correlates", JASA 52, 1228-1250 参照)。基本的には、最も重要な特徴は、例えばピッチ(f0)及び輪郭(contour)や、強さの輪郭や、発声のタイミングなど、韻律に関係するものであるとして一致している。より最近の研究では、声質(Gobl C. and Chasaide
    AN (2000) "Testing affective correlates of voic
    e quality through analysis and resynthesis", in Pr
    oceedings of the ISCAWorkshop on Emotion and Speec
    h 参照)や、ある種の共発声(co-articulatory)現象(Kienast M. and Sendlmeier W. (2000) "Acoustical
    analysis of spectral and temporal changes in emoti
    onal speech", Proceedings of the ISCAWorkshop on E
    motion and Speech 参照)も、ある種の感情とよく相関していることが示されている。 【0015】人間の感情の検出に関していえば、人間は一般的に内容とモダリティの全てを用いて感情を検出している。 すなわち、言語学的な内容から顔の表情やイントネーションまで全てを用いているが、このような完全なアプローチは、管理されていない環境下の装置では現実的でない。 例えば、そのような状況下でのロバストな音声認識は今日のシステムでは到底無理なものであり、
    また、顔の表情の認識にはコンピュータリソース及び映像装置が必要となるが、ロボット生物はこれらを有していないことが多い。 【0016】このような理由から、本件出願人は、音声の韻律情報のみを用いて、どのように感情検出が実現されるかを調査した。 さらに、関心を持っている発話は、
    日々の会話でなされるようなもの、すなわち短いくだけた発話であり、用意されたテキスト、例えば新聞の段落を感情を込めて読むように言われた場合における発話とは異なるものである。 なお、4つの基本的な情動クラス、すなわち「喜び(joy/pleasure)」、「悲しみ(so
    rrow/sadness/grief)」、「怒り(anger)」及び「平静(calm/neutral)」について研究を行った。 【0017】ここで、顔の表情により感情を自動で認識する研究(Samal A. and Iyengar P. "Automatic recog
    nition and analysis of human faces and facial expr
    ession: a survey", Pattern Recognition, 25(1):65-7
    7 参照)とは異なり、発話のモダリティを用いる研究はまだ歴史の浅いものである(Bosh LT (2000) "Emotio
    ns: what is possible in the ASR framework ?", Proc
    eedings of the ISCAWorkshop on Speech and Emotion,
    Belfast 2000 参照)。 最初になされた研究(Murray a
    nd Arnott (1993) "Towards a simulation of emotion
    in syntheticspeech: a review on the literature of
    human vocal emotion",JASA 93(2),pp.1097-1108, 199
    3; Williams U. and Stevens KN (1972) "Emotions a
    nd speech: some acoustical correlates", JASA 52, 1
    238-1250 参照)は、効率的な機械認識装置を作製しようというよりは、寧ろ発話における感情の一般的な質的音響相関(qualitative acoustic correlates)を研究するものであった(例えば、「喜び」は「平静」の文章よりも発話の平均ピッチが高くなるなど)。 より最近では、感情を計算することに産業上の有用性があることが次第に知られるようになったことから(Picard, 199
    7)、発話における感情を自動で認識する性能を求める研究が始められてきている(Bosh, 2000)。 【0018】しかしながら、データマイニング(data m
    ining)及び機械学習において発達した近代的なツールを用いて大規模な研究を行った例はない。 実際、多くの場合には、1つか2つの学習スキームを試すのみであったり(例えば Polzin T., Waibel A. (2000) "Emotion-
    sensitive Human-computer Interface", in Proceeding
    s of the ISCA Workshop on Speech and Emotion; Slan
    ey M., McRoberts G.(1998) "Baby Ears: a recognitio
    n system for affective vocalization, in Proceeding
    s of ICASSP 1998)、非常に少数且つ単純な特徴のみを用いるものであったり(Polzin and Waibel 2000, Slan
    ey and McRoberts 1998, Breazal 2000, Whiteside 199
    7)、小規模なデータベース(各話者につき100サンプル以下)を用いるものであったりし(Breazeal; L. A
    ryananda (2000) "Recognitionof affective communica
    tive intent in robot-directed speech", in proceedi
    ngs of the Humanoids conference, 2000; McGilloway
    S. et al. (2000) "Aproaching aoutomatic recognitio
    n of emotion from voice: a rough benchmark", in Pr
    oceedings of the ISCA Workshop on Speech and Emoti
    on; Slaney M.,McRoberts G. (1998) "Baby Ears: a re
    cognition system for affective vocalisation, in Pr
    oceedings of ICASSP 1998)、統計的な学習スキームの有効性を見落としているかのようであった。 【0019】唯一、前掲した文献「McGilloway S. et a
    l. (2000)」において、残りの文献で用いられているような伝統的/標準的な特徴群以上のものを用いて体系的なデータマイニングを行おうとしている。 すなわち、この文献では、ピッチ及び強度分布、並びに音素若しくは音節又はピッチ上昇の長さについての平均値、最大値、
    最小値、最大値−最小値、分散を用いている。 【0020】しかしながら、この研究は実験的な基礎を著しく欠いている。 すなわち、1)この研究では3種類の学習手法(サポートベクターマシン、混合ガウス(Ga
    ussian mixtures)、線形判別(linear discriminant
    s))しか用いられていない。 これらは、無関係な特徴が多く存在する可能性のあるデータを扱うには決して最適とは言えず、特に少数の特徴群を最適な効率で抽出することができない。 そして、2)この研究は、1つの学習手法を選択してこの特徴群を調査し、クラス分類に有用でない特徴を繰り返し除いていくものであった。 これは、一方には非常に独特の学習スキーム及び選択手順と関連しているため、特定問題(ad hoc)というべきものであるが、他方には適切な特徴群を検出することができない。 また、彼らの研究は、被験者が新聞のテキストを感情を込めて読むように言われてなされた発話に基づくものであり、本発明におけるような制約に対応するものではない。 【0021】今日まで、日常的な発話を自動認識する装置を開発しようとしてきたのは2つの研究グループのみである(Breazal 2000 and Slaney et al. 1998 前掲)。 しかし、これらのグループは、非常に小規模なデータベースと非常に少数且つ単純な特徴と2つの学習アルゴリズムしか利用することができなかった。 このため、この研究のコーパス(corpus)に対する一般的な見解は、たとえ4種類の基本情動についてのみであっても、話者が数人いる場合には60パーセントを超える認識率は不可能に近いというものである。 なお、話者によって大きく差があることは、例えば前掲した文献「Slan
    ey et al. 1998」に記載されている。 【0022】そこで、本発明は、感情を正解率よく識別する一方で作業負荷が重くなく、ペット型ロボットやヒューマノイド等の小さなシステムにでも実装可能である、発話に基づく感情認識方法及び装置を提供することを目的とする。 【0023】本発明の他の目的は、短い発声によって伝達される感情を識別可能とすることである。 【0024】本発明のさらなる目的は、ノイズが多く及び/又は音響的に悪い環境で発話がなされるような、実際の生活の状況においても処理可能とすることである。 【0025】特に第1の側面によれば、本発明は、−音声信号に由来する少なくとも1つの特徴からなるセットを抽出し、−抽出された特徴の上記セットを処理してその感情を検出するステップを有し、上記音声信号によって伝達される感情を検出する方法に関連し、上記音声信号から上記セットの少なくとも1つの特徴を抽出する前に、上記音声信号をローパスフィルタで処理するステップを有するものである。 【0026】このローパスフィルタ処理ステップは、好ましくは、基本的に150乃至400Hzの範囲であるカットオフ周波数(Fco)で上記音声信号の強度をフィルタリングするものである。 このカットオフ周波数(Fco)は、好ましくは250乃至300Hzの範囲であり、好ましいカットオフ周波数(Fco)は250
    Hzである。 【0027】さらに、特徴抽出ステップは、以下のパラメータI、II及びIII、すなわち−パラメータI: i)ローパスフィルタ処理ステップ後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、 iii)ローパスフィルタ処理を行わない場合の信号のピッチ、及びiv)ローパスフィルタ処理ステップ後の信号のピッチ−パラメータII(音声信号の継続時間に亘って得られたパラメータIの数値列から): 1)極小値に対応する数値列の値からなる局所極小値の系列、 2)極大値に対応する数値列の値からなる局所極大値の系列、 3)局所的な(隣接する)極値を分離する時間値からなる継続時間長(時間間隔)の系列、及び4)数値列の全ての連続するサンプル値からなる系列、
    そして、 −パラメータIII(パラメータIIの系列から計算される) 1)平均値2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差5)分散6)中間値7)第1の四分位数8)第3の四分位数9)第3の四分位数と第1の四分位数との差で定義される四分位数間範囲10)局所微分の絶対値の平均値の組み合わせで得られた160個の特徴から、1以上の特徴を選択的に抽出するステップを有することが有用である。 【0028】なお、少なくとも1つの特徴は、パラメータIのi)ローパスフィルタ処理ステップ後の信号強度、又はiv)ローパスフィルタ処理ステップ後の信号のピッチに由来する。 【0029】より具体的には、上記パラメータIは、以下の特徴、 i)ローパスフィルタ処理ステップ後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
    及びiii)ローパスフィルタ処理を行わない場合の信号のピッチからなることが好ましい。 【0030】これにより、組み合わせによって合計で1
    20個の特徴が得られる。 【0031】なお、少なくとも1つの特徴は、パラメータIのi)ローパスフィルタ処理ステップ後の信号強度に由来する。 【0032】また、より具体的には、上記パラメータII
    Iは、以下の5つのパラメータ、すなわち、 2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 6)中間値7)第1の四分位数8)第3の四分位数からなることが好ましい。 【0033】また、上記特徴抽出ステップでは、以下の特徴、 −最大値(すなわち全体で最も大きな値) −最小値(すなわち全体で最も大きな値) −中間値−第1の四分位数−第3の四分位数の少なくとも1つを抽出するのが有益である。 【0034】これらは、以下の系列、すなわち−音声信号をローパスフィルタで処理した後における信号の強度値の系列、 −音声信号をローパスフィルタで処理しない場合における信号強度の極小値の系列、 −音声信号をローパスフィルタで処理した場合における信号のピッチ値の系列、及び−音声信号をローパスフィルタで処理しない場合における信号のピッチ値の系列から計算される。 【0035】なお、この特徴抽出ステップでは、ローパスフィルタ処理ステップ後の音声信号とローパスフィルタ処理を行わない場合の音声信号との両方に由来する特徴を抽出することも可能である。 【0036】また、ローパスフィルタ処理ステップ後の音声信号からのみ特徴を抽出するようにしても構わない。 【0037】ここで、上記特徴セットには、 1:音声信号をローパスフィルタで処理した後における信号強度の中間値、 2:音声信号をローパスフィルタで処理した後における信号強度の平均値、 3:音声信号をローパスフィルタで処理した後における信号強度の第3の四分位数、 4:音声信号をローパスフィルタで処理した後における信号強度の第1の四分位数、 5:音声信号をローパスフィルタで処理した後における信号強度の最大値、及び6:音声信号をローパスフィルタで処理した後における信号強度の系列の最大値の少なくとも1つが含まれる。 【0038】本発明の方法は、上記特徴抽出ステップの前に、上記音声信号から抽出された信号を平滑化するステップを有してもよい。 【0039】実施例では、本方法は、さらに教師アルゴリズムを用いて感情検出アルゴリズムを生成するステップを有する。 この教師アルゴリズムは、ローパスフィルタ処理後の音声信号から抽出された特徴の少なくとも1
    つを利用する。 【0040】また、本方法は、オフライン感情検出アルゴリズム及び/又はオンライン感情検出アルゴリズムを用いて、感情検出装置をプログラムするステップを有してもよく、これらのアルゴリズムは、ローパスフィルタ処理後の音声信号から抽出された特徴の少なくとも1つを利用する。 【0041】次に、第2の側面によれば、本発明は、 −上記信号に由来する少なくとも1つ特徴からなるセットを抽出する抽出手段、及び−抽出された特徴の上記セットを処理してその感情を検出する処理手段を備え、音声信号によって伝達される感情を検出する装置に関連し、音声信号から上記セットの少なくとも1つの特徴を抽出する前に、上記音声信号をローパスフィルタで処理する手段を備えるものである。 【0042】上述した本発明の方法における付加的な特徴は、必要に応じて変更を加えて上述の装置に適用することができるが、簡単のため繰り返して説明しない。 【0043】続いて、第3の側面によれば、本発明は、
    第2の側面における装置に用いられる(又は第1の側面における方法の実現に用いられる)音声信号処理装置に関連し、上記特徴抽出手段にローパスフィルタ処理後の音声信号を供給するためのローパスフィルタ処理手段を備える。 【0044】本発明及びその利点は、以下に説明する好ましい実施例と添付図面とにより一層明らかにされるであろう。 なお、この実施例は、本発明を限定するものではない。 【0045】ところで、本発明の好ましい実施例は、感情認識のプロセスを話者依存としたものである。 これは産業上の観点から必ずしも欠点ではない。 すなわち、例えば実施例がペット型ロボットを対象としている場合、
    ロボットは飼い主(minder)としか交流しない場合がある。 また、ロボットが飼い主のみしか認識できないという事実も、ロボットと飼い主との協調関係(complicit
    y)の源となることから、寧ろ利点となり得る。 但し、
    本発明の原理は、さらに概要が説明されるように、話者非依存のアプローチであっても適用可能であることは勿論である。 【0046】本実施例は、ペット型ロボットへの応用に基づくものであり、このロボットは、人間の声における4つの基本情動、すなわちi)「平静(calm)」、ii)
    「悲しみ(sad)」、iii)「怒り(angry)」及びiv)
    「喜び(happy)」を検出する。 【0047】Fig.1は、上述した各感情が「感情空間」のどこに位置するのかを示したものである。 この感情空間では、「価(valence)」及び「奮起(excitem
    ent)」のパラメータがそれぞれ垂直軸2及び平軸4
    に沿って表されている。 力価の軸は、ネガティブな値からポジティブな値まで有し、奮起の軸は、低い値から高い値まで有する。 また、交点Oは、図の中心にあたり、
    「平静(calm)/中立(neutral)」の感情に対応する。 そして、その点から4つの領域が定義され、それぞれが以下に示す感情状態を含む。 すなわち、「喜び(ha
    ppy)/賞賛(praising)」(四分円Q1)は、力価がポジティブであり奮起度が高いとして特徴付けられ、
    「落ち着き(comfort)/鎮静(soothing)」(四分円Q2)は、力価がポジティブであり奮起度が低いとして特徴付けられる。 また、「悲しみ(sad)」(四分円Q
    3)は、力価がネガティブであり奮起度が低いとして特徴付けられ、「怒り(angry)/警告(admonishing)」
    (四分円Q4)は、力価がネガティブであり奮起度が高いとして特徴付けられる。 【0048】ここで、本実施例における制約は、以下のように、 −人間はペット型ロボットに対して非常に自由に話しかけ、 −人間は例えば「アイボ!お前は本当に手に負えないロボットだ!」といったような非常に短い文章で発話し、 −その発話をノイズの多い環境下で検出しなければならず、そして、 −数人がロボットと交流する場合には、話者依存か話者非依存かを選択しなければならないといったものであった。 【0049】これらの制約の一部は、発話が幼児に対するようなものに制限されることを意味している。 【0050】最初の段階では、これらの目的に最も沿うために、研究戦略が決定された。 この戦略を要約すれば、 i)単純な特徴、単純なアルゴリズム、そして小規模なデータベースを用いて実験し、 ii)話者依存のケースについて、特徴と学習アルゴリズムとを体系的に調査し、 a)一方が男性で他方が女性である2人の話者のサンプルについてのデータベースを用いて、多数の例について、 b)上述の2人の話者のデータベースを用いて、数例についてのみ、そして、 iii)流暢に話すような実際の生活における状況下で実験を行うというものである。 【0051】 研究のデータベース 2人の話者によるくだけた短い感情語からなる非常に大規模なデータベースを用いて研究が行われた。 なお、全ての実験は無料で利用でき、標準的なデータマイニング技術を満たすデータマイニングソフトウェアであるWe
    kaを用いて行われた。 このWekaについての情報は、ウェブページ(http://www.cs/waikato.ac.nz/〜ml
    /)で入手可能である。 【0052】十分に大規模なデータベースを持つために妥協しなければならない点が幾つかあった(Skaney et
    al. 1998 或いは Breazal 2000 に記載されている録音条件は悪く非実用的なものである)。 このため、実験的な研究に用いたデータベースでは、2人のプロフェッショナルな話者(男声及び女性)を用意した。 彼らは2人とも、多くのラジオ/TVコマーシャルや、映画の日本語吹き替えやアニメーションで働く声優であった。 彼らは、短い文或いはフレーズで、例えば「ううん、分かりません」、「その通り」、「見て」、「こんにちは」、
    「分かりました」、「ご機嫌いかがですか?」、「どんな食べ物が好きですか?」といったような日常的な発話を真似るように言われた。 また、発声毎にそのフレーズを発するような状況を想像しなければならず、その発話は4つの情動クラス、すなわち、「喜び(joy/pleasur
    e)」、「悲しみ(sorrow/sadness/grief)」、「怒り(anger)」及び「平静(calm/neutral)」の何れかに対応するものであった。 なお、その文章の意味が幾つかの感情に合うものであれば、各フレーズを対応する感情で発声することができた。 これにより得られたデータベースは、各話者の各感情について200サンプル、合計で2000サンプルからなるものであった。 【0053】なお、このデータベースは、サンプルの音声録音を構成するデジタル形式で保管されたため、任意のときに各サンプルにアクセスして再生することができた。 【0054】ここで、上述した全ての研究と同様に、イントネーションに関して測定された2つの主要な特徴はピッチと強度とである。 【0055】Fig.2a−2cは、2つの物理的なパラメータであるピッチと強度とが、どのように音声信号に由来するかを示したものである。 音声信号は、Fi
    g.2aに波形エンベロープとして図示されており、これは、マイクロホンの出力から直接、又は音声サンプルを再生して得られる。 この波形は、信号振幅(縦軸)が時間(横軸)の経過に従って変動したものである。 図では、信号強度の中間位置が零に相当し、その位置から負の値(低振幅)又は正の値(高振幅)をとる。 【0056】ピッチは、音声の主要な性質であり、これにより音階や音声スペクトルでの位置が決定される。 このピッチは、特定の強度を有する純粋なトーンの周波数として測定され、この場合、通常のには、音階や音声スペクトルにおいて同じ位置にあるように聞こえる。 F
    ig.2bにピッチの時間変化を図示する。 ここで、ピッチは、特定の時間値における周波数(縦軸)として測定される。 【0057】一方、強度は、与えられた周波数スペクトルを統合した信号のエネルギーを測定したものである。
    Fig.2cに強度の時間変化を図示する。 ここで、強度は、デシベル(dB)で測定される。 【0058】さらに、本発明の特徴に従い、上記発話を伝えるローパスフィルタ処理後の電気信号(以下、音声信号という)の測定が行われた。 【0059】ここで、Fig.3は、音声信号をローパスフィルタ処理する可能性がある場合における感情検出の性能を評価するシステム1を概略的に示したものである。 【0060】音声信号は、マイクロホン6から直接、又は上述した録音した発話についてのデータベース8から得られる。 後者の場合、各サンプルは例えばハードディスクドライブからオーディオフォーマットで選択的に読み出し可能とされており、オーディオ出力端子10から対応する発話のオーディオ信号を得ることができる。 マイクロホン6又はデータベースのオーディオ出力端子1
    0からの信号は、オーディオ増幅ユニット14のオーディオ入力端子12に供給され、インピーダンス整合、前置増幅、ゲイン制御処理が行われる。 このように処理されたオーディオ信号は、オーディオ出力端子14に送られ、そこからローパスフィルタ18に供給される。 システム1では、ローパスフィルタ18のカットオフ周波数Fcoを調節することができ、その値はカットオフ周波数選択ユニット20によって選択される。 【0061】Fig.4は、ローパスフィルタ18の典型的な周波数特性を示す図であり、曲線22は、周波数範囲に亘って一定の振幅を有する入力について、周波数に対する伝送されるオーディオ信号レベルの種々の例を示したものである。 ここで、カットオフ周波数Fco
    は、半分に減衰する周波数軸上の点として表される。 理想的なカットオフ周波数は、その周波数値を超えたときにローパスフィルタが信号を通さなくなるような周波数である。 なお、そのシャープさは、理想的なローパス反応に近づけるための、例えばフィルタの次元などのフィルタ特性に依存する。 【0062】また、Fig.5は、カットオフ周波数選択ユニット20によって選択されたカットオフ周波数F
    coに従って、周波数特性がどのように変化するかを示した図である。 3つの曲線22a、22b、22cは、
    それぞれFcoの値が200Hz、250Hz、320
    Hzに対応する。 反応曲線の形状は基本的に同じである。 Fig.3に示すシステムでは、ローパスフィルタのカットオフ周波数は、良いレベルとなるように絶えず調節可能とされている。 なお、カットオフ周波数選択ユニット20は、フィルタ構成、例えば1個或いは数個の可変容量ダイオードを変化させるために電気的に制御される。 【0063】ここで、ローパスフィルタ18は、演算増幅器に基づくアナログ回路として構成される。 このようなカットオフ周波数を調節可能なローパスフィルタは、
    本技術分野においてよく知られており、ここでは簡単のため説明しない。 勿論、例えばデジタルシグナルプロセッサを用いたデジタルフィルタ技術により、ローパスフィルタ機能を得ることも可能であり、これも本技術分野においてよく知られている。 この場合には、入力オーディオ信号は、フィルタエレクトロニクスで処理するためにデジタル化される。 このフィルタエレクトロニクスでは、適切にデジタル化された形式で反応曲線22を生成する。 【0064】ローパスフィルタ18からの出力は、特徴測定ステーション30におけるオーディオインターフェース28の第1の入力端子28aに供給される。 この特徴測定ステーション30は、PCベース制御ユニット3
    2と協調して動作する機能ユニットとして表されている。 【0065】また、オーディオ出力端子16から特徴測定ステーション30におけるオーディオインターフェース28の第2の入力端子28bに直接入力する場合もある。 この2つの入力端子28a、28bによって、分離された入力チャンネルが形成され、これにより特徴測定ステーション30は、ローパスフィルタで処理されたオーディオ信号とフィルタ処理されていないオーディオ信号とを選択的に扱うことができる。 【0066】PCベース制御ユニット32は、本システムのインターフェースを形成するモニタ34及びキーボード36と、処理、ドライブ及びデータ格納のためのP
    Cタイプコンピュータ38とから構成される。 ここで、
    特徴測定ステーション30は、信号入力端子28に与えられる信号から種々の特徴を抽出するためにプログラム可能とされている。 ここで、特徴測定ステーション30
    における特徴抽出は、デジタル処理技術に基づくため、
    信号入力端子28は、内部のアナログデジタル変換器(ADC)40に接続される。 フィルタ処理されたオーディオ信号は、その後所望の特徴を抽出するため、後述するように2進ワードとして処理される。 【0067】特徴測定ステーション30によって生成された種々の特徴についての測定値は、データロガー(da
    ta logger)42に格納され、感情認識アルゴリズムで処理を行う機能ユニット44によってアクセスされる。
    このアルゴリズムは、特徴測定ステーション30によって抽出された信号特徴に基づいて、音声信号で表現されている感情を識別するものである。 典型的には、ユニット44で評価されるアルゴリズムによって、識別された感情(平静、喜びなど)と内部パラメータとが示される。 認識ユニット44は、種々の感情認識アルゴリズムを実行し、それぞれの結果と内部パラメータとを生成することができる。 【0068】この情報は、結果解析ユニット46に供給され、様々なアルゴリズム及び/又は特徴の選択が比較され、最適な選択が決定される。 【0069】なお、特徴測定ステーション30、データロガー42、感情認識アルゴリズム実行ユニット44及び結果解析ユニット46は、図にジグザグに描かれた両方向矢印で示されるように、PCベース制御ユニット3
    2によって物理的に実現することができる。 【0070】さらにシステムは、得られた最適な結果に基づいて種々の感情認識システムをプログラムするプログラムユニットPUを有する。 このため、このプログラムユニットPUは、PCベース制御ユニット32やその他のユニットと共に結果解析ユニット46にも接続されており、全てのアルゴリズム、パラメータ設定、抽出する特徴、その他の最適条件を記録することができる。 ここで、この情報は、所定のプロトコルに従って記録され、プログラムデータがペット型ロボットのような感情感応性システムの適切なプログラミングインターフェースにダウンロード可能とされている。 プログラムユニットPUは、システムの他の部分から分離可能とし、その場でプログラミングするために持ち運びできるように構成され、及び/又はディスクや半導体メモリといった携帯型記録媒体上にプログラミングデータを生成するのに適する。 【0071】ここで、特徴測定ステーション30による測定は、ローパスフィルタ18から得られたローパスフィルタ処理後の音声信号の強度に基づくものであった(ハイパスフィルタを用いたハイパス処理後の音声信号についても独立した実験を行った)。 【0072】ローパスフィルタ処理では、信号を純粋な韻律成分と純粋なケプストラム成分とに分離するために、カットオフ周波数が典型的には250Hz(この特定値は厳密なものではない)に設定された。 【0073】そして、データベース8からのサンプルが特徴測定ステーション30で様々に測定された。 心理音響学的な測定によれば、最も重要な情報は韻律(イントネーション)であり、特にピッチ曲線(f0)(Fi
    g.2b参照)と強度(I0)(Fig.2c参照)とであった。 【0074】評価を行う際には、以下の3つの信号、すなわちi)ローパスフィルタ処理後の信号強度、 ii)ローパスフィルタ処理を行わない場合の信号強度、
    及びiii)ローパスフィルタ処理を行わない場合の信号のピッチが特徴測定ステーション30で処理された。 【0075】なお、最初の信号i)は、特徴測定ステーション30の入力端子28aから与えられたものであり、後の2つの信号は、入力端子28bから与えられたものである。 【0076】ここで、フィルタ処理を行わない信号ii
    i)の代わりに、又はそれに加えて(この場合、評価される信号は合計で4つとなる)、ローパスフィルタ処理後の信号のピッチを測定することも可能である。 しかしながら、実験では、ローパスフィルタ処理後の信号についてピッチ解析を行って得られる情報は、フィルタ処理を行わない信号のピッチから得られる情報とそれほど変わらなかった。 したがって、信号i)乃至iii)のみが評価に用いられた。 【0077】ローパスフィルタ処理後には、得られた信号i)の強度曲線が、フィルタ処理を行わない場合と同様の手法で測定された。 【0078】そして、完全を期すために、最初の10次元のMFCC(メル周波数ケプストラム成分)の絶対ベクトル導関数のノルム(norm)から計算された信号iv)
    について、ケプストラムが測定された。 ここで、音声認識では、各時間ステップでケプストラムが測定されることが多い。 このケプストラムは、蝸内の神経群の興奮と等価なパラメータである。 これらは、信号の種々のケプストラム係数に相当する。 測定の際には、ケプストラムのベクトル導関数の局所的な傾きの平均値が求められる。 典型的には、この測定により、時間変化する10個の値を有する10個の係数が得られ、連続するベクトル間の差分からベクトルのノルムが得られる。 【0079】上述したi)乃至iv)の全ての測定は、
    “Praatソフトウェア”という名称の無料で利用できる信号処理ツールキットを用いて、0.01秒の時間フレーム毎に行われた。 このPraatソフトウェアについての情報は、ウェブページ(http://www.praat.or
    g)で入手可能である。 【0080】特に、ピッチは、文献「Boersma P. (199
    3) "Accurate short-term analysisof the fundamental
    frequency and the harmonics-to-noise ratio of as
    ampled sound", in Proceedings of the Institute of
    Phonetic Sciences of the University of Amsterdam,
    17, 97-110, 1993」に記載され、非常に正確であると知られているアルゴリズムを用いて計算された。 【0081】以下では、ケプストラムを測定した信号(iv)も評価の際に考慮する。 但し、測定に用いられるのは信号i)乃至iii)のみである。 【0082】これらの測定により、データの異なる観点を与えるように変換された一連の値が得られる。 【0083】この一連の値を得る手順は、以下の通りである。 データベース8から得られた、典型的には短いフレーズに対応する音声サンプルについて、特徴測定ステーション30は、入力端子(信号i)、ii)又はiii)
    に依存してチャネル28a又は28b)に与えられた対応する音声信号を記憶する。 この信号は、予め10Hz
    で平滑化される。 【0084】そして、この記憶され10Hzで平滑化された信号から、上述の時間変化する3つの信号i)乃至
    iii)が計算される。 【0085】このように計算された信号i)乃至iii)
    のそれぞれは、例えば0.01秒間隔でデジタル的にサンプリングされる。 なお、各サンプリングでは、強度(信号i)及びii))又はピッチ(信号iii))の瞬間絶対値が得られる。 【0086】このようにして、サンプリングされた信号のそれぞれについて、連続したサンプル値が得られる。
    フレーズが数秒間ある場合、このサンプル値は数百となる。 その連続したサンプル値は、その信号の最初の部分の値から始まって、時間軸に亘って記憶される。 したがって、連続したサンプル値により信号i)、ii)又はii
    i)の時間変化が表される。 【0087】そして、各信号につき以下に示す4つの系列を生成するために、時間軸上の値のシーケンスが解析される。 1)局所極小値の系列。 これは、そのシーケンスのうち極小値に対応する値を決定し、シーケンスの極小値のみからなる系列を構成することによる。 その系列は、その信号の最初の極小値から始まって、時間軸に亘って記憶される。 なお、シーケンスの極小値は、そのシーケンス内においてその直前直後の値よりも小さな値として特定される。 2)局所極大値の系列。 これは、そのシーケンスのうち極大値に対応する値を決定し、シーケンスの極大値のみからなる系列を構成することによる。 その系列は、その信号の最初の極大値から始まって、時間軸に亘って記憶される。 なお、シーケンスの極大値は、そのシーケンス内においてその直前直後の値よりも大きな値として特定される。 3)局所的な(隣接する)極値間の継続時間長(時間間隔)の系列(これは信号のリズムの様子をモデル化する)。 ここで、極値とは極小値又は極大値である。 これは、先ず上述の系列1)、2)のように隣接する値を比較して、極小値又は極大値に対応する値をシーケンス内で特定することによる。 そして、特定された極値の時間位置が解析され、連続した極値の時間間隔が決定される。 これらの時間間隔は、その信号の最初の極値と次の極値との間隔から始まって、連続して求められ、時間間隔の系列が得られる。 4)系列自身。 これは単純に、サンプリングされた信号の最初から始まって、シーケンスの連続したサンプル値全てから系列を構成することによる。 【0088】Fig.6は、この4つの系列が測定している信号からどのようにして得られるかを図示したものである。 【0089】ここで、上述した信号i)乃至iii)のそれぞれについて、上述した値の4つの系列が抽出され、
    データベースの1つのオーディオサンプルにつき12系列得られる。 【0090】最後に、この12系列のそれぞれについて、以下の10個の統計的特徴、すなわち、 1)平均値2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差5)分散6)中間値7)第1の四分位数8)第3の四分位数9)第3の四分位数と第1の四分位数との差で定義される四分位数間範囲10)局所微分の絶対値の平均値が計算される。 【0091】なお、これらの統計的特徴を計算する前に、全てのデータは予め正規化されている。 【0092】4系列とこれらの10個の特徴とを組み合わせることで、3*4*10=120個の特徴が得られる。 【0093】 学習アルゴリズム 各信号についてこれらの値の全てが得られると、次に種々の自動学習方法を用いて実験が行われた。 この自動学習方法は、所定数のサンプル例を学習し、般化できるものである。 なお、そのような方法としては数多く知られているが、それぞれ利点もあれば欠点もある。 本アプローチでは、これらの種々のアルゴリズムを非常に数多く用いている。 【0094】テストされた各学習アルゴリズムについて、サンプル例の基本セットが入力される。 そして、各基本セットについて、他の基本セットに対する性能がチェックされる。 これにより、各学習アルゴリズムで正しく般化できたパーセンテージが求められる。 【0095】ここで、この20年で多くの学習スキームが開発されているが(例えば Witten I., Frank E. (20
    00) "Data Mining", Morgan Kaufflan Publishers)、
    それらの内容は様々である。 すなわち、あるタイプの分類を他のタイプよりも効率よく行うものもあれば、多くの無関係な特徴(以下説明するように、本件の場合に当てはまる)を扱うのに適したものや、構造化された特徴セット(重要な特徴値の“統語的な(syntactic)”組み合わせ)を扱うのに適したものもある。 データの構造及び/又は特徴の関係性(無関係性)は、当然のことながら分からないため、数少ない学習スキームのみを用いて問題を論じるのは誤りである。 したがって、ニューラルネットワークから規則帰納(rule induction)や回帰による分類(classification by regression)に至るまで、代表的な学習スキームのセットが選択された。 また、最もよいメタ学習スキームの1つであるAdaBoostM1
    (Witten and Frank, 2000 前掲)と呼ばれるメタ学習スキームも使用された。 このAdaBoostM1は、決定木(de
    cision trees)のような不安定な学習スキームの般化性能を著しく向上させる(不安定な学習スキームでは、学習データベースが僅かに変化しただけで認識マシンが大きく変わることがある)。 Wekaソフトウェアを選択した理由の1つは、そのコードと実行可能プログラムとが自由に利用可能であり、大規模ではあるがその実験を容易に再現可能であるためである。 また、このソフトウェアにより、自動クロス確認のような手段が得られ、又は後述するように例えば遺伝的アルゴリズムを用いて特徴空間を探索することができる。 以下の表1に全ての学習アルゴリズムを示す。 【0096】 【表1】

    【0097】これらのアルゴリズムについての詳細は、


    前掲した「Witten and Frank, 2000」から得ることができる。 【0098】最初の実験では、全てのアルゴリズムが全ての(正規化された)特徴に対して適用されて評価が行われた。 ここで、データベースの90パーセントを用いて訓練が行われ、残りの10パーセントを用いてテストが行われた。 そして、これが10回繰り返され、各回毎に90/10パーセントの分け方が変えられた(これにより10分割クロス確認が行われる)。 【0099】以下の表2は、種々のアルゴリズムを用いた場合において、10分割クロス確認で正しく分類された平均のパーセンテージを示したものである。 【0100】 【表2】 【0101】この結果から非常に高い成功率(92乃至97パーセント)が得られていることが分かる。 これは、特定のアルゴリズムを用いた他のいかなる文献に記載された結果よりも高いものである。 しかしながら、アルゴリズム間の差は著しい。 すなわち、最もよい結果は“Adaboost”の決定木及び決定則(decision rules)であったが、それよりも10パーセント低いものや(例えば最近傍識別(nearestneighbor)、RBFニューラルネット又はサポートベクターマシン。これらは他の研究でよく用いられている。)、20パーセント低いもの(パーセプトロン群(Committees of perceptrons))


    もあった。 このことは、前提知識或いは直観的な知識がないような問題を解決する場合には、多くの学習スキームを用いるべきであることを示している。 【0102】

    特徴選択 この最初の実験が終了すると、次のステップはどのようにして特徴セットを減らすかということである。 これは、以下の3つの理由、すなわち、 1)特徴セットが小さいと般化性能がよくなると考えられる(前掲した「Witten and Frank, 2000」参照) 2)計算する特徴が少ない場合にはコンピュータを簡易化できる3)もし機械学習アルゴリズムで最も重要な特徴が伝統的に心理音響学の文献で出されているものであれば興味のあることであるという理由による。 【0103】特徴を探索する第1の方法は、決定則(P


    ART)のような学習スキームの結果を見ることである。 これは、知識発見(knowledge discovery)装置としてよく用いられている。 【0104】本件出願人が作成しテストした特定のルール選択及びパラメータは、以下のようなものである。 例1 If MEDIANINTENSITYLOW>0.48 且つMINMINIMASPITCH<=0.07 且つTHIRDQUARTINTENSITY>0.42 ==>平静ELSE If MEANINTENSITYLOW<=0.58 且つMEDIANINTENSITYLOW<=0.29 ==>怒りELSE If THIRDQUARTINTENSITYLOW>0.48 ==>悲しみELSE ==>喜び(記号“<=”は、未満又はイコールを意味する) 【0105】なお、全ての数値は正規化されている。 【0106】上述のアルゴリズムで表された変数の定義は、以下の通りである。 −MEDIANINTENSITYLOW:ローパスフィルタ処理後の信号の強度値の系列における中間値−MINMINIMASPITCH:ローパスフィルタ処理を行っていない信号のピッチの最小値の系列における値が最も小さな最小値−THIRDQUARTINTENSITY:ローパスフィルタ処理を行っていない信号の強度値の系列における第3の四分位数値−MEANINTENSITYLOW:ローパスフィルタ処理後の信号の強度値の系列における平均値−THIRDQUARTINTENSITYLOW:ローパスフィルタ処理後の信号の強度値の系列における第3の四分位数値【0107】これらの4つの極めて単純な規則により、


    話者2のデータベースについて般化による分類で94パーセントという非常に高いパーセンテージが得られている。 驚くべき事実として、ローパスフィルタ処理された信号の強度に関連する特徴が繰り返し用いられている。 【0108】異なる話者/言語について最適の性能を得るために、違ったルールセットを適用することも可能である。 与えられた話者/言語について適切なルールセットは、実験的に選択される。 【0109】特徴セットの他の観点は、視覚的に得ることができる。 そのような視覚化の一例をFIG.7a−


    7cに示す。 このFIG.7a−7cは、それぞれ上述した160個の特徴から選ばれた特徴i,j,kについて測定を行った例を示したものである。 それぞれのラインには長方形のボックス48a−48c内の空間が定義されており、その内部に数多くの点がプロットされている。 プロットされた各点は、データベース8の音声サンプルに対応する。 また、その点の位置は、その特徴についての関連する測定値に対応する(水平方向に変化する)。 さらに、プロットされたサンプルに対応する感情は、点が「平静」、×印が「悲しみ」、棒線が「怒り」、丸印が「喜び」を表す記号として表されている。


    なお、完全な実験では、各特徴につき1つずつで合計1


    60個のラインが生成される。 【0110】FIG.7aでは、特定された感情サンプルが全くでたらめに分布しており、生成された特徴i


    は、感情を識別する指標となり得ない。 このような分布は、ローパスフィルタ処理されていない音声信号から抽出された特徴の場合によく見られる。 【0111】FIG.7bでは、特定された感情サンプルがより集合して分布しており、生成された特徴は、感情を識別する指標になる可能性がある。 しかしながら、


    隣接する集合が若干オーバーラップしている。 このような分布は、ローパスフィルタ処理された音声信号から抽出された特徴の場合によく見られる。 なお、この実験におけるカットオフ周波数(f0)は、250Hzである。 【0112】最後にFIG.7cでは、特定された感情サンプルがよく集合しているのみならず、それらが空の領域によって分離されている。 このような結果は、その強度がローパスフィルタ処理されたような音声信号から抽出された特徴の場合に得られる。 【0113】なお、雑然となるのを避けるために、図では代表的な音声サンプルのみをプロットしている。 【0114】強度がローパスフィルタ処理された音声信号について得られた結果は、異なる話者についても確認された。 【0115】実験では、感情サンプルをよく集合させ、


    それを少なくとも何らかの空領域で隔てるような6個の特徴が特徴グループから選択された。 【0116】一般的には、強度がローパスフィルタ処理された音声信号について、以下の特徴、すなわち、 −四分位数、特に第1及び第3の四分位数、 −最大値、 −最小値、及び−平均値を考慮することで、最もよい結果が得られる。 【0117】反対に、ローパスフィルタ処理された音声信号の傾きの分散或いは平均値といった特徴では、最も確実でない結果しか得られなかった。 【0118】強度をローパスフィルタ処理することが感情の区別に非常に重要であるという本件出願人の直感を確認するために、データベース8のサンプルからの特定された感情をプロットした図をFIG.8a及び8bに示す。 これらのプロットでは、感情をよく識別することのできる2つの特徴が、直交する軸のそれぞれで表されている。 すなわち、強度についての第1の四分位数が垂直な(縦座標)軸に分布し、強度についての第3の四分位数が水平な軸(横座標)に分布している。 ここで、4


    つの感情を表すための記号は、FIG.7a−7cと同様である。 また、同様にに雑然となるのを避けるために、代表的な音声サンプルのみをプロットしている。 【0119】FIG.8aのプロットは、データベースの音声サンプルからローパスフィルタ処理を行わないで生成されたものである。 一方、FIG.8bのプロットは、同じ音声サンプルではあるが、FIG.3のローパスフィルタ18を用いて、250Hzのカットオフ周波数でローパスフィルタ処理を行って生成されたものである。 どちらの場合の音声サンプルも同じ話者(話者2)


    から得られている。 なお、同様の際だった効果が第1の話者についても得られているが、面白いことに、その集合は同じ場所に位置していない(「怒り」と「喜び」


    は、90度回転している)。 これは、当初予測していた通り、話者によって非常に差異があることを示したものである。 しかしながら、いくつかの特徴については、各話者で非常に安定している。 【0120】ここで、個々の特徴の相関や寄与を定量化するために、予測される情報ゲイン、又はクラスと寄与との間の相互情報という、データマイニングの文献でよく用いられている測定値がある。 これは、エントロピーH(クラス)とエントロピーH(クラス|寄与)との差に相当する。 以下の表3は、最も寄与が大きかった20


    個を情報ゲインに従って並べたものである。 【0121】 【表3】 【0122】この表から、ローパスフィルタ処理された信号の強度分布についての最初の6個のセットに関する特徴が大きな値を示していることが確認できる。 また、


    他の驚くべき点も示されている。 すなわち、それぞれ有益な20個の特徴のうち、心理音響学の研究(Murray


    E., Arnott JL, (1995) "Implementation and testin


    g of a system for producing emotion-by-rule in syn


    thetic speech", Speech Communication, 16(4), pp.36


    9-390; Sendlmeier and Burkhardt 2000 前掲;Stevens


    and Williams 1972 前掲)で提案されていた標準セットに含まれていたもの、又は実用研究(Slaney et al. 19


    98 前掲、Breazal 2000 前掲)で用いられていたものは、3個(表における特徴12,16,20)のみであった。 【0123】それにも関わらず、特徴の個々の顕著性はそれほど興味のあることではない。 特徴の組み合わせによって上手くいくことが少なくないからである。 したがって、最初の実験において、本件出願人は、ローパスフィルタ処理された信号の強度に関連する特徴1乃至6のみを含む特徴セット(LPF)を、文献「Breazal 200


    0」又は文献「Slaney et al. 1998」で用いられている標準特徴(SF)、すなわち、 1)平均値、 2)最小値、 3)最大値、 4)最大値−最小値、 5)ローパスフィルタ処理されていない信号のピッチの分散、 6)ローパスフィルタ処理されていない信号の強度、及び7)音節要素の平均長で構成される特徴セットと比較した。 (時々用いられることがあるように、震え(jitter and tremor)を加えると、結果は同様なものである。) 【0124】以下の表4は、これらの実験をまとめたものである(各数値は、10分割クロス確認で正しく分類された平均のパーセンテージに対応する)。 【0125】 【表4】 【0126】上述の略号は、以下の通りである。 すなわち、(LPF)sp.1は、話者1の音声サンプルをローパスフィルタ処理した信号を示し、(LPF)sp.2は、話者2の音声サンプルをローパスフィルタ処理した信号を示す。 また、(SF)sp.1は、話者1の音声サンプルをローパスフィルタ処理していない標準的な信号を示し、(SF)sp.2は、


    話者2の音声サンプルをローパスフィルタ処理していない標準的な信号を示す。 【0127】この表から分かるように、強度をローパスフィルタで処理した信号の四分位数を用いるのみで、従来用いられてきた特徴の組み合わせよりも性能がよくなる。 【0128】また、本件出願人は、非常の効率的な小さな特徴セットを見つけるために、遺伝的アルゴリズムの使用に基づく自動探索方法を実行した。 すなわち、特徴集合(30個までに限定される)を生成し、適応度として2つのアルゴリズム、すなわちナイーブベイズ法(Na


    ive Bayes)及び5最近傍識別(主として訓練が容易であるために選択した)を用いて10分割クロス確認を行った。 なお、遺伝的アルゴリズムは、正確には文献「Go


    ldberg,DE (1989) "Genetic algorithms insearch,op


    timization and machine learning",MA: Addison-Wesle


    y」に記載されている単純なものである。 【0129】この実験の結果は、明白なものではなかった。 つまり、選択された特徴セットの中には、ローパスフィルタ処理した信号の強度の四分位数に関連する特徴やピッチの四分位数に関連する特徴もあれば、比較的個々の情報ゲインが小さい特徴、すなわちローパスフィルタ処理されていない平滑化された強度曲線の極小値の四分位数に関連する特徴もあった。 【0130】また、機械学習アルゴリズムでは、どのように測定しても、分布の分散や範囲に関連する特徴が常に無視される傾向にある。 【0131】最後に、全ての学習アルゴリズムについてこれらの15個の特徴を用いた実験が行われた(ローパスフィルタ処理した信号の強度の最大値、最小値、中間値、第3の四分位数及び第1の四分位数、ローパスフィルタ処理していない信号のピッチ及び最小値)。 【0132】この結果を以下の表5に示す。 【0133】 【表5】 【0134】表から分かるように、得られた結果は、最初に得られた最もよい結果と非常に似たものであるが、


    10分の1以下の特徴しか用いていない。 さらに面白いことに、学習スキーム間の差は、あまり重要でなく、以前に結果の悪かった最近傍識別やナイーブベイズのようなアルゴリズムも、今回は満足のいく結果が得られている。 【0135】

    僅かなサンプル例しか入手できない場合 前節では、大規模な訓練用データベースを用いており、


    これは特徴及びアルゴリズム空間を探索するのに最適である。 しかしながら、話者依存タスクを扱っている場合、これを現実世界の例えばペット型ロボットに直接適用することはできない。 実際、人間の幼児や現実のペットの場合には起こり得ることであるが、そのようなペット型ロボットの飼い主が数百もの教師サンプルを与え、


    基本感情表現を認識する方法を教えるような状況は想像し得ない。 実際、人間は、それほどの長い時間、ペット型ロボットと共に過ごそうとはしない。 【0136】したがって、僅かな訓練サンプルしかない場合にどのような結果になるのかという疑問は自然なものである。 【0137】このため、本件出願人は、先に与えられた“最適な”特徴セットを用いるものの、各アルゴリズムに対して各クラスにつき12個のサンプルのみを用いて実験を行った。 なお、データベースの残りのアイテムでアルゴリズムのテストが行われた。 【0138】この実験は、それぞれ別の12サンプルを用いて30回繰り返され、その結果は平均化された(標準偏差はかなり低く、典型的には1.1程度であった)。 【0139】以下の表6は、この実験をまとめたものである。 【0140】 【表6】 【0141】表から分かるように、アルゴリズムの中には、ある程度の性能(一般的に約85パーセント)を維持しているものもある。 例えば、非常に簡易なアルゴリズムである1最近傍識別やナイーブベイズである。 これらの結果は、前掲した文献「Breazal,2000」に記載されている結果に匹敵する(実際、僅かに優れている)ものである。 しかしながら、この場合の学習は、数人の女性の話者による大規模なデータベースを用いたオフラインでのものであった。 重要なことは、Breazalが、ペット型ロボットと相互作用するにはこのレベルの成功率で十分であるということを実験を行って示したことである。


    また、Breazalは、現実世界で動くような大きな認識アークテクチャに組み込まれた場合に、どのようにしてこの結果を向上させるかを示した。 例えば、この認識モジュールをある種の感情慣性(2分の1秒で「喜び」から「怒り」に変化することは非常に稀である)のあるような人工的な辺縁系(lymbic)/感情システムと接続すると、何らかの追加情報が得られるか、又は結果に不確かさがあることをシステムが知ることができる。 この結果、ロボットは、例えば何が起こっているのか分からないということを示す態度を示す。 これにより、人間は、


    より誇張されたイントネーションで発声を繰り返すようになる。 【0142】

    研究全体の結論 上述の記載より、“現実の状況”のロボットの場合にそうであるように、僅かなサンプルしか与えられない場合であっても、正しい特徴セットを用いれば適度な性能が得られることが分かる。 【0143】そこで、目的となるのは、適切な性能レベル、可能であればそれ以上を維持しながら、測定数を減らすことである。 実際、学習アルゴリズムの中には、特に相関がない場合など、多数の測定を行うのに適さないものもある。 また、学習アルゴリズムの中には、構成タイプ(constructive type)のものもある。 それらは、


    感情分類を行う開発者が読むことのできる所定数の規則を生成することができるため、興味のあるものである。


    例えば、1つ又は2つのデータベースを用いて、単に選択された4つの値についてのみテストを行った多数の測定により、満足いく程度の結果が得られる学習アルゴリズムも存在する。 【0144】これにより、重要と思われるものを所定数識別することができる。 これらは、典型的にはローパスフィルタ処理された信号と結びつけられた信号の値である。 より具体的には、それは、その信号の強度の中間値が所定値(例えば25.75dB)よりも大きいか否かを示すものである。 【0145】ローパスフィルタ処理された信号の強度の種々の四分位数を学習アルゴリズムに与えるのみで実験が繰り返された。 測定の結果、最もよい学習アルゴリズムの成功率は、典型的には80乃至85%であった(完全な分析における90乃至95%に匹敵する)。 但し、


    ピッチ分析を行っていないことから、その計算は非常に簡略化されている。 【0146】また、基礎となるデータとして、伝統的に文献で用いられている値を用いて、全ての値又はローパスフィルタ処理された信号強度と比較して実験が行われた。 この結果、既知の選択値である同じ基礎データを用いた場合の成功率は、70乃至75%である。 これは、


    単にローパスフィルタ処理後の信号強度を用いる場合の結果よりも、10%前後低いものである。 【0147】また、測定数を少なくすることと、その結果との最善の折衷案を求めるために、所定数の実験が行われた。 この実験は、例えば遺伝的アルゴリズムを用いて多数の測定グループを生成し、空間を解析するものであった。 結論としては、ローパスフィルタ処理後の信号強度の四分位数と、ピッチの四分位数と、通常の(ローパスフィルタ処理していない)信号の極小値の四分位数との組み合わせで得られる15個のパラメータにより、


    最もよい結果が得られた。 これらの成功率は、90乃至97%の範囲内にあり、120個のパラメータを一緒に用いた場合の成功率と同程度であった。 【0148】次の問題は、比較的少数の初期サンプルから、ロボットが比較的よく般化を行うことができるか否かを知ることである。 このため、各クラス12個のサンプル(合計48サンプル)のみをアルゴリズムに与え、


    どの程度結果が変化するかを調べるために実験が行われた。 この結果、学習アルゴリズム間の差異は、より明白なものとなった。 しかしながら、依然として85乃至9


    0%の成功率を維持している学習アルゴリズムも幾つか存在する。 【0149】ここで、研究の一般的な結果をFIG.9


    からFIG.13の棒グラフに示す。 これらは、感情を正しく分類できるかという観点から、引用した全ての学習アルゴリズムを比較するものである。 なお、各アルゴリズムについて、データベース8の2人の話者に対応する2つの結果が示されている。 より具体的には、以下の通りである。 【0150】すなわち、FIG.9は、ローパスフィルタ処理された信号の強度のみを用いて、初期サンプルから般化により正しく分類する性能を示したものである。


    用いた特徴は、ローパスフィルタ処理(カットオフ周波数250Hz)された信号の強度である。 【0151】また、FIG.10は、いわゆる“Kisme


    t”特徴(KismetはMITで開発されたシステムである)、すなわちピッチ+強度+長さ要素についての性能を示したものである。 【0152】また、FIG.11は、特徴の最もよい組み合わせ、すなわちローパスフィルタ処理された信号の強度+ピッチ+強度の最小値についての性能を示したものである。 【0153】また、FIG.12は、僅かなサンプルしか利用できない場合に、12個/クラスの訓練サンプルに基づいて、般化により正しく分類する性能を示したものである。用いた特徴は、ローパスフィルタ処理された信号の強度+ピッチ+強度の最小値である。 【0154】そして、FIG.13は、上述した図のそれぞれについて、実験毎の最高スコアをまとめたものである。 【0155】

    実用的な実装 FIG.14は、本発明の発見をどのようにして感情感応性システム60に実装するかを概念的に示した図である。この感情感応性システム60は、ペット型ロボット、ヒューマノイド、或いはインタラクティブコンピュータ等の一部とすることができる。典型的には、このシステムは、感情認識処理に必要となる全ての処理、データ格納、インターフェース機能を有するマイクロコンピュータの中心となる。これらのユニットはそれぞれ知られたものであり、当業者であればアプリケーションの必要性に応じて容易に適用することができるため、簡単のために図示を省略する。 【0156】システム60は、感情を検出するための音声データを受けとる音響入力部を有する。この音声データは、2つのソースから得ることができる。すなわち、


    現実の状況のように、周囲の音声を集音し、感情検出を行う近くの人物の発声を検出する内蔵マイクロホン62


    と、オーディオ接続器64を介してシステム60と接続されるデータベースとである。 このデータベースは、F


    IG.3と同じものとすることもでき、それを適用させたものとすることもできる。 このようにして、システムは予め訓練され、調整され、特徴付けられる。 なお、この接続可能性は、ローパスフィルタ特性を含む、全ての内部音声処理パラメータを調整する際に有用である。 【0157】2つのソース62又はソース8からの音声信号は、音響増幅処理ユニット66に供給され、ここで信号レベルがシステムの電子機器に適応したものになる。 また、音響増幅処理ユニット66は、マイクロホン62を用いた場合に、暗騒音を最小とするノイズ削減段階を含んでもよい。 音響増幅処理ユニット66の音響出力端子68は、第1及び第2の経路P1及びP2に沿って、特徴抽出ユニット70の2つのチャンネル入力端子IC1及びIC2とそれぞれ接続される。 【0158】ここで、第1の経路P1には、音響出力端子68と第1のチャンネル入力端子IC1との間に第1


    のデジタルアナログ変換器(DAC)72が存在する。


    第1のチャンネル入力端子IC1は、増幅され前処理されたデジタル形式の音声信号を単純に入力する。 【0159】一方、第2の経路P2には、ローパスフィルタ74が存在し、その入力端子が音響出力端子68と接続されている。 本具体例では、このローパスフィルタは、適切なカットオフ周波数を有する限り、FIG.3


    と同じものとすることができる。 典型的には、カットオフ周波数(Fco)は、0乃至250Hzの範囲の周波数を通過させ、それ以降では急速に減衰するような値にデフォルトで設定される。 このカットオフ周波数は、カットオフ周波数選択器76によって様々な値に設定することも可能である。 カットオフ周波数選択器76は、異なったカットオフ周波数を生成するためにスライダーによって手動で制御可能とされ、及び/又は特徴化フェーズの間、最適な結果を得るための例えばフィードバックシステム内の内部制御回路によって電気的に調整される。 なお、システム60を異なる話者、言語、環境、検出する種々の感情等に最適化するためには、このカットオフ周波数の調整が必要となる。 【0160】また、ローパスフィルタ74は、さらに減衰変化制御装置78を有する。 この減衰変化制御装置7


    8は、周波数反応曲線(FIG.4参照)の傾きを、例えばフィルタの次数を変えることによって変更し、ローパスフィルタ特性の最適化にさらなる自由度を与える。 【0161】しかしながら、ローパスフィルタ74は可変でなくてもよく、傾きを調整できなくてもよい。 単純な実施例は、所定のカットオフ周波数、例えば250H


    zに固定されたローパスフィルタで実現することができる。 【0162】FIG.3のシステムについて言えば、ローパスフィルタ74は、アナログ回路(受動的又は能動的)で、又はデジタルフィルタとして実現することができる。 後者の場合、DAC80は必ずしも必要でないが、デジタルローパスフィルタが独自のデジタルアナログ変換段階を有していない限り、同様のDACが入力部に設けられる。 実用的な実装では、ローパスフィルタ7


    4及びその制御ユニット76及び78は、典型的には完全にデジタルなものであり、カットオフ周波数の選択を含むフィルタ特性の制御は、システム60の中心にあるPCベース制御ユニットのインターフェースを介して行われる。 【0163】ローパスフィルタ74から出力されたローパスフィルタ処理後の音声信号(図ではアナログ)は、


    第2のアナログデジタル変換器80に供給され、このアナログデジタル変換器80により、適切にデジタル化されたローパスフィルタ処理後の信号が、特徴抽出ユニット70の第2のチャンネル入力端子IC2に供給される。 【0164】この特徴抽出ユニット70は、入力した音声信号により伝達される感情を検出する処理回路の第1


    のリンクを構成する。 【0165】処理回路の第1の部分は特徴抽出ユニット70を有し、この特徴抽出ユニット70は、デジタル化された信号から選択した特徴を抽出するようにプログラムされている。 なお、特徴の一部は、本発明に従って、


    ローパスフィルタ処理後の音声信号(チャンネル入力端子IC2)から抽出される。 【0166】特徴抽出ユニット70は、FIG.3の特徴測定ステーション30と同様の方法で処理を行う。 特に、特徴抽出ユニット70は、上述した120個の特徴から特徴セットを選択して抽出する。 すなわち、 i)ローパスフィルタ処理後の信号強度(チャンネル入力端子IC2の信号に由来する)、 ii)ローパスフィルタ処理を行わない場合の信号強度(チャンネル入力端子IC1の信号に由来する)、及びiii)ローパスフィルタ処理を行わない場合の信号のピッチ(チャンネル入力端子IC1の信号に由来する)の組み合わせから特徴セットを選択して抽出する。 【0167】なお、上述した信号は、10Hzで平滑化されている。 【0168】そして、この記憶され10Hzで平滑化された信号から、上述の時間変化する3つの信号i)乃至


    iii)が計算される。 【0169】このように計算された信号i)乃至iii)


    のそれぞれは、例えば0.01秒間隔でデジタル的にサンプリングされる。 なお、各サンプリングでは、強度(信号i)及びii))又はピッチ(信号iii))の瞬間絶対値が得られる。 【0170】このようにして、サンプリングされた信号のそれぞれについて、連続したサンプル値が得られる。


    フレーズが数秒間ある場合、このサンプル値は数百となる。 その連続したサンプル値は、その信号の最初の部分の値から始まって、時間軸に亘って記憶される。 したがって、連続したサンプル値により信号i)、ii)又はii


    i)の時間変化が表される。 【0171】そして、これらの3つ信号のそれぞれから得られた各シーケンス、すなわちローパスフィルタ処理後の強度、ローパスフィルタ処理を行わない場合の強度、及びローパスフィルタ処理を行わない場合のピッチについて、特徴抽出ユニット70は、FIG.3の特徴測定ステーション30に関連して、上述した値の4つの系列、すなわち、 1)局所極小値の系列。 これは、そのシーケンスのうち極小値に対応する値を決定し、シーケンスの極小値のみからなる系列を構成することによる。 その系列は、その信号の最初の極小値から始まって、時間軸に亘って記憶される。 なお、シーケンスの極小値は、そのシーケンス内においてその直前直後の値よりも小さな値として特定される。 2)局所極大値の系列。 これは、そのシーケンスのうち極大値に対応する値を決定し、シーケンスの極大値のみからなる系列を構成することによる。 その系列は、その信号の最初の極大値から始まって、時間軸に亘って記憶される。 なお、シーケンスの極大値は、そのシーケンス内においてその直前直後の値よりも大きな値として特定される。 3)局所的な(隣接する)極値(極小値又は極大値)間の継続時間長(時間間隔)の系列(これは信号のリズムの様子をモデル化する)。 これは、シーケンス内で極小値又は極大値に対応する値を特定することによる。 すなわち、先ず上述の系列1)、2)のように隣接する値を比較する。 そして、特定された極値の時間位置を解析し、連続した極値の時間間隔を決定する。 これらの時間間隔は、その信号の最初の極値と次の極値との間隔から始まって、連続して求められ、時間間隔の系列が得られる。 4)系列自身。 これは、サンプリングされた信号の最初から始まって、シーケンスの連続したサンプル値全てから系列を構成することによる。 を計算することができる。 【0172】そして、特徴抽出ユニットは、得られた3


    ×4(=12)個の系列について対応する特徴を生成するために、以下の10種類、すなわち、 1)平均値2)最大値(すなわち全体で最も大きな値) 3)最小値(すなわち全体で最も大きな値) 4)最大値と最小値との差5)分散6)中間値7)第1の四分位数8)第3の四分位数9)第3の四分位数と第1の四分位数との差で定義される四分位数間範囲10)局所微分の絶対値の平均値の統計処理を行う。 【0173】通常、上述した統計的特徴の中には、特に第1の四分位数、中間値及び第3の四分位数を求めるために、時間軸上の系列を昇順の系列へと、系列の値を並べ替えるものもある。 【0174】なお、これらの統計的特徴を計算する前に、全てのデータは予め正規化されている。 【0175】この120個の特徴のどれを抽出するかは、用いるアルゴリズムに依存し、これはプログラム可能である。 実施例では、特徴抽出ユニット70は、要求に応じて任意の数の特徴を抽出できるようにプログラムされている。 なお、少なくとも1つの特徴は、感情認識を行う音声信号をローパスフィルタ処理した後の強度に由来する。 【0176】具体例として、上述した10種類の統計的特徴の中から以下の5種類の統計的特徴、すなわち、 −第1の四分位数、 −中間値、 −第3の四分位数、 −最大値、及び−最小値の少なくとも1つを抽出するように、特徴抽出ユニット70をプログラムすることができる。 【0177】ここで、上述した信号i)、ii)及びii


    i)の少なくとも1つ又はその組み合わせから上述の抽出が行われ、感情を検出する各音声信号について、特徴抽出ユニット70によって最大15個の特徴が抽出される。 なお、少なくとも1つの特徴は、ローパスフィルタ処理された信号の強度から抽出される。 【0178】また、特徴抽出ユニット70が、ローパスフィルタ処理後の音声信号から抽出されたピッチ信号から、上述の1乃至10の任意の特徴を抽出できるように、追加的にプログラムすることも可能である。 この場合、ローパスフィルタ処理後のピッチについて、上述と同様の1乃至4の系列が得られ、それぞれから上述の1


    乃至10の統計的特徴が得られる。 このように、特徴抽出ユニット70は、ローパスフィルタ74によるローパスフィルタ処理後のピッチ信号から、最大で4×10=


    40個の任意の数の統計的特徴を抽出するように、さらにプログラムすることができる。 【0179】また、特徴抽出ユニット70は、例えば上述した表3の最初の6つの特徴の少なくとも1つに対応する少数の統計的特徴、すなわち、 1:サンプリングされたローパスフィルタ処理後の信号強度の中間値、 2:ローパスフィルタ処理後の信号強度の平均値、 3:サンプリングされたローパスフィルタ処理後の信号強度の系列の第3の四分位数、 4:サンプリングされたローパスフィルタ処理後の信号強度の系列の第1の四分位数、 5:サンプリングされたローパスフィルタ処理後の信号強度の系列の最大値、及び6:サンプリングされたローパスフィルタ処理後の信号強度の系列の最小値を抽出するようにプログラムすることも可能である。 【0180】さらに、上述した信号i)、ii)及びii


    i)、及び場合によってはローパスフィルタ処理後のピッチ信号が、それぞれ例えば10Hz(又は他の値)で平滑化されるようにプログラムすることもできる。 なお、平滑化を行わなくても構わない。 【0181】抽出された特徴は、データロガー82に一時的に格納され、他の機能ユニットがその特徴にアクセスする。 【0182】ここで、感情感応性システム60は、2種類のモード、すなわちオフライン訓練感情認識及びオンライン訓練感情認識の何れかを選択して処理するように設計することができる。 【0183】オフライン訓練モードでは、例えばFI


    G.3の評価システムを用いて、装置外で感情を検出する訓練が行われる。 この場合、FIG.3のプログラムユニットPUによって、すぐに用いることのできる完全な感情検出アルゴリズムが準備される。 この感情認識では、そのパラメータ及びプログラムを固定としてもよく(閉じたアルゴリズム)、また、誤りを修正するため、


    又は感情認識をコーチするためのユーザのフィードバックに基づいて、パラメータ及びプラグラムをある程度更新可能としてもよい。 【0184】一方、オンライン訓練モードでは、感情認識アルゴリズムの初期設定は存在しない。 その代わり、


    特徴抽出ユニット70及びユーザのフィードバックから抽出された特徴を解析する教師アルゴリズム、又は検出すべき感情を示すユーザの指示が与えられる。 この入力から、教師アルゴリズムは、特定のオンライン感情認識アルゴリズムを作成し、ユーザの入力及びフィードバックが増加するにつれて、それが随時変更され、更新され、改善される。 【0185】FIG.14では、これら2つのモードのそれぞれについて機能ユニットを辿る経路が存在する。


    すなわち、オフラインモード及びオンラインモードについて、それぞれOFF−L及びON−Lが存在する。 【0186】オフラインモードについては、上述したオフライン感情認識アルゴリズムユニット84が存在する。 このオフライン感情認識アルゴリズムユニット84


    は、特徴抽出ユニット70により抽出され、パラメータ及びプログラムに従ってデータロガー82に存在する特徴を入力し、所定の設定に従って、これらの抽出された特徴から感情を検出する。 なお、このモードでは、音声信号は、通常マイクロホン62のみから供給される。 【0187】一方、オンライン訓練モードについては、


    先ず抽出した特徴を格納するデータベース86が存在し、学習アルゴリズムユニット88によって、このデータベース86から様々な特徴が選択される。 このため、


    データベース86はデータロガー82と接続され、抽出された特徴全てを格納し、抽出された特徴の集合を生成することが可能とされている。 また、学習アルゴリズムユニット86から特徴抽出ユニット70へのフィードバック(ループFL1)によって、特徴抽出ユニット70


    は、最適な感情検出アルゴリズムを得るための新たな要求を満たすために、新たな特徴に変え、又は新たな特徴を選択することできるようになる。 なお、教師アルゴリズムユニット88は、種々の感情を伴った音声メッセージをユーザに入力可能とするプログラムを有してもよく、例えばデータベース8といった音声データベースから受け取ったデータと結びつけられていてもよい。 【0188】ここで、教師アルゴリズムユニット86が要求されたオンライン感情認識アルゴリズムを作成すると、そのオンライン感情認識アルゴリズムは、オンライン感情認識アルゴリズムユニット90にロードされる。


    そして、オンライン感情認識アルゴリズムユニット90


    は、オフライン感情認識アルゴリズムユニット84と同様の感情認識処理を実行する。 但し、その感情認識処理は、内部的に生成され、ユーザといった特定の話者に特に適合したものである。 【0189】感情検出アルゴリズムユニット84,90


    の何れかで検出される感情タイプは、前述した通り、


    「平静」、「悲しみ」、「喜び」、「怒り」である。 なお、他の感情に対応させてもよいことは勿論である。 【0190】オフライン処理を行うかオンライン処理を行うかの選択は、選択器92が行う。 この選択器92


    は、感情検出アルゴリズム84又は感情検出アルゴリズム90の何れから検出された感情を取り出すかを選択する。 なお、この選択は、外部からのユーザ入力信号94


    を介して行われる。 【0191】ここで、通常、以下のような変更が可能である。 すなわち、−システム60は、オフライン感情認識アルゴリズム84のみを有する。 このオフライン感情認識アルゴリズム84は、完全に固定であり、又はフィードバックに対応してある程度適応化できる。 −システムは、オンライン感情アルゴリズムシステムのみを有する。 このオンライン感情アルゴリズムシステムは、教師アルゴリズムと、後者(ユニット86乃至90)によって作成されたオンライン感情認識アルゴリズムとで構成される。 【0192】FIG.3のプログラムユニットPUは、


    要求された情報及びコードを種々の機能ユニットに供給することができる。 このことは、プログラミングインターフェースPIを介して実現される。 特に、プログラムユニットPU及びそのインターフェースPIは、追加サンプル又は相補データとするためにデータベース86に特徴を供給すると共に、特徴抽出ユニット70をプログラムし、オフライン感情認識アルゴリズム(ユニット8


    4)及び/又は教師アルゴリズム(ユニット88)をロードさせる。 【0193】オフライン感情認識アルゴリズムユニット84又はオンライン感情認識アルゴリズムユニット90


    の一方又は他方からの出力は、検出感情入力ユニット9


    4に供給され、ここで認識された感情が確認される。 そして、全ての感情反応を制御するために、検出された感情は、検出感情入力ユニット94から感情反応ユニット96に供給される。 例えばペット型ロボットの場合には、この感情反応ユニット96は、適切な反応を模すために、種々の電気機械アクチュエータ、光及び音響装置の処理を制御する。 【0194】また、反応の1つとしては、人間のユーザ98、又は制御する人間若しくは装置に検出した情報を示すために、フィードバックを行うことが挙げられる。


    これは、検出された感情を示す視覚的、聴覚的、電気的又は機械的な信号を伝達する検出感情指示器100によって実現することができる。 これにより、正しく同定できたか否かをチェックし、適切に修正測定を行うことが可能となる。 【0195】特に、これにより、ユーザ98は、フィードバック反応ユニット102にフィードバック反応を返すことができる。 このフィードバック反応ユニット10


    2は、関連する種々のユニット、例えばオフライン感情認識アルゴリズムユニット84(柔軟性がある場合)、


    教師アルゴリズムユニット88及びオンライン感情認識アルゴリズムユニット90に対する適切なフィードバックメッセージを生成する。 【0196】以上の記載より、信号から抽出され、その少なくとも1つがローパスフィルタ処理後の信号から抽出された特徴の種々の組み合わせによって、本発明が実現されることは明らかである。 【0197】これらの特徴に基づく感情アルゴリズムは、実験的な基礎の下に選択される。 この明細書で引用したアルゴリズムは、その目的に沿う多くのアルゴリズムの1つである。 したがって、教師アルゴリズムと感情検出アルゴリズムとについて、他のアルゴリズムを用いても本発明を実現することができる。

    【図面の簡単な説明】 【図1】FIG.1は、力価及び奮起を表す直軸において基本感情が何処に位置するかを示す図である。 【図2】FIG.2a,2b及び2cは、音声信号(F
    IG.2a)、ピッチ(FIG.2b)及び強度(FI
    G.2c)の間の関係を示す信号波形の図である。 【図3】FIG.3は、感情を検出する音響信号のローパスフィルタ処理を用いた本発明に係る感情検出アプローチを評価し、特徴付け、最適化するシステムを示すブロック図である。 【図4】FIG.4は、ローパスフィルタ反応曲線の典型的な曲線及び理想的な曲線を示す図である。 【図5】FIG.5は、FIG.3のシステムで用いられる調整可能なカットオフ周波数の反応を示す曲線群を表す図である。 【図6】FIG.6は、考慮した信号特徴がどのように由来しているかを示すサンプル信号波形(信号強度対時間)を表す図である。 【図7】FIG.7a,7b及び7cは、感情検出のために種々に抽出された信号特徴に関して分析した場合における音声サンプルの分布を示す図であり、それぞれ情報性の悪い特徴、よい特徴、及びさらによい特徴を用いた場合を示す。 【図8】FIG.8a及び8bは、データ点のグループ特性の観点で正しく感情が検出された度合いを示す、第1及び第3の四分位数によって検出された感情の分布を示す図であり、それぞれローパスフィルタ処理していない信号についての結果とカットオフ周波数250Hzでローパスフィルタ処理された信号についての結果とを示す。 【図9】FIG.9は、種々の状況下で信号特徴を様々に選択して感情検出を行った複数のアルゴリズムの性能を示す図である。 【図10】FIG.10は、種々の状況下で信号特徴を様々に選択して感情検出を行った複数のアルゴリズムの性能を示す図である。 【図11】FIG.11は、種々の状況下で信号特徴を様々に選択して感情検出を行った複数のアルゴリズムの性能を示す図である。 【図12】FIG.12は、種々の状況下で信号特徴を様々に選択して感情検出を行った複数のアルゴリズムの性能を示す図である。 【図13】FIG.13は、種々の状況下で信号特徴を様々に選択して感情検出を行った複数のアルゴリズムの性能を示す図である。 【図14】FIG.14は、本発明に従って音声信号のローパスフィルタ処理を行う感情感応性システムを示すブロック図である。

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈