Voice input unit

阅读:76发布:2024-02-08

专利汇可以提供Voice input unit专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To provide a small voice input unit excellent in voice separation performance, preventing the deviation of voice separation performance of the voice input unit caused by frequency of speakers' voices.
SOLUTION: The voice input unit is provided with a plurality of microphones 11A-11C arranged so that all the intervals D1ab, D1bc, D1ca between microphones are different. Thereby, the voice input unit is provided to obtain high voice separation performance in a wide voice frequency band.
COPYRIGHT: (C)2008,JPO&INPIT,下面是Voice input unit专利的具体信息内容。

  • 音声入力用に複数のマイクを備える音声入力装置であって、
    相互の間隔が全て異なるように配置された3つ以上のマイクを備える、ことを特徴とする音声入力装置。
  • 前記音声入力装置は3つのマイクを備え、
    それぞれのマイクは、互いに異なる長さの辺を有する三角形の頂点に配置されている、ことを特徴とする請求項1に記載の音声入力装置。
  • 前記音声入力装置は4つのマイクを備え、
    それぞれのマイクは、互いに異なる長さの辺を有する四角形の頂点に配置されている、ことを特徴とする請求項1に記載の音声入力装置。
  • 少なくとも一対のマイクの間隔が、音声の上限周波数に対して、最大の入力音声信号レベルを得るように選択されている、ことを特徴とする請求項1乃至3のいずれか1項に記載の音声入力装置。
  • 請求項1乃至4の何れか1項に記載の音声入力装置と画像を表示する画像表示装置とを備える携帯端末であって、
    前記複数のマイクの少なくとも2つは、前記表示装置を挟んで、対向する側に配置されている、ことを特徴とする音声入力装置。
  • 说明书全文

    本発明は、複数のマイクを備える音声入装置に関する。

    複数のマイク(アレイマイク)を備え、ノイズ除去機能や話者位置検出機能を実現した音声入力装置が提案されている。

    例えば、特許文献1には、マイクとしての機能とスピーカとしての機能とを切替えることができる放集音素子を、等間隔で配置し、入力音声の周波数帯域に基づいて、マイクの配列パターンを変更する音声入力装置が開示されている。

    また、特許文献2には、アレイマイク内の各マイクが取り込んだ音声の位相差を検出し、音源の位置を判別することができる音声入力装置が開示されている。

    特開2006−114990号公報

    特開平7−92988号公報

    屋外で使用されることの多い携帯電話装置の音声入力装置は、周辺騒音や部外者の声等の不特定ノイズから話者の声を分離して入力する必要がある。 即ち、音声分離性能に優れている必要がある。 また、携帯型であることより、小型であることが望まれる。

    特許文献1に開示されている音声入力装置は、低周波数帯域の周波数成分を有する音声波と、高周波帯域の周波数成分を有する音声波とが入力されたときでも、それぞれの音声波の周波数帯域において、高い音声分離性能が得られるマイクの配列パターンを形成する。

    しかし、この音声入力装置は、多数のマイクを配置できる大きな空間と、全ての放集音素子を個々に制御するための大規模な制御回路や配線パターン等と、を必要とする。 そのため、特許文献1の音声入力装置は、携帯型電子装置に要求される小型・軽量の要求を満たすことができない。

    アレイマイクが分離(入力)できる音声の中心周波数Ftは、マイクの間隔Dによって、数式1により定まる。
    (数1)
    Ft=V/(2×D)
    V:音速

    音声入力装置は、この中心周波数Ft±数百Hz程度の周波数帯域において、高い音声分離性能が得られる、即ち、高い入力音声信号レベルを得ることができる。

    特許文献2の音声検出装置は、マイクが等間隔に配列されている。 そのため、間隔が同一なマイクの組み合わせがほとんどであり、間隔の異なるマイクの組み合わせは少ない。 従って、特許文献2の音声入力装置は、話者の音声帯域が、マイク相互の間隔によって定まる特定の周波数帯域では高い音声分離性能を示すが、他の周波数帯域では高い音声分離性能が得られない。 その結果、特許文献2のアレイマイクでは、話者の声の音質よっては、音声分離性能に偏りが生じてしまい、良好な音声分離性能を得ることができない。

    同様の問題は、携帯電話装置に限らず、アレイマイクを用いて音声入力機能を備える種々の携帯型電子装置に共通する。

    本発明は、上記実情に鑑みてなされたものであり、話者の音声の周波数に起因して生じる、音声入力装置の音声分離性能の偏りを起こりにくくすることを目的とする。
    また、本発明は、音声分離性能に優れた音声入力装置を提供することを目的とする。
    さらに、本発明は、小型の音声入力装置を提供することを目的とする。

    上記課題を解決するため、本発明における音声入力装置は、
    音声入力用に複数のマイクを備える音声入力装置であって、
    互いの間隔が全て異なるように配置されている3つ以上のマイクを備える、ことを特徴とする。

    携帯型電子装置は、例えば、3つのマイクを備え、それぞれのマイクは、互いに異なる長さの辺を有する三形の頂点に配置されている。

    携帯型電子装置は、例えば、4つのマイクを備え、それぞれのマイクは、互いに異なる長さの辺を有する四角形の頂点に配置されている。

    例えば、全てのマイクペアの間隔の内、少なくとも1つのマイクペアの間隔が、通話音声の上限周波数に対して、音声入力装置が最大の音声信号レベルを得るように、選択されている。

    画像表示装置を備える携帯端末に上記音声入力装置を使用する場合に、前記複数のマイクの少なくとも2つを、前記表示装置を挟んで、対向する側に配置することが望ましい。

    本発明によれば、マイクが、間隔が異なるように配置されているので、広い周波数帯域に渡って、音声を分離することが可能となる。

    (実施形態1)
    以下、本発明の実施形態1を、TV電話機能を備える携帯電話装置1を例に説明する。

    この携帯電話装置1は、図1(a)に外観を示すように、上部筐体1Uと下部筐体1Lとを備え、上部筐体1Uと下部筐体1Lがスライドするスライドスライド型に構成されている。

    上部筐体1Uには、図1(b)、1(c)に示すように、3つのマイク11A、11B、11Cと、カメラ部12と、音声スピーカ13と、画面表示部14と、スピーカ15と、が配置されている。

    マイク11A〜11Cは、アレイマイクを構成し、ユーザが通話機能を利用するときに、音声レベルに応じたアナログ音声信号をそれぞれ出力する。 なお、マイク11A、11B、11Cを全てまとめたものを総称して、音声入力装置11と呼ぶ。

    3つのマイク11A、11B、11Cは、話者の音声周波数帯域に対応した広い周波数帯域に渡って、高い音声信号レベルを得ることができるように、相互の間隔D1ab、D1bc、D1caがすべて異なるように、配置されている。 マイク11A、11B、11Cの距離の詳細については後述する。

    カメラ部12は、任意の画像を撮像するためのものである。 カメラ部12は、例えば、TV電話機能により通話相手と通話するときに、ユーザ自身を撮影する。

    音声スピーカ13は、通話時に、受信音声を出力する。

    画面表示部14は、LCD(液晶表示)パネル、EL(Electro Luminescence)表示器などの表示パネルとドライバ回路等で構成され、画像、文字情報、各種のメッセージ等を表示する。 例えば、画面表示部14は、TV電話の通信相手の映像や、カメラ部12で撮影して相手に送信しているユーザ自身の映像を表示する。 また、現在日時、簡易なメッセージ、アイコン等を表示する。 なお、画面表示部は、有機EL表示器等であってもよい。

    スピーカ15は、通話音声以外の音声、例えば、TV電話時の音声、TV音声、報知音等を放音する。

    また、携帯電話装置1は、図2に示す回路構成のように、上述の3つのマイク11A〜11Cとカメラ部12と音声スピーカ13と画面表示部14とスピーカ15と、に加えて、増幅器21A〜21C、ADC(Analog to Digital Converter)22A〜22C、音声処理回路23、通信部24、音声出力部25、制御部26、DAC(Digital Analog Converter)27、バス28を備える。

    増幅器21A〜21Cは、マイク11A〜11Cの出力するアナログ音声信号ASa、ASb、AScを増幅して出力する。
    ADC(Analog to Digital Converter)22A〜22Cは、それぞれ、増幅器21A〜21Cが増幅したアナログ音声信号ASa〜AScをデジタル音声信号DSa、DSb、DScに変換して出力する。

    音声処理回路23は、例えば、DSP(Digital Signal Processor)等から構成される。 音声処理回路23は、デジタル音声信号Sa、Sb、Scを加算して、広い音声帯域(例えば、300Hz〜3400Hz)、高い音声分離性能を得て、音声を高い信号レベルで入力する。

    また、音声処理回路23は、送信用の音声信号を生成する際、ノイズ抑圧処理などの既知の種々の処理を音声信号に施す。 例えば、音声処理回路23は、デジタル音声信号Sa〜Scの各位相差を求め、求めた位相差に基づいて、音源(話者)の位置(向き)を判別する。 音声処理回路23は、判別した音源の位置に基づいて、ノイズを抑圧する信号処理を行う。

    通信部24は、音声処理回路23から供給された通話音声や、カメラ部12で撮像した画像を変調して、アンテナ及び基地局を介して、通話先に送信する。 また、通信部24は、制御部26から供給された任意のデータ、例えば、カメラ部12の撮像画像を送信する。 また、通信部24は、アンテナを介して、音声信号や画像データ、及び、ネット上の任意のデータを、移動体通信網やインターネットを介して、受信し、復調し、受信音声を音声出力部25又は制御部26に供給し、画像データを制御部26に提供する。

    音声出力部25は、通常の通話時に、通信部24から供給された音声信号を電気信号(アナログ音声信号)に変換し、音声スピーカ13から出力する。

    制御部26は、CPU(Central Processing Unit)から構成され、携帯電話装置1の全体的な動作を制御する。 例えば、制御部26は、TV電話時に、通信部24で受信した音声信号をDAC27に供給し、映像信号を画面表示部14に供給する。 また、制御部26は、通信部24で受信したインターネット上の各種データを処理し、例えば、画面表示部14に供給する。

    DAC(Digital Analog Converter)27は、制御部26からのディジタルオーディオ信号をアナログオーディオ信号に変換して、報知音やTV電話時の音声をスピーカ15を介して出力する。
    バス28は、各部間の情報を伝送する。

    次に、音声入力装置11を構成する3つのマイク11A〜11Cが上述のように、互いに異なる間隔で配置されている理由を説明する。

    2つのマイクの間隔Dは、音速Vと、伝送する音声の中心周波数Ftにより、数2により定まる。
    (数2)
    D=V/(2×Ft)

    マイクは、図3に示すように、中心周波数Ftの±数100Hzの範囲で音声分離性能(音声分離特性)が高く、中心周波数Ftから外れる程、分離性能は悪くなる。 従って、2つのマイクから構成される入力装置(アレイマイク)では、狭い周波数範囲でしか高い音声分離性能を得ることができない。

    従来の一般的な据え置き型TV電話装置などで使用される入力装置のマイクでは、図7に示すように、複数のマイクが等間隔で直線状に並べられている。 この構成の入力装置の場合、マイク71Aと71Bとの間隔D7abと、マイク71Bと71Cとの間隔D7bcと、マイク71Cと71Aの間隔D7caとは、数3の関係にある。
    (数3)
    D7ab=2(D7bc+D7ca)
    D7bc=D7ca

    従って、マイク71Bと71Cの間隔D7bcから定まる音声分離性能SP7bcとマイク71Aと71Cの間隔D7caから定まる音声分離性能SP7caは、同一の性能を示す。 このため、図7の一般的な据え置き型TV電話装置7全体としての音声分離性能SP7は、間隔D7bcとD7caによる音声分離性能SP7bcとSP7caとを重畳したものと、間隔D7abによる音声分離性能SP7abと、により、図4(a)に示すカーブになる。

    図4(b)に示す音声分離性能SP7では、周波数によって音声を分離できる性能が異り、さらに、音声を分離(入力)できる帯域が狭すぎるため、通常の話者の音声の周波数帯域、例えば、300Hz程度〜3500Hz程度の帯域の声を良好に入力することができない。

    これに対し、図1に示すマイク11A〜11Cの場合、間隔D1ab、D1bc、D1caが全て異なる。 このため、各間隔D1ab、D1bc、D1caによる音声分離性能特性の中心周波数Ftab、Ftbc、Ftcaと音声分離性能SP1ab、SP1bc、SP1caは、図4(b)に示すように、周波数軸方向で異なった位置になる。
    音声入力装置11の全体としての分離性能SP1は、図4(b)に示すように、各間隔D1ab、D1bc、D1caに基づく分離性能SP1ab、SP1bc、SP1caを合成したものになる。

    図4(b)に示す音声分離性能SP1は、図4(a)に示す音声分離性能SP7と比較して、広い周波数帯域をカバーしており、且つ、比較的平坦な特性を有する。

    なお、音声入力装置11が入力できる音声の周波数の上限値Fuは、ナイキスト周波数の関係で、音声信号のサンプリング周波数、即ち、ADC22A〜22Cのサンプリング周波数Fsの1/2であり、数式4の関係にある。 この上限周波数Fuより高い周波数領域に音声分離性能を得ても利益がない。
    (数4)
    Fu=Fs/2

    携帯電話装置1のサンプリング周波数Fsを、例えば、8kHzとすると、数式4から上限周波数Fuは4kHzに定まる。 4kHzは、電話等で要求される音声の分離性能の上限値にもほぼ一致する。

    この上限周波数4kHzを分離可能とするためには、音速Vを340m/secとすると、数式3よりD=340(m/s)/(2・4000)=0.0425m=4.25cmとする必要がある。

    そこで、図1の3つのマイク11A、11B、11Cの間隔のうち最も短い間隔D1caを、4.25cmに設定し、他の2つの間隔D1bc、D1abを、順次長くすることにより、広い音声周波数帯域において平坦な分離性能を得ることができる。

    次に、音声処理回路23による、音声の方向に基づいたノイズ抑圧処理について説明する。
    前述のように、音声処理回路23は、3つの音声信号Sa〜Scの差から、音源の位置を判別し、例えば、音源の方向とは異なる方向からの音を抑圧する等して、ノイズを抑圧する機能を備える。

    図1に示す携帯電話装置1のTV電話機能等を利用して通話をするときに、携帯電話装置を縦置きに使う形態と、横置きに使う形態が想定される。 このノイズ抑圧機能は、携帯電話装置が、いずれの形態で使用される場合でも、機能することが望ましい。

    図7に示す従来の据置型TV電話装置7は、マイク71A、71B、71Cが全て一直線上に配置されている。 そのため、図7の音声入力装置では、マイクの配置が横一直線や縦一直線となってしまう。 このため、横一直線になったときには、縦方向の音源の位置(方向)検出精度が低下し、マイクが、縦一直線になったときには、音源の横方向の音源の位置検出精度は低下してしまう。

    一方、携帯電話装置1では、図1(b)、1(c)に示すように、マイク11A、11B、11Cが、互いに異なる長さの辺を有する三角形ABCの頂点に平面的に配置されている。

    そのため、図1(b)に示すように、携帯電話装置1を横向きにしてTV電話を利用するときには、横方向に並べて配置されたマイク11B、11Cの出力で横方向の音声信号(入力音声データ)VSb、VScの位相差を検出し音源の横方向の位置を判別し、さらに、縦方向にずれて配置されたマイク11B又は11Cからの音声信号VSb又はVScと、マイク11Aからの音声信号VSaとの位相差を検出し、音源の縦方向の位置を判別することができる。

    また、図1(c)に示すように、携帯電話装置1を縦向きにしてTV電話を利用するときには、マイク11Aへの音声信号VSaと、マイク11B又は11Cの音声信号VSb又はVScとの位相差を検出して音源の横方向の位置を判別し、さらに、縦方向にずれて配置されたマイク11Bからの音声信号VSbと、マイク11Cからの音声信号VScとの位相差を検出し、音源の縦方向の位置を判別することができる。

    音声処理回路23は、このようにして判別した位置に基づいて、ノイズ抑圧処理を行うことができる。

    次に、上記構成を有する携帯電話装置1の動作を、TV電話での動作を例に説明する。
    TV電話モードにおいて、マイク11A〜11Cは、それぞれ、音声信号VSa〜VScを電気信号(アナログ音声信号)ASa〜AScに変換して出力し、増幅器21A〜21Cは、これを増幅してアナログ音声信号ASa〜AScを出力する。 ADC22A〜22Cは、各アナログ音声信号ASa〜AScを、分離対象の音声周波数の上限周波数の2倍以上の周波数(例えば、8kHz)でサンプリングして、デジタル音声信号DSa〜DScに変換し、音声処理回路23に供給する。

    音声処理回路23は、デジタル音声信号DSa〜DScの各位相差から、音声(話者)の位置を判別し、判別した位置に基づいて、既知のノイズ抑圧処理を実行する。 さらに、ノイズを抑圧したデジタル音声信号DSa〜DScを加算することにより、合成デジタル音声信号を生成し、制御部26に供給する。 マイク11A〜11Cが、それらの間隔が違いに異なるように配置されているので、図4(b)に示すように、音声帯域に渡って平均的な音声分離性能SP1が得られているので、高いS/N比と良好な音質が得られる。

    一方、カメラ部12は、一定周期で画像を取得し、制御部26に供給する。
    制御部26は供給された音声信号と映像信号を通信部24に供給する。
    通信部24は、音声信号と映像信号とから通信フレームを生成し、基地局を介して通信先に送信する。

    一方、通信部24は、受信信号から音声信号と映像信号を復調し、制御部26に供給する。 制御部26は、音声信号をDAC27を介してスピーカ15に供給して放音させ、映像信号を画面表示部14に供給して表示させる。

    以上説明したように、携帯電話装置1の音声入力部11は、互いに長さの異なる3辺を有する三角形の頂点に配置されたマイク11A〜11Cを備える。 このような配置とすることにより、音声入力部11は、広い音声帯域に渡ってほぼ均一な音声分離性能を備える。 従って、音声入力装置11は、話者によらず、高感度で広い帯域の音声を取り込み、他のノイズなどを抑圧することができる。 また、音声処理回路23で、音源の位置(向き)を判別することも容易であり、音源の位置に基づいたノイズの抑圧も容易である。

    (実施形態2)
    実施形態1で説明した3つのマイクで分離できる周波数帯域よりもより広い周波数帯域で高い音声分離性能を得たい場合には、マイクの数を増加し、マイクの間隔を互いに異なる間隔に設定すればよい。
    以下、この発明の実施形態2に係る、4つのマイクを備える入力装置を備える携帯電話装置5について、図5と図6を参照して説明する。
    なお、携帯電話装置5の各構成要素において、携帯電話装置1と同一の構成要素には同一の符号を付している。

    携帯電話装置5の、4つのマイク51A、51B、51C、51Dは、図5に示すように、4辺の長さと2つの対角線の長さが互いに異なる四角形ABCDの頂点に配置される。

    図示するように、i)マイク51Aと51Bの間隔をD5ab、ii)マイク51Bと51Cの間隔をD5bc、iii)マイク51Cと51Dの間隔をD5cd、iv)マイク51Dと51Aの間隔をD5da、v)マイク51Aと51Cの間隔をD5ac、vi)マイク51Bと51Dの間隔をD5bd、とする。
    6つのマイクペアの間隔は、数式5に示す大小関係にある。
    (数5)
    D5ab<D5da<D5bc<D5cd<D5bd<D5ac

    このとき、携帯電話装置5は、図6の音声分離性能曲線SP5を有する。 即ち、携帯電話装置2は、互いに異なる間隔D5ab、D5da、D5bc、D5cd、D5bd、D5acにより、6つの異なった音声分離性能のピーク曲線SP5ab、SP5bc、SP5cd、SP5da、SP5ac、SP5bd、を合成した音声分離性能SP4を備える。

    これにより、携帯電話装置5は、3つのマイクを利用した携帯電話装置1で高い音声分離性能が周波数帯域の、2倍に近い周波数帯域に渡り、高い音声分離性能を得ることができる。

    本発明によれば、一般に、N個のマイクを利用して音声入力装置を構成する場合に、N・(N−1)/2個のマイクの間隔を得ることができる。 従って、N・(N−1)/2個の音声分離性能曲線を合成して得られる広い帯域での音声分離性能をうることができる。

    その他、本発明は、携帯電話装置に限らず、音声入力機能を有する、例えば、PHS、PDA(Personal Digital Assistants)、電子カメラ、電子腕時計、ノート型PC、携帯型TV、携帯型映像記録装置・再生装置、カーナビゲーション装置にも同様に適用可能である。

    本発明の実施形態1に係る音声入力装置を備える携帯電話装置を説明するための図であり、(a)は側面図、(b)は横置き状態での正面図、(c)は縦置き状態での正面図である。

    実施形態1に係る携帯電話装置の回路構成を示すブロック図である。

    マイクが2つの場合の音声分離性能を示す図である。

    (a)は従来の音声入力装置の音声分離性能を示す図、(b)は図1に示す音声入力装置の音声分離性能を示す図である。

    本発明の実施形態2に係る入力装置を備える携帯電話装置の構成を示す正面図である。

    図5に示すアレイマイクの音声分離性能を示す図である。

    従来の据置型TV電話装置等で一般的に用いられるアレイマイクの構成例を示す図である。

    符号の説明

    1・・・携帯電話装置、11A〜11C・・・マイク、12・・・カメラ部、13・・・音声スピーカ、14・・・画面表示部、15・・・スピーカ、21A〜21C・・・増幅器、22A〜22C・・・ADC(Analog Digital Converter)、23・・・音声処理回路、24・・・通信部、25・・・音声出力部、26・・・制御部、27・・・DAC(Digital Analog Converter)、28・・・バス、5・・・携帯電話装置、51A〜51D・・・マイク、7・・・一般的な据え置き型TV電話装置、71A〜71C・・・マイク、VSa〜VSc・・・音声信号、ASa〜ASc・・・アナログ音声信号、DSa〜DSc・・・デジタル音声信号

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈