首页 / 国际专利分类库 / 物理 / 光学 / 眼镜;太阳镜或与眼镜有同样特性的防护镜;隐形眼镜 / 非光学附件;其连接 / .助听器(助听器的构造入H04R25/00) / 取得した音響信号のための回路デバイスシステム及び関連するコンピュータで実行可能なコード

取得した音響信号のための回路デバイスシステム及び関連するコンピュータで実行可能なコード

申请号 JP2016569604 申请日 2015-05-26 公开(公告)号 JP2017521902A 公开(公告)日 2017-08-03
申请人 シャーマン,ウラディミールSHERMAN,Vladimir; 发明人 シャーマン,ウラディミール;
摘要 音響 信号 の取得、処理及びレンダリングのための関連するコンピュータで実行可能な方法、回路、デバイス、システム及びコードが開示されている。ある実施例によれば、1又はそれ以上の 指向性 特定音声信号が、2又はそれ以上のマイクロフォンを具えるマイクロフォンアレイ及び音声ストリーム発生器を用いて発生する。音声ストリーム発生器は、光学追跡システムから方向パラメータを受信する。音風景から取得された音響信号を標準化し及び/又はバランスさせるよう構成された音声レンダリングシステムが提供されている。【選択図】図1A
权利要求

ウェアラブルデバイスであって、 互いにある距離を空けて位置する2又はそれ以上のマイクロフォンを具えるマイクロフォンアレイであって、それぞれの前記マイクロフォンが、電気信号に音響信号を変換するよう構成された、マイクロフォンアレイと、 第1の到来方向を有する音響信号に対応する第1の方向の特定音声信号に1又はそれ以上の前記マイクロフォンによる電気信号出を変換するよう構成された指向性音声ストリーム発生器(DASG)と、 光センサ及び光情報処理回路を具える光学追跡システム(OTS)であって、前記OTSが、前記DASGによって使用される少なくとも1の指向性パラメータを発生して、前記第1の方向の特定音声信号を発生するよう構成された、光学追跡システムと、 を具えることを特徴とするウェアラブルデバイス。請求項1に記載のデバイスにおいて、 前記DASGが音響ビーム形成回路を有することを特徴とするデバイス。請求項2に記載のデバイスにおいて、 前記音響ビーム形成回路がアナログであることを特徴とするデバイス。請求項2に記載のデバイスにおいて、 前記DASGが少なくとも1のアナログデジタル変換器を有しており、前記音響ビーム形成回路がデジタルであることを特徴とするデバイス。請求項1に記載のデバイスにおいて、 前記マイクロフォンの少なくともいくつかが指向性であり、前記DASGがマイクロフォン選択回路を有することを特徴とするデバイス。請求項5に記載のデバイスにおいて、 前記DASGが少なくとも1のアナログデジタル変換器及びデジタル信号組み合わせ回路を有することを特徴とするデバイス。請求項6に記載のデバイスにおいて、 前記デジタル電気信号組み合わせ回路がビーム形成機能を有することを特徴とするデバイス。請求項7に記載のデバイスにおいて、 前記電気信号組み合わせ回路が背景雑音除去処理を有することを特徴とするデバイス。請求項1に記載のデバイスにおいて、 前記OTSが少なくとも1の前方監視カメラを有しており、 前記光処理回路が態様識別処理を有して、前記デバイスの正面に存在する物体又は人間の1又はそれ以上の態様を識別することを特徴とするデバイス。請求項9に記載のデバイスにおいて、 前記1又はそれ以上の態様が、人間の胴部、人間の顔、人間の唇、映像表示デバイス、音声表示デバイス、及び任意の潜在的な音響信号源から成る群から選択されることを特徴とするデバイス。請求項10に記載のデバイスにおいて、 前記OTSがさらに、前記1又はそれ以上の識別された態様に対応する方向を示す方向パラメータを評価するための処理を有することを特徴とするデバイス。請求項1に記載のデバイスにおいて、 前記OTSが、前記デバイスの装着者の眼の位置を追跡するための視線追跡装置を有することを特徴とするデバイス。請求項12に記載のデバイスにおいて、 前記OTSがさらに、前記追跡された眼の位置に対応する方向を示す方向パラメータを評価するための処理を有することを特徴とするデバイス。請求項1に記載のデバイスにおいて、 さらに、1又はそれ以上の音声スピーカを有する音声レンダリングアッセンブリと、前記1又はそれ以上のスピーカのそれぞれを駆動するよう構成された音声信号発生器とを具えることを特徴とするデバイス。請求項14に記載のデバイスにおいて、 前記音声信号発生器が、前記第1の方向の特定音声信号に基づいて1又はそれ以上の音声信号を発生させるよう構成されていることを特徴とするデバイス。請求項15に記載のデバイスにおいて、 前記音声信号発生器が、2つのスピーカのそれぞれについて別々の音声信号を発生させるよう構成されており、 前記別々の信号間の相対音量及び相対遅延が、前記第1の方向の音響信号の到来に基づいていることを特徴とするデバイス。請求項14に記載のデバイスにおいて、 前記音声信号発生器が、背景雑音抑制回路を有することを特徴とするデバイス。請求項14に記載のデバイスにおいて、 前記音声信号発生器が、特定のの周波数感度に基づいて音声信号に適応するよう構成された耳の特定信号カスタム回路を有することを特徴とするデバイス。請求項1に記載のデバイスにおいて、 前記OTSが、 (1)前記デバイスと識別された態様との間の相対的方向の変化を追跡し、 (2)前記DASGによって使用される前記少なくとも1の方向パラメータを更新して、音声データの第1のストリームを発生させる、 よう構成されていることを特徴とするデバイス。請求項19に記載のデバイスにおいて、 前記OTSが、2又はそれ以上の識別された態様を追跡し、前記2又はそれ以上の識別された態様のそれぞれについての別々の方向パラメータを発生させるよう構成されていることを特徴とするデバイス。請求項20に記載のデバイスにおいて、 さらに、識別された態様のいずれについて方向特定音声信号が発生するのかを装着者が選択し得るよう構成されたユーザインタフェース回路を具えることを特徴とするデバイス。請求項21に記載のデバイスにおいて、 前記インタフェース回路が、(1)機能的に関連するタッチスクリーン、及び(2)頭部装着型光ディスプレイから成る群から選択されるディスプレイを有することを特徴とするデバイス。

说明书全文

本発明は、一般に、音響信号又は音声取得の分野に関する。本発明は、音声信号の処理に関する。また、本発明は、指向性音響信号の取得、処理及び音声レンダリングのための関連するコンピュータで実行可能な回路、デバイス、システム及びコードに関する。

低下、難聴、聴覚障害、聴力障害は、部分的又は全般的な聴力不全である。小児においては、それは、言語の発達に影響を及ぼし、大人にとって業務に関連する問題を引き起こす可能性がある。それは、遺伝、加齢、騒音にさらされること、疾患、化学物質及び身体的外傷を含む多くの要因によって引き起こされる。聴力テストの結果はデシベルで表されるが、聴力低下は通常、軽度、軽度から中程度、中程度、中等度から重度、重度、又は深刻として記述される。

聴力低下は、通常、人生のある時期に聴力障害を有しなかった者によって誘発される。世界的には、ある程度の聴力低下は、人口の約10%が冒されている。大きな音、化学物質及び身体的外傷を避けることを含め、聴力低下を防止できる多くの方策がある。

聴力低下により聴力補助を要する者のために、一般に、装着者のために音を増幅するよう設計された電気音響装置である補聴器があり、通常は、会話をより理解できるようにすることを目的としている。ラッパ形補聴器又はイヤホーンとして知られている従来の装置は、音のエネルギを集めて外道の中にそれを向けるよう構成された受動的な漏斗状増幅錐体であった。同じような装置が、骨に固定された補聴器、及び人工内耳を含んでいる。

今日まで提供されている全ての補聴器の主要な欠点は、それらが、装着者が聴きたい対象となる音から背景雑音を空間的に分離することが不可能であることである。

体に装着するコンピュータ又はウェアラブルとしても知られているウェアラブルコンピューティングデバイスは、装着者が衣服の下、衣服と共に又は衣服の上に装着する小型の電子デバイスである。ウェアラブルは、汎用又は特殊用途の情報技術及びメディアの発達として発達している。

ウェアラブルコンピューティングデバイスを任意に用いて、音響信号の取得、処理及びレンダリングのための方法、回路、デバイス、システム及び関連するコンピュータを改良する必要性がある。

本発明は、人間の会話及び/又は他の様々なタイプの音といった音響信号の取得のための方法、回路、デバイス、システム及び関連するコンピュータで実行可能なコードを有する。さらなる実施例によれば、本発明は、人間の会話及び/又は他の可聴音といった取得した音響信号を処理し、標準化し、バランスし、及び/又は音声レンダリングするための方法、回路、デバイス、システム及び関連するコンピュータで実行可能なコードを有する。さらなる実施例によれば、本発明は、取得された人間の会話を転写、変換及び/又は図式的にレンダリングするための方法、回路、デバイス、システム及び関連するコンピュータで実行可能なコードを有する。本発明は、光学追跡システムによって識別され及び/又は追跡される音源(例えば人間の話者)の方向に向けた音響信号(例えば音)取得アッセンブリの指向性を動的に対象にするための方法、回路、デバイス、システム及び関連するコンピュータで実行可能なコードを有する。

実施例によれば、(1)その動作及び選択的に指向性を電気信号によって動的に変え得る電気的に構成可能な音響信号(すなわち音)取得アッセンブリと、(2)1又はそれ以上の音源を光学的に追跡し電気信号又はインジケータを音響信号取得アッセンブリに出力して、音響信号取得アッセンブリの動作及び/又は指向性を調整する一方、光学的に追跡された音源以外の方向から、音響信号を情報を実質的に抑制、除去、除外、及び/又はそうでなければマスキングを行う、光学的に追跡された音源の方向から音響信号を取得するよう構成された光学追跡システムとを有する、ウェアラブルなコンピューティングデバイスといったモバイルコンピューティングデバイスが提供される。実施例によれば、光学追跡システムは、ターゲットとなる音源がコンピューティングデバイスに対して移動する際に、その出力電気信号又はインジケータを更新することで、アッセンブリの物理的な移動なしに、音響信号取得アッセンブリの指向性が変化し、移動する音源を追跡するよう構成されている。

ある実施例によれば、モバイル機器が、眼鏡のフレーム及び/又は柄にわたってその中に配置されたマイクロフォンのアレイを有する眼鏡の形態である。このような実施例によれば、光学追跡システムが前方監視光学像センサを有し及び/又は光学追跡システムが内側に向く視線追跡光センサを有する。眼鏡の実施例はまた、眼鏡のユーザインタフェースとして使用されるスマートフォンに眼鏡を有線又はワイヤレスで接続する通信インタフェースを有する。スマートフォンのタッチスクリーンを使用して可能性のある追跡対象を視て、光学追跡システムによって実際に追跡される1又はそれ以上の可能性のある対象を選択し得る。スマートフォンはまた、眼鏡の音響取得アッセンブリを通して取得された会話に関して機械的転写(音声テキスト化)を提供するよう使用される。スマートフォンはまた、眼鏡の音響取得アッセンブリを通して取得される会話に関して機械翻訳を提供するよう使用される。

ある実施例によれば、モバイル機器が、ヘッドフォンの本体及びフレームにわたってその中に配置されたマイクロフォンのアレイを有するヘッドフォンの形態である。ある実施例では、光学追跡システムが、ヘッドフォンの前方に向く面に前方監視光学像センサを有する。ヘッドフォンの実施例はまた、ヘッドフォンのためのユーザインタフェースとして使用されるスマートフォンにヘッドフォンを有線又はワイヤレスで接続する通信インタフェースを有する。スマートフォンのタッチスクリーンを、可能性のある追跡対象を視て光学追跡システムによって追跡するために可能性のある対象を選択するように使用し得る。スマートフォンはまた、ヘッドフォンの音響取得アッセンブリを通して取得された会話に関して機械的転写(音声テキスト化)機能を提供するよう使用される。スマートフォンはまた、ヘッドフォンの音響取得アッセンブリを通して取得される会話に関して機械翻訳を提供するよう使用される。

本発明の態様によれば、光センサで誘導される指向性音声信号(又は音声ストリーム)の発生が提供され、指向性音声信号/ストリームの発生が、(a)マイクロフォンの選択、(b)音響ビーム形成回路、及び/又は音響ビームステアリング、のうちの1又はそれ以上を含む。実施例によれば、光センサアッセンブリ(例えば光学素子を備えたCCD又はCMOS)及び追跡回路(例えば画像の特徴の認識及び追跡アルゴリズムを実行するプロセッサ)を有する光学追跡システムは、指向性音声ストリームの発生を誘導するための信号又はインジケータを発生させる。指向性音声信号/ストリーム(「指向性音声信号」としても称される)の発生は、指向性音声ストリーム発生器として構成され又はプログラムされる音声信号処理回路と一体化し又はそうでなければ機能的に関連する音響マイクロフォンアレイで実行される。

本発明のある実施例によれば、互いにある距離を空けて位置する2又はそれ以上のマイクロフォンを有するマイクロフォンアレイを有する電気的に構成可能な音響取得アッセンブリが提供され、それぞれのマイクロフォンが、アナログ又はデジタル音声信号といった電気信号にマイクロフォンに到達する音響信号(すなわち音)を変換するよう構成されている。マイクロフォンアレイは、適合したマイクロフォンセットを有しており、適合したマイクロフォンが、実質的に同一の周波数応答特性を及び/又は指向性特性を有する。マイクロフォンアレイは、無指向性マイクロフォン、多指向性マイクロフォン及び/又は指向性マイクロフォンを有する。

本発明の実施例に係るアレイの指向性マイクロフォンは、アレイの中に配置及び/又は固定されており、異なる指向性を有し、異なる音響信号取得カバー領域を容易にする。マイクロフォンアレイの指向性は、マイクロフォン構造に対して一定であり、又は米国特許出願公開US20130142358A1に示すMEMSマイクロフォンによって示唆されているように電気的に操作可能である。ある実施例によれば、実施例のアレイのうちの2つの別々の指向性マイクロフォンのそれぞれの音響信号取得カバー領域が、部分的又は完全に重複する。今日知られて又は将来考案される任意の指向性マイクロフォン構造は、本発明の態様に適用可能である。

ある実施例に係るマイクロフォンアレイが、アナログ信号出力又はデジタル信号(例えばI2C又はI2S)出力のいずれかを有する。本発明のある実施例によれば、いくつかのアレイについてアナログ及びデジタルマイクロフォンの組み合わせを有する。アナログマイクロフォンを有する本発明の実施例によれば、アナログマイクロフォンから出力信号をサンプリング且つデジタル化するためのアナログ信号−デジタル信号変換回路(「A/D」)が提供される。

電気的に構成可能な音響信号取得アッセンブリが、指向性音声ストリーム発生器(DASG)と一体化しており、これを有し及び/又はそうでなければ電気的に接続されており、DASGは、1又はそれ以上のマイクロフォンアレイからの出力信号を選択し、駆動し、受信し及び/又はサンプリングするよう構成される。DASGは、1又はそれ以上のマイクロフォンアレイからの電気的音声信号出力を、デジタル又はアナログの特定の指向性電気的音声信号に変換するよう構成される。アレイに対する特定の指向性(例えばアレイに接する軸の30度左)のために発生する(「特定の指向性音声信号」又は「DSAS」とも称される)特定の指向性電気的音声信号は、(a)主に特定の方向からマイクロフォンに到達する音響信号からの音響信号情報を有し又は担持し、(b)特定の方向以外の方向からマイクロフォンに到達する音響信号からの音響信号情報を実質的に抑制、除去、除外、欠乏及び/又はそうでなければマスキングするように、発生する及び/又は変調される電気信号である。

DASGは、(a)指向性が所定の音響信号DOAと重複する1又はそれ以上のマイクロフォンアレイの選択及び/又はサンプリングすることによって、(b)所定の音響信号DOAに向く指向性を備えたビーム形成音声信号に、マイクロフォンアレイ出力信号を音響ビーム形成及び/音響ビーム操作することによって、及び/又は、(c)マイクロフォンアレイの選択、駆動、出力サンプリング、及び選択されたマイクロフォンアレイの出力のビーム形成の組み合わせによって、所定の音響信号DOAに関するDSASにアナログ又はデジタルの出力信号を有するマイクロフォンアレイを変換する。マイクロフォンアレイのいくつかは指向性マイクロフォンであり、DASGが、指向性の特定音声信号の発生にいずれのマイクロフォンを駆動又はそうでなければ利用するのかを選択するマイクロフォン選択回路を有する。追加的に、DASGが1又はそれ以上の信号結合回路を有しており、選択された指向性及び/又は無指向性マイクロフォンからの信号を結合する。DASGは音響ビーム形成回路を有しており、操作可能な指向性を備えた音響的にビーム形成された音声信号を発生し、マイクロフォンアレイから生じる入力音声信号を、ビーム形成回路によって、(a)マイクロフォンアレイの全て又はそのサブセットから直接的に、(b)ビーム形成回路に選択されたマイクロフォン出力信号を向けるマイクロフォン選択回路から、(c)マイクロフォン出力信号を結合する信号結合回路から、及び/又は(d)(a)乃至(c)のうちのいくつかの組み合わせによって、受信する。

実施例によれば、DASGが、背景雑音減少又は除去機能を有する。このような実施例によれば、意図するDOAに関連するDSASの発生中又は発生後に、背景雑音であると評価される音声信号成分が、DSASから差し引かれる。背景雑音は、意図するDOA以外の指向性を有するマイクロフォンアレイから音声信号をサンプリングすることによって評価される。しかしながら、今日知られており又は将来考案される任意の音響雑音除去回路、アルゴリズム及び/又は技術が、本発明に適用可能であることに留意されたい。

ある実施例に係るデバイスは、1又はそれ以上の音源を光学的に追跡し、デバイスに対する追跡された音源の方向を示す方向インジケータ又は信号を提供するよう構成された光学追跡システム(OTS)を有する。光学追跡システムは、光画像センサ及び1又はそれ以上のレンズを備えた光センサアッセンブリを有しており、光センサは、デバイスに又はその中に前向きに配置され、デバイスの正面の場所からの画像情報を取得する。特徴の識別(例えば胴部及び/又は顔の識別)といった画像処理アルゴリズム及び/又は特徴識別追跡アルゴリズムが、人間の顔と行った音源の相対方向を追跡且つ推定するために、専用の又は多目的のいずれかの処理回路によって実行される。さらに、OTSは、信号、インジケータ又はパラメータの形式で、一度だけ発生するように、断続的に又は実質的に連続的に、デバイスのDASGに推定された相対方向を提供するよう構成される。

ある実施例によれば、OTSが、同時に2又はそれ以上の音源を追跡するよう構成される。このような実施例によれば、OTSが、追跡されたそれぞれの音源について別々の信号又はインジケータを発生させる。このような実施例によれば、DASGが、追跡されたそれぞれの音源について別々のDSASを発生させるよう構成される。各DSASは、(a)重複する1又はそれ以上のマイクロフォンの別々のセット、(b)別々の音響ビーム形成処理チェーン、及び/又は(c)(a)及び(b)の組み合わせを用いて、発生する。

さらなる実施例によれば、デバイスのユーザの眼に面する光センサアッセンブリが提供される。ユーザの眼の推定された視野にユーザの眼の画像を変換するよう構成された画像処理アルゴリズムが、専用の又は多目的のいずれかの処理回路によって実行される。視野角の推定は、ユーザによって見られる音源の相対方向をさらに推定するために使用される。さらに、OTSは、一度だけ発生するように、断続的に又は実質的に連続的に、信号、インジケータ又はパラメータの形式で、デバイスのDASGに推定された相対方向を提供するよう構成される。

ある実施例によれば、DSASは、1又はそれ以上のスピーカを駆動する音声レンダリング回路に送信される。DSASはデジタル信号の形式であり、音声レンダリング回路が1又はそれ以上のデジタルアナログ(D/A)変換器を有する。またレンダリング回路は、調整可能な増幅器、選択的に各スピーカについて別々の増幅器を有する。さらなる実施例によれば、音声レンダリング回路の各音声レンダリング出力チェーンは、(例えば、デジタルフィルタ又はデジタル増幅器を用いて)特定のユーザの耳に特有な信号伝達特性を備えて構成される。

本発明の実施例に係るデバイスが、音声レンダリング回路の出力ポートに接続された1又はそれ以上のスピーカを有する。スピーカと1又はそれ以上の出力ポートとの間の接続は、有線又はワイヤレス(例えばBluetooth(登録商標))である。ある実施例によれば、2つのスピーカのそれぞれが、音声レンダリング回路の別々の出力ポートに接続されており、スピーカのそれぞれが、イヤフォン又はヘッドフォンといった耳のインタフェースに一体化又はそうでなければ機能的に関連している。

さらなる実施例に係るデバイスが、例えば眼鏡の眼のプロジェクタの形式のディスプレイアッセンブリを有する。ディスプレイアッセンブリは、デバイスが取得する会話の転写及び/又は変換をユーザに提供する。またディスプレイは、(a)追跡する音源の選択、及び(2)いずれの音源にDSASが向けられるのかの表示、のためのインタフェースの部分として使用される。

本発明の実施例は、動的に調整可能な音響センサアレイの指向性を調整するための信号を発生させるための光センサ及び回路を有する。

本発明とみなされる内容が、本明細書の結論部分に特に指摘され且つ明瞭に主張されている。しかしながら、本発明は、動作の組織化及び方法の双方に関して、その対象物、態様、及び効果とともに、添付の図面を読んだ場合に以下の詳細な説明を参照することによって、最も良く理解されるであろう。

図1Aは、本発明の実施例に係る典型的な音響信号取得デバイスの機能的ブロック図を示す。

図1Bは、本発明の実施例に係る音響信号取得デバイスの典型的なステップを有するフローチャートを示す。

図2Aは、眼鏡に関連する本発明の実施例に係るデバイスの図を示す。

図2Bは、図2Aに係るデバイスの典型的な機能的ブロック図を示す。

図2Cは、被り物、特にヘッドフォンに関する本発明の実施例に係るデバイスの図を示す。

図3Aは、実施例に係るデバイスの図解入り使用例を示す。

図3Bは、実施例に係るデバイスの図解入り使用例を示す。

図3Cは、実施例に係るデバイスの図解入り使用例を示す。

図3Dは、実施例に係るデバイスの図解入り使用例を示す。

図4Aは、アナログマイクロフォン及びデジタルマイクロフォンをそれぞれ有する本発明の実施例の機能的ブロック図を示す。

図4Bは、アナログマイクロフォン及びデジタルマイクロフォンをそれぞれ有する本発明の実施例の機能的ブロック図を示す。

説明の簡潔性及び明確性のために、図面に示される要素は、必ずしも等尺で描かれているのでないことが理解されよう。例えば、いくつかの要素の寸法は、明確性のために他の要素に対して誇張されている。さらに、適切であると考えられる場合には、対応する又は類似する要素を表示するために、参照番号が図面間で繰り返されている。

以下の詳細な説明では、多くの特定の詳細が、本発明の完全な理解を提供するために説明されている。しかしながら、当業者は、これらの特定の詳細なしに本発明を実施し得ることを理解するであろう。他の例では、本発明を不明瞭にしないように、良く知られた方法、手法、構成要素及び回路を詳細に説明していない。

それ以外に特に言及しない限り、以下の議論から明らかなように、詳細な説明を通して、「処理する」、「計算する」、「演算する」、「判断する」等といった用語を使用する議論は、コンピュータシステムのレジスタ及び/又はメモリの中の物理量として表されるデータを、コンピュータシステムのメモリ、レジスタ又は他のこのような情報ストレージ、伝達又は表示装置の中の例えば電子的な物理量として同じように表わされる他のデータに操作及び/又は変換する、コンピュータ又はコンピュータシステム、又は同じような電子計算デバイスの動作及び/又は処理に言及する。

本発明の実施例は、ここに記載された演算を実行するための装置を含む。この装置は、所望の目的のために特別に構成されており、又は、それは、コンピュータに記憶されたコンピュータプログラムによって選択的に作動又は再構成される汎用コンピュータを具えている。このようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD−ROM、光磁気ディスク、読取り専用メモリ(ROM)、ランダムアクセスメモリー(RAM)、電気的プログラマブル読取り専用メモリ(EPROM)、電気的消去書込み可能な読取り専用メモリ(EEPROM)、磁気又は光カードを含む任意のタイプのディスク、又は電子的命令を記憶しコンピュータのシステムバスに結合し得るのに適した他のタイプの媒体といったコンピュータ可読な記憶媒体に記憶されるが、これらに限定されない。

ここで示される処理及び表示は、特定のコンピュータ又は他の装置に本質的に関係するものではない。様々な汎用システムをここで示唆されていることに従ってプログラムとともに使用でき、又はそれは、所望の方法を実行するためのより特殊な装置を構成するのに便利であることが分かっている。さらに、本発明の実施例は、特定のプログラミング言語を参照して説明されてはいない。様々なプログラム言語を使用してここで説明されている本発明の示唆を実行し得ることが理解されよう。

実施例によれば、指向性特定音声信号又は音声データストリームが、マイクロフォンアレイに関連するアナログ及び/又はデジタル回路に、光学追跡システムから得られる1又はそれ以上の方向パラメータを適用することによって発生する。マイクロフォンアレイは、無指向性マイクロフォン、指向性マイクロホン又は双方の組み合わせを有している。光学追跡システムは、1又はそれ以上の対象物の特徴、眼の位置又は双方の組み合わせを追跡する。マイクロフォンアレイに関連するアナログ及び/又はデジタル回路が、マイクロフォン駆動回路、マイクロフォン選択回路、信号調整回路、増幅回路、信号結合回路、信号減算回路、信号フィルタリング回路、アナログ音響ビーム形成回路、アナログデジタル変換器、デジタルフィルタ、デジタル音響ビーム形成回路、及び/又は音声レンダリング回路を有する。

ここで、図1Aを参照すると、本発明の実施例に係る典型的な音響信号取得デバイスの機能的概略図が示されている。このデバイスは、互いに一定の間隔及び方向を有するマイクロフォンのセット又はアレイを備える音響取得アッセンブリを有する。このアッセンブリは、光学追跡システム(OTS)からの音源のターゲット方向信号、インジケータ、パラメータ及びベクトルを受け取る指向性音声信号発生器(DASG)と一体化しており又はそうでなければ機能的に関連する。DASGは、1又はそれ以上のマイクロフォンアレイを選択するためのマイクロフォン選択回路、選択されたマイクロフォン端子又はポートにアクセスするための切り替え回路、選択されたマイクロフォンを起動且つ駆動させるための起動又は駆動回路を有する。

ある実施例によれば、マイクロフォン選択回路は、ターゲットの方向に対応する指向性を備えた1又はそれ以上のマイクロフォンアレイを選択する。特定の指向性音声ストリーム/信号(DSAS)が、1又はそれ以上の選択された指向性マイクロフォンからのみの信号を有する。代替的に、音響ビーム形成が、1又はそれ以上のマイクロフォンのマイクロフォン出力に適用される。DASGは、例えば、アナログ音響ビーム形成回路といった、DSASを発生させるための音響ビーム形成回路を有する。DASGがデジタル音響ビーム形成回路を有しマイクロフォンがアナログ出力を有する例によれば、DASGはまた、変換するためのアナログデジタル(D/A)変換器を有する。図4Aは、本発明の実施例を示しており、マイクロフォンアレイがアナログマイクロフォンであり、DASGが、処理回路(例えば、DSP、FPGA、ASIC、又はプロセッサ)にデジタル音響ビーム形成処理パイプライン動作を有する。図4Bは、本発明の実施例を示しており、マイクロフォンアレイがデジタルマイクロフォンであり、DASGが処理回路(例えば、DSP、FPGA、ASIC、又はプロセッサ)にデジタル音響ビーム形成処理パイプライン動作を有する。ある実施例によれば、ビーム形成回路がアナログ及びデジタルビーム形成構成要素の組み合わせを有する。現在知られ又は将来考案される音響ビーム形成回路、技術又は手法は、本発明の態様に適用可能である。

OTSは、前方監視カメラと一体化し又はこれに結合されており、OTSの光処理回路が態様識別処理を有しており、デバイスの正面に存在する物体又は人間の1又はそれ以上の態様を識別する。1又はそれ以上の態様は、人間の胴部、人間の顔、人間の唇、映像表示デバイス、音声表示デバイス、及び任意の潜在的な音響信号源である。OTSは、1又はそれ以上の識別された態様に対応する方向を示す方向パラメータを見積もるための処理を有する。方向パラメータが、デバイスと識別された物体との間の相対方向を示す。少なくとも1の別々の方向パラメータが、例えば2人又はそれ以上の別々の人間といった2又はそれ以上の別々の物体又は人間のそれぞれに関連する、2又はそれ以上の別々の識別された態様のそれぞれについて発生する。

所定の物体又は人間の所定の識別された態様に関する方向パラメータがDASGに使用されて、所定の物体又は人間から発する音響信号を収集する際にマイクロフォンアレイのうちのいずれのマイクロフォンを利用するのかを選択する。所定の物体に関する方向パラメータを使用して、所定の物体又は人間に向かう音響ビームを操作し所定の態様から発する音響信号を収集する際に利用されるビーム形成係数といったビーム形成パラメータを計算する。マイクロフォン選択及びビーム形成パラメータの計算の双方に関して所定の識別された態様に関する方向パラメータを使用し得る。

また、図1Aの実施例に係るデバイスは、デバイスの装着者の眼の位置を追跡するための視線追跡装置を有する。この視線追跡装置は、装着者の眼を対象とする光学追跡システムを備えて実施し得る。この光学追跡システムは、現在知られた又は将来考案され得る追跡技術を用いて実施し得る。この視線追跡装置は、装着者の追跡される眼の位置によって表示されるデバイスの装着者の視線方向を示す方向パラメータを評価するための処理を有する。

図1Aの音声レンダリングアッセンブリは、1又はそれ以上の音声スピーカ及び1又はそれ以上のそれぞれを駆動するよう構成された音声信号レンダリング回路(エンジン)を有する。音声信号発生器は、第1の方向の特定音声信号に基づいて1又はそれ以上の音声信号を発生させるよう構成されている。音声信号発生器は、2つのスピーカのそれぞれについて別々の音声信号を発生させるよう構成されており、別々の信号間の相対音量及び相対遅延が、第1の方向の音声信号の到達に基づいている。音声信号発生器は、特定の耳の周波数感度に基づいて音声信号に適応する耳の特定信号カスタム回路を有する。音声信号発生器は、背景雑音抑制回路を有する。

さらなる実施例によれば、OTSが、(1)デバイスと対象物の識別された態様との間の相対的方向の変化を追跡し、(2)DASGによって使用される少なくとも1の方向パラメータを更新して、音声データの第1のストリームを発生させる、よう構成されている。OTSはまた、2又はそれ以上の識別された態様を追跡し、2又はそれ以上の識別された態様のそれぞれについての別々の方向パラメータを発生させるよう構成されている。図3Aは、本発明の実施例を示しており、デバイスが眼鏡の形式であり、OTSが人々を区別する。別々のDSASが、追跡された2つの音源(すなわち、人々)について発生する。図3B乃至3Dは、OTSが静止した音源及び動く音源双方を追跡するシナリオを示しており、追跡された人々(音声取得ターゲット)に関するDSASが、これにしたがって調整又は操作される。また、追跡及び特定の音源に関する音声取得を任意に開始及び中断するユーザを示す。

さらなる実施例では、デバイスが、識別された態様のいずれについて方向特定音声信号が発生するのかを装着者が選択し得るよう構成されたユーザインタフェース回路を具える。このインタフェース回路は、(1)機能的に関連するタッチスクリーン、及び(2)頭部装着型光ディスプレイから成る群から選択されるディスプレイを有する。インタフェース回路は、追跡装置からのユーザ入力を受ける。インタフェース回路は、機能的に関連するタッチスクリーンからのユーザ入力を受ける。インタフェース回路は、デバイスに1又はそれ以上の電気式ボタン、スイッチ又はゲージを含んでいる。図1A、2A及び2B、2C及び2Dは、ユーザインタフェースの部分として使用されるスマートフォンにデバイスを接続するためのインタフェース回路を有する実施例を示す。

図1Bは、本発明の実施例に係る音声信号取得デバイスの典型的な工程を有するフローチャートを示す。光学追跡システムが、DSASターゲットとも称される1又はそれ以上の音源を光学的に追跡する。相対的な方向値、パラメータ又はベクトルが、ターゲットとなる音源に関して計算される。指向性音声ストリーム発生器は、特定の指向性音声ストリーム/信号(DSAS)を発生させるのに使用可能にするために、計算され、評価され又はそうでなければ判断されたマイクロフォンアレイを選択し、切り替え、駆動し、及び/又はサンプリングする。選択的に、指向性音声ストリーム発生器は、ターゲットとなる音源の方向に関連するビーム形成パラメータで音響ビーム形成パイプラインを駆動する。音声レンダリングエンジン又は回路が、1又はそれ以上のアナログ信号にDSASを(例えばD/A)変換して、1又はそれ以上のスピーカを駆動する。選択的に、音声レンダリングエンジン又は回路が、振幅を調整し、スピーカの駆動信号を左右間で遅らせて、DSASのターゲットとなる音源の方向の知覚をリスナーに提供する。

図2Aは、眼鏡に関する本発明の実施例に係るデバイスの概略図を示す。本実施例によれば、マイクロフォンアレイが、ウェアラブルなマイクロフォンアレイである。マイクロフォンアレイを保持するデバイスは、選択的に眼鏡、ヘッドフォン(図2C)又は他の被り物の形式で、ウェアラブルなデバイスに組み込まれ又はそうでなければ機能的に関連する。また、光学追跡システムの少なくとも一部が、Cam R及びCam Lとして示すマイクロフォンアレイと同じウェアラブルなデバイスに組み込まれ又はそうでなければ機能的に関連する。光学追跡システム及び/又は関連する回路のうちのいくつか又は全ての部分が、マイクロフォンアレイと同じデバイスの部分である。さらなる実施例によれば、追跡及び/又は信号処理機能の部分を、有線又はワイヤレス通信リンクによってデバイスに接続されたスマートフォンといった機能的に関連するデバイスによって実施し得る。

図2Aに係るデバイスの典型的な機能的ブロック図である、図2Bに示すように、眼鏡は、外部の通信機器とのインタフェースを有する。外部の通信機器は、DSASの中の直接的に取得された会話の転写(音声テキスト化)及び変換を提供する。実施例によれば、DSASは、デバイスの不揮発性メモリ(NVM)デバイス又はオンラインデータNVMデバイスに記憶される。DSASは音声テキスト変換エンジンに提供され、この音声テキスト変換エンジンはデバイスの中に組み込まれ、及び/又は機能的に関連する通信機器(例えば、スマートフォン)の一部である。音声テキスト変換エンジンは独立して機能し、又は、グーグルによって提供されるようなオンラインでの音声テキスト変換を利用する。さらなる実施例によれば、DSAS又はそこから取得されるテキストは、例えば、グーグル翻訳エンジンのような言語翻訳エンジンに提供される。音声テキスト変換エンジン及び/又は言語翻訳エンジンの出力は記憶される。音声テキスト変換エンジン及び/又は言語翻訳エンジンの出力は、デバイスのディスプレイ上に表示される。音声テキスト変換エンジン及び/又は言語翻訳エンジンの出力は、スマートフォンといった機能的に関連するデバイスのディスプレイ上に表示され得る。

図2Cは、被り物、特にヘッドフォンに関する本発明の実施例に係るデバイスの概略図を示す。本実施例は、眼に投影するディスプレイを含まないことを除いて、眼鏡のそれと同様である。

本発明の特定の態様をここで示し且つ説明したが、多くの修正、置換、変更及び相当するものが、直ちに当業者に想起されるであろう。したがって、添付の特許請求の範囲は、本発明の真の精神に含まれるようなこのような修正及び変更の全てをカバーすることを意図するものであることに留意されたい。

QQ群二维码
意见反馈