聴覚情景におけるトーカコリジョン专利检索-碰撞检测人工智能专利检索查询-专利查询网

聴覚情景におけるトーカコリジョン

阅读：621发布：2024-01-21

专利汇可以提供聴覚情景におけるトーカコリジョン专利检索，专利查询，专利分析的服务。并且複数の受信された音声信号から、少なくとも第1及び第2の音声信号間にトーカコリジョンが存在する信号インターバルが検出される。プロセッサは、肯定的な検出結果を受け取り、これに応答して、音声信号のうちの少なくとも1つを、それを知覚的に区別可能にするために処理する。ミキサは、出力信号を供給するよう音声信号を混合し、このとき、処理された信号は、対応する受信信号に取って代わる。例となる実施形態で、信号成分は、周波数において又は時間においてトーカコリジョンから離される。本発明は、会議開催システムにおいて有用であり得る。，下面是聴覚情景におけるトーカコリジョン专利的具体信息内容。

权利要求

音声信号間のトーカコリジョンを低減しながら前記音声信号を混合する方法であって、 2又はそれ以上の音声信号を共通の時間基準により受信するステップと、前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するステップと、肯定的な検出結果の場合に、前記音声信号のうちの第1の音声信号を、該第1の音声信号を知覚的に区別できるようにするために処理するステップと、出力信号を得るよう前記共通の時間基準に従って少なくとも1つの前記処理された音声信号を残りの音声信号と混合するステップとを有する方法。前記処理するステップは、前記第1の音声信号の前記検出された信号インターバルの信号成分を前記共通の時間基準に対して時間シフトするステップを含む、請求項1に記載の方法。前記時間シフトするステップは、前記共通の時間基準に対する一連の正又は負方向のタイムストレッチを前記第1の音声信号に適用するステップを含む、請求項2に記載の方法。前記時間シフトするステップは、前記検出された信号インターバルの信号成分を減衰し、前記検出された信号インターバルの前記信号成分を隣接する信号インターバルにコピーするステップを含む、請求項2に記載の方法。前記処理するステップは、前記検出された信号インターバルの信号成分を周波数シフトするステップを含む、請求項1に記載の方法。前記周波数シフトするステップは、漸進的な開始及び/又は漸進的な解放を含む、請求項5に記載の方法。前記処理するステップは、前記検出された信号インターバルにおける信号成分の周波数サブレンジにのみ作用する、請求項2乃至6のうちいずれか一項に記載の方法。シフトするより前に、前記第1の音声信号の一部を音素に分けるステップと、完全な音素のみをカバーするよう前記検出された信号インターバルを調整するステップとを更に有する請求項2乃至7のうちいずれか一項に記載の方法。前記トーカコリジョンの検出は、前記音声信号の夫々について周波数可変エネルギ含量インジケータを導出するステップと、前記エネルギ含量インジケータに基づき、信号インターバルにおける周波数サブレンジであるトーカコリジョン位置で前記第1及び第2の音声信号において同程度のエネルギ含量を有することを含む検出条件を適用するステップとを有する、請求項1乃至8のうちいずれか一項に記載の方法。前記検出条件は、前記トーカコリジョン位置で前記第1及び第2の音声信号の両方において所定の閾値を上回るエネルギ含量を有することを更に含む、請求項9に記載の方法。前記音声信号は、時間−周波数タイルに分けられ、該時間−周波数タイルの夫々は、前記エネルギ含量インジケータの値と関連付けられ、基本検出単位である、請求項9又は10に記載の方法。前記検出された信号インターバルにおいて最小のエネルギ含量を有する音声信号を前記第1の音声信号として選択するステップを更に有し、前記処理するステップは、前記検出された信号インターバルの前記信号成分を時間シフト又は周波数シフトすることを含み、前記第1の音声信号に作用する、請求項9乃至11のうちいずれか一項に記載の方法。前記検出は、周波数サブレンジ及び信号インターバルの組み合わせであって、前記トーカコリジョンの位置に近く且つ前記検出条件が満たされない少なくとも1つの目標位置を見つけることを更に含み、前記処理するステップは、前記第1の音声信号の信号成分を前記目標位置に時間シフト又は周波数シフトすることを含む、請求項9乃至12のうちいずれか一項に記載の方法。前記検出は、少なくとも2つの目標位置を見つけ、夫々の目標位置について、前記トーカコリジョンの位置に対するシフト距離を示すメトリックを導出することを更に含み、前記処理するステップは、前記第1の音声信号の信号成分を、前記メトリックが最小である目標位置に時間シフト又は周波数シフトすることを含む、請求項13に記載の方法。第1の目標位置は、純粋な正方向の時間シフト又は純粋な周波数シフトに対応し、第2の目標位置は、純粋な負方向の時間シフト又は純粋な周波数シフトに対応し、シフト量が最小である目標位置が選択される、請求項14に記載の方法。調和励振、振動効果、トレモロ、ヴィブラート、コーラス、フランジング、及びフェージングを含むグループ内の効果を適用することによって、前記音声信号の厳密なサブセットを処理するステップを更に有する、請求項1乃至15のうちいずれか一項に記載の方法。ライブ会議システムで実装される、請求項1乃至16のうちいずれか一項に記載の方法。請求項1乃至17のうちいずれか一項に記載の方法を実行するコンピュータ可読命令を記憶するコンピュータ可読媒体。1又はそれ以上の音声信号を共通の時間基準により受信するインターフェースと、前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するコリジョン検出部と、前記コリジョン検出部から検出結果を受け取り、肯定的な検出結果に応答して、前記音声信号のうちの少なくとも1つの音声信号を、該少なくとも1つの音声信号を知覚的に区別可能にするために処理するプロセッサと、前記少なくとも1つの処理された音声信号及び残りの音声信号を前記共通の時間基準に対してパースし、それらの信号を然るべく混合して出力信号を供給するミキサとを有する音声混合装置。

音声信号間のトーカコリジョンを低減しながら前記音声信号を混合する方法であって、 2又はそれ以上の音声信号を共通の時間基準により受信するステップと、前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するステップと、肯定的な検出結果の場合に、前記音声信号のうちの第1の音声信号を、該第1の音声信号を知覚的に区別できるようにするために処理するステップと、出力信号を得るよう前記共通の時間基準に従って少なくとも1つの前記処理された音声信号を残りの音声信号と混合するステップとを有し、前記検出するステップは、前記音声信号の夫々について周波数可変エネルギ含量インジケータを導出するステップと、前記エネルギ含量インジケータに基づき、信号インターバルにおける周波数サブレンジであるトーカコリジョン位置で前記第1及び第2の音声信号において同程度のエネルギ含量を有することを含む検出条件を適用するステップとを有し、前記処理するステップは、該処理するステップが必要とされる時間セグメントに制限される、方法。前記処理するステップは、前記第1の音声信号の前記検出された信号インターバルの信号成分を前記共通の時間基準に対して時間シフトするステップを含む、請求項1に記載の方法。前記時間シフトするステップは、前記共通の時間基準に対する一連の正又は負方向のタイムストレッチを前記第1の音声信号に適用するステップを含む、請求項2に記載の方法。前記時間シフトするステップは、前記トーカコリジョン位置の信号成分を減衰し、前記検出された信号インターバルの前記信号成分を隣接する信号インターバルにコピーするステップを含む、請求項2に記載の方法。前記処理するステップは、前記検出された信号インターバルの信号成分を周波数シフトするステップを含む、請求項1に記載の方法。前記周波数シフトするステップは、漸進的な開始及び/又は漸進的な解放を含む、請求項5に記載の方法。前記処理するステップは、前記検出された信号インターバルにおける信号成分の周波数サブレンジにのみ作用する、請求項2乃至6のうちいずれか一項に記載の方法。シフトするより前に、前記第1の音声信号の一部を音素に分けるステップと、完全な音素のみをカバーするよう前記検出された信号インターバルを調整するステップとを更に有する請求項2乃至7のうちいずれか一項に記載の方法。前記処理するステップは、ほぼ0.1秒程度の存続期間を有する時間セグメントにおける信号成分を時間シフト又は周波数シフトすることを含む、請求項1乃至8のうちいずれか一項に記載の方法。前記検出条件は、前記トーカコリジョン位置で前記第1及び第2の音声信号の両方において所定の閾値を上回るエネルギ含量を有することを更に含む、請求項1乃至9のうちいずれか一項に記載の方法。前記音声信号は、時間−周波数タイルに分けられ、該時間−周波数タイルの夫々は、前記エネルギ含量インジケータの値と関連付けられ、基本検出単位である、請求項1乃至10のうちいずれか一項に記載の方法。前記検出された信号インターバルにおいて最小のエネルギ含量を有する音声信号を前記第1の音声信号として選択するステップを更に有し、前記処理するステップは、前記検出された信号インターバルの前記信号成分を時間シフト又は周波数シフトすることを含み、前記第1の音声信号に作用する、請求項1乃至11のうちいずれか一項に記載の方法。前記検出は、周波数サブレンジ及び信号インターバルの組み合わせであって、前記トーカコリジョンの位置に近く且つ前記検出条件が満たされない少なくとも1つの目標位置を見つけることを更に含み、前記処理するステップは、前記第1の音声信号の信号成分を前記目標位置に時間シフト又は周波数シフトすることを含む、請求項1乃至12のうちいずれか一項に記載の方法。前記検出は、少なくとも2つの目標位置を見つけ、夫々の目標位置について、前記トーカコリジョンの位置に対するシフト距離を示すメトリックを導出することを更に含み、前記処理するステップは、前記第1の音声信号の信号成分を、前記メトリックが最小である目標位置に時間シフト又は周波数シフトすることを含む、請求項13に記載の方法。第1の目標位置は、純粋な正方向の時間シフト又は純粋な周波数シフトに対応し、第2の目標位置は、純粋な負方向の時間シフト又は純粋な周波数シフトに対応し、シフト量が最小である目標位置が選択される、請求項14に記載の方法。調和励振、振動効果、トレモロ、ヴィブラート、コーラス、フランジング、及びフェージングを含むグループ内の効果を適用することによって、前記音声信号の厳密なサブセットを処理するステップを更に有する、請求項1乃至15のうちいずれか一項に記載の方法。ライブ会議システムで実装される、請求項1乃至16のうちいずれか一項に記載の方法。請求項1乃至17のうちいずれか一項に記載の方法を実行するコンピュータ可読命令を記憶するコンピュータ可読媒体。1又はそれ以上の音声信号を共通の時間基準により受信するインターフェースと、前記音声信号のうちの少なくとも第1及び第2の音声信号の間でトーカコリジョンが存在する信号インターバルを検出するコリジョン検出部と、前記コリジョン検出部から検出結果を受け取り、肯定的な検出結果に応答して、前記音声信号のうちの少なくとも1つの音声信号を、該少なくとも1つの音声信号を知覚的に区別可能にするために処理するプロセッサと、前記少なくとも1つの処理された音声信号及び残りの音声信号を前記共通の時間基準に対してパースし、それらの信号を然るべく混合して出力信号を供給するミキサとを有し、前記コリジョン検出部は、前記音声信号の夫々について周波数可変エネルギ含量インジケータを導出し、前記エネルギ含量インジケータに基づき、信号インターバルにおける周波数サブレンジであるトーカコリジョン位置で前記第1及び第2の音声信号において同程度のエネルギ含量を有することを含む検出条件を適用するよう構成され、前記プロセッサは、該プロセッサによる処理を、該処理が必要とされる時間セグメントに制限されるよう構成される、音声混合装置。

说明书全文

本願で開示される発明は、概して、音声通信技術に関し、より厳密には、2又はそれ以上の音声信号が夫々の信号の明りょう度を保ちながら結合されることを可能にする音声混合方法に関する。目下、トーカコリジョンが起こると期待される会議開催エンドポイントを含む音声通信装置に本発明を適用することが意図される。

デジタル又はアナログ式の音声会議又はビデオ会議システムのような多者同時音声通信システムは、全ての通信者が一箇所に存在していた場合に聞こえるであろう音響に近づけるよう、異なるシステムエンドポイントから発せられたライブ信号を混合する(例えば、特に、加法混合によって、結合する)。現実の会話におけるよりも音声は分離するのが困難であり且つ理解するのが難しいことは、共通の経験であり、部分的に、多者が音響又は限られた視野角を介してしか対話することができないという事実に起因する。特に、トーカコリジョンは、より頻繁であり得る。

米国特許出願公開第2008/144794号明細書(特許文献1)は、オンラインの会議において話者を分けるという問題を対象とする。特許文献1に従って、当該問題は、概念上話者を仮想環境に置き、そして、仮想環境における彼らの原点に従って音声信号に空間キューを加えることで彼らの距離、方位角及び仰角を聴取者に対してシミュレートすることによって、多少とも解決され得る。特許文献1において論じられている空間キューは、全体的な強さ、耳間の強さの比、直接的な音響と反射された音響との比、頭影方位効果、耳介誘因周波数フィルタリング、並びに同様のモノラル又は両耳性の効果を含む。人の聴覚は、話者が空間において(見たところ)離されている場合に、より容易に発話コリジョンを解決することがよく知られている。

米国特許出願公開第2008/144794号明細書

混合された音声信号において発話の明りょう度を高める更なる技術を開発することが望ましい。

本発明の例となる実施形態は、ここで、添付の図面を参照して記載される。

本発明の例となる実施形態に従う音声信号ミキサの一般化されたブロック図である。

図1の音声信号ミキサを含む音声通信システムを示す。

トーカコリジョンが起こっている時間セグメントにおいて記録されるスペクトルグラム(0.6秒×21000Hz)であり、夫々の音声の明りょう度を高めるよう取られ得る3つの修正措置が説明される。

トーカコリジョンを伴う時間セグメントと、コリジョンにかかわらず明りょう度を保つことが可能な2つの時間シフト動作とを概略的に表す波形プロットである。全ての図は、本発明を説明するために必要な部分を概略的且つ一般的にのみ示し、一方、他の部分は省略されるか又は単に示唆され得る。別なふうに示されない限り、同じ参照符号は、異なる図面において同じ部分を参照する。

I.概要本発明の目的は、混合された信号において音声信号の明りょう度を改善することである。特に、本発明は、混合された信号によって搬送される発話された自然言語を復号する聴取者の能力に影響を及ぼすと期待される条件を改善することを目的とする。他の目的は、混合された音声信号においてトーカコリジョンを軽減することである。本発明の更なる目的は、混合された音声信号において同時の発話の悪影響を減らすことである。

然るに、本発明の例となる実施形態は、独立請求項において示されている特徴を備えた方法、装置、及びコンピュータプログラムプロダクトを提供する。

例となる実施形態において、システムノードは、共通の時間基準を有する複数の音声信号を受信する。ノードは、2又はそれ以上の音声信号に伴って生じるトーカコリジョンが存在する信号インターバルを検出する。共通の時間基準に基づいて、インターバルが第1若しくは第2の音声信号又は他のうちの1つに関して表されるかどうかは、重要でない。トーカコリジョンが検出される場合に、ノードは、音声信号のうちの1つ(特許請求の範囲では“第1の”音声信号と呼ばれる。)を、その音声信号を知覚的に区別可能にするよう処理する。処理された第1の信号は、その後の混合段への入力として、受信された第1の信号に取って代わり、混合段は、出力信号をノードへ供給する。

共通の時間基準は、入来する音声信号のデータを送信し、それらをシステムワイドのマスタクロック時間に関連付ける時間スタンプを搬送するために使用されるデータパッケージに結びつけられてよい。このように、特定のパケットは、パケットの時間スタンプを搬送するデータフィールドをパースする(又は読む)ことによって、時間基準における点又はインターバルに関連付けられ得る。代替的に、共通の時間基準は、同期信号によって示される。更に代替的に、時間基準は、入来する音声信号に含まれる情報に依存しない。代わりに、音声信号は、連続的に音声信号の夫々からの等しい長さの並列セグメントを結合することによって混合される(このとき、セグメントは、例えば、1つのデータパケットに対応してよい。)。これは、信号間のシンクロニシティ関係を示す。結果として、出力信号の夫々の連続したセグメントは、開始点(例えば、最初のデータパケット)を選択することによって取得され、その後、セグメントは、全てのセグメントが等しい長さ、例えば、20ミリ秒(ms)を有するように、通常はタイムストレッチ又はタイムコンプレッションなしで結合される。その場合に、音声信号セグメントの相対位置が共通の時間基準を表す。

パケット化された音声信号において、トーカコリジョンが検出された信号インターバルは、全部のデータパケットの集合に対応してよい。

ノードは、2又はそれ以上の音声信号において同時の音声活動を検出するよう構成されてよい。同時の音声活動を探すことは、共通の時間基準に対して同時である。より限られた検出基準は、夫々の信号の特定の周波数範囲において同時の音声活動を探すことであってよい。代替的に、又は追加的に、ノードは、同時の音声活動を含むインターバルを認め、それらのインターバル内で、音素の特定の組み合わせの存在、有声及び無声発話の組み合わせ、等のような明りょう度の問題を示すと知られている音声信号特性から選択された少なくとも1つの更なる追加的な検出基準を適用する。

第1の音声信号の処理は、その一般的な目的の1つとして、当該信号をより区別可能にすべきである。従って、処理を通じて、信号成分は、衝突する信号からの影響にかかわらず、識別することが可能であり得る。処理は、第1の信号が衝突する信号とより大幅に異なるように第1の信号の特性を変更することを含んでよい。代替的に、又は追加的に、処理は、コリジョンがそれほど深刻でなく且つ情報損失が適度により少なくなるように信号成分を変更することを含んでよい。前者のアプローチに従って、混合された信号は、処理を受けない場合と同量のトーカコリジョンを含み得るが、捕捉された音響波を言語に復号することに関与する認知プロセスを簡単化すると期待されるキューを供給されている。これとは対照的に、後者のアプローチは、人の脳の認識能力に依存せず、混合された信号において重なり合っているコンテンツの量を先験的に減らすと望まれる。

第1の音声信号の処理は、トーカコリジョンを含む信号インターバルにおいてのみ進められてよい。代替的に、処理は、コリジョンインターバルを含むより大きいインターバルに関係してよい。特に、特定の効果がコリジョンインターバルにおいて適用されるべき場合に、処理は、時間にわたる段階的な移行を含んでよく、効果の円滑な開始及び解放を可能にする。

この例となる実施形態は、選択的に処理を適用し、従って、本発明の目的のうちの少なくとも1つを達成することができる。より厳密には、処理は、それが実際に必要とされる時間セグメントに制限されるので、より的を絞った処理が適用され得る。更に、認知されるオーディオ品質に対する如何なる悪影響もそれらのインターバルにおいて限定されるので、ノードは、より革新的な、且つ、場合により、より効率的な処理技術を使用してよい。

前者の1つを更に発展させる例となる実施形態において、処理は、第1の信号からの検出された信号インターバルから(すなわち、トーカコリジョンが起こる)信号成分を取り出し、そのコンテンツを第1の信号の異なるインターバルへ時間シフトすることを含む。適切な目標位置の選択は、時間シフト及び周波数シフトの両実施形態に関し、以下でより詳細に論じられるであろう。

これに関連して、時間シフトは、共通の時間基準に対して信号成分をタイムストレッチすることによって達成されてよい。順方向のシフトを達成するよう、検出されたインターバル内の基準点(例えば、インターバルの開始、中心、終了)のおおよその位置まで延在する信号のセグメントは、負方向のタイムストレッチ(すなわち、遅延)を受け、及び/又は、検出されたインターバル内の基準点のおおよその位置から延在するセグメントは、正方向のタイムストレッチ(すなわち、加速)を受ける。逆方向のシフトを達成するよう、正方向のタイムストレッチセグメントは、負方向のタイムストレッチセグメントに先行する。いずれの場合にも、正方向及び負方向のストレッチは、正味のタイムストレッチが零に近くなるように、相殺してよい。ストレッチの量は、望ましくは、処理を目立たなくするよう、時間にわたって漸進的に変化する。ストレッチは、望ましくは、第1の信号のピッチを変化させない。

代替的に、時間シフトは、検出されたインターバル内の信号成分を隣接する信号インターバルにコピーすることによって達成され得る。隣接する信号インターバルは、検出された信号インターバルと連続している必要はなく、望ましくは、その近くに位置する。速い発話速度(最大で毎秒約10英語音節)にとって通常は、隣接するインターバルは、望ましくは、検出されたインターバルから多くても50ミリ秒離れて位置する。この最大存続期間は、望ましくは、より速い発話速度が期待される場合に更に、例えば、25ミリ秒まで縮められる。信号成分のコピーは、検出されたインターバル内の当該信号成分の除去又は減衰(例えば、ダウンスケーリング)に付随して起こってよい。減衰は、突然の変化を回避するように、望ましくは漸進的であり、その最大限にダウンスケーリングされた部分を、検出されたインターバルに位置付けられる。検出されたインターバルから取り出される信号成分は、加法混合によって、隣接するインターバル内にコピーされてよい。一例として、変換符号化信号において、変換係数の値は、隣接するインターバルに予め存在するものに加えられてよい。追加的に、又は代替的に、隣接するインターバルに予め存在する信号成分は、変換係数が取り出された信号成分によってインクリメントされる前に、予め減衰されてよい。先と同じく、隣接するインターバルの内外への円滑な移動を促すよう、コピーされる信号成分の開始及び/又は解放並びに隣接するインターバルの事前の減衰は、時間とともに漸進的にされる。このような時間シフト技術は、隣接するインターバルと検出されたインターバルとの間で第1の信号において有意なピッチ移動がない場合に、特に有用である。また、証明され得るように、無声(すなわち、無音声又は雑音)発話によって占められたインターバル、例えば、支配的な基本ピッチ周波数がないインターバルにおいて、この技術を使用することが有利であり得る。

例となる実施形態において、処理は、第1の信号からの検出された信号インターバルにおいて(すなわち、トーカコリジョンが起こる)信号成分を取り出し、そのコンテンツを第1の信号の異なるインターバルへ周波数シフトすることを含む。周波数シフトは、任意に、信号成分の時間シフトと組み合わされてよい。望ましくは、周波数シフトは、時間にわたって漸進的に進められる。例えば、シフトは、ランプアップ(ramp-up)フェーズ、一定フェーズ、及びランプダウン(ramp-down)フェーズを含んでよい。ランプアップ及びランプダウンフェーズの間、周波数シフトは、時間にわたって対数周波数単位において線形に変化してよい。周波数シフトが目立ちすぎることを防ぐよう、最大の周波数シフトは、望ましくは、オクターブを越えず、より望ましくは、オクターブの4分の1より小さい。

ここで、時間シフト又は周波数シフトを含む全ての前述の例となる実施形態を参照する。シフトは、検出された信号インターバル内の全部の信号成分に作用してよく、あるいは、代替的に、限られた周波数範囲又は周波数サブレンジの和集合に制限されてよい。シフトは、特に、第1の信号において信号成分をトーカコリジョンの位置から目標の位置へ動かしてよく、このとき、より少ない程度に他の信号の信号成分と衝突することが期待される。

追加的に、又は代替的に、検出された信号インターバルは、第1の音声信号によって搬送される言語構造に従って調整される。特に、第1の信号は、音素に分けられてよい(例えば、検出された信号インターバルを含む部分において)。音素分割のためのコンピュータ支援方法はそれ自体、自然言語処理において知られている。言語分割アルゴリズムは、音素境界により第1の音声信号に注記してよい。パケット化された音声信号において、音素境界は、例えば、パケット境界と一致してよい。この情報に基づき、検出された信号インターバルの左側終点は延長されるか又は切り捨てられ、検出された信号インターバルの右側終点は延長されるか又は切り捨てられ、そのようにして、検出された信号インターバルは完全な音素のみをカバーする。違ったふうに言うと、この延長又は切り捨ての後、検出された信号インターバルの終点は、音素境界のおおよその位置と一致する。このような調整は、時間又は周波数シフトをより目立たなくすると信じられる。

例となる実施形態において、トーカコリジョンの検出は、音声信号の夫々について周波数バンドごとのエネルギ含量のインジケータに基づく。エネルギインジケータは、音声信号を表すビットストリームにおいて容易に利用可能であり得る。例えば、それは、ビットストリームにおいてデータフィールドから読み出され得る。代替的に、エネルギインジケータは、一連の変換係数のような、音声信号を表す量に基づき計算される。インジケータの計算は、聴覚感度曲線に従って重み付けすることを含んでよい。エネルギ含量インジケータに基づき、検出は、第1及び第2の音声信号(すなわち、トーカコリジョンに関与する信号)において同程度のエネルギインジケータを有することを含む条件を適用してよい。そのような同程度のエネルギインジケータが見つけられる位置は、トーカコリジョン位置と特許請求の範囲で呼ばれる。それは、例えば、時間−周波数面において長方形として表されてよく、望ましくは、それは、検出条件(複数を含む。)が満たされると認められた領域と時間−周波数面において同じ形状及びサイズを有する。同程度のエネルギ含量を有するとの条件は、第1の信号のためのエネルギ含量インジケータと第2の信号のためのエネルギ含量インジケータとの間の差に境界を付していることと等価と考えられてよい。本発明者は、2つの信号における同程度の信号エネルギの発生が、明りょう度が低減されるスポットに対応し得ると気付いた。

前述の例となる実施形態の更なる発展において、同程度のエネルギの条件は、エネルギ含量インジケータに関して定式化された追加条件と組み合わされる。追加条件は、エネルギ含量インジケータが全ての衝突信号について所定の閾値を超えるべきであることを規定してよい。本発明者は、信号電力が低い時間セグメント(の周波数範囲)においては概してトーカコリジョンはそれほど憂慮すべきものでないと気付いた。かかるトーカコリジョンは、顕著な損失なしで修正されないままであってよい。

上記のエネルギ含量インジケータは、望ましくは、周波数に依存する。従って、それは、全体の信号エネルギ値のみならず、所与の周波数バンドのための信号エネルギ値の比較を別々に可能にする。特に、音声信号は、時間−周波数タイルに分割されてよい。タイルは、信号の時間フレームにおける複数の所定の周波数ビンの1つであってよい。これに関連して、1又はそれ以上の検出基準は、対応するタイルのグループ、すなわち、異なる音声信号に属し且つ対応する時間及び周波数座標を有するタイルに適用されてよい。よって、時間−周波数タイルは、基本検出単位であり、従って、検出の分解能である。従って、コリジョン位置は、1又はそれ以上の時間−周波数タイルから成る。特に、エネルギ含量インジケータの値は、夫々の時間−周波数タイルについて計算されてよい。

再び、時間シフト又は周波数シフトを含む前述の例となる実施形態が参照される。有利に、(例えば、上記のエネルギ含量インジケータに従って)最小エネルギ含量の条件は、トーカコリジョンに関与する複数の音声信号の中から、処理を受けるべき音声信号を選択するために使用される。本発明者は、この条件が、それほど目立たない時間シフト及び/又は周波数シフトを可能にすることができると気付いた。代替的に、この信号選択は、次に論じられるように、比較的より有利な目標位置の利用可能性によって導かれてよい。

更に、検出されたインターバル内のスペクトル成分がシフトされ得る目標位置は、トーカコリジョンを検出する処理の副産物として取得され得る。目標位置は、第1の音声信号の周波数インターバル(又は周波数サブレンジ)及び時間インターバルの組み合わせとして表されてよい。より厳密には、検出処理は、トーカコリジョン位置に近く且つ検出条件が満たされない目標位置を返すよう構成されてよい。条件が満たされないので、目標位置は、必然的に、トーカコリジョン位置と異なる。時間又は周波数シフトを可能な限りほとんど目立たなくするよう、望ましくは、目標位置は、トーカコリジョン位置から可能な限り近くに位置付けられるべきである。検出処理は、同じ時間インターバル(すなわち、純粋な周波数シフト)を有するか又は同じ周波数インターバル(すなわち、純粋な時間シフト)を有する目標位置を探すよう構成されてよい。追加的に、又は代替的に、検出処理は、一致した時間インターバル又は一致した周波数インターバルを有する目標位置を認めるよう構成されてよい。インターバルの一致は、等しい長さを有することを伴ってよい。特に、2つの周波数インターバルの一致は、オクターブ又はディケイド(decade)のような対数周波数単位において等しい長さを有することを伴ってよい。

先の段落において記載されているものと同様の設定において、検出処理は、1よりも多い候補目標位置を返してよい。その場合に、条件は、シフト距離メトリックに関して、候補目標位置の中から、トーカコリジョン位置をシフトするのにより適する目標位置を選択するために使用されてよい。シフト距離メトリックは、時間シフト距離及び周波数シフト距離の組み合わせ、例えば、ピタゴラス距離であってよい。これに関連して、周波数シフトは、線形単位又は対数単位において表現されてよい。代替的に、周波数シフトの寄与は、知覚的に重み付けされてよく、例えば、線形又は対数周波数単位の関数としてプロットされる聴覚感度曲線の関連したセグメントの下の領域である。シフト距離メトリックへの周波数シフトの寄与は、少なくともシフト量が大きい場合に、周波数シフトが通常はより計算上複雑であり且つ不自然な鳴響であることを考慮すると、時間シフトの寄与よりも相対的に高い重みを与えられてよい。この条件の簡単化されたものは、正方向の純粋な時間(又は周波数)シフトを必要とする目標位置又は負方向の純粋な時間(又は周波数)シフトを必要とする目標位置のいずれか一方を選択するよう適用され得る。すなわち、最短のシフト量(秒、Hz、オクターブ、又は同様のものにおける。)を必要とする目標位置が選択される。加えて、目標位置及びそれらの関連するシフト距離の利用可能性は、2又はそれ以上の衝突音声信号の中から、処理を受けるべき音声信号を選択するために使用されてよい。別なふうに言うと、“第1の音声信号”としてのステータスは、目標位置が識別されて、シフト距離メトリックに関して評価された後に、割り当てられてよい。上述されたように、シフト距離メトリックは、周波数シフトに関して時間シフトへ与えられるあらゆるプリファレンスを反映してよく、それにより、処理を受けるべき信号の選択は、シフトがどれくらい目立つと期待されるのかを考慮される。これは更に、時間又は周波数シフトの認知されにくさに寄与することができる。

例となる実施形態において、検出されたトーカコリジョンは、調和励振、振動効果、トレモロ、ヴィブラート、コーラス、フランジング、及びフェージングのうちの1つを適用することによって第1の音声信号を処理することで、操作される。処理は、1よりも多い信号に作用してよいが、信号の明確さを進展させるよう、望ましくは、全ての音声信号に作用すべきでない。例えば、この実施形態は、音声信号の第1及び第2のグループを形成することを含んでよく、このとき、第2のグループでなく第1のグループが処理を受けるべきである。望ましくは、トーカコリジョンが検出された2つの音声信号は、異なるグループへ割り当てられる。従って、衝突する信号は、処理に基づいて、より明確になり且つより容易に区別可能となり得る。

例となる実施形態において、トーカコリジョンを軽減しながら音声信号を混合する装置は、コリジョン検出部と、肯定的な検出結果に応答して1又はそれ以上の音声信号を処理するよう動作可能なプロセッサと、音声信号を出力信号へと結合するミキサとを有する。処理を受けた如何なる音声信号も、ミキサへの入力として、受信された同じ音声信号に取って代わる。装置は、任意に、音声信号を受信するインターフェースを有し、更に任意に、装置は、ミキサによって生成された出力信号を供給するインターフェースを有する。

例となる実施形態において、上記の特徴の組み合わせは、ライブ会議システム、すなわち、実時間において動作する会議開催システムにおいて展開される。

従属請求項は、以下でより詳細に記載される本発明の例となる実施形態を定義する。本発明は、たとえ特徴が異なる請求項において挙げられているとしても、特徴の全ての組み合わせに関することが知られる。

II.例となる実施形態図1は、本発明の例となる実施形態に従う音声信号混合装置100を示す。入力音声信号i1,i2,i3,i4は、インターフェース101で受信される。インターフェース101は、パケットスイッチドネットワーク(図示せず。)へのネットワークインターフェースであってよく、パケットスイッチドネットワークから、混合装置100は、パケット化されたビットストリームとして入力音声信号を受信する。混合装置100において、夫々の入力音声信号i1,i2,i3,i4は、コリジョン検出部102、ミキサ104及びセレクタ105へ供給され、セレクタ105は、選択された音声信号i_j(複数を含む。)を、セレクタ105の下流に位置するプロセッサ103へ転送するよう動作する。図1では、セレクタ105は、多投単極スイッチによって象徴的に表されている。本発明は、図1によって示されている簡略化された場合に制限されない。例えば、1よりも多い入力音声信号が、肯定的なトーカコリジョンの検出結果に応答して、処理を受けてよいことが考えられる。

コリジョン検出部102は、入力音声信号i1,i2,i3,i4のうちの2又はそれ以上の間でトーカコリジョンが存在する信号インターバルを検出するよう構成される。これを達成するよう、コリジョン検出部102は、上述されたように、夫々の音声信号の夫々の時間−周波数タイルについて、同程度のインジケータの値の同時発生を探すよう、エネルギ含量インジケータを導出(すなわち、計算又は読み出し)してよい。検出結果は、プロセッサ103及びミキサ104へ供給される。肯定的な検出結果に応答して、プロセッサ103は、セレクタ105によって選択され得る、i_jによって表される衝突信号のうちの1つの処理を開始する。プロセッサ103は、処理された信号f(i_j)をミキサ104へ供給し、ミキサ104で、その処理された信号は、入力された信号i_jに取って代わる。従って、全ての入力信号からの寄与を含む出力信号を提供するよう、ミキサ104は、受信された音声信号i_k(j≠kに関する限り)と、処理された音声信号f(i_j)とを加法混合する。ミキサ104は、同様に他の組み合わせを生成するよう構成されてよいことが理解される。例えば、m番目のエンドポイントを対象とした分化した出力混合信号からi_m(及び該当する場合にはf(i_m))を除くことが望まれ得る。

図2に表されるように、上記の音声信号混合装置100は、エンドポイント201,202,203,204を含む会議開催システム200の部分を形成してよい。入力音声信号i1,i2,i3,i4は、夫々のエンドポイント201,202,203,204に配置されているトランスデューサ(例えば、マイクロホン)によって取得されてよい。簡単な構成において、混合装置100は、全てのエンドポイント201,202,203,204に、エンドポイント201,202,203,204にある音源(例えば、ラウドスピーカ)によって再生される共通の音声信号o1を供給する。上述されたように、混合装置100は、代替的に、エンドポイント201,202,203,204のサブグループに、個別的な出力混合信号を供給するよう構成されてよい。会議開催システム200は、純粋な音声通信システム、ビデオ通信システム、又はマルチメディア通信システムであってよい。

図3は、トーカコリジョンの影響を軽減するよう本発明の例となる実施形態によって提案される矯正手段のうちの2つである時間シフト及び周波数シフトを表す。図3は、約21000Hzまでの周波数を夫々カバーし且つ約0.6秒(夫々20ミリ秒の約30個の時間フレームに対応。)にわたって延在する2つのスペクトルグラムを含み、上側のスペクトルグラムは入力音声信号i1に関し、下側のスペクトルグラムは入力音声信号i2に関する。スペクトルグラムの黒色の領域は、エネルギ含量が零である時間−周波数タイルに対応し、一方、より明るい陰影部は、非零のエネルギ含量を示す。比較的より明るい領域は、比較的より高いエネルギ含量に対応する。例示のために、夫々のスペクトルグラムは、プロットされている時間インターバルにおいて音声信号によって搬送される音素に対応する簡略図記号CR−OW—D−E−D、F−R−IE−ND−Sにより注記されている。音声信号における音素の認識は本発明の必須の特徴ではなく、音素境界の位置の認識についても同様であることが繰り返される。

図3によって表されている場合において、トーカコリジョンは、上側のスペクトルグラム(i1信号)において描かれている第1のトーカコリジョン位置301において検出されている。コリジョンは、両方の信号に関する条件の達成に基づくので、下側のスペクトルグラム(i2信号)においても、すなわち、両方のスペクトルグラムにおいて等しく描かれている。i1信号のスペクトル成分を第1の目標位置302へと時間において順方向にシフトすることが適切であると認められる。第1のトーカコリジョン301において開始する矢印は、意図される時間シフトにサイズ及び方向において対応する。第1の目標位置302は、i2信号が第1の目標位置で低いエネルギ含量を有することを表すために、下側のスペクトルグラムにおいて描かれている。下側のスペクトルグラムにおいて第1の目標位置302を描くという選択は、第1のトーカコリジョン位置302からのスペクトル成分がi1信号からi2信号へ動かされるべきであることを示唆するよう意図されない。しかしながら、場合により、これは、生成されるべき最終の混合信号に対してほとんど影響を有さない。図3におけるトーカコリジョン位置301,311,321の形状は大体であり、コリジョン検出部102によって検出基準が満足されると認められた正確な位置に精緻化されてよいことが指摘される。周波数選択によらない簡単化されたアプローチでは、第1のトーカコリジョン位置301及び第1の目標位置302は、図1において夫々L₀及びL₀’によって表されている2つの一致する時間セグメントであってよい。

目標位置302は、トーカコリジョンが検出された領域と一致し且つ検出条件が満足されない時間−周波数面の領域として選択されてよい。条件は、目標位置302の全体を通して、又は少なくとも目標位置302の所定の割合において、満足され得ない。目標位置302は、望ましくは、トーカコリジョン位置301の可能な限り近くに位置付けられる。音声信号混合装置100は、目標位置302が絶対的な意味において、すなわち、約50ミリ秒よりも大きい時間シフト又はオクターブの約半分よりも大きい周波数シフトを示すことなしに、近くに位置付けられ得る限り、時間シフト又は周波数シフトを控えるよう適応されてよい。上述されたように、それらの制限は、特定の状況において更に、例えば、25ミリ秒及びオクターブの4分の1まで厳しくされてよい。

上述されたように、プロセッサ104は、負方向及び次いで正方向の時間シフトを適用することによって、時間シフトを達成してよい。代替的に、時間シフトは、カット・アンド・ペースト(又は減衰及び貼り付け)技術によって達成されてよい。時間シフト動作は、音声信号混合装置100においてアルゴリズム遅延を招き得ることが理解される。遅延は、ほぼ起こり得る最長の正方向のタイムストレッチ程度である。従って、会議開催システムにおける全体の遅延を著しく増大させないことが期待される。

図3は更に、第2のトーカコリジョン位置311及び関連する目標位置312を示し、それらの位置は、時間セグメントL₁,L₁’に含まれている。音素に関して、トーカコリジョンは、音素[d]及び[s]の同時の認識に対応する。図に示されるように、第2のトーカコリジョンのための意図される改善措置は、負方向の時間シフトである。

加えて、第3のスペクトルコリジョン位置321が下側のスペクトルグラムにおいて描かれている。第3のスペクトルコリジョン位置321と同じ時間セグメントL₂にある関連する第3の目標位置322は、第3のスペクトルコリジョン位置321からの信号成分の意図される新たな位置が比較的低いエネルギ含量を有する領域へシフトされることを表すよう、上側のスペクトルグラムにおいて描かれている。図3から分かるように、第3のスペクトルコリジョン位置321は、関連する周波数範囲においてi1信号が比較的高いエネルギ含量を有するところの時間セグメントによって囲まれており、それにより、正方向及び負方向いずれの時間シフトもコリジョンを解消するのに適切でない。

図4は、ここで、図3に示されているものとは異なる場合における信号の時間依存波形プロットを参照して、より詳細に時間シフト技術を表す。第1及び第2の音声信号i1,i2のいずれも、時間セグメントL₁において高いエネルギ含量を有し、音声信号i1の信号成分を時間セグメントL₁’へと時間において後方にシフトすることが決定される。時間シフトは、タイムストレッチによって、又はコピー・アンド・ペースト技術を用いて、進められてよい。

処理された信号f(i1)は、タイムストレッチによるアプローチを表し、正方向にストレッチされたセグメントはプラス符号(+)により注記されており、負方向にストレッチされたセグメントはマイナス符号(−)により注記されており、スペクトル成分の新しい位置はL1により注記されている。タイムストレッチは、望ましくは漸進的であるが、非漸進的であってよい。タイムストレッチは、L₁における信号成分に適用されてもされなくてもよい。タイムストレッチが信号成分に適用されない場合は、正方向のストレッチは、時間セグメントL₁(又は同等にL₁’)が開始する前に完了され得る。

処理された信号g(i1)は、コピー・アンド・ペーストによるアプローチを表し、セグメントL₁から取り出された信号成分は、その新しい位置L₁’において破線により描かれており、当該位置で、信号成分は、そのインターバルにおいて原の信号成分に加えられる。加えて、同じ信号成分は、その原の振幅の約25%までセグメントL₁のおいて著しく減衰されている。

III.同等物、拡張、代替物及び他本発明の更なる実施形態は、上記の説明を検討した後に当業者に明らかになるであろう。たとえ本明細書及び図面が実施形態及び例を開示するとしても、発明はそれらの具体的な例に制限されない。多くの改良及び変形は、添付の特許請求の範囲によって定義される本発明の適用範囲から逸脱することなしに行われ得る。特許請求の範囲において現れる如何なる参照符号も、それらの適用範囲を制限するものとして理解されるべきでない。

上記のシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実施されてよい。ハードウェア実施において、上記の説明において参照された機能ユニット間のタスクの分割は、必ずしも、物理的なユニットへの分割に対応せず、それとは反対に、1つの物理的な構成要素は複数の機能を備えてよく、1つのタスクは複数の物理的な構成要素によって協働で実行されてよい。特定の構成要素又は全ての構成要素は、デジタル信号プロセッサ若しくはマイクロプロセッサによって実行されるソフトウェアとして実施されるか、又はハードウェアとして若しくは特定用途向け集積回路として実施されてよい。そのようなソフトウェアは、コンピュータ可読媒体において分配されてよく。コンピュータ可読媒体は、コンピュータ記憶媒体(すなわち、非一時的な媒体)及び通信媒体(すなわち、一時的な媒体)を有してよい。当業者によく知られているように、語「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報の記憶のためのあらゆる方法又は技術において実施される揮発性及び不揮発性両方の取り外し可能な及び取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気記憶装置、又は所望の情報を記憶するために使用可能であり且つコンピュータによってアクセス可能な何らかの他の媒体を含むが、それらに限られない。更に、通信媒体は、通常は、搬送波又は他の伝送メカニズムのような変調データ信号においてコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具現し、あらゆる情報伝送媒体を含むことが当業者によく知られている。

[関連出願の相互参照] 本願は、2012年3月23日付けで出願された米国特許仮出願第61/614577号に基づく優先権を主張するものである。なお、この米国出願は、その全文を参照により本願に援用される。

标题	发布/更新时间	阅读量
一种限高防撞预警方法	2020-05-08	136
移动控制方法、装置、系统及存储介质	2020-05-11	217
一种智能显示系统	2020-05-08	866
岩体结构自动化探测装备	2020-05-11	176
车联网环境下基于IGA-BP神经网络的车辆碰撞预警系统及方法	2020-05-08	185
一种应用超高效液相色谱-串联质谱检测乙烯利中单酯的方法	2020-05-11	218
图形控件的碰撞驱动方法及系统	2020-05-08	203
一种可异物检测清理的贴片机	2020-05-08	464
测黄嘌呤氧化酶的试剂盒	2020-05-08	698
一种中药饮片二氧化硫检测装置	2020-05-08	603

聴覚情景におけるトーカコリジョン

该功能需要专业版企业版VIP权限，您可以：