音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法专利检索-音素信号处理专利检索查询-专利查询网

音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法

阅读：811发布：2020-05-08

专利汇可以提供音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法专利检索，专利查询，专利分析的服务。并且【課題】音声認識装置及び方法、音声認識モデルをトレーニングする装置及び方法を提供する。【解決手段】音声認識装置は方言入力データからパラメータ生成モデルに基づいて、方言パラメータを生成でき、生成された方言パラメータを音声認識モデルに適用し、方言パラメータが適用された音声認識モデルに基づいて、音声信号から認識結果を生成する。トレーニング装置は、上述した音声認識モデル及びパラメータ生成モデルをトレーニングすることができる。【選択図】図3，下面是音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法专利的具体信息内容。

权利要求

プロセッサで実現される、音声を認識する方法において、音声信号を取得するステップと、前記音声信号の認識を行うステップと、を含み、前記認識を行うステップは、前記音声信号に対してパラメータ生成モデルを用いて、方言入力データから方言パラメータを生成するステップと、方言音声認識モデルを生成するためにトレーニングされた音声認識モデルに前記方言パラメータを適用するステップと、前記音声信号に対して前記方言音声認識モデルを施行することによって、前記音声信号から音声認識の結果を生成するステップと、を含む音声を認識する方法。前記方言パラメータを適用するステップは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれのうち少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するステップを含む、請求項1に記載の音声を認識する方法。前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、1つ以上の階層的に以前レイヤノード及び/又は個別加重された接続により1つ以上の臨時的に以前ノードに接続される少なくともノードを含み、前記方言パラメータ又は個別方言パラメータを適用するステップは、接続加重(connection weight)を挿入するステップと、前記個別加重された接続の全てより少ない前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更するステップと、を含む、請求項2に記載の音声を認識する方法。前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別スケール行列をさらに含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に、前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に前記1つ以上の個別スケール行列を適用するステップを含む、請求項3に記載の音声を認識する方法。前記方言パラメータ又は前記個別方言パラメータは1つ以上の個別バッチパラメータをさらに含み、前記1つ以上の個別バッチパラメータのそれぞれは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、1つ以上の隠れレイヤのそれぞれに対して前記第1バッチパラメータを個別入力に乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含む、請求項4に記載の音声を認識する方法。前記個別入力は、正規化された個別入力であり、前記個別バッチパラメータは、個別バッチ正規化パラメータである、請求項5に記載の音声を認識する方法。前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別バッチパラメータを含み、前記1つ以上の個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に1つ以上の隠れレイヤに対して第1バッチパラメータを個別入力に乗算し、第2バッチパラメータを加算して前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含む、請求項3に記載の音声を認識する方法。前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは個別バッチ正規化パラメータである、請求項7に記載の音声を認識する方法。前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時的に以前ノードに接続される少なくともいずれか1つのノードを含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含む、請求項1に記載の音声を認識する方法。前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを施行する間、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用するステップを含み、入力は、前記方言音声認識モデルの入力演算から又は前記方言音声認識モデルの以前の1つ以上の中間演算からの入力である、請求項1に記載の音声を認識する方法。前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記個別入力に前記個別バッチパラメータを適用するステップは、前記方言音声認識モデルを施行する間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別入力に前記個別バッチパラメータを適用するステップを含む、請求項10に記載の音声を認識する方法。前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用するステップは、前記1つ以上の隠れレイヤに対して、個別入力に第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、前記1つ以上の隠れレイヤに個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、を含む、請求項11に記載の音声を認識する方法。前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項12に記載の音声を認識する方法。前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、 1つ以上の中間演算それぞれに対して、前記方言音声認識モデルの1つ以上の中間演算に対する前記個別入力に前記個別バッチパラメータを適用するステップは、個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、前記方言音声認識モデルの前記1つ以上の中間演算に個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、を含む、請求項10に記載の音声を認識する方法。前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項14に記載の音声を認識する方法。前記方言パラメータを生成するステップは、ユーザから受信されるユーザ操作に応答して、前記ユーザ操作が指示する方言情報を前記方言入力データとして決定するステップと、前記パラメータ生成モデルに基づいて、前記決定された方言入力データから前記方言パラメータを生成するステップと、を含む、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出するステップを含む、請求項1に記載の音声を認識する方法。前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から前記音声信号が属する方言に関する確率データを前記方言入力データとして算出するステップを含む、請求項17に記載の音声を認識する方法。前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から方言情報を算出しながら、前記方言分類モデルの少なくともいずれか1つのレイヤの出力を前記方言入力データとして決定するステップを含む、請求項17に記載の音声を認識する方法。前記方言パラメータを生成するステップは、前記方言音声認識モデルの少なくともいずれか1つの施行されたレイヤの出力から前記方言入力データを算出するステップを含む、請求項1に記載の音声を認識する方法。前記方言入力データは前記音声信号である、請求項1に記載の音声を認識する方法。前記パラメータ生成モデルは、前記方言パラメータを生成するために前記パラメータ生成モデルを用いる場合、方言の1つ以上の施行されたレイヤのそれぞれの少なくとも個別部分から出力された特徴データを考慮する、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、前記パラメータ生成モデルによる1つ以上のレイヤの個別先行レイヤから出力された個別データの考慮に基づいて、前記方言音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するステップを含む、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、前記方言入力データとして、前記音声信号に対して方言グループのうちいずれか1つの方言グループを指示するデータを取得するステップを含む、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、新しい方言入力データが他のユーザに対して生成されるまで、後続して取得された音声信号の認識における使用に対して、以前に適用されて生成された方言パラメータを用いて以前の音声認識モデルによって以前の音声認識に対して以前に生成された方言パラメータを保持するステップを含む、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、現在ユーザの方言グループと以前ユーザの方言グループとが異なるという決定に応答して、前記現在ユーザに対して新しい方言入力データを前記方言入力データとして取得するステップを含む、請求項1に記載の音声を認識する方法。前記方言音声認識モデルを施行するステップは、前記音声信号の認識の結果を音素単位として算出するステップを含む、請求項1に記載の音声を認識する方法。前記音声信号及び前記音声信号に対応する方言入力データに基づいて、前記パラメータ生成モデルを再トレーニングするステップをさらに含む、請求項1に記載の音声を認識する方法。前記音声信号に対応する前記方言入力データ及び前記生成された方言パラメータをメモリに格納するステップと、後続音声の実行された認識で、前記方言入力データが前記格納された方言データにマッチングするものと決定されたとき、前記後続音声に対する前記方言パラメータの生成をパス(pass)し、前記後続音声に対する前記方言音声認識モデルを施行することによって、前記格納された方言入力データに前記後続音声に対する方言分類モデルによって生成された方言データがマッチングするかの決定に基づいて、前記後続音声に対する前記方言パラメータを生成することを選択的に施行するステップと、前記後続音声に対する音声認識の結果を生成する前記方言音声認識モデルを施行するステップと、を含む、請求項1に記載の音声を認識する方法。ユーザの言語を識別し、前記識別された言語に対応するトレーニングされた音声認識モデルを、メモリに格納された複数の個別の他の言語トレーニングされた音声認識モデルの中から選択するステップをさらに含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを生成するために前記選択されたトレーニングされた音声認識モデルに前記方言パラメータを適用するステップを含む、請求項1に記載の音声を認識する方法。前記方言パラメータを生成するステップは、前記音声信号を取得するごとに、前記方言パラメータを動的に生成するステップを含む、請求項1に記載の音声を認識する方法。前記音声認識の結果を生成するステップは、前記音声信号を正規化することによって正規化されたデータを取得するステップと、前記音声認識の結果を生成するために前記正規化されたデータに対する前記方言音声認識モデルを施行するステップと、を含む、請求項1に記載の音声を認識する方法。請求項1乃至請求項32のいずれか一項に記載の方法を実行するための命令語を含む1つ以上のコンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体。音声を認識する装置において、パラメータ生成モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリと、取得された音声信号に対する方言パラメータを、前記パラメータ生成モデルを用いて方言入力データから生成し、方言音声認識モデルを生成するために前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用し、前記音声信号に対する音声認識の結果を生成する前記方言音声認識モデルの音声認識の結果を前記音声信号に対する施行を介して生成するプロセッサと、を含む音声を認識する装置。前記プロセッサは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれの少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するように構成される、請求項34に記載の音声を認識する装置。前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された連結に沿って1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記方言パラメータ又は前記個別方言パラメータを適用することは、接続加重を挿入すること、又は、前記個別加重された接続の全てよりも少ない、前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更すること、を含む、請求項35に記載の音声を認識する装置。前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの施行の間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に、前記パラメータ生成モデルによって生成された前記方言パラメータとして、又は個別方言パラメータとして個別スケール行列を適用することを含む、請求項34に記載の音声を認識する装置。前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用することを含み、入力は、前記方言音声認識モデルの入力演算又は前記方言音声認識モデルの以前の1つ以上の中間演算からの演算である、請求項34に記載の音声を認識する装置。前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含み、前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含む、請求項38に記載の音声を認識する装置。前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用することは、前記1つ以上の隠れレイヤのそれぞれに対して、個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに前記適用された個別バッチパラメータの個別結果を個別的にフォワーディングすることを含む、請求項39に記載の音声を認識する装置。前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは、バッチ正規化パラメータである、請求項40に記載の音声を認識する装置。前記プロセッサは、ユーザから受信されるユーザ操作が指示する方言情報を前記方言入力データとして決定し、前記パラメータ生成モデルに基づいて前記決定された方言入力データから前記方言パラメータを生成する、請求項34に記載の音声を認識する装置。前記プロセッサは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出する、請求項34に記載の音声を認識する装置。前記方言入力データは前記音声信号である、請求項34に記載の音声を認識する装置。前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用することと、前記音声認識の結果を生成することは、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力される個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項34に記載の音声を認識する装置。前記生成された方言パラメータを前記トレーニングされた音声認識モデルに適用することと、前記音声認識の結果の生成は、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力された個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項34に記載の音声を認識する装置。マイクロホンをさらに含み、前記プロセッサは、前記音声信号を取得するために前記音声信号をキャプチャーするマイクロホンを制御するようにさらに構成される、請求項34に記載の音声を認識する装置。音声認識装置において、パラメータ生成モデル、方言分類モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリを含み、前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含む、音声認識装置。

说明书全文

以下、音声認識技術が提供される。

音声認識モデルは音声認識を行うためのモデルとして、個人化装置に入力された音声入力を認識して音声認識の結果を出力する。音声認識は、音声入力に含まれた言語情報を音声入力に対応するテキスト情報に変換する過程である。音声認識モデルは、音声入力を分析して音声入力に含まれた言語情報がいかなるテキスト情報を示すかを推定することができる。音声入力は、音声シーケンスの形態を有する。

一実施形態に係る音声認識装置により、ユーザが使用する方言に最適化された音声認識を行うことにある。

一実施形態によれば、プロセッサで実現される、音声を認識する方法において、音声信号を取得するステップと、前記音声信号の認識を行うステップとを含み、前記認識を行うステップは、前記音声信号に対してパラメータ生成モデルを用いて、方言入力データから方言パラメータを生成するステップと、方言音声認識モデルを生成するためにトレーニングされた音声認識モデルに前記方言パラメータを適用するステップと、前記音声信号に対して前記方言音声認識モデルを施行することによって、前記音声信号から音声認識の結果を生成するステップとを含む。

前記方言パラメータを適用するステップは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれのうち少なくとも個別部分に前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するステップを含み得る。

前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、1つ以上の階層的に以前レイヤノード及び/又は個別加重された接続により1つ以上の臨時的に以前ノードに接続される少なくともノードを含み、前記方言パラメータ又は個別方言パラメータを適用するステップは、接続加重(connection weight)を挿入するステップと、前記個別加重された接続の全てより少ない前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更するステップとを含み得る。

前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別スケール行列をさらに含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に、前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に前記1つ以上の個別スケール行列を適用するステップを含み得る。

前記方言パラメータ又は前記個別方言パラメータは1つ以上の個別バッチパラメータをさらに含み、前記1つ以上の個別バッチパラメータのそれぞれは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、1つ以上の隠れレイヤのそれぞれに対して前記第1バッチパラメータを個別入力に乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含み得る。

前記個別入力は、正規化された個別入力であり、前記個別バッチパラメータは、個別バッチ正規化パラメータであり得る。

前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別バッチパラメータを含み、前記1つ以上の個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に1つ以上の隠れレイヤに対して第1バッチパラメータを個別入力に乗算し、第2バッチパラメータを加算して前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは個別バッチ正規化パラメータであり得る。

前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時的に以前ノードに接続される少なくともいずれか1つのノードを含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含み得る。

前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを施行する間、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用するステップを含み、入力は、前記方言音声認識モデルの入力演算から又は前記方言音声認識モデルの以前の1つ以上の中間演算からの入力であり得る。

前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記個別入力に前記個別バッチパラメータを適用するステップは、前記方言音声認識モデルを施行する間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別入力に前記個別バッチパラメータを適用するステップを含み得る。

前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用するステップは、前記1つ以上の隠れレイヤに対して、個別入力に第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、前記1つ以上の隠れレイヤに個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップとを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータであり得る。

前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、1つ以上の中間演算それぞれに対して、前記方言音声認識モデルの1つ以上の中間演算に対する前記個別入力に前記個別バッチパラメータを適用するステップは、個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、前記方言音声認識モデルの前記1つ以上の中間演算に個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップとを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータであり得る。

前記方言パラメータを生成するステップは、ユーザから受信されるユーザ操作に応答して、前記ユーザ操作が指示する方言情報を前記方言入力データとして決定するステップと、前記パラメータ生成モデルに基づいて、前記決定された方言入力データから前記方言パラメータを生成するステップとを含み得る。

前記方言パラメータを生成するステップは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出するステップを含み得る。

前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から前記音声信号が属する方言に関する確率データを前記方言入力データとして算出するステップを含み得る。

前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から方言情報を算出しながら、前記方言分類モデルの少なくともいずれか1つのレイヤの出力を前記方言入力データとして決定するステップを含み得る。

前記方言パラメータを生成するステップは、前記方言音声認識モデルの少なくともいずれか1つの施行されたレイヤの出力から前記方言入力データを算出するステップを含み得る。

前記方言入力データは前記音声信号であり得る。

前記パラメータ生成モデルは、前記方言パラメータを生成するために前記パラメータ生成モデルを用いる場合、方言の1つ以上の施行されたレイヤのそれぞれの少なくとも個別部分から出力された特徴データを考慮し得る。

前記方言パラメータを生成するステップは、前記パラメータ生成モデルによる1つ以上のレイヤの個別先行レイヤから出力された個別データの考慮に基づいて、前記方言音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するステップを含み得る。

前記方言パラメータを生成するステップは、前記方言入力データとして、前記音声信号に対して方言グループのうちいずれか1つの方言グループを指示するデータを取得するステップを含み得る。

前記方言パラメータを生成するステップは、新しい方言入力データが他のユーザに対して生成されるまで、後続して取得された音声信号の認識における使用に対して、以前に適用されて生成された方言パラメータを用いて以前の音声認識モデルによって以前の音声認識に対して以前に生成された方言パラメータを保持するステップを含み得る。

前記方言パラメータを生成するステップは、現在ユーザの方言グループと以前ユーザの方言グループとが異なるという決定に応答して、前記現在ユーザに対して新しい方言入力データを前記方言入力データとして取得するステップを含み得る。

前記方言音声認識モデルを施行するステップは、前記音声信号の認識の結果を音素単位として算出するステップを含み得る。

前記音声信号及び前記音声信号に対応する方言入力データに基づいて、前記パラメータ生成モデルを再トレーニングするステップをさらに含み得る。

前記音声信号に対応する前記方言入力データ及び前記生成された方言パラメータをメモリに格納するステップと、後続音声の実行された認識で、前記方言入力データが前記格納された方言データにマッチングするものと決定されたとき、前記後続音声に対する前記方言パラメータの生成をパス(pass)し、前記後続音声に対する前記方言音声認識モデルを施行することによって、前記格納された方言入力データに前記後続音声に対する方言分類モデルによって生成された方言データがマッチングするかの決定に基づいて、前記後続音声に対する前記方言パラメータを生成することを選択的に施行するステップと、前記後続音声に対する音声認識の結果を生成する前記方言音声認識モデルを施行するステップとを含み得る。

ユーザの言語を識別し、前記識別された言語に対応するトレーニングされた音声認識モデルを、メモリに格納された複数の個別の他の言語トレーニングされた音声認識モデルの中から選択するステップをさらに含み、前記方言パラメータを適用するステップは、前記方言音声認識モデルを生成するために前記選択されたトレーニングされた音声認識モデルに前記方言パラメータを適用するステップを含み得る。

前記方言パラメータを生成するステップは、前記音声信号を取得するごとに、前記方言パラメータを動的に生成するステップを含み得る。

前記音声認識の結果を生成するステップは、前記音声信号を正規化することによって正規化されたデータを取得するステップと、前記音声認識の結果を生成するために前記正規化されたデータに対する前記方言音声認識モデルを施行するステップとを含み得る。

音声を認識する装置において、パラメータ生成モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリと、取得された音声信号に対する方言パラメータを、前記パラメータ生成モデルを用いて方言入力データから生成し、方言音声認識モデルを生成するために前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用し、前記音声信号に対する音声認識の結果を生成する前記方言音声認識モデルの音声認識の結果を前記音声信号に対する施行を介して生成するプロセッサとを含む。

前記プロセッサは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれの少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するように構成され得る。

前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された連結に沿って1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記方言パラメータ又は前記個別方言パラメータを適用することは、接続加重を挿入すること、又は、前記個別加重された接続の全てよりも少ない、前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更することを含み得る。

前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの施行の間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に、前記パラメータ生成モデルによって生成された前記方言パラメータとして、又は個別方言パラメータとして個別スケール行列を適用することを含み得る。

前記方言パラメータは個別バッチパラメータを含み、前記方言パラメータを適用することは、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用することを含み、入力は、前記方言音声認識モデルの入力演算又は前記方言音声認識モデルの以前の1つ以上の中間演算からの演算であり得る。

前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含み、前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含み得る。

前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用することは、前記1つ以上の隠れレイヤのそれぞれに対して、個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに前記適用された個別バッチパラメータの個別結果を個別的にフォワーディングすることを含み得る。

前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは、バッチ正規化パラメータであり得る。

前記プロセッサは、ユーザから受信されるユーザ操作が指示する方言情報を前記方言入力データとして決定し、前記パラメータ生成モデルに基づいて前記決定された方言入力データから前記方言パラメータを生成し得る。

前記プロセッサは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出し得る。

前記方言入力データは前記音声信号であり得る。

前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用することと、前記音声認識の結果を生成することは、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力される個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成され得る。

前記生成された方言パラメータを前記トレーニングされた音声認識モデルに適用することと、前記音声認識の結果の生成は、前記プロセッサによって同時に行われ、前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力された個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成され得る。

マイクロホンをさらに含み、前記プロセッサは、前記音声信号を取得するために前記音声信号をキャプチャーするマイクロホンを制御するようにさらに構成され得る。

音声認識装置において、パラメータ生成モデル、方言分類モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリを含み、前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含み得る。

一実施形態に係る音声認識装置は、複合的な方言を駆使するユーザに対しても、当該ユーザが使用する方言に最適化された新しい音声認識モデルを生成することによって、該当音声認識モデルを用いて正確な音声認識の結果を提供することができる。

一実施形態に係る音声認識システムの例示を説明する図である。

一実施形態に係る音声認識モデルを説明する図である。

一実施形態に係る音声認識方法を説明するフローチャートである。

図3に示された音声認識方法を行うために用いられる音声認識モデル及びパラメータ生成モデルを説明する図である。

他の一実施形態に係る音声認識方法を説明するフローチャートである。

図5に示された音声認識方法を行うために用いられる音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

一実施形態に係るパラメータ生成モデルで提供される方言入力データを説明する図である。

一実施形態に係る音声認識装置の構成に関するブロック図である。

一実施形態に係るメモリに格納された音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

一実施形態に係る音声認識モデルをトレーニングする方法を説明するフローチャートである。

一実施形態に係る音声認識モデルをトレーニングする装置の構成を示すブロック図である。

下記で説明する実施形態は様々な変更が加えられることができる。特許請求の範囲がこのような実施形態によって制限されることも限定されることもない。各図面に提示された同じ参照符号は同じ部材を示す。

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義がされない限り、技術的であるか又は科学的な用語を含む本明細書で用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、添付図面を参照して説明することにおいて、図面符号に関係なく同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

図1は、一実施形態により個人化された音声認識システムの例示を説明する図である。

音声認識システムは、1つ以上の音声認識装置及び1つ以上の音声認識サーバ130を含む。

1つ以上の音声認識装置は、マイクロホン(microphone)を用いて、周辺の音を収集してアナログの音信号を生成し、収集された周辺の音信号をアナログ−デジタル変換(ADC、analog to digital conversion)及びパーシングを介して、それから対応デジタル音声信号を取得する装置を示す。例えば、音声認識装置は、人が話す音(sound)を周辺音として収集する。音声認識装置は、周辺の音から当該装置を所有するユーザの音声(voice)を区別することができる。デジタル音声信号の生成において、例えば、収集された音声に対して、音声認識装置は、オーディオ情報を順序化されたオーディオ情報又はフレームに組織するだけではなく、形態素、音素、単語、及び/又は文章単位のような順序化された音声情報として組織するように構成されている。

音声認識装置は、個別ユーザによって所有される電子装置であってもよく、例えば、スマートフォン、スマートパッド、スマートバンドなどのウェアラブルデバイス、PDA(Personal Digital Assistance)、ラップトップなどを含む。異なる例として、音声認識装置は、複数のユーザによって共有される電子装置であってもよく、例えば、音声認識スピーカ103、音声認識TV104などを含む。ここで、音声認識スピーカ103又はTV104は、複数のユーザによって共有又は使用され得るものとして指示され、スマートフォン、スマートパッド、ウェアラブル装置、PDA、及びラップトップは単一ユーザ又は個人によって駆動又は所有されるものとして指示される。音声認識スピーカ103又はTV104は、また、単一又は個別ユーザによって駆動又は所有され、スマートフォン、スマートパッド、ウェアラブル装置、PDA、及びラップトップは、複数のユーザによって共有又は使用されてもよい。

音声認識システムは、ユーザの音声を認識することができる。本明細書において、音声認識(voice recognition)は、音信号に含まれるユーザの音声を区別し、ユーザの音声を言葉(language)に変換する動作を示す。例えば、音声認識は、ユーザの音声を文字に変換する動作を示す。

音声認識サーバ130は、音声信号を認識し、音声信号に対応するテキストデータを生成する。音声認識サーバ130は、音声認識装置からユーザの音声信号を、例えば、アナログ又はデジタル波形に受信し、受信された音声信号に基づいて音声信号に対応するテキストデータを、以下に説明する音声認識を行うことによって生成することができる。音声認識サーバ130は、音声信号から変換されたテキストデータを音声認識装置に伝達する。音声認識サーバ130によって生成されたテキストデータは、音声認識装置のユーザに提供される様々なサービスに活用され得る。

例えば、図1において、第1端末101は、第1ユーザ111によって個人化された電子装置を示し、第2端末102は、第2ユーザ112によって個人化された電子装置を示す。第1端末101及び第2端末102は、スマートフォンであってもよい。第1端末101は、第1ユーザ111から第2ユーザ112に対応する第2端末102に電話をかけるという命令を指示する音声信号を収集する。音声認識サーバ130は、第1ユーザ111の命令を指示する音声信号を第1端末101から受信する。音声認識サーバ130は、音声信号から第1ユーザ111の命令に対応するテキストデータを取得する。音声認識サーバ130は、取得されたテキストデータを第1端末101に伝達する。第1端末101は、第1ユーザ111の音声から認識されたテキストデータの受信に応答して、第1端末101は、受信されたテキストデータを分析して第2ユーザ112に電話をかけるという命令語を認識し、通話アプリケーションを実行して第2ユーザ112に電話をかけるよう通話アプリケーションを制御することができる。

異なる例として、音声認識装置、例えば、第1端末101によって受信されたテキストデータの分析は、例示の電話の他に、認識された音声信号が、1つ以上の他の命令を含むものと決定することにつながる。音声認識サーバ130によって認識されたテキストデータは、当該装置のユーザのスケジュールを生成してスケジュール又はスケジューリングイベントを生成するためのスケジューリング命令語を含み、ウェブサービスのデータを検索して質問を発行し、データを検索するように進むためのインターネット検索質問命令語を含み、テキストメッセージの受信及び/又はコンテンツとテキストメッセージの下書きを作成したり、送信するように行う命令語、又は、音声認識装置に格納された情報の検索又はアクセスを実施し、音声認識装置のユーザに音声認識装置に格納された検索されたデータを検索して提供するように行う命令語を含む。

テキストデータを用いてウェブサービスのデータを検索したり、テキストデータを用いて文字メッセージを送信したり、テキストデータを用いて当該装置に格納されたデータを検索するサービスを提供する。

ただし、音声認識装置及び音声認識サーバ130の動作が上述したものに限定されることはない。音声認識装置が音声信号を収集し、それ自体で該当音声信号を認識するために、収集された音声信号の音声認識を行ってもよく、認識された音声を認識するために、例えば、例示的な命令語又は質問を認識するために、分析結果に基づいて追加動作を行ってもよい。さらに、上述した例示は、音声認識サーバ130が、認識されたテキストデータを第1端末101に送信又はフォワーディングするものを扱っており、音声認識サーバ130は、認識されたテキストデータを第1端末101と、第1端末101にテキストデータを送信又はフォワーディングしない1つ以上の例示的な他の端末102,103,104に送信又はフォワーディングすることができる。音声認識サーバ130は、代案的にテキストデータを送信又はフォワーディングすることに加えて、テキストデータを分析して同じ動作を行ってもよい。音声認識サーバ130及び様々な例示的な音声認識装置は、収集された音声情報の音声認識を行うようにそれぞれ構成されている。また、共通音声認識モデルは、任意のこのような装置によって実施され、個別装置は、方言により個別化され得る追加的音声認識モデルを選択的かつ代案的に格納して選択的に実施することができる。例えば、個別追加的な音声認識モデルは、他の特定方言のために具体的にトレーニングされた他の追加的な音声認識モデルに比べて、具体的に特定方言のためにトレーニングされることができる。

また、1つ以上の言語のそれぞれに対して、このような装置は、代案的に、例えば、共通又は多重方言トレーニングされた音声認識モデルトレーニングに基づいた音声認識モデルを格納し、特定方言又は該当言語の認識された方言のために最適化された方言パラメータに基づいて音声認識モデルを選択的に変更し、その後、変更された音声認識モデルを用いて音声信号の認識を行うことができる。したがって、このような例示において、音声認識サーバ130は、例えば、それぞれ異なる方言のためにトレーニングされる多重音声認識モデルを格納するための多くの資源を有し、例示的な音声認識装置は少ない資源を有し、音声認識装置の特定ユーザの方言は、トレーニングされた既存の音声認識モデルが個別的にトレーニングされた方言と同様に対応しない場合もある。したがって、音声認識は、基本又は共通の音声認識モデルを利用し、その後基本又は共通の音声認識モデルを音声認識装置の話者の方言のための音声認識装置によって選択的に変形し、例示的に、他の方言のためにトレーニングされた音声認識モデルの全てを格納する必要がなく、音声認識装置により優れた方言の正確度で依然として実行されることができる。

図2は、一実施形態に係る音声認識モデルを説明する図である。

図1を参照して説明した音声認識システムは、音声認識モデル220を用いることができる。音声認識モデル220は、音声信号の認識としてテキストデータを出力するよう、音声信号の機械認識を行うように構成されている。上述したように、音声信号はアナログ波形を示し、これはデジタル波形に変換され、いくつかの例示では、音声認識モデル220に作用又は適用され、提供される前にデジタル波形に対する特徴データに変換されてもよい。音声信号は、音声認識モデル220として作用、適用、提供される例示的な音声シーケンスフォーマット(speech sequence format)の特徴データを示すことができる。したがって、説明の便宜のために、本明細書で音声信号という用語は、このようなキャプチャーされたオーディオに収集後処理(post−collection processing)が行われ、窮極的に音声認識モデルへの適用、提供、入力のための例示的な音声シーケンス形態の例示的な特徴データに対応するものと説明される。上述したように、音声認識装置は、キャプチャーされた音声の収集後処理を行って、それ自体で音声認識モデル220を実施してもよく、あるいは音声認識装置は、収集後処理を全く行わないか一部のみを行って、音声認識サーバが、残りの収集後処理をキャプチャーされた音声に対して行って、対応する音声情報を音声認識モデル220により予測される形態に生成して音声認識モデル220を実施してもよい。音声認識モデル220は、音響モデル及び言語モデルを含む。音声認識サーバが音声認識モデル220を格納し、音声認識サーバが音声信号から音声認識モデル220に基づいてテキストデータを生成する実施形態について説明する。例えば、音声認識装置が音声信号又は音声信号から変換された特徴データを音声認識サーバに伝達し、音声認識サーバは伝達された情報を用いて音声認識を行ってもよい。ただし、これに限定されることなく、音声認識装置がそれ自体に音声認識モデル220を格納し、格納された音声認識モデル220を用いてユーザの音声を認識してもよい。

音響モデルは、音声信号から抽出された特徴から音声信号を音素(phoneme)単位として認識するモデルを示す。例えば、音声認識システムは、音響モデルによって取得された音声信号を音素単位として認識した結果に基づいて、音声信号が示す単語を推定する。

言語モデルは、単語間の連結関係に基づいた確率情報を取得するように設計されたモデルを示す。言語モデルは、言語モデルに入力された単語に連結される次の単語に対する確率情報を提供する。例えば、言語モデルに「this」の単語が入力される場合、言語モデルは「this」の次に「is」又は「was」が連結される確率情報を提供する。一実施形態によれば、音声認識システムは、言語モデルによって提供された確率情報に基づいて、最も確率の高い単語間の連結関係を選択し、選択結果を音声認識の結果として出力する。例えば、音響モデルと言語モデルのそれぞれが個別トレーニングデータを用いて個別ディープランニングを介してトレーニングされることができ、及び/又は、総括的に異なる又は追加ディープランニングを介してトレーニングされることができる。

以下、音声認識モデル220のうち音響モデルに関する動作について主に説明する。一実施形態に係る音響モデルは、ニューラルネットワーク、例えば、GMM(Gaussian Mixture Model)、DNN(Deep Neural Network)、又はBLSTM(Bidirectional Long Short Term Memory)などのように様々な構造で実現される。音響モデルが実現され得る機械学習構造は上述したものに限定されることなく、1つ以上の構造が結合される形態で実現され得る。ニューラルネットワークは、複数の人工ノードを用いて複雑な演算を行うハードウェア又はハードウェア及びソフトウェアの結合により具現された認識モデルを示す。ニューラルネットワークは、人工ノードを介して認識動作や学習過程を行う。

一実施形態に係るニューラルネットワークは、複数のレイヤを含む。例えば、ニューラルネットワークは、入力レイヤ、1つ以上の隠れレイヤ221及び出力レイヤを含む。入力レイヤは、入力データを受信して隠れレイヤ221に伝達し、出力レイヤは、隠れレイヤ221のノードから受信された信号に基づいて出力データを生成する。

1つ以上の隠れレイヤ221が入力レイヤ及び出力レイヤの間に接続される音声認識システムは、隠れレイヤ221を介して入力データを予測しやすい値に変換する。入力レイヤ及び1つ以上の隠れレイヤ221に含まれるノードは、接続加重値を有する連結線を介して接続され、隠れレイヤ221及び出力レイヤに含まれるノードも接続加重値を有する連結線を介して、階層的に最終の隠れレイヤ221及びそれぞれがトレーニングされた接続加重値を有する対応連結線を介して接続された出力レイヤに含まれたノードの例示を介して互いに接続される。隠れレイヤ221の各ノード及び出力レイヤは、例えば、対応するトレーニングされた接続加重値により加重された階層的に以前のレイヤのノードの入力又は活性化から、例えば、対応するノードでの結果加重活性化入力に活性化関数を行ってもよい。ニューラルネットワークのうち、複数の隠れレイヤ221を含むニューラルネットワークを、ディープニューラルネットワーク(deep neural network)という。ディープニューラルネットワークを学習させることをディープランニングという。トレーニングは、ニューラルネットワークが動作するまで予め決定された成功又は的中率の閾値又は最小誤差率の閾値に達するまで、例えば、調整された接続加重値を有するイントレーニング(in−training)ニューラルネットワークの繰り返しの実施に基づいた接続加重値のトレーニングを含む。ニューラルネットワークのノードのうち、隠れレイヤ221に含まれるノードを隠れノード229という。

入力レイヤ、1つ以上の隠れレイヤ221、及び出力レイヤは、複数のノードを含む。隠れレイヤ221は、CNN(convolutional neural network:畳み込みニューラルネットワーク)における畳み込みフィルタ又は完全接続レイヤであるか、特別な機能や特徴を基準としてグルーピングされた様々な種類のフィルタ又はレイヤであり得る。

音響モデルは、例えば、RNN(recurrent neural network:再帰型ニューラルネットワーク)で実現される。RNNは、以前のフレームの隠れレイヤ221の出力値が、現在のフレームの隠れレイヤ221に再び入力されるネットワークを示す。同じ隠れレイヤ221への接続又は同じ隠れレイヤ221の同じノードは、循環的接続として示し、これは、トレーニングされた加重値に依存する加重された接続と類似する。RNNは、以前の出力が新しい出力の算出結果に影響を与えることがある。

一実施形態に係る音声認識システムは、音声シーケンス201を複数のフレームに分割し、分割されたフレームに対応する発音を予測する。音声認識システムは、音響モデルを用いて音声認識を行い、音響モデルは、入力レイヤ、隠れレイヤ221、及び出力レイヤを含む。出力レイヤは、入力レイヤに入力されたフレーム210に対して予測された発音結果230を出力する。例えば、音声認識装置又は音声認識サーバは、各隠れレイヤ221に、以前の隠れレイヤに含まれた以前の隠れノード229の出力を、接続加重値を有する連結線を介して入力し、以前の隠れノード229の出力に接続加重値が適用された値及び活性化関数に基づいて、隠れレイヤ221に含まれた隠れノード229の出力を生成する。音声認識モデル22を実施するように構成される音声認識装置のプロセッサは、ニューロモーフィックプロセッサであってもよい。一実施形態によれば、次の隠れノードに出力を発火(fire)するために、活性化関数の結果は現在隠れノードの閾値を超過しなければならない。この場合、ノードは、入力ベクトルを介して特定の閾値活性化強度に達する前には次のノードに信号を発火せず、不活性化状態を保持する。音声認識装置による音声認識モデル220のトレーニングは、ニューロモーフィックプロセッサ又は他のプロセッサを実施することができる。

出力レイヤは、ソフトマックスレイヤ(softmax layer)であってもよい。一実施形態によれば、出力レイヤは、全体発音の数と同じ個数のノードを含む。出力レイヤの各ノードは、入力されたフレーム210が特定発音である確率を示す。

以下では、音声認識動作について説明する。音声認識は、音声認識サーバ又は音声認識装置で実行される。

図3は、一実施形態に係る音声認識方法を説明するフローチャートである。

まず、ステップS310において、音声認識装置は、パラメータ生成モデルに基づいて、方言入力データから方言パラメータを生成する。方言入力データは、パラメータ生成モデルに入力されるデータである。方言入力データは、方言に関するデータとして、ユーザが属する方言グループを指示するデータであってもよい。方言入力データは、例えば、複数の方言グループのうちユーザの言語が属する1つの方言グループを指示するデータであってもよい。異なる例として、方言入力データは、ユーザが使用する言語が任意の方言グループに属する確率を示す確率データであってもよい。最も高い確率指示は、当該方言グループが、ユーザが最も属していそうな方言グループであることを示す。ただし、方言入力データがこれに限定されることはない。

方言グループは、同じ言語内で地域、人種、及び文化などにより示される方言を分類するためのグループを示す。例えば、言語が英語である場合、方言グループは、例えば、ネイティブスピーカ英語(native English)グループ、米国英語グループ、英国英語グループ、フィリピン英語グループ、インド英語グループ、韓国式英語グループ、米国西部英語グループ、米国中部英語グループ、及び米国東部英語グループなどを含んでもよい。ただし、方言グループがこれに限定されることはない。言語ごとに示される方言特性(dialect characteristic)によって方言グループが分類される。

方言パラメータは、パラメータ生成モデルによって生成されたパラメータである。方言パラメータは、例えば、任意の方言が有する言語的特性を示すパラメータとして、音声認識モデルに適用される。方言パラメータは、音声認識モデルに適用されるパラメータとして、例えば、音声認識モデルの少なくともいずれか1つのレイヤの入力及び出力などを変形(modulate)したり、スケーリングしたりするために使用される。方言パラメータは、例えば、バッチ正規化(BN:batch normalization)のパラメータ(例えば、γ、βのようなパラメータ)や、LHUC(Learning Hidden Unit Contributions)のように活性化の後ノード値をスケーリングするパラメータであってもよい。スケール行列の次元は、抽象化されたパラメータがベクトルフォーマットになるよう、m×1であるか、抽象化されたパラメータが行列形態になるようにスケール行列はm×nである。生成された抽象化方言パラメータは、追加的な次元を有し、代案的な形態を有してもよい。バッチパラメータの例示で、複数の個別方言パラメータのそれぞれは、例えば、γ及びβのようなバッチ正規化パラメータを含む。同一又は相違の抽象化方言パラメータフォーマットが、例えば、1つ以上の施行されたパラメータ生成モデルにより1つ以上又は全ての異なるレイヤに適用について生成されてもよい。

本明細書において、パラメータ生成モデルは、方言入力データから方言パラメータを出力するモデルとして、例えば、ニューラルネットワークであってもよい。パラメータ生成モデルは複数のレイヤを含む。パラメータ生成モデルの出力が音声認識モデルの少なくともいずれか1つのレイヤに反映されるよう、パラメータ生成モデルと音声認識モデルが互いに連結されている。

そして、ステップS320において、音声認識装置は、音声認識モデル及びパラメータ生成モデルによって生成された方言パラメータに基づいて、音声信号から音声認識の結果を生成する。一実施形態によれば、音声認識モデルが音声信号に対して音声認識を行う間に、音声認識装置は、パラメータ生成モデルによって決定された方言パラメータを音声認識モデルの少なくとも一部のレイヤに適用する。例えば、音声認識装置による方言パラメータの適用は、話される方言により音声認識モデルを動的に変形し得る。

例えば、方言パラメータがバッチ正規化のパラメータ(以下、バッチパラメータ(batch parameter))である場合、音声認識装置は、音声認識モデルの少なくともいずれか1つのレイヤに対して、該当レイヤの各ノードから入力されるデータにバッチパラメータを適用する。音声認識装置は、バッチパラメータを用いて音声認識モデルで隠れレイヤのノード入力(例えば、正規化された入力)を変更することによって、当該の隠れレイヤに対する新しいノード入力を生成する。例えば、音声認識装置は、第1バッチパラメータγを正規化された入力に乗算(multiply)し、第2バッチパラメータβを加算する(add)ことで、新しいノード入力を生成することができる。音声認識装置は、新しいノード入力を当該隠れレイヤの活性化関数に入力することによって、当該隠れレイヤの出力を算出する。参考として、上述した構造は、バッチ正規化レイヤが隠れレイヤの以前に連結された構造に実現されてもよい。任意の隠れレイヤ以前に連結されるバッチ正規化レイヤは、当該隠れレイヤの各ノードに提供される入力を変更するためのバッチパラメータを含む。この場合、パラメータ生成モデルの出力レイヤは、上述したバッチ正規化レイヤであってもよく、該当のバッチ正規化レイヤは、音声認識モデルに統合される。例えば、パラメータ生成モデルのこのような出力レイヤ(又は、出力レイヤの次のバッチ正規化レイヤ)は、次の隠れレイヤの入力のために、以前の隠れレイヤから出力された入力データが入力され、パラメータ生成モデルによって決定されるバッチパラメータに基づいて入力データのバッチ正規化を行うことができる。

バッチ正規化レイヤは、バッチ正規化レイヤのそれぞれの個別出力がそれに対応する隠れレイヤに連結されるよう、例えば、音声認識モデルの隠れレイヤの個数だけ、例えば、音声認識モデル内又はパラメータ生成モデルの個別出力レイヤ(又は、出力レイヤの次に)として含まれてもよい。ただし、これに限定されることなく、バッチ正規化レイヤは、一部の隠れレイヤにのみ連結されてもよい。バッチ正規化レイヤのバッチ正規化は、パラメータ生成モデルによって出力されるバッチパラメータ又は他の方言パラメータにより動的に変わり得る。

また、方言パラメータの適用が上述のように限定されることなく、設計に応じて変わり得る。例えば、方言パラメータがスケール行列である場合、音声認識装置は、音声認識モデルの少なくともいずれか1つの隠れレイヤの出力に、要素演算(例えば、行列の積)を介してスケール行列を適用することができる。音声認識装置は、パラメータ生成モデルによる隠れレイヤのそれぞれにスケール行列を適用することでスケール行列を適用し得るが、これに限定されることはない。音声認識装置は、音声認識モデルの一部のレイヤについてのみスケール行列を算出してもよい。

音声認識装置は、変形された音声認識モデル、例えば、方言パラメータ又は個別方言パラメータをこのような隠れレイヤに対するデータ入力及び/又はデータ出力に対して音声認識モデルの1つ以上の隠れレイヤの前及び/又は後に適用することで、変形された音声認識モデルに基づいて、音声信号から音声認識の結果を生成することができる。音声認識装置は、音声信号を正規化することによって正規化されたデータを取得し、方言パラメータが適用された音声認識モデルに基づいて、正規化されたデータから音声認識の結果を生成する。例えば、音声認識装置は、方言パラメータが適用された音声認識モデルに基づいて、音声信号を音素単位として認識した結果を算出する。代案的に、又は、追加的に、音声認識装置は、下記で後述するように、予め決定されたパラメータ、例えば、生成された方言パラメータに基づいて音声認識モデルの接続加重値を変更することで、音声認識モデルの変更を施行するように構成され得る。

パラメータ生成モデル及び音声認識モデルは共にトレーニングされる。パラメータ生成モデル及び音声認識モデルのトレーニングは、下記の図11及び図12を参照して説明することにする。

図4は、図3に示された音声認識方法を行うために用いられる音声認識モデル及びパラメータ生成モデルを説明する図である。

音声認識モデル410は、複数のレイヤ411,412,413を含む。複数のレイヤ411,412,413は、例えば、LSTM(Long Short−Term Memory:長短期メモリ)構造であってもよいが、これに限定されることはない。音声認識モデル410は、音声信号401から認識結果409を出力するように構成されたモデルであり得る。パラメータ生成モデル420は、複数のレイヤ421,422を含む。パラメータ生成モデル420は、方言入力データ402から方言パラメータを出力するように構成されたモデルであってもよい。図4は、パラメータ生成モデル420の出力レイヤが音声認識モデル410の複数のレイヤ411,412,413のそれぞれに統合された構造を示す。音声認識モデル410及びパラメータ生成モデル420は、図3に示す音声認識モデル及びパラメータ生成モデルであってもよいが、これに限定されることはない。

一実施形態に係る音声認識装置は、ユーザ操作に基づいて方言入力データ402を決定する。例えば、音声認識装置は、ユーザから受信されるユーザ操作に応答して、ユーザ操作が指示する方言情報を方言入力データとして決定する。方言情報は、ユーザ操作に対して複数の方言グループから決定されるか、指定された方言グループを指示する情報である。

音声認識装置は、パラメータ生成モデル420から算出された方言パラメータを音声認識モデル410に可変的に適用することで、音声認識モデル410を可変的に変形する。例えば、音声認識装置は、決定された方言パラメータに基づいて、このように変形された音声認識モデル410を用いて音声信号401から認識結果409を決定する。

変形された音声認識モデル410の各レイヤは、例えば、他の方言又は方言グループに対する決定された方言パラメータ又は方言パラメータに基づいて、選択的及び動的に変化する個別方言パラメータ及び多重方言を含む言語特徴の抽出に対してトレーニングされ、これにより言語の共通特徴が少なくとも抽出された共通パラメータを含むことができる。レイヤの一部は、方言に対する特徴を抽出するためのパラメータ(例えば、方言パラメータ)を含み、残りの部分は、言語に対する共通特徴を抽出するための共通パラメータを含む。方言パラメータは、各ユーザの言語が属する方言により動的に生成される。共通パラメータは、複数の方言グループのそれぞれが共通的に有する特徴がトレーニングされたパラメータである。図4において、方言パラメータが各レイヤの中間に適用され、各レイヤの残りの部分が共通パラメータを含むものと示したが、これに限定されることはない。方言パラメータは、各レイヤの入力側に適用されてもよい。この例示で、図4に示された個別レイヤは、それぞれノード及び接続の間の複数のレイヤを示す。したがって、方言パラメータの示されたレイヤの中間に対する適用は、示されたレイヤの内部レイヤから活性化値に適用される接続加重値を動的に設定することに対応し、示されたレイヤの入力側に対する方言パラメータの適用は、音声認識モデルの以前示したレイヤから活性化値に適用される接続加重値を動的に設定することに対応する。また、例えば、音声認識モデルの共通パラメータ施行のみが隠れレイヤの例示的な認識結果409に近いほど方言の依存性を反映し、これにより、方言パラメータが最上位レイヤに適用される一方、方言パラメータが最下位レイヤには適用されないか、上位又は最上位レイヤまでの全ての下位レイヤに対して適用されないこともある。例えば、個別方言パラメータは、レイヤ413にのみ適用され、レイヤ412,411には適用されないか、レイヤ413,412にのみ適用され、レイヤ411には適用されなくてもよい。

本明細書において、音声認識モデル410がニューラルネットワークの実現でレイヤから構成された構造について主に説明したが、これに限定されることはない。音声認識モデル410はベクトルを含んでもよい。

図5は、他の一実施形態に係る音声認識方法を説明するフローチャートである。

まず、ステップS501において、音声認識装置は音声信号を取得する。例えば、音声認識装置は、音声認識装置に有線又は無線で接続されるか、音声認識装置のマイクロホンを介して音声信号を取得する。

一実施形態に係る音声認識装置は、方言分類モデルに基づいて音声信号から方言入力データを算出する。方言分類モデルは、音声信号から方言入力データを出力するように構成されたモデルを示す。

例えば、ステップS511において、音声認識装置は、方言分類モデルを用いて音声特徴を抽出する。例えば、音声認識装置は、方言分類モデルの一部のレイヤ、例えば、方言分類レイヤの1つ以上の第1レイヤに基づいて音声信号から音声特徴を抽出する。

次に、ステップS512において、音声認識装置は、方言グループを予測する。例えば、音声認識装置は、方言分類モデルの残りのレイヤに基づいて、音声特徴から方言入力データを予測する。図5を参照して説明された例示において、方言入力データは、複数の方言グループのうち該当音声信号が属する方言グループを指示するデータであってもよいが、これに限定されることはない。

一実施形態によれば、音声認識装置は、方言分類モデルに基づいて、音声信号から、該音声信号が属する方言に関する確率、又は確率的データを方言入力データとして算出及び出力してもよい。任意のユーザから音声信号が取得される場合に応答して、音声認識装置は、取得された音声信号が有する方言特徴を指示する方言入力データを生成する。ここで、生成された方言入力データは、個別ユーザが固有に有する方言特性を指示するデータであり得る。上述したように、方言入力データが上述した確率データである場合、該当方言入力データは、ユーザの言語が複数の方言グループそれぞれに属する確率を示す。ユーザの言語は、複数の方言グループの特性が混合して示されてもよく、このような確率的な方言入力データは、ユーザの言語で各方言グループが占めている比重を示す。

例えば、任意のユーザがアメリカ人としてフランス及びフィリピンに住んでいる場合、当該ユーザの言語は、米国式英語方言の特性、フランス式英語方言の特性、及びフィリピン式英語方言の特性を示す。一実施形態に係る方言分類モデルに基づいて算出された方言入力データは、このようなユーザの言語が有する複数方言が結合された複合的な特性を示す。

そして、ステップS513において、多重グループに対するこのような確率的データとして、又は、特定方言グループを指示するデータとして、音声認識装置は、方言入力データに基づいて方言パラメータを算出する。例えば、音声認識装置は、上述したステップS512で算出された方言入力データから、パラメータ生成モデルに基づいて方言パラメータを動的に生成する。一実施形態に係る音声認識装置は、確率値で算出された確率的方言入力データを用いて、個別ユーザに最適化された方言パラメータを動的に生成することができる。したがって、音声認識装置は、パラメータ生成モデルに基づいて、ユーザの言語が有している方言グループの結合された特性を示す方言入力データから方言パラメータを算出する。方言パラメータは、現在の話者の言語で各方言グループが占めている比重を考慮するパラメータ生成モデルにより決定された現在話者の言語に内包された複合的な方言特徴が抽象化されたパラメータである。

次に、ステップS521において、音声認識装置は、音声認識モデルを変形する。例えば、音声認識装置は、多重方言を有する共通言語に基づいて音声認識モデルのトレーニングの間に設定された既存パラメータを適用、例えば、挿入、設定、代替、又は調整することで生成された方言パラメータを音声認識モデルに反映し、ユーザに特化した新しい音声認識モデルを生成することができる。新しい音声認識モデルの少なくとも一部のレイヤは、例えば、挿入及び/又は調整として、動的に生成される方言パラメータが反映された部分を含む。ここで、新しい音声認識モデルを生成するための音声認識モデルに対する方言パラメータの適用は、特定方言又は方言分類のために音声認識モデルの調整として考慮される。

そして、ステップS522において、音声認識装置は、音声認識の結果を算出する。例えば、音声認識装置は、方言パラメータが適用された新しい又は調整された音声認識モデルに基づいて、ステップS501で取得された音声信号から音声認識の結果を算出する。方言パラメータが適用された新しい音声認識モデルの少なくとも一部のレイヤは、上述した個別共通パラメータを含み、方言パラメータを適用又は含むことができる。

上述したように、ユーザのキャプチャーされた音声の言語の方言特性に最適化された方言パラメータにより、音声認識装置は、複合的な方言特性を有するユーザの音声信号についても正確に音声を認識することができる。また、音声認識装置は、音声信号を取得するごとに、方言パラメータを動的に生成することができる。音声認識装置は、同じユーザのトーンを相違させた音声を取得した場合であっても、当該方言に最適化した方言パラメータを動的に生成することができる。

図6は、図5に示された音声認識方法を行うために用いられる音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

音声認識モデル410は、図4を参照して説明したように、複数のレイヤを含む。音声認識モデル410の各レイヤは、共通のパラメータだけではなく、パラメータ生成モデル420から生成された方言パラメータも含むことができる。音声認識装置は、パラメータ生成モデル420に入力される方言入力データ402を、方言分類モデル630に基づいて生成する。

方言分類モデル630は、ユーザの言語が有している方言特性を出力するように構成された、例えば、トレーニングされたモデルを示す。例えば、方言分類モデル630は、音声信号401から方言入力データ402を出力するように設計される。ここで、方言入力データ402は、ワンホットエンコーディング(one−hot encoding)方式により、複数の方言グループのいずれか1つの方言グループのみを指示するデータであってもよい。他の例として、方言入力データ402は、ユーザの言語で各方言グループの特性が占めている比重を指示する確率又は確率的データ又は各グループのユーザの言語の正確な方言である確率である。

ただし、これに限定されることなく、方言入力データ402は、任意の音声特徴であってもよい。例えば、音声認識装置は、方言分類モデル630に基づいて音声信号401から方言情報を算出しながら、方言分類モデル630の少なくともいずれか1つのレイヤの出力を方言入力データ402として決定し得る。方言分類モデル630の任意のレイヤの出力は、音声信号401が抽象化された音声特徴を指示する特徴データであってもよい。

音声認識装置は、上述したように算出された方言入力データ402から、パラメータ生成モデル420に基づいて方言パラメータを算出する。音声認識装置は、算出された方言パラメータを音声認識モデル410に適用する。音声認識装置は、方言パラメータが適用された音声認識モデル410に基づいて、音声信号401から認識結果409を生成する。音声認識モデル410は、生成された方言パラメータに基づいて、又は変形又は調整されたものとして、例えば、音声認識の結果409は、調整された音声認識モデルの施行の結果である。

図6では、方言分類モデル630が音声信号401から方言入力データ402を出力する構造について示したが、これに限定されることはない。例えば、音声信号401の代わりに、音声認識装置は、音声認識モデル410のレイヤによって算出又は生成された特徴データを使用し、方言入力データ402を生成又は算出するための特徴データを用いて、方言分類モデル630を実施してもよい。音声認識装置は、方言分類モデル630に基づいて音声認識モデル410の少なくともいずれか1つのレイヤの出力(例えば、特徴データ)から方言入力データ402を算出する。その後、音声認識装置は、パラメータ生成モデル420に基づいて、方言入力データ402から方言パラメータを生成する。

図7、図8A及び図8Bは、一実施形態に係るパラメータ生成モデルに提供される方言入力データを説明する図である。

図7に示されたパラメータ生成モデル420は、方言入力データ702として音声信号401を用いる。音声認識装置は、パラメータ生成モデル420に基づいて、方言入力データ702として音声信号401から方言パラメータを生成する。

図8Aに示されたパラメータ生成モデル420は、方言入力データ802として、音声認識モデル410の少なくとも一部のレイヤで出力された特徴データ(例えば、音声特徴)を用いる。音声認識装置は、音声認識モデル410の少なくとも一部のレイヤから出力された特徴データが提供されるパラメータ生成モデル420によって、方言パラメータを生成する。

図8Bに示されたパラメータ生成モデル420は、音声信号及び音声認識モデル410の各レイヤから出力された特徴データを、方言入力データ830として用いる。一実施形態によれば、音声認識装置は、音声認識モデル410で複数のレイヤのそれぞれに対する方言パラメータを、該当レイヤから入力されるデータ(例えば、方言入力データ)から、パラメータ生成モデル420に基づいて生成する。該当レイヤから入力されるデータは、例えば、音声認識モデル410の以前レイヤから出力された特徴データ又は音声信号であってもよい。

例えば、パラメータ生成モデル420は、音声認識モデル410の各レイヤに対応する複数のパラメータ生成レイヤ821,822,823を含む。複数のパラメータ生成レイヤ821,822,823のそれぞれは、音声認識モデル410の各レイヤと、例えば、音声認識モデル410の該当レイヤから入力される特徴データを受信し、個別的に音声認識モデルの該当レイヤで生成された方言パラメータを提供するよう接続されている。複数のパラメータ生成レイヤ821,822,823のそれぞれは、音声認識モデル410でそれに対応するレイヤのための方言パラメータを生成するように構成される。図8Bにおいて、複数のパラメータ生成レイヤ821,822,823の各々に入力される方言入力データ830は、第1方言入力831、第2方言入力832、第3方言入力833、及び方言情報839を含む。

音声認識装置は、第1パラメータ生成レイヤ821に基づいて、第1方言入力831(例えば、音声信号401)から第1方言パラメータを生成する。第1パラメータ生成レイヤ821で出力された第1方言パラメータは、音声認識モデルの第1レイヤ811に適用される。音声認識装置は、第2パラメータ生成レイヤ822に基づいて、第2方言入力832(例えば、第1レイヤ811で出力された特徴データ)から第2方言パラメータを生成する。第2パラメータ生成レイヤ822で出力された第2方言パラメータは、音声認識モデルの第2レイヤ812に適用される。音声認識装置は、第3パラメータ生成レイヤ823に基づいて、第3方言入力833(例えば、第2レイヤ812で出力された特徴データ)から第3方言パラメータを生成する。第3パラメータ生成レイヤ823で出力された第3方言パラメータは、音声認識モデルの第3レイヤ813に適用される。

ここで、音声認識装置は、パラメータ生成モデル420の各レイヤに方言入力のそれぞれと共に方言情報839を入力することで、各方言パラメータを生成してもよい。方言情報839は、例えば、ユーザの言語グループが有する方言の特徴を示す特徴ベクトル、例えば、ユーザの登録プロセスを介して生成される、又は方言情報839の現在の後適用のために、ユーザの以前の認識で生成されて格納された特徴ベクトルであり得る。例えば、特徴ベクトルは、このような登録、以前又は初期プロセスで適用されると議論された特徴抽出レイヤの1つから生成される。音声認識装置は、例えば、第1パラメータ生成レイヤ821に第1方言入力831と共に方言情報839を入力する。音声認識装置は、第2パラメータ生成レイヤ822に第2方言入力832と共に方言情報839を入力する。音声認識装置は、第3パラメータ生成レイヤ823に第3方言入力と共に方言情報839を入力してもよい。

音声認識装置は、上述した方言情報のみならず、音声認識モデル410の各レイヤに対して以前レイヤで出力された特徴データからパラメータ生成モデル420に基づいて生成された方言パラメータを適用することで、より正確に方言を認識できるように音声認識モデルを変形することができる。

音声認識装置は、図7、図8A又は図8Bで生成された方言パラメータを音声認識モデル410に含ませることができる。

図9は、一実施形態に係る音声認識装置の構成に関するブロック図である。図10は、一実施形態に係るメモリに格納された音声認識モデル、パラメータ生成モデル、及び方言分類モデルを説明する図である。

音声認識装置900は、入出力インタフェース910、プロセッサ920、及びメモリ930を含む。

入出力インタフェース910は、ユーザの音声又は正解テキストなどが入力され、ユーザに認識結果又はガイドテキストを提示する構成を意味する。例えば、入出力インタフェース910は、ユーザの音声が入力されるマイクロホンを含む。入出力インタフェース910は、プロセッサ920が施行するように構成された音声認識装置900の他の機能のうち、ユーザから正解テキストが入力されるキーボード、タッチスクリーン又はタッチパッドなどを含む。入出力インタフェース910は、認識結果又はガイドテキストを提示するディスプレイを含む。

プロセッサ920は、パラメータ生成モデルに基づいて方言入力データから方言パラメータを生成する。プロセッサ920は、音声認識モデル1031及び方言パラメータに基づいて音声信号から音声認識の結果を生成する。ただし、プロセッサ920の動作がこれに限定されることなく、プロセッサ920は、図1〜図8Bを参照して上述した動作を行うことができる。

メモリ930は、プロセッサ920によって実行される命令、パラメータ生成モデル1032、方言分類モデル1033、及び音声認識モデル1031を格納する。各モデルは、ニューラルネットワーク基盤の音声認識モデル1031であってもよい。各モデルがニューラルネットワークである場合、メモリ930は、ニューラルネットワークの各レイヤの各活性化ノードに対する接続加重値などのような個別モデルのパラメータを格納する。

一実施形態に係る音声認識装置900は、現在ユーザに対して新しい方言入力データが受信されるまで、以前ユーザによる以前の入力音声に基づいて生成される既存の方言パラメータを保持する。例えば、新しい方言パラメータの生成は、入力音声の特徴データ又は入力音声が提供される分類器による方言分類に依存して選択的に行われる。また、現在ユーザの方言グループと以前ユーザの方言グループとが相違し、このような方言分類器によって決定されることに応答して、音声認識装置900は、現在ユーザに対する方言入力データを用いて、新しい方言パラメータを、音声認識モデルの該当レイヤから入力される特徴データとして及び/又は方言分類器による出力として生成することを選択する。その後、音声認識装置900は、新しい方言パラメータを音声認識モデルに適用するか、新しい方言パラメータに基づいて音声認識モデルの既存の対応パラメータを調整する。したがって、音声認識装置900は、ユーザの方言特性が変更される場合にのみ方言パラメータを新しく算出してもよい。

さらに、図1〜図10では、音声認識モデル1031、パラメータ生成モデル1032、及び方言分類モデル1033は、トレーニングの完了されたモデルであると説明した。音声認識装置900は、上述したモデルを加えてトレーニングされてもよい。例えば、音声認識装置900は、音声信号及び音声信号に対応する方言入力データに基づいて、パラメータ生成モデルを再トレーニングすることができる。音声認識装置900は、パラメータ生成モデルが音声信号から与えられた方言入力データを出力するよう、パラメータ生成モデルをトレーニングすることができる。

一実施形態に係る音声認識装置900は、ユーザの言語を識別し、識別された言語に対応する音声認識モデル1031を選択してもよい。音声認識装置900は、複数の言語のそれぞれに対応する音声認識モデル1031を格納し、各音声認識モデル1031に対応するパラメータ生成モデル1032、及び方言分類モデル1033を追加的に格納してもよい。音声認識装置900は、選択された音声認識モデル1031に方言パラメータを適用する。音声認識装置900は、方言パラメータが適用された音声認識モデル1031に基づいて、音声信号に対する音声認識の結果を生成する。

音声認識装置900は、スマートフォンなど個人機器に搭載され、ユーザの発音に最適化された音声認識機能を提供することができる。音声認識装置900は、個人機器でなくても、ホームスピーカなどの音声認識機能が求められる機器に搭載され、全般的な音声認識の性能を向上させることができる。

音声認識装置900は、各方言分類モデルを個別的に生成及び管理する必要がなく、統合的な音声認識モデル1031及びパラメータ生成モデル1032を用いて正確に音声認識することができる。したがって、サーバ開発及びメンテナンスが減少し得る。さらに、音声認識装置900は、音声認識に基づいたエンドトゥーエンドサービス(end−to−end service)にも適用され得る。このような方言分類、方言パラメータ生成、及び/又は生成された方言パラメータに基づいた音声認識モデルの動的調整は、遠隔装置及びローカル装置間の個別入力及び/又は生成されたデータの通信に基づいて、遠隔に、例えば、サーバ及び/又は地域的に個人化装置で行われることができる。

図11は、一実施形態に係る音声認識モデルをトレーニングする方法を説明するフローチャートである。図12は、一実施形態に係る音声認識モデルをトレーニングする装置の構成を示すブロック図である。

一実施形態によれば、音声認識モデルをトレーニングする装置(以下、トレーニング装置1200)は、プロセッサ1210及びメモリ1220を含む。プロセッサ1210は、図11を参照して説明される動作を下記のように行うことができる。メモリ1220は、音声認識モデル1221、パラメータ生成モデル1222、及び方言分類モデル1223を格納する。メモリ1220は、個別モデルの内部バイアス及び当該トレーニングされたパラメータのような構造の情報を格納してもよい。メモリ1220は、また、臨時的にトレーニング音声認識モデル、トレーニングパラメータ生成モデル、及びトレーニング方言分類モデルを格納し、これらは個別的にトレーニングされた音声認識モデル1221、トレーニングされたパラメータ生成モデル1222、及びトレーニングされた方言分類モデル1223を生成するためのトレーニング動作によってアップデートされて変形される。中間モデル(interim model)の個別トレーニング及びアップデート/変形された中間モデルの臨時的な格納を通したモデルを窮極的に生成するよう実行されるトレーニングは、その後、音声認識モデル1221のトレーニング、パラメータ生成モデル1222のトレーニング、及び方言分類モデル1223のトレーニングに示される。また、メモリ1220は、トレーニングデータ1290を格納する。

トレーニングデータ1290は、トレーニング入力1291及びそれに対応するトレーニング出力1292の対を含む。例えば、トレーニング入力は、多重方言を含む当該言語の音声を含む。一実施形態は、逆伝播に基づいた損失を通した音声認識モデル1221の初期の共通音声トレーニングを含んでもよく、共通音声トレーニングは、他の方言トレーニング入力1291又は混合された方言トレーニング入力1291を有し、音声認識モデル1221を順次トレーニングすることを含む。したがって、トレーニング入力1291は、多重方言に対する該当言語の音声を含み、さらに、代案的にトレーニング入力1291は、音声認識モデル1221及びパラメータ生成モデル1222のトレーニングに共に使用されたり、音声認識モデル1221、パラメータ生成モデル1222、及び方言分類モデル1223のトレーニングに共に使用されたり、音声認識モデル1221が別にトレーニングされ、パラメータ生成モデル1222及び方言分類モデル1223が共にトレーニングされてもよい。例えば、臨時にトレーニングされた音声認識モデルが、例えば、予め決定された正確度又は最小限の不正確性(minimum inaccurace)で生成された後、それにより臨時共通パラメータを決定し、臨時共通パラメータは、パラメータ生成モデル1222のトレーニングの間に固定される。パラメータ生成モデル1222は、パラメータトレーニングモデルの予め決定された正確度又は最小限の不正確性でトレーニングの間に固定され、その後、パラメータ生成モデル1221と共にトレーニングされる。方言分類モデル1223は、多重方言の特性を含んでいる複雑な音声に対する確率又は確率的データを生成する場合、トレーニング入力1291は、このような複雑な音声を含んでいる。図11及び図12において、トレーニング入力1291は、トレーニング音声であってもよく、トレーニング出力1292は、基準認識結果(例えば、基準発音(reference utterance))であってもよい。さらに、トレーニング入力1291は、トレーニング音声に対応する方言入力データ(例えば、トレーニング方言情報)をさらに含んでもよい。

まず、ステップS1110において、トレーニング装置1200は、パラメータ生成モデル1222に基づいて、トレーニング方言情報から臨時方言パラメータ(temporary dialect parameter)を算出する。トレーニング装置1200は、トレーニングが完了する前のパラメータ生成モデル1222の入力レイヤから出力レイヤまでトレーニング方言情報を伝播することによって、臨時方言パラメータを算出する。臨時方言パラメータは、トレーニングが完了する前のパラメータ生成モデル1222の出力を示す。

そして、ステップS1120において、トレーニング装置1200は、臨時方言パラメータが適用された音声認識モデル1221がトレーニング音声から基準認識結果(reference recognition result)を出力するよう、パラメータ生成モデル1222及び音声認識モデル1221のうち少なくとも1つをトレーニングする。トレーニング装置1200は、トレーニングが完了する前の音声認識モデル1221に臨時方言パラメータを適用することができる。

トレーニング装置1200は、臨時方言パラメータが適用された音声認識モデル1221の入力レイヤから出力レイヤまでトレーニング音声を伝えることによって臨時出力を算出する。トレーニング装置1200は、臨時出力及び基準認識結果に基づいて損失を算出する。損失は、様々な目的関数によって定義され、これに限定されることはない。トレーニング装置1200は、臨時出力及び基準認識結果に基づいた損失が最小化されるように、パラメータ生成モデル1222及び音声認識モデル1221のパラメータをアップデートする。トレーニング装置1200は、逆伝播方式(back propagation)を介してパラメータ生成モデル1222及び音声認識モデル1221の両方のパラメータを共にアップデートする。ただし、これに限定されることなく、トレーニング装置1200は、パラメータ生成モデル1222及び音声認識モデル1221のいずれか一方のモデルのパラメータのみをアップデートしてもよく、いずれか一方のモデルを先にアップデートした後、残りのモデルをアップデートしてもよい。トレーニング装置1200は、損失が収斂されるまで臨時出力算出、損失算出、及びパラメータ生成モデル1222、及び音声認識モデル1221のパラメータをアップデートする動作を繰り返すことができる。

図6に示す方言分類モデル1223は、別途にトレーニングされたモデルであってもよく、例えば、音声認識モデル1221及びパラメータ生成モデル1222のトレーニングから分離されてもよい。例えば、トレーニング装置1200は、音声信号から方言情報を出力するように方言分類モデル1223をトレーニングすることができる。例えば、トレーニング装置1200は、方言分類モデル1223の入力レイヤから出力レイヤでトレーニング音声を伝播させることによって、臨時方言出力を算出することができる。トレーニング装置1200は、臨時方言出力及び基準方言情報間の損失が最小になるよう、方言分類モデル1223のパラメータをアップデートする。

また、トレーニング装置1200は、方言分類モデル1223を音声認識モデル1221及びパラメータ生成モデル1222と共にトレーニングしてもよい。例えば、トレーニング装置1200は、上述した臨時方言出力をトレーニングが完了していないパラメータ生成モデル1222に伝播することで、臨時方言パラメータを算出することができる。上述したように、トレーニング装置1200は、臨時方言パラメータが適用された音声認識モデル1221を介して臨時出力を算出し得る。トレーニング装置1200は、臨時出力及び基準認識結果に基づいた損失が最小になるよう、音声認識モデル1221、パラメータ生成モデル1222、及び方言分類モデル1223のうちの1つ以上を同時又は順次にトレーニングすることができる。

以上説明した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び/又はデータは、処理装置によって解釈されるか処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されて実行され得る。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DYIJDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態を例として限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は代替されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

900:音声認識装置 910:入出力インタフェース 920:プロセッサ 930:メモリ

标题	发布/更新时间	阅读量
一种端到端的语音意图识别方法	2020-05-08	72
快速识别性别的方法及装置、用于识别性别的算法模型的生成方法	2020-05-08	880
一种基于画屏的语音交互方法、画屏及存储介质	2020-05-08	8
端到端的语音合成方法、装置及存储介质	2020-05-12	473
音频生成方法、装置、计算机可读存储介质及计算设备	2020-05-11	524
与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法	2020-05-08	805
キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム	2020-05-11	643
計量機及び計量機の使用方法	2020-05-12	94
言語識別プログラム、言語識別方法及び言語識別装置	2020-05-12	911
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	926

音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法

该功能需要专业版企业版VIP权限，您可以：