序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
141 State detecting device, state detection method and a program for the state detection JP2010291190 2010-12-27 JP5494468B2 2014-05-14 昭二 早川; 直司 松尾
142 Voice agent device, and control method therefor JP2012235902 2012-10-25 JP2014083658A 2014-05-12 NISHIKAWA YURI; YAMADA KAZUNORI
PROBLEM TO BE SOLVED: To appropriately grasp a space range in which plural persons converse.SOLUTION: A voice agent device 100 includes: a position detection part 202 for detecting a position 222 of a person existing within a conversation space 111 that is a space enabled for the voice agent device 100 to provide information; a voice volume detection part 203 for detecting a voice volume 223 of the person existing within the conversation space 111 from a voice signal 221 of the conversation space 111 obtained by a voice collection part; a conversation area determination part 206 for determining a conversation area 110 as a first range containing the position 222, the conversation area that is a space range in which uttered content of the person existing in the conversation area 110 can be heard, if the voice volume 223 is a first voice volume value, or determining the conversation area 110 as a second range that is narrower than the first range, if the voice volume 223 is a second voice volume value that is smaller than the first voice volume value; and an information provision part 207 for providing the conversation area 110 with provision information.
143 Speech recognition device JP2010548268 2009-10-08 JP5172973B2 2013-03-27 道弘 山崎; 純 石井; 博紀 坂下; 和行 野木
A voice recognition system includes: a voice input unit 11 for inputting a voice uttered a plurality of times; a registering voice data storage unit 12 for storing voice data uttered the plurality of times and input into the voice input unit 11; an utterance stability verification unit 13 for determining a similarity between the voice data uttered the plurality of times that are read from the registering voice data storage unit 12, and determining that registration of the voice data is acceptable when the similarity is greater than a threshold Tl; and a standard pattern creation unit 14 for creating a standard pattern by using the voice data where the utterance stability verification unit 13 determines that registration is acceptable.
144 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム JP2011522695 2010-06-03 JPWO2011007497A1 2012-12-20 孝文 越仲
音声データ解析装置は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、話者モデル導出手段が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段とを備えることを特徴とする。
145 Speaker model registration device and method in a speaker recognition system, and computer program JP2008507435 2007-03-16 JP4854732B2 2012-01-18 聡一 外山
146 Method and apparatus for performing the evaluation of the voice of the degree of similarity JP2006081853 2006-03-24 JP4527679B2 2010-08-18 靖雄 吉岡; 毅彦 川▲原▼; 理 後藤; 三樹夫 東山; 道子 風間
147 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム JP2009503831 2007-03-14 JPWO2008111190A1 2010-06-24 外山 聡一; 聡一 外山; 藤田 育雄; 育雄 藤田; 幸生 鴨志田
話者の認識性能が低い音響モデルが登録されることを確実に防止することができる音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラムを提供する。話者がN発話分の発話を行うことによって、マイクロフォン1が、発話された発話音声をN発話数分入すると、音声特徴量抽出部4が、この入力された発話音声の音響的特徴を示す音声特徴量を各発話毎に対応して抽出し、話者モデル作成部5が、抽出されたN発話分の音声特徴量に基づいて話者モデルを生成し、照合部6が、N発話分の音声特徴量夫々と作成された話者モデルとの間における各類似度を算出し、類似度検証部9が、算出されたN発話分の類似度全てが閾値以上である場合にのみ、作成された話者モデルを話者認識に用いる話者モデルとして話者モデルデータベースに登録する。
148 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム JP2008507445 2007-03-20 JPWO2007111197A1 2009-08-13 外山 聡一; 聡一 外山; 藤田 育雄; 育雄 藤田; 岳彦 塩田
話者認識システム(1)における話者モデル登録装置(10)は、n(nは2以上の整数)個の発話の取得を行う取得手段(13)と、該取得されたn個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出手段(15)と、n個の発話のうち類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段(16)とを備える。そして、該検証の結果として不適格発話が存在しない場合に、不適格発話を含まないn個の発話に基いて、話者モデルの算出を行う話者モデル算出手段(20)と、該算出が行われた話者モデルを、話者認識用の話者モデルとして登録する登録手段(40)とを備える。
149 Method and device for evaluating similarity of speech JP2006081853 2006-03-24 JP2007256689A 2007-10-04 HIGASHIYAMA MIKIO; KAZAMA MICHIKO; GOTO OSAMU; KAWAHARA TAKEHIKO; YOSHIOKA YASUO
<P>PROBLEM TO BE SOLVED: To provide a technical means for improving precision of evaluation of similarity of a speech by greatly reflecting individual differences of a speaker on a feature quantity of the speech. <P>SOLUTION: A frequency analysis part 51 and an envelop-by-band generation part 52 extract components belonging to a plurality of bands spaced on a frequency axis from an input speech, and output their envelopes E-i (i=1 to N). A correlation value calculation part 53 calculates correlation values ajk between E-j and E-k as to all combinations (j, k) within a range of j=1 to N, k=1 to N and outputs an inter-vand correlation matrix including them as elements. The inter-band correlation matrix is used as a feature quantity of the speech to evaluate the similarity of the speech. <P>COPYRIGHT: (C)2008,JPO&INPIT
150 Generating apparatus of speaker identification device updating data, method and program, and updating apparatus of speaker identificaion device, method and program JP2005241761 2005-08-23 JP2007057714A 2007-03-08 ONISHI YOSHIFUMI
<P>PROBLEM TO BE SOLVED: To provide a speaker collating device or the like, capable of updating an identification device of a registered speaker at a low cost in consideration that voice is changing with aging. <P>SOLUTION: The updating data generation apparatus 10 equipped with an updating data generation means 17 comprises; a function for acquiring a hypothetical score by inputting a characteristic data of voice of the registered speaker to the speaker identification device of the registered speaker, and for generating a score vector sequence of the registered speaker composed of a plurality of vectors in which the hypothetical score is an element; a function for acquiring a hypothetical score by inputting the characteristic data of a background speaker to the speaker identification device of the registered speaker, and for generating a score vector sequence of the background speaker composed of the plurality of vectors in which the hypothetical score is an element; and a function for storing the score vector sequence of the registered speaker and the score vector sequence of the background speaker in a memory device 18. <P>COPYRIGHT: (C)2007,JPO&INPIT
151 Clustering method of audio data segment JP8289795 1995-04-07 JP3745403B2 2006-02-15 ジー.キンバー ドナルド; ディー.ウィルコックス リン
152 Background learning of the speaker's voice JP2002588127 2002-04-25 JP2004528595A 2004-09-16 ヤ−チェルング チュ; ジュ−ミン チュング; ウェイ−ホ ツァイ; チャオ−シー フアング
話者識別システムが、複数の話者モデルを発生する話者モデル発生器110を含んでいる。 この目的のために、該発生器は、バックグラウンドにおいて複数の話者からの訓練発話を、これら発話を行った話者に関する事前の知識無しで記録する。 また、該発生器は、上記訓練発話のブラインドでのクラスタ化を所定の評価規準に基づいて実行する。 これらクラスタの各々に関して、対応する話者モデルが訓練される。 話者識別器130は、話者から入された発話に対して、上記話者モデルのうちの最も確かそうなモデルを決定して、話者を識別する。 該最も確かそうな話者モデルに関連する話者がテスト発話の話者として識別される。
153 Two-stage group selection process for the speaker verification system JP20426197 1997-07-30 JP3390632B2 2003-03-24 ディー ゴールデンタール ウィリアム; エス エバーマン ブライアン
Speech signals from speakers having known identities are used to create sets of acoustic models. The acoustic models along with their corresponding identities are stored in a memory. A plurality of sets of cohort models that characterize the speech signals are selected from the stored sets of acoustic models, and linked to the set of acoustic models of each identified speaker. During a testing session speech signals produced by an unknown speaker having a claimed identity are processed to generate processed speech signals. The processed speech signals are compared to the set of models of the claimed speaker to produce first scores. The processed speech signals are also compared to the sets cohort models to produce second scores. A subset of scores are dynamically selected from the second scores according to a predetermined criteria. The unknown speaker is validated as the claimed speaker if the difference between the first and a combination of the subset of scores is greater than a predetermined threshold value. <IMAGE>
154 Speaker verification and speaker identification based on established knowledge JP2001204031 2001-07-04 JP2002082694A 2002-03-22 KUHN ROLAND; THYES OLIVER; NGUYEN PATRICK; JUNQUA JEAN-CLAUDE; BOMAN ROBERT
PROBLEM TO BE SOLVED: To provide a system and a method in which speaker verification is executed by employing a process that is simpler than a conventional process. SOLUTION: The method assesses the speech related to a client speaker who is beforehand determined. The method comprizes a step in which a set of speech models are simulated based on the speeches of plural training speakers, a step which constitutes of a speaker space based on the speech model of the set to indicate plural simulating speakers, a step which shows the registered speech of the client speaker as a first position in the speaker space and a step which judges whether a new speaker is the client speaker or not based on the first position and new speech data from the new speaker. COPYRIGHT: (C)2002,JPO
155 Multi-resolution system and method of speaker verification JP2000534997 1999-03-03 JP2002506241A 2002-02-26 ラペル、マルチン
(57)【要約】 少なくとも1回発生する発声の話者依存型モデルを生成するための方法が与えられる。 この方法は、発声の各発生を解読する第1解像度を有する開始モデルを生成する段階と、開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様モデルを発声の全ての発生について生成する段階とを含む。
156 Speaker proof system JP53951598 1998-03-10 JP2001514768A 2001-09-11 スンドベルグ,エリク; メリン,ホカン
(57)【要約】 本発明は、システムオペレータが、顧客の音声の記録を分析することにより、その顧客の同一性を検出することができるようにした話者証明及び識別システムにおける方法に関するものである。 話者証明及び識別システムにおいては、顧客から収集された音声データの量が、システムに利用される最少限度に抑えられる。 モデルのパラメータが多ければ多いほど、それは与えられた調整データにより好ましく適用され、同時に、すべての実在するパラメータを評価することができるような信頼性ある方法においては、益々多くの準備データを必要とするが、本発明は、話者モデル中で予め調整された基準モデルを利用することにより、顧客自身が彼又は彼女の登録コールにおいて語る情報に加えて、収集されたデータを好ましく用いることができるようにしたものである。 本発明の中核概念は、前記基準モデルを正モデル及び反モデルの1つのセットにおいて組織化することである。 ここに、正モデルとは、顧客が有する属性であり、反モデルとは、顧客が有しない属性のモデルである。
157 Voice processing device and method JP29876799 1999-10-20 JP2000122688A 2000-04-28 CAYLOR ROBERT ALEXANDER
PROBLEM TO BE SOLVED: To check that training examples are consistent, and to reduce miss match by comparing an average frame score between a first signal and a second signal with a model for storing a score of the worst matching part. SOLUTION: Input to a training process is expressed by a series of characteristic vector extracted by the characteristic extracting part, and the core part of training algorithm operates so as to generate a single word model from only two examples. In flexible dynamic programming arrangement constituting processing of the two training examples 151, 153, a noise frame at a starting point and the tail end of the respective training examples 151, 153 is matched to a soundless or noise model 155 so that the voice parts 151b, 153b are mutually arranged. Next, a word model on the voice is generated by leveling frames in the mutually arranged/constituted parts 151b, 153b. COPYRIGHT: (C)2000,JPO
158 Signal collating device JP14893299 1999-05-27 JP2000030069A 2000-01-28 DOLFING JANNES G A
PROBLEM TO BE SOLVED: To improve a threshold determination and an error rate without using many additional signals by generating a threshold for user specifying signal collating from an individual dependency probability value based upon the learning signal, etc., of an HMM model. SOLUTION: A feature vector ot which is generated by preprocessing is subjected to LDA(linear discrimination analysis) conversion (function block 10) to generate a converted feature vector ot'. When an HMM Model λ for a user specifying signal is given, a block 11 calculates a probability value regarding a group O' of feature vectors ot' by a specific expression from the emission density or probability of a model state. This probability value 1avg is applied to a threshold determination unit which compares it with a threshold τ by a function block 12. The threshold τ is generated according to individual dependency probability 1validate automatically determined with a learning signal used to learn the model λ and an additional matching signal which is not used for learning. Through the comparison with this threshold τ, a source signal corresponding to a Y/N decision or a result of forgery is given. COPYRIGHT: (C)2000,JPO
159 Speaker verification system JP50161897 1996-06-06 JPH11507443A 1999-06-29 アサレー,クヘイルド; シャーマ,マニッシュ; ジャング,シャオユー; デヴァング,ナイク; ファーレル,ケヴィン; マモン,リチャード・ジェイ; リオー,ハン−シェン
(57)【要約】 本発明は、データ融合を用いて、複数の抽出された特徴(60,61,62)および複数の分類部(70,71,72)からのデータを結合する、パターン認識システム(第1図)に関する。 話者パターンは、判別を基本とする分類部および歪みを基本とする分類部の組み合わせによって、高精度の確認を可能とする。 「単一抜き取り」データの訓練集合を用いる新規な手法を用いて、少ないデータ集合(第7A図、第7B図、第7C図)でシステムの訓練が可能となる。 抽出された特徴は、チャネル効果を減少させるポール・フィルタ処理方法(第11B図)、および訓練データおよび検査データ間の相関を高める疑似変形によって改善することができる。
160 Speaker identification apparatus and method JP50039987 1987-12-09 JP2895493B2 1999-05-24 GUREBESU ARAN JON; MIRAA HORU KURISUTOFUAA
QQ群二维码
意见反馈