序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
81 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム JP2016148984 2016-07-28 JP2018017936A 2018-02-01 廣江 厚夫; 岡本 拓磨
【課題】従来技術において、複数の言語による音声対話を適切に支援できなかった。
【解決手段】2以上の異なる言語により発声された入音声に対し、その発話の始端から終端までを検出して該当区間の音声データを取得する受付部と、入力音声の言語を識別する言語識別子を取得する言語識別子取得部と、入力音声および言語識別子に応じて音声認識結果であるテキストを生成する音声認識部と、音声認識結果のテキストと言語識別子とを入力し、前回とは言語識別子が変わっても対話の履歴は維持する一方で言語識別子に応じて異なる内容の出力文を生成する対話制御部と、出力文および言語識別子に応じて音声波形を生成する音声合成部と、音声合成部が取得した音声波形に応じた音声を出力する音声出力部とを具備する音声対話装置により、複数の言語による音声対話を適切に支援できる。
【選択図】図1
82 データを変換する装置及び方法 JP2013188335 2013-09-11 JP6233798B2 2017-11-22 讃井 太郎; 椎木 久恵; 服部 洋一; 橋本 健輔
83 地方なまりを区別する音声データ認識方法、装置及びサーバ JP2016517162 2014-12-18 JP6229046B2 2017-11-08 スー ダン; イン ジャオ
84 表示装置、入力表示方法及び入力表示プログラム JP2017520187 2015-05-28 JPWO2016189735A1 2017-07-13 平井 正人; 正人 平井; 晶子 今石; 嘉道 梅木; 松原 勉; 勉 松原; 直樹 鶴; 山口 貴弘; 貴弘 山口; 孝典 引間; 貴司 山内
なぞり書きの操作を受け付ける操作受付部1と、操作受付部1により受け付けられたなぞり書きの操作から、なぞり書きにより描かれる線の軌跡を判別して、その軌跡を示す軌跡画像を生成する軌跡画像生成部4と、音声の認識結果を示す文字列を取得する文字列取得部5とを設け、表示制御部9が、軌跡画像生成部4により生成された軌跡画像をディスプレイ29に表示するとともに、文字列取得部5により取得された文字列を軌跡画像の上に重ねて表示する。
85 送信装置、送信方法 JP2015208628 2015-10-23 JP2017085221A 2017-05-18 FURUTA HIROSHI
【課題】音声の頭切れの発生を抑制しながら、音声の送信の遅延を抑制する技術を提供する。【解決手段】入部32は、音声信号を入力する。遅延部34は、入力した音声信号を遅延させる。受付部38は、音声信号を送信するための指示を受けつける。送信部46は、受付部38が指示を受けつけた場合、遅延部34において遅延させている音声信号のレベルがしきい値以上であれば、遅延部34において遅延させた音声信号を送信する。一方、送信部46は、遅延部34において遅延させている音声信号のレベルがしきい値より小さければ、入力部32において入力した音声信号を送信する。【選択図】図2
86 多言語コンテンツの音声合成処理 JP2014561003 2013-03-04 JP6105642B2 2017-03-29 フレイザック, クリストファー, ブライアン; ミニフィー, ダレン, シー.
87 音声認識装置および音声認識方法 JP2015548915 2013-11-20 JPWO2015075789A1 2017-03-16 祐介 瀬戸
音声取得部1は、ユーザが自由に発話した原音声を取得する。音声データ加工部7は、原音声信号を加工して加工音声信号を生成する。音響モデル切換部4は、音声認識部5が各言語の音響モデル3−1〜3−xを用いて加工音声信号の音響特徴の時系列データを認識処理して算出した言語ごとの認識スコアに基づいて、複数の音響モデル3−1〜3−xの中から1つの音響モデルを決定する。
88 情報処理装置、出方法およびプログラム JP2013549448 2013-03-13 JPWO2014141413A1 2017-02-16 晋一郎 真鍋
実施形態の情報処理装置は、集音部と、取得部と、出部とを備える。集音部は、非可聴領域に主音声以外の副データが多重化された多重化音声を集音する。取得部は、集音された多重化音声から、前記非可聴領域の副データを取得する。出力部は、取得した副データを出力する。
89 地方なまりを区別する音声データ認識方法、装置及びサーバ JP2016517162 2014-12-18 JP2016520879A 2016-07-14 ダン スー; ジャオ イン
地方なまりを区別する音声データ認識方法、装置及びサーバを提供する。前記地方なまりを区別する音声データ認識方法は、音声データの音声認識信頼度及び/又は信号対雑音比を算出し、前記音声認識信頼度及び/又は信号対雑音比に基づいて、音声データから地域性の音声データを選別する(S110)ステップと、前記地域性の音声データの地域属性に基づいて、前記地域性の音声データが属する地域を確定する(S120)ステップと、を含む。当該地方なまりを区別する音声データ認識方法、装置及びサーバは、音声データの信頼度と信号対雑音比を算出し、地域性の音声データを大量の音声データから自動的に認識することによって、音声データに対して手動でタグ付けを行うのを回避し、音声データ処理の効率を向上した。【選択図】図1
90 音声認識 JP2015122505 2015-06-18 JP2016014874A 2016-01-28 マイケル・ゴールディング; スリードハーラン・ディーパック・ナイア; レスリー・ウィン; モハン・ヴィジャヤラヤ・パンディアン
【課題】UI(ユーザインタフェース)言語を切り替える改善された方法及びシステムを提供する。
【解決手段】音声コマンドが、装置に関連付けられた音声認識部305から、装置に関連付けて構成された言語切り替えモジュール280により受信される。音声コマンドは、言語データベース320を用いて、装置に関連付けられた言語を識別するために、認識され、特定のコンテンツへと処理される。その後、取扱説明書を参照することなく、言語を変更できるように、言語は、検出された言語に基づき、変更される。ユーザは、ユーザの装置に関連付けられた機械又は装置に向かって歩き、所望の/知っている言語を話す。装置は、音声を「聞き」、言語を検出し、それに応じて、ユーザインタフェースを変更する。
【選択図】図3
91 単語自動翻訳に基づく唇形状変更装置および方法 JP2015531005 2013-09-05 JP2016502157A 2016-01-21 チョル キム,サン
単語自動翻訳に基づく唇形状変更装置および方法を提供する。本発明は、ユーザーがカメラを介して自分の顔を撮影しながらマイクを介して音声を入した場合、前記カメラを介して撮影された映像から、前記ユーザーの唇が位置する領域を区分し、前記ユーザーの音声を認識し、前記区分された唇が位置する領域に対して、前記認識された音声に対応する単語が別の言語に翻訳される場合に対する唇の形状を表現する部分映像を挿入することにより、ユーザーから音声で入力した単語が別の言語に翻訳されるときに、それに該当する唇の形状も自動的に変更されるようにすることができる。
92 多言語コンテンツの音声合成処理 JP2014561003 2013-03-04 JP2015520861A 2015-07-23 クリストファー, ブライアン フレイザック,; ダレン, シー. ミニフィー,
ユーザが、テキスト音声変換を実行するために使用する言語を複数の言語から選択することを可能にする技術。いくつかの実施形態において、複数の言語が、テキストの一部のテキスト音声変換の実行に適していると判断すると、複数の言語がユーザに対して表示され得る。すると、ユーザは、複数の言語から使用する特定の言語を選択し得る。その後、テキストの一部分をユーザが選択した言語で音声に変換し得る。【選択図】図2
93 ナビゲーション装置および方法 JP2013533337 2011-09-13 JP5686903B2 2015-03-18 匠 武井; 友紀 古本
94 Hybrid client-server speech recognition JP2013554691 2012-02-22 JP2014510942A 2014-05-01 アジャイ・ジュネジャ
受信コンピューティングデバイスは、音声発話を受信して、音声認識によって処理されて音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化することができる。 2つもしくはそれ以上の音声発話セグメントのそれぞれは、複数の利用可能な音声認識器の1つに割り当てられる。 複数の利用可能な音声認識器の第1の音声認識器は、データネットワークを介してアクセス可能な別のコンピューティングデバイス上に実装される。 第1のセグメントは、第1の認識器によって処理され、処理の結果は受信コンピューティングデバイスに戻される。 第2のセグメントは、受信コンピューティングデバイスにおいて実装された第2の認識器によって処理される。
95 音声認識装置 JP2012536034 2010-10-01 JPWO2012042578A1 2014-02-03 加藤 陽一; 陽一 加藤; 石井 純; 純 石井; 博紀 坂下
設定言語に対応する音声認識エンジンを用い、音声認識辞書に登録された認識対象語を参照して入音声を音声認識する音声認識部23aと、単語の複数の言語間の読み情報の対応関係を示す読み情報変換ルールLが登録された読み情報変換データベースと、読み情報変換データベースの読み情報変換ルールLに基づいて言語間で単語の読み情報を変換する読み情報変換部27aと、音声認識部23aで認識対象語情報Eを参照する認識対象語彙の中に設定言語と異なる他言語の単語が含まれる場合、読み情報変換部27aによって他言語の読み情報を設定言語の読み情報へ変換させ、音声認識部23aが、変換された設定言語の読み情報を含む当該単語の認識対象語情報を参照した音声認識を行うように制御する音声認識制御部24aとを備える。
96 Speech recognition device JP2012536034 2010-10-01 JP5259020B2 2013-08-07 陽一 加藤; 純 石井; 博紀 坂下
A speech recognition device includes: a speech recognition unit 23a that performs speech recognition for input speech; a reading information conversion data base in which a reading information conversion rule L is registered; a reading information conversion unit 27a that converts reading information of the word among the languages based on the rule L; and a speech recognition control unit 24a that performs control such that, when a word in a different language that is different from a predetermined language is included in a recognition subject vocabulary in which a speech recognition unit 23a refers to recognition subject word information E, the unit 27a converts the reading information in the different language into reading information in the predetermined language, and that the unit 23a performs the speech recognition that makes reference to the recognition subject word information of the corresponding word, including the converted reading information in the predetermined language.
97 Apparatus for performing machine translation, system, method, and program JP2006261350 2006-09-26 JP4398966B2 2010-01-13 哲朗 知野; 聡史 釜谷; 建太郎 降幡
98 Gaming machine JP2008248093 2008-09-26 JP2009189796A 2009-08-27 OKADA KAZUO
<P>PROBLEM TO BE SOLVED: To provide an innovative gaming machine which has a speech translation function operated suitably for amusement. <P>SOLUTION: A message display area 85 of a sub monitor 111 provided in each station displays contents uttered by each player through a microphone 116 provided in each station in an output language of the station. The contents displayed on the message display area 85 are outputted as speech from a speaker 117. The speech outputted from speaker 117 is outputted in the output language of the station as well. If the output language differs from the language used by the player when the player makes an utterance through the microphone 116 of the station, the setting of the output language is changed to the language used by the player. The setting of the output language is changed by using a language selecting button 88 displayed on the sub monitor 111. <P>COPYRIGHT: (C)2009,JPO&INPIT
99 Set of interactive language by speech JP2002551835 2001-12-06 JP2004516517A 2004-06-03 ヘステル,ヘンリクス アー ウェー ファン
音声制御電子装置は、この電子装置の個々の機能を作動させるためのコントローラを含む。 このコントローラはさらにユーザーとの対話において使用される言語に対応する言語アトリビュートを設定する。 そしてこのコントローラは、ユーザーとの対話が少なくとも部分的には実際にこの対応言語によって行われるようにする。 この電子装置は、音声コマンドを受け取るための入を含む。 また、ここにおける発話認知器は、発話入力から1以上の音声コマンドを認知する。 この音声コマンドは装置の所定の第1機能と、言語アトリビュートを設定するという第2機能との2つの異なる機能に対応する。 コントローラは、認知されたコマンドの第2機能にしたがって言語アトリビュートを設定する。
100 Fit method of hidden Markov sound model in a speech recognition system JP51315098 1997-09-10 JP2001503154A 2001-03-06 ブープ ウド; ヘーゲ ハーラルト; ケーラー ヨアヒム
(57)【要約】 本発明によれば一般的な音声認識装置で使用されるコードブック(CB)がアプリケーション専用の場合に隠れマルコフ音声モデルにより適合化される。 この場合ユーザによって変更された辞書(LEX)によりアプリケーションが規定される。 適合化(ADAP)は動作中、隠れマルコフモデルの確率密度分布の記憶された平均値ベクトルをシフトすることにより、音声表示の既知の特徴ベクトルの方向で、かつ専用で使用される隠れマルコフモデルに対して行われる。 従来の方法に比べて本発明はオンラインで実施することができ、またきわめて高い識別速度がわずかな計算コストで保証される利点を有する。 さらに相応のアプリケーションに専用の音声モデルをトレーニングするコストが必要なくなる。 多言語での音素から専用の隠れマルコフモデルを用いて種々の言語にわたる音声の類似を利用することにより、外国語への自動的な適合が可能となる。 ここで使用される音響的音素的モデリング方法では、種々の言語での種々の隠れマルコフ音声モデルの確率密度を統合する際に言語特有の特性も言語に依存しない特性も考慮することができる。
QQ群二维码
意见反馈