首页 / 专利库 / 人工智能 / 人工智能 / 机器人技术 / 机器人 / 社交机器人 / ロボット制御装置、ロボット制御方法及びロボット制御プログラム

ロボット制御装置、ロボット制御方法及びロボット制御プログラム

阅读:152发布:2020-07-06

专利汇可以提供ロボット制御装置、ロボット制御方法及びロボット制御プログラム专利检索,专利查询,专利分析的服务。并且【課題】ロボットがユーザと共に映像を視聴しているかのようなアクションを実現し、ロボットがユーザに対して共感を生じさせる。 【解決手段】ソーシャルメディアサーバ7から視聴中の番組に関するコメントを取得し、ロボット2に設定されたパーソナリティと一致するパーソナリティ一致話者のコメントからロボット2に発話させる発話内容を決定するとともに、発話内容の対話状態とロボット2の感情状態に基づいてロボット2に実行させるアクション内容を アクションデータベース15から抽出する。これにより、視聴中の番組の内容に応じたアクションをロボット2に実行させることが可能となる。発話内容を決定する際に、ロボットに設定されたパーソナリティでコメントを絞り込むことで、一貫性のある発話・アクションをロボット2に実行させることが可能となる。 【選択図】図1,下面是ロボット制御装置、ロボット制御方法及びロボット制御プログラム专利的具体信息内容。

ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御装置であって、 前記映像に対して投稿されたコメントを取得するコメント取得手段と、 前記コメントから前記ロボットに発話させる発話文を生成する発話文生成手段と、 前記コメントから前記ロボットの感情状態を決定する感情決定手段と、 前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段と、 前記アクション蓄積手段を参照し、前記発話文生成手段が生成した発話文の対話状態と前記感情決定手段が決定した感情状態から前記ロボットに実行させるアクションを決定するアクション決定手段と、 前記発話文生成手段が生成した発話文を音声合成して前記ロボットに出させるとともに、前記アクション決定手段が決定したアクションに基づく動作を前記ロボットに実行させる制御手段と、 を有することを特徴とするロボット制御装置。前記ロボットに設定されるパーソナリティの情報を蓄積したパーソナリティ蓄積手段を有し、 前記発話文生成手段は、前記パーソナリティに一致する投稿者が投稿した前記コメントから前記発話文を生成することを特徴とする請求項1記載のロボット制御装置。前記ユーザの方向を取得する方向取得手段を有し、 前記アクションは、前記ユーザの方向を見るアクションを含むことを特徴とする請求項1又は2記載のロボット制御装置。ユーザとともに映像を視聴するような動作をロボットに実行させるコンピュータによるロボット制御方法であって、 前記映像に対して投稿されたコメントを取得するステップと、 前記コメントから前記ロボットに発話させる発話文を生成するステップと、 前記コメントから前記ロボットの感情状態を決定するステップと、 前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段を参照し、前記発話文を生成するステップで生成した発話文の対話状態と前記感情状態を決定するステップで決定した感情状態から前記ロボットに実行させるアクションを決定するステップと、 前記発話文を生成するステップで生成した発話文を音声合成して前記ロボットに出力させるとともに、前記アクションを決定するステップで決定したアクションに基づく動作を前記ロボットに実行させるステップと、 を有することを特徴とするロボット制御方法。ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御プログラムであって、 前記映像に対して投稿されたコメントを取得する処理と、 前記コメントから前記ロボットに発話させる発話文を生成する処理と、 前記コメントから前記ロボットの感情状態を決定する処理と、 前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段を参照し、前記発話文を生成する処理で生成した発話文の対話状態と前記感情状態を決定する処理で決定した感情状態から前記ロボットに実行させるアクションを決定する処理と、 前記発話文を生成する処理で生成した発話文を音声合成して前記ロボットに出力させるとともに、前記アクションを決定する処理で決定したアクションに基づく動作を前記ロボットに実行させる処理と、 をコンピュータに実行させることを特徴とするロボット制御プログラム。

说明书全文

本発明は、ロボットを制御する技術に関する。

人間同士の間で、ある表情表出において他人が同調的に感情表出をした場合、同調的反応によって被験者の幸福表情は促進され、怒り・悲しみ表情は弱められることが分かっている。そのため、ロボットと映像を共視聴することで共に映像内容に対して笑い・喜び・悲しみ・怒りといった同調的反応をすることは、一人きりで映像を見た場合よりも笑い・喜びといった感情を促進し、悲しみ・怒りといった感情を抑えることが可能となる。

また、人とCG人物とのコミュニケーション研究において、共感を与えるような表情変化をCG人物に行わせることで人に対し親和動機を与えることが指摘されている。親和動機とは、相手に対して近寄り・協し・行為に報いることを求める欲求と定義されており、人は自分と類似した態度をとる他者に対して親和動機を抱くと考えられている。

映像視聴時にユーザがロボットに対し共感を得たと感じさせる技術として、非特許文献1では、ユーザの視聴番組ログと視聴中の発話から視聴番組に対するユーザの評価をプロファイルとして推定し、視聴中にユーザが退屈そうであればプロファイルを用いてロボットが他のテレビ番組を推薦することで、ロボットに対しユーザの共感を生む技術が開示されている。

また、非特許文献2では、視聴番組に関するソーシャルメディア上のコメントをロボットが発話文として用いユーザに向けて対話を行い、更にロボットがユーザからの発話をソーシャルメディア上へコメントとして投稿することで、ロボットがソーシャルメディアの仲介役を行う技術が開示されている。

高橋達、他2名、“高齢者の発話機会増加のためのソーシャルメディア仲介ロボット”、信学技報、電子情報通信学会,2012年10月、第112巻、第233号、pp.21-26

高間康史、他5名、“テレビ視聴時の情報推薦に基づくヒューマン・ロボットコミュニケーション”、第21回人工知能学会全国大会、人工知能学会、2007年、2D5-5

しかしながら、非特許文献1では、番組単位のユーザ評価により他の番組を紹介しているのみで、現在見ている映像の内容について感情表現を行ったり発話を行ったりすることはできない。また、映像やディスプレイに対する電源ON−OFFや音量調整といったユーザの操作についての感情表現や発話もチャンネルの変化についてのみであったため、共感を生じさせる影響が限定的であった。

また、非特許文献2においてもテレビ内容に合わせたアクションによる感情表現は実現されていない。発話内容についてもソーシャルメディアを利用する場合はロボットの発話に一貫性を持たせることが難しく、非特許文献2においてもロボットが一貫性の無い発話をしてしまうことについてネガティブな感想が寄せられている。一貫性の無い発話に対しネガティブな感想が寄せられてしまう原因として、例えばユーザと共に視聴している番組に対して女性の話すような発話内容で発話をしていたロボットが、突然男性の発話内容で話し出してしまうと、ユーザの中でそれまで共にテレビを見ていたロボットのエージェンシーが崩れてしまうためと考えられる。そのため、一貫性を保った発話をさせることは重要となる。非特許文献2においては、一貫性の実現方法について「なりきり方式」としてソーシャルメディア上のコメントをテキストの意味属性の解釈を行い、一貫性のある意見のみを抽出し発話することで実現すると述べられているが、一般にソーシャルメディアから一貫性のある意見のみを抽出する事は容易ではなく、具体的な実現方法については述べられていない。また非特許文献2においては、ユーザの操作に対する感情表現や発話については述べられていない。そのため、非特許文献2においても共感を生じさせる影響は限定的であった。

本発明は、上記に鑑みてなされたものであり、ロボットがユーザと共に映像を視聴しているかのようなアクションを実現し、ロボットがユーザに対して共感を生じさせることを目的とする。

第1の本発明に係るロボット制御装置は、ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御装置であって、前記映像に対して投稿されたコメントを取得するコメント取得手段と、前記コメントから前記ロボットに発話させる発話文を生成する発話文生成手段と、前記コメントから前記ロボットの感情状態を決定する感情決定手段と、前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段と、前記アクション蓄積手段を参照し、前記発話文生成手段が生成した発話文の対話状態と前記感情決定手段が決定した感情状態から前記ロボットに実行させるアクションを決定するアクション決定手段と、前記発話文生成手段が生成した発話文を音声合成して前記ロボットに出力させるとともに、前記アクション決定手段が決定したアクションに基づく動作を前記ロボットに実行させる制御手段と、を有することを特徴とする。

上記ロボット制御装置において、前記ロボットに設定されるパーソナリティの情報を蓄積したパーソナリティ蓄積手段を有し、前記発話文生成手段は、前記パーソナリティに一致する投稿者が投稿した前記コメントから前記発話文を生成することを特徴とする。

上記ロボット制御装置において、前記ユーザの方向を取得する方向取得手段を有し、前記アクションは、前記ユーザの方向を見るアクションを含むことを特徴とする。

第2の本発明に係るロボット制御方法は、ユーザとともに映像を視聴するような動作をロボットに実行させるコンピュータによるロボット制御方法であって、前記映像に対して投稿されたコメントを取得するステップと、前記コメントから前記ロボットに発話させる発話文を生成するステップと、前記コメントから前記ロボットの感情状態を決定するステップと、前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段を参照し、前記発話文を生成するステップで生成した発話文の対話状態と前記感情状態を決定するステップで決定した感情状態から前記ロボットに実行させるアクションを決定するステップと、前記発話文を生成するステップで生成した発話文を音声合成して前記ロボットに出力させるとともに、前記アクションを決定するステップで決定したアクションに基づく動作を前記ロボットに実行させるステップと、を有することを特徴とする。

第3の本発明に係るロボット制御プログラムは、ユーザとともに映像を視聴するような動作をロボットに実行させるロボット制御プログラムであって、前記映像に対して投稿されたコメントを取得する処理と、前記コメントから前記ロボットに発話させる発話文を生成する処理と、前記コメントから前記ロボットの感情状態を決定する処理と、前記ロボットに発話させる発話文の対話状態と前記ロボットの感情状態と前記ロボットに実行させるアクションとを関連付けて記憶したアクション蓄積手段を参照し、前記発話文を生成する処理で生成した発話文の対話状態と前記感情状態を決定する処理で決定した感情状態から前記ロボットに実行させるアクションを決定する処理と、前記発話文を生成する処理で生成した発話文を音声合成して前記ロボットに出力させるとともに、前記アクションを決定する処理で決定したアクションに基づく動作を前記ロボットに実行させる処理と、をコンピュータに実行させることを特徴とする。

本発明によれば、ロボットがユーザと共に映像を視聴しているかのようなアクションを実現し、ロボットがユーザに対して共感を生じさせることができる。

本実施の形態におけるロボット制御装置を含む全体構成図である。

ロボットパーソナリティ属性情報の例を示す図である。

アクションデータベースに格納されるアクション決定テーブルと制御シーケンステーブルの例を示す図である。

定型発話文データベースに格納される定型発話文の例を示す図である。

ポジネガ単語データベースに格納されるデータの例を示す図である。

口調変換データベースに格納されるデータの例を示す図である。

番組関連発話・アクションタグデータベースに格納されるデータの例を示す図である。

電子番組表情報データベースが保持するデータの例を示す図である。

番組−ソーシャルメディアタグ関連データベースが保持するデータの例を示す図である。

ソーシャルメディアサーバが保持するソーシャルメディアコメント情報の例を示す図である。

位置取得サーバが保持するユーザ・ディスプレイ方位情報の例を示す図である。

ディスプレイ状態変更に基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

盛り上がり値とパーソナリティ一致話者コメント情報を取得する処理の流れを示すフローチャートである。

盛り上がり値とパーソナリティ一致話者コメント情報に基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

盛り上がり値とポジティブ・ネガティブ値に基づく感情状態のマップを示す図である。

番組に付随するシナリオに基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

決定した発話内容とアクション内容に基づいてロボットに発話とアクションを実行させる処理の流れを示すフローチャートである。

ロボット制御装置により制御されたロボットの様子を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

図1は、本実施の形態におけるロボット制御装置を含む全体構成図である。

本実施の形態におけるロボット制御装置1は、リモコン3によって操作されるテレビ番組表示機能を有するディスプレイ4の状態変化(例えば電源ON,OFFや音量の変化など)、ソーシャルメディアサーバ7に投稿された視聴中のチャンネル(=番組)に関連するコメント、および視聴中のチャンネルに付随するシナリオ、に基づいて発話・アクション内容を決定し、ロボット2を制御する装置である。

[ロボット制御装置の構成] まず、本実施の形態におけるロボット制御装置1の構成について説明する。

ロボット制御装置1は、ディスプレイ情報処理部11、ソーシャルメディア情報取得部12、発話・アクション決定部13、ロボットパーソナリティ属性情報データベース14、アクションデータベース15、定型発話文データベース16、ポジネガ単語データベース17、口調変換データベース18、および番組関連発話・アクションタグデータベース19を備える。ロボット制御装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはロボット制御装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。図1では、ロボット制御装置1とロボット2とを分けて示しているが、ロボット2内にロボット制御装置1を組み込んでもよい。

ディスプレイ情報処理部11は、リモコン3によりディスプレイ4が操作された内容を含むディスプレイ状態変更情報や視聴チャンネル変更情報を取得し、ディスプレイ状態変更情報は発話・アクション決定部13に送信し、視聴チャンネル変更情報を取得した場合は、新たに視聴するチャンネルの情報を取得してソーシャルメディア情報取得部12に送信する。また、視聴中のチャンネルに関する発話・アクションタグ情報が番組関連発話・アクションタグデータベース19に存在する場合は、視聴中のチャンネルに関する発話・アクションタグ情報を取得して発話・アクション決定部13に送信する。

ソーシャルメディア情報取得部12は、視聴中のチャンネルの情報をディスプレイ情報処理部11から受信し、視聴中のチャンネルに関するコメントをソーシャルメディアサーバ7から取得し、ロボットに設定されたパーソナリティと一致するパーソナリティの話者(以下、「パーソナリティ一致話者」という)のコメントと視聴中のチャンネルの盛り上がり度合いを示す盛り上がり値を求め、発話・アクション決定部13に送信する。

発話・アクション決定部13は、ディスプレイ情報処理部11から受信したディスプレイ状態変更情報と発話・アクションタグ情報、ソーシャルメディア情報取得部12から受信したパーソナリティ一致話者コメント情報と盛り上がり値に基づき、ロボットに発話させる発話内容及びロボットにさせるアクション内容を決定してロボットを制御する。発話・アクション内容を決定する際にはロボット2に設定されたロボットパーソナリティを考慮する。

[ロボット制御装置が保持するデータ] 続いて、ロボット制御装置1が保持するデータについて説明する。

ロボットパーソナリティ属性情報データベース14は、ロボットに設定されるパーソナリティを表すロボットパーソナリティ属性情報を格納する。ロボットパーソナリティ属性情報は、ソーシャルメディア情報取得部12がパーソナリティ一致話者を抽出するとき、および発話・アクション決定部13が発話・アクション内容を決定するときに用いられる。

図2に、ロボットパーソナリティ属性情報データベース14に格納されるロボットパーソナリティ属性情報の例を示す。ロボットパーソナリティ属性情報は、図2(a)に示す映像依存のロボットパーソナリティと図2(b)に示す固定のロボットパーソナリティの2種類のパーソナリティ属性情報で構成される。

映像依存のロボットパーソナリティには、カテゴリ毎に、単数または複数の属性、属性値、属性重みのセットが設定される。カテゴリは、スポーツ・ニュース・ドラマなど映像の種類を表すものから構成され、サブカテゴリを持つカテゴリもある。例えば、メインカテゴリがスポーツである場合は、サッカー、野球、バスケットボールなどがサブカテゴリとなる。属性は、番組に対し個人が持ちうる趣味や趣向の要素を表し、例えば、サッカー番組における好きなチーム・好きな選手やニュース番組における好きなジャンルなどから構成される。属性値は、属性に対する具体的な趣味や趣向の項目であり、例えば、好きなチームの属性に対し属性値はチームB,好きなジャンルの属性に対して属性値は芸能などの値が記載される。属性重みは、各属性にそれぞれ付与され、その属性の属性値の一致がパーソナリティの類似性判定に対して、どれだけ寄与するかを表す重みづけである。

固定のロボットパーソナリティは映像に依存しない固定されたパーソナリティであり、属性、属性値、属性重みのセットで構成される。属性として性別や年代を持ち、属性が性別の場合は属性値として男性又は女性が設定され、属性が年代の場合は属性値として20代、30代・・が設定される。属性重みは、映像依存のロボットパーソナリティと同様の、各属性に対する重みづけである。

アクションデータベース15は、発話・アクション決定部13がロボット2のアクション内容を決定するときに用いるアクション決定テーブルと、各アクションについてのロボットの制御シーケンスを記載した制御シーケンステーブルを格納する。

図3(a)は、アクション決定テーブルの例であり、図3(b)は、制御シーケンステーブルの例である。

アクション決定テーブルには、対話状態トリガー、感情状態トリガー、動作名、および実行速度をセットとしたデータが格納される。対話状態トリガーには、「話しかけ」と「感想」のいずれかの値が入る。対話状態は、発話・アクション決定部13が決定した発話内容により決められるものであり、発話内容が話しかける内容であれば話しかけ、感想を述べる内容であれば感想となる。感情状態トリガーには、喜び、驚きなどロボット2に設定される感情状態の値が入る。感情状態は、発話・アクション決定部13が決定した発話・アクション内容に応じて決められて、発話・アクション決定部13が備える記憶領域に格納されている。動作名は、例えば、うなずく、首を横に振る、万歳をするなどロボット2にさせるアクションを識別するためのラベルである。実行速度は、動作名で指定された動きを実行する際の速度に関するパラメータであり、値が大きいほどアクションを実行する速度が速くなる。発話・アクション決定部13は、アクション決定テーブルを参照し、対話状態、感情状態に基づいてロボット2にさせるアクション内容を決定する。

制御シーケンステーブルには、動作名とアクチュエータ制御シーケンスをセットとしたデータが格納される。動作名は、アクション決定テーブルと対応するラベルであり、一連のアクチュエータ制御シーケンスをロボットが実行した際のロボット動作の様子を示している。アクチュエータ制御シーケンスは、ユーザ方位必要の有無、ディスプレイ方位必要の有無に加えて、モータ制御箇所と値、シーケンス移動間隔で構成されるデータのリストで構成される。ユーザ方位必要の有無、ディスプレイ方位必要の有無には、該当するアクションをする際に、ユーザ方位、ディスプレイ方位が必要であるか否かが指定される。モータ制御箇所と値には、例えば頭部チルト0度、左腕チルト角0度というように、制御対象のアクチュエータ箇所とそのアクチュエータに設定する角度値が入る。モータ制御箇所と値のデータは、例えば図3(b)のうなずく動作であれば、頭部チルト角0度から始まり,頭部チルト角−40度、頭部チルト角0度と逐次リスト形式で保持されており、左側から順番に指定の角度になるまでアクチュエータ制御が実施される。シーケンス移動間隔には、同列のモータ制御箇所と値から次のモータ制御箇所と値に遷移する際の遷移間隔を示す値が入り、値が小さいほど遷移する速度が速くなる。

定型発話文データベース16は、ディスプレイ4の状態変化時のロボット2の発話内容を記載した定型発話文を格納する。発話・アクション決定部13は、ディスプレイ状態変更情報を受信したときに、定型発話文データベース16を参照し、ディスプレイ状態変更情報の内容、現在の感情状態、およびロボットパーソナリティからロボット2に発話させる発話内容を決定するとともに、実行時の感情状態を得る。

図4に、定型発話文データベース16に格納される定型発話文の例を示す。同図に示す定型発話文は、テレビ状態遷移、元の感情状態、実行する感情状態、対話状態、発話内容、およびロボットパーソナリティをセットとしたデータの集合からなる。テレビ状態遷移には、電源ON、電源OFF、チャンネル変更、音量大、音量小など、ディスプレイ4の操作により変化したディスプレイ4の状態変化が入る。元の感情状態と実行する感情状態は、驚きや喜びなどのロボットの感情状態を示す値が入る。元の感情状態には、全ての感情状態を表すALLや疲労・眠い・悲しみのように複数の感情状態を含んでもよい。対話状態は、発話内容を実行する場合の発話態度であり話しかけ又は感想の値が入る。発話内容は、「一緒にテレビ見ようよ」のように、実際にロボットが発話する文字列が入る。ロボットパーソナリティは、発話内容にあったパーソナリティを示す値が入る。図4の例では、性別と年代を記載している。

ポジネガ単語データベース17は、単語の意味が、ポジティブな内容であるか、ネガティブな内容であるかを示すデータを格納する。発話・アクション決定部13は、パーソナリティ一致話者コメント情報を受信したときに、ポジネガ単語データベース17を参照し、そのコメント内の単語がポジティブであるかネガティブであるかを判定してポジティブ・ネガティブ値を算出する。ポジティブ・ネガティブ値は、盛り上がり値と合わせて感情状態を決定するのに用いられる。また、ロボット2に発話させる音声の高低等を決定するのにも用いられる。

図5に、ポジネガ単語データベース17に格納されるデータの例を示す。ポジネガ単語データベース17に格納されるデータは、単語、ポジティブ、ネガティブの3つの要素で構成される。単語には、凄い、きれい、残念などの単語が入る。単語がポジティブな意味であればボジティブの欄に1、ネガティブの欄に0が入り、単語がネガティブな意味であればボジティブの欄に0、ネガティブの欄に1が入る。

口調変換データベース18は、発話内容の口調を変換するための変換データを格納する。発話・アクション決定部13は、パーソナリティ一致話者コメント情報から発話内容を決定し、口調変換データベース18を参照して、その発話内容の口調を変換する。

図6に、口調変換データベース18に格納されるデータの例を示す。口調変換データベース18に格納されるデータは、変換元と変換先のセットで構成される。変換元、変換先のどちらも文字列である。

番組関連発話・アクションタグデータベース19は、ディスプレイ4で映される番組に合わせてロボット2に発話させる発話内容などを格納する。ディスプレイ情報処理部11が、視聴中のチャンネルの情報を取得して、番組関連発話・アクションタグデータベース19内に該当する番組のデータが格納されているか否か判定し、視聴中の番組に該当するデータが格納されている場合は、そのデータを発話・アクション決定部13へ送信し、発話・アクション決定部13は、番組の再生時刻、ロボットパーソナリティに基づいてロボット2に発話させる発話内容を決定する。

図7に、番組関連発話・アクションタグデータベース19に格納されるデータの例を示す。番組関連発話・アクションタグデータベース19に格納されるデータは、チャンネル情報、番組名、動作開始時間、実行アクション、実行する感情状態、発話内容、およびロボットパーソナリティで構成される。チャンネル情報は、テレビ番組のチャンネルを表している。番組名は、各チャンネルで行われているテレビ番組の名前を示している。動作開始時間は、番組の開始時刻を基準として、実行アクション、発話内容を実施させるタイミングを示す時間である。実行アクションは、ロボットが実行する動作名を示している。実行する感情状態は、アクション実行時のロボットの感情状態を示している。発話内容は、アクション実行と同時にロボットが発話する発話文を示したテキストである。ロボットパーソナリティは、実行アクションや発話内容にあったパーソナリティを示す値である。図7の例では、性別と年代を記載している。

[ロボット制御装置が利用する外部のデータ] 続いて、ロボット制御装置1が利用する外部のサーバや外部のデータベースが保持するデータについて説明する。

図8は、電子番組表情報データベース5が保持するデータの例を示す図である。ディスプレイ情報処理部11は電子番組表情報データベース5を参照し、ディスプレイ4で視聴中のチャンネルの番組名やカテゴリを取得する。

図8に示す電子番組表情報は、チャンネル情報、カテゴリ、番組名、開始時刻、および終了時刻のセットで構成される。電子番組表情報には、各番組がどのチャンネルで何時から何時まで放送されるかが示されている。カテゴリは番組内容に応じた分類を示す情報である。

図9は、番組−ソーシャルメディアタグ関連データベース6が保持するデータの例を示す図である。番組−ソーシャルメディアタグ関連データベース6は、ソーシャルメディア情報取得部12がユーザが視聴中の番組に関連するコメントを抽出するために用いる。

図9に示す番組−ソーシャルメディアタグ関連データベース6では、番組名、複数の番組関連タグのセットを保持する。番組関連タグとは、ソーシャルメディアサーバを利用する利用者が特定のテレビ番組に関してコメントしたことを示すために意図的にコメント内につける共通の文字列である。図9の例では、ソーシャルメディアタグは記号#から始まる半角の英語大文字の文字列とする。この番組関連タグを含むコメントを抽出することで、番組に関連するコメントのみを抽出することができる。

図10は、ソーシャルメディアサーバ7が保持するソーシャルメディアコメント情報の例を示す図である。ソーシャルメディア情報取得部12は、ソーシャルメディアサーバ7にアクセスしてソーシャルメディアコメント情報を取得する。

図10に示すソーシャルメディアコメント情報は、ユーザID、コメント時刻、およびコメント内容のセットで構成される。ユーザIDは、ソーシャルメディアサーバ7にコメントを投稿する利用者ひとりひとりに付く固有のIDである。コメント時刻は、ソーシャルメディアの利用者がコメントをソーシャルメディアサーバ7に送信した時刻である。コメント内容は、利用者がソーシャルメディアサーバ7に送信したコメントの文字列である。

図11は、位置取得サーバ8が保持するユーザ・ディスプレイ方位情報の例を示す図である。ユーザ・ディスプレイ方位情報は、ロボット2からユーザ、ディスプレイ4への方向を示す情報であり、発話・アクション決定部13がロボット2にアクションを実行させるときに用いる。

図11に示すユーザ・ディスプレイ方位情報は、ユーザとディスプレイ4の2つの対象それぞれに対し、方位角と仰俯角を持つ。方位角は、ロボット2から各対象が地面に平方向において北を0°とした際にどの方位にあるかを示したものである。仰俯角は、ロボット2から各対象が地面に垂直方向において水平を0°,真上を90°とした際にどの角度にあるかを示したものである。各対象の方位角と仰俯角は、ユーザ、ロボット2、ディスプレイ4の移動に応じて逐次更新されるものとする。

[ロボット制御装置の動作] 次に、ロボット制御装置1の動作について説明する。以下では、ディスプレイ4に対する操作を取得する処理、発話内容とアクション内容を決定する処理、およびロボット2に発話とアクションを実行させる処理について順に説明する。

[ディスプレイに対する操作を取得する処理] まず、ディスプレイ4に対するユーザによる操作を取得する処理について説明する。

ユーザがリモコン3を操作すると、リモコン3は、操作内容に応じたディスプレイ状態操作やチャンネル操作の信号をディスプレイ4に送信する。ディスプレイ状態操作は、ディスプレイ4の電源ONや電源OFF、音量大や音量小など、ディスプレイ4の状態を変化させる操作である。チャンネル操作は、ディスプレイに表示されてる映像を変更する信号であり、例えば1chから2chなど他のチャンネルに変更する操作である。

リモコン3は、ディスプレイ4に信号を送信するとともに、ロボット制御装置1にディスプレイ状態変更情報や視聴チャンネル変更情報を送信する。ディスプレイ状態変更情報にはディスプレイ4に対する操作内容を示す文字列(例えば電源ONや音量大など)が含まれる。視聴チャンネル変更情報には変更後のチャンネル情報が含まれる。

ロボット制御装置1は、視聴チャンネル変更情報やディスプレイ状態変更情報を受信すると、後述する発話内容とアクション内容を決定する処理を実行する。

なお、本実施の形態では、リモコン3からロボット制御装置1に対して視聴チャンネル変更情報やディスプレイ状態変更情報が送信されるとしたが、ロボット制御装置1が、リモコン3からディスプレイ4へ送信される信号を受信し、ロボット制御装置1内の処理によって、受信した信号を視聴チャンネル変更情報とディスプレイ状態変更情報に変換してもよい。例えば、リモコン3としてスマートフォンのアプリケーションを用いて無線LANによりディスプレイ4を操作する場合、操作情報の送信先にロボット制御装置1を加える。

また、ディスプレイ4が、ロボット制御装置1に対して視聴チャンネル変更情報とディスプレイ状態変更情報を送信する機能を有しても良い。例えば、赤外線リモコンによるテレビ操作に対してディスプレイ状態の変更を検知する場合は、ディスプレイ4の赤外線受光口の傍に赤外線リモコンからの赤外線信号を受信し、赤外線信号の示す操作内容を無線によりロボット制御装置1へ送信する。

さらに、ユーザの音声やリモコン操作などに応じてロボット2がディスプレイ操作を仲介する場合は、ロボットに対するユーザ音声やリモコン操作からディスプレイ状態の変更を検知する。あるいは、ロボット2がロボット制御装置1へディスプレイ状態を通知してもよい。

[発話内容とアクション内容を決定する処理] 続いて、ロボット2に発話させる発話内容と実行させるアクション内容を決定する処理について説明する。

ロボット制御装置1は、ディスプレイ状態変更情報や視聴チャンネル変更情報を受信すると、ディスプレイの状態の変更や視聴中のチャンネルにあった発話内容とアクション内容を決定する。本実施の形態におけるロボット制御装置1は、(A)ディスプレイ状態変更に基づく方法、(B)ソーシャルメディアを用いる方法、(C)番組に付随するシナリオに基づく方法、の3通りの方法で発話・アクション内容を決定する。以下で、(A)〜(C)の処理について順に説明する。なお、(A)〜(C)のいずれの方法を用いてもよいし、組み合わせてもよい。予め決められたルールに従う動作でないという点で、(B)のソーシャルメディアを用いる方法を備えることが好ましい。

(A)ディスプレイ状態変更に基づく方法 まず、ディスプレイ状態変更に基づいて発話内容とアクション内容を決定する方法について説明する。

図12は、ディスプレイ状態変更に基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

ディスプレイ情報処理部11は、リモコン3からディスプレイ状態変更情報を受信すると、ディスプレイ状態変更情報を発話・アクション決定部13へ送信する(ステップS11)。

発話・アクション決定部13は、ディスプレイ状態変更情報を受信すると、発話・アクション決定部13の記憶領域から感情状態を取得する(ステップS12)。なお、電源投入後や初期化後などロボット2に初めてアクションさせる場合は感情状態は保存されていない。

発話・アクション決定部13は、ロボットパーソナリティ、感情状態、および受信したディスプレイ状態変更情報に応じた定型発話文情報を定型発話文データベース16から抽出する(ステップS13)。具体的には、発話・アクション決定部13は、ロボットパーソナリティ属性情報データベース14からロボット2に設定されたロボットパーソナリティ属性情報を取得するとともに、定型発話文データベース16を参照し、ステップS12で取得した感情状態と定型発話文データベース16の元の感情状態の値が一致し、かつロボットパーソナリティ属性情報の属性値と定型発話文データベース16のパーソナリティの属性値が一致する定型発話文情報を抽出する。そして、抽出した定型発話文情報のなかでテレビ状態遷移の値が受信したディスプレイ状態変更情報と一致する定型発話文情報を抽出する。ステップS13で抽出した定型発話文情報の発話内容がロボット2に発話させる発話内容となる。なお、定型発話文データベース16において元の感情状態が複数設定されているものに関しては、取得した感情状態が含まれていれば一致したものとする。また、元の感情状態にALLが設定されている場合は、感情状態にかかわらず一致したものとする。ステップS13で抽出した結果が複数存在する場合は、そのうち1つをランダムで選択する。

そして、ステップS13で抽出した定型発話文情報の実行する感情状態の値を発話・アクション決定部13の記憶領域に感情状態として保存する(ステップS14)。

続いて、ロボット2に実行させるアクション内容を決定する。

発話・アクション決定部13は、発話内容の対話状態、感情状態に応じたアクションをアクションデータベース15から抽出する(ステップS15)。具体的には、発話・アクション決定部13は、アクションデータベース15のアクション決定テーブルを参照し、アクションデータベース15の対話状態トリガーがステップS13で抽出した定型発話文情報の対話状態と一致し、かつアクションデータベース15の感情状態トリガーがステップS13で抽出した定型発話文情報の実行する感情状態と一致するデータを抽出する。なお、複数のデータが一致する場合は、そのうち1つをランダムで選択する。また、一致するデータがない場合は、実施するアクション無しとする。

そして、ステップS15でアクション決定テーブルから抽出したデータの動作名をアクションデータベース15の制御シーケンステーブルから検索する。検索したデータのアクチュエータ制御シーケンスがロボット2に実行させるアクション内容となる。なお、アクション内容に基づいてロボット2を制御する処理については後述する。

以上の処理により、受信したディスプレイ状態変更情報に基づき、ロボットパーソナリティを考慮した発話内容とアクション内容が決定される。発話・アクション内容を決定した後は、後述するロボットに発話とアクションを実行させる処理を実行する。

(B)ソーシャルメディアを用いる方法 続いて、ソーシャルメディアを用いて発話内容とアクション内容を決定する方法について説明する。

図13は、ソーシャルメディアを用いて発話内容とアクション内容を決定する処理のうち、盛り上がり値とパーソナリティ一致話者コメント情報を取得する処理の流れを示すフローチャートである。後述する処理により、発話・アクション決定部13は、盛り上がり値とパーソナリティ一致話者コメント情報に基づいて発話内容とアクション内容を決定する。

ディスプレイ情報処理部11は、リモコン3から視聴チャンネル変更情報を受信すると(ステップS21)、電子番組表情報データベース5を参照し、受信した視聴チャンネル変更情報と現在時刻から視聴中の番組のデータを取得する(ステップS22)。

そして、ディスプレイ情報処理部11は、番組−ソーシャルメディアタグ関連データベース6を参照し、視聴中の番組に関連する番組関連タグを取得する(ステップS23)。ディスプレイ情報処理部11は、視聴中の番組のカテゴリと番組関連タグを番組ドメイン情報と番組関連ソーシャルメディアタグ情報としてソーシャルメディア情報取得部12へ送信する。

ソーシャルメディア情報取得部12は、番組ドメイン情報と番組関連ソーシャルメディアタグ情報を受信すると、受信した番組関連ソーシャルメディアタグ情報を含むソーシャルメディアコメント情報をソーシャルメディアサーバ7から取得する(ステップS24)。

ソーシャルメディア情報取得部12は、取得したソーシャルメディアコメント情報から盛り上がり値を算出する(ステップS25)。本実施の形態では、盛り上がり値を各シーンの時間に対応するコメント数の増減に基づいて算出する。具体的には、現在時刻から1分以内に投稿されたソーシャルメディアコメントの総コメント数xと、番組開始から現在時刻の1分あたりのコメント数の平均値μと、番組開始から現在時刻まで1分毎にカウントしたコメント数の分散値σを用いて、次式(1)により盛り上がり値を求める。

式(1)で算出される値が−1.0を下回る場合は盛り上がり値を−1.0、また、値が1.0を上回る場合は盛り上がり値を1.0とする。式(1)で算出される値が−1.0から1.0の範囲内の場合はその値を盛り上がり値とする。

そして、ソーシャルメディア情報取得部12は、ロボットパーソナリティ属性情報データベース14を参照し、受信した番組ドメイン情報と一致するロボットパーソナリティ属性情報を抽出する(ステップS26)。番組ドメイン情報とロボットパーソナリティ属性情報との一致判定では、まず映像依存のロボットパーソナリティからメインカテゴリで一致するものがあるか否か判定する。一致するメインカテゴリがない場合は全てのサブカテゴリで一致するものがあるか否か判定する。一致するメインカテゴリが存在し、そのメインカテゴリにサブカテゴリが存在する場合は、そのサブカテゴリのなかからランダムで1つを選択し、選択したサブカテゴリの属性、属性値、属性重みと固定のロボットパーソナリティを組み合わせて、パーソナリティ一致話者の特定に用いるロボットパーソナリティ属性情報とする。一致するメインカテゴリにサブカテゴリがない場合や、一致するメインカテゴリがなく一致するサブカテゴリが存在する場合は、そのカテゴリの属性、属性値、属性重みと固定のロボットパーソナリティを組み合わせて、パーソナリティ一致話者の特定に用いるロボットパーソナリティ属性情報とする。映像依存のロボットパーソナリティに番組ドメイン情報と一致するカテゴリがない場合は、固定のロボットパーソナリティのみをパーソナリティ一致話者の特定に用いるロボットパーソナリティ属性情報とする。

そして、ソーシャルメディア情報取得部12は、抽出したロボットパーソナリティ属性情報を用いてパーソナリティ一致話者を抽出する(ステップS27)。具体的には、まず、ロボットパーソナリティ属性情報の各属性に対して、ステップS24で取得したソーシャルメディアコメント情報の全ユーザの属性値を推定する。全ユーザの各属性における属性値の推定には、Jun ITO, “What is he/she like?: Estimating Twitter User Attributes from Contents and Social Neighbors” に記載された技術を用いる。そして、推定した全ユーザの各属性における属性値とロボットパーソナリティ属性情報の各属性における属性値を用いて、各ユーザとロボットのパーソナリティの一致度を計算し、予め決められた値を超えた一致度のユーザをパーソナリティ一致話者とする。一致度の計算には、各ユーザとロボットパーソナリティ属性情報の同じ属性に対し、各ユーザの属性値の推定結果とロボットパーソナリティ属性情報の属性値の比較を行い、属性値が一致する属性の属性重みの和を計算する。そして、属性重みの和をロボットパーソナリティ属性情報の属性の数で割ったものをユーザとロボットのパーソナリティの一致度とする。

そして、パーソナリティ一致話者のコメントを抽出する(ステップS28)。抽出したパーソナリティ一致話者のコメントは、パーソナリティ一致話者コメント情報として盛り上がり値とともに発話・アクション決定部13に送信される。

以上の処理により、ユーザが視聴中の番組の盛り上がり値とロボットに設定されたパーソナリティに合ったパーソナリティ一致話者コメント情報が発話・アクション決定部13に送信される。引き続いて、発話・アクション決定部13が発話内容とアクション内容を決定する処理について説明する。

図14は、ソーシャルメディアを用いて発話内容とアクション内容を決定する処理のうち、盛り上がり値とパーソナリティ一致話者コメント情報に基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

発話・アクション決定部13は、ポジネガ単語データベース17を参照し、受信したパーソナリティ一致話者コメント情報を用いてポジティブ・ネガティブ値を算出する(ステップS31)。具体的には、パーソナリティ一致話者コメント情報の全てのコメント内容に対して形態素解析を行い、形態素解析されたコメント内容の各単語について、ポジネガ単語データベース17に格納されたポジネガ単語情報の単語と一致するものがあるか否か判定する。形態素解析された全単語の数をwordNMB、形態素解析された全単語のi番目をwiとすると、ポジティブ・ネガティブ値PNは次式(2)で求められる。

式(2)において、J(wi)は、wiがポジネガ単語情報の単語と一致するものがあり、かつポジティブが1、ネガティブが0であった場合は1、wiがポジネガ単語情報の単語と一致するものがあり、かつポジティブが0、ネガティブが1であった場合は−1、それ以外の場合は0を返す関数である。なお、式(2)の算出結果、PN>100の場合はPN=100、PN<−100の場合はPN=−100とする。−100≦PN≦100の場合は算出されたPNをそのままポジティブ・ネガティブ値とする。

そして、発話・アクション決定部13は、受信したパーソナリティ一致話者コメント情報から発話内容を決定する(ステップS32)。具体的には、まず、現在時刻より一定時間以内に投稿されたコメントをパーソナリティ一致話者コメント情報から抽出し、抽出したコメントに対して形態素解析を行う。そして、形態素解析されたコメントの全ての単語に対してTF−IDF値を算出する。このとき、TFは形態素解析されたコメントの全ての単語における各単語の出現数であり、IDFは一般的な文書コーパスより算出される。一般的な文書コーパスとしては新聞社のコーパスなどが挙げられる。そして、各コメントの文が持つ各単語のTF−IDF値の合計値を算出し、合計値が最も大きかったコメントを発話内容として決定する。

そして、発話・アクション決定部13は、盛り上がり値とポジティブ・ネガティブ値を用いて感情状態を決定する(ステップS33)。感情状態の決定は、ラッセルの感情円環モデル(James A. Russell, “A Circumplex Model of Affect”)を応用した図15に示す盛り上がり値とポジティブ・ネガティブ値に基づく感情状態のマップに、盛り上がり値とポジティブ・ネガティブ値を当てはめて、マップ中に示された感情状態のうち最も近い感情状態をロボットの感情状態とする。図15のマップにおいて、盛り上がり値の最大値はActMAX=1、最小値はActMIN−1であり、ポジティブ・ネガティブ値の最大値はPNMAX=100、最小値はPNMIN=−100である。図15のマップ中の感情状態EMnの盛り上がり値をActn、ポジティブ・ネガティブ値をPNnとし、盛り上がり値をAct、ポジティブ・ネガティブ値をPNとすると、感情状態EMnとの感情距離EmDistnは次式(3)で表される。

式(3)を用いて、マップ中の全ての感情状態EMnとの感情距離EmDistnを計算し、感情距離EmDistnが最も小さい値の感情状態EMnをロボットの感情状態とする。決定した感情状態は、発話・アクション決定部13の記憶領域に保存する。

なお、ロボット2の感情状態を決定する方法として、映像中の音声から感情を類推する方法(特開2009−111938号公報、特開2009−251469号公報)や映像から感情を類推する方法(特開2011−81445号公報)を用いて、特定の登場人物の感情を抽出してもよい。

そして、発話・アクション決定部13は、ステップS32で決定した発話内容に対して、ノイズ除去、口調変換を行う(ステップS34)。ノイズの除去では、発話時に不必要なソーシャルメディアタグや記号を使った顔文字などを除去する。ソーシャルメディアタグの除去の際には、ソーシャルメディアタグを表すルールに沿った文字列の除去を行う。本実施の形態では#で始まる半角英語大文字の文字列を除去する。顔文字の除去では、Michal Ptaszynski, “CAO: A Fully Automatic Emoticon Analysis System Based on Theory of Kinesics” などに記載された顔文字解析システムを用いて発話内容内の顔文字を抽出して除去する。また、発話内容に口調変換データベース18に変換元として登録された言葉が存在する場合は、該当する文字列を変換先の文字列に置き換える。

そして、発話・アクション決定部13は、ステップS34で変換処理した発話内容とステップS33で決定した感情状態からロボット2に実行させるアクションを決定する(ステップS35)。まず、発話内容が疑問文であるか否かを判定し、対話状態を特定する。発話内容が疑問符や「か」「かな」で終わっている場合は疑問文であると判定する。発話内容が疑問文である場合は対話状態を話しかけとし、そうでない場合は対話状態を感想とする。そして、ディスプレイ状態変更に基づく方法のステップS15と同様に、対話状態と感情状態のそれぞれがアクションデータベース15の対話状態トリガーと感情状態トリガーに一致するデータを抽出し、ロボット2に実行させるアクション内容を決定する。

以上の処理により、ソーシャルメディアサーバ7に投稿されたコメントを用いて、ロボットパーソナリティを考慮した発話内容とアクション内容が決定される。発話・アクション内容を決定した後は、後述するロボットに発話とアクションを実行させる処理を実行する。

なお、上記では、利用者が自由にコメントを投稿するソーシャルメディアサーバ7から番組に関するタグを含むコメントを抽出して発話・アクション内容を決定したが、チャンネル毎に設置された電子掲示板から番組に関するコメントを抽出して発話・アクション内容を決定してもよい。

また、リアルタイムに放送されている番組でなく、映像の再生時間に対応させてコメントが付与された映像を視聴するときは、映像に付与されたコメントを用いることもできる。

(C)番組に付随するシナリオに基づく方法 続いて、番組に付随するシナリオに基づいて発話内容とアクション内容を決定する方法について説明する。

図16は、番組に付随するシナリオに基づいて発話内容とアクション内容を決定する処理の流れを示すフローチャートである。

ディスプレイ情報処理部11は、番組関連発話・アクションタグデータベース19を参照し、視聴中の番組に該当する発話・アクションタグ情報を抽出する(ステップS41)。視聴中の番組は、ソーシャルメディアを用いる方法のステップS22と同様に、電子番組表情報データベース5を参照して特定する。ディスプレイ情報処理部11は、視聴中のチャンネル、番組名が一致する発話・アクションタグ情報を番組関連発話・アクションタグデータベース19から抽出する。

ディスプレイ情報処理部11は、抽出した発話・アクションタグ情報のうち、動作開始時間が近いものを発話・アクション決定部13へ送信する(ステップS42)。例えば、視聴中の番組の開始時刻に抽出した発話・アクションタグ情報の動作開始時間を加えた時刻と現在時刻との差が所定時間(10秒程度)以内の場合に、該当する発話・アクションタグ情報を発話・アクションタグ候補情報として発話・アクション決定部13へ送信する。なお、ステップS42の処理は、ディスプレイ4の電源がOFFされるまで、あるいは視聴中の番組が変更されるまで繰り返し行われる。視聴中の番組が変更された場合は、ステップS41に戻る。

発話・アクション決定部13は、発話・アクションタグ候補情報を受信すると、発話・アクションタグ候補情報の中から、ロボット2に設定されたロボットパーソナリティに合う発話・アクションタグ情報を選択し、発話内容とアクション内容を決定する(ステップS43)。具体的には、発話・アクションタグ候補情報として受信した発話・アクションタグ情報のうち、ロボットパーソナリティ属性情報データベース14に格納されたロボットパーソナリティと一致するロボットパーソナリティの属性値を持つ発話・アクションタグ情報を選択する。一致する発話・アクションタグ情報が複数あった場合はそのうちの1つをランダムに選択する。選択した発話・アクションタグ情報の発話内容をロボット2に発話させる発話内容として決定し、発話・アクションタグ情報の実行アクションをロボット2に実行させるアクションとして決定する。なお、一致する発話・アクションタグ情報が無かった場合は発話内容を無し、アクション内容を無しとする。

発話・アクション決定部13は、実行させるアクションを決定すると、実行させるアクションを動作名として持つデータをアクションデータベース15の制御シーケンステーブルから検索する。検索したデータのアクチュエータ制御シーケンスがロボット2に実行させるアクション内容となる。また、実行させるアクションを動作名として持つデータをアクションデータベース15のアクション決定テーブルから検索してアクションの実行速度を得る。

また、発話・アクション決定部13は、ステップS43で選択した発話・アクションタグ情報の実行する感情状態を発話・アクション決定部13の記憶領域に感情状態として保存する(ステップS44)。

以上の処理により、番組関連発話・アクションタグデータベース19に格納された番組に付随するシナリオに基づき、ロボットパーソナリティを考慮した発話内容とアクション内容が決定される。発話・アクション内容を決定した後は、後述するロボットに発話とアクションを実行させる処理を実行する。

[ロボットに発話とアクションを実行させる処理] 続いて、決定した発話内容とアクション内容に基づいてロボット2に発話とアクションを実行させる処理について説明する。

図17は、決定した発話内容とアクション内容に基づいてロボット2に発話とアクションを実行させる処理の流れを示すフローチャートである。

まず、発話・アクション決定部13は、ロボット2に実行させるアクションがユーザ方位情報あるいはディスプレイ方位情報を必要とするか否か判定する(ステップS51)。発話・アクション決定部13は、ロボット2に実行させるアクションのアクチュエータ制御シーケンスのユーザ方位情報必要の有無及びディスプレイ方位情報必要の有無を調べて判定する。ユーザ方位情報必要の有無とディスプレイ方位情報必要のいずれも無の場合はステップS54へ進む。

ユーザ方位情報あるいはディスプレイ方位情報が必要な場合は、位置取得サーバ8からユーザ方位情報とディスプレイ方位情報を取得し(ステップS52)、ロボット2に実行させるアクションのアクチュエータ制御シーケンスの必要な箇所へ代入する(ステップS53)。例えば、図3(b)に示した「ユーザを見る」アクションでは、アクチュエータ制御シーケンスの頭部チルト角度y1度にはユーザ方位情報の方位角を代入し、アクチュエータ制御シーケンスの頭部ロール角度y2度にはユーザ方位情報の仰俯角を代入する。また、「右手でディスプレイを指さしてユーザを見る」アクションでは、アクチュエータ制御シーケンスの頭部チルト角度y1度にはユーザ方位情報の方位角を代入し、アクチュエータ制御シーケンスの頭部ロール角度y2度にはユーザ方位情報の仰俯角を代入する。さらに、アクチュエータ制御シーケンスの右腕チルト角度d1度にはディスプレイ方位情報の方位角を代入し、アクチュエータ制御シーケンスの右腕ロール角度d2度にはディスプレイ方位情報の仰俯角を代入する。

なお、ロボット2に対するユーザ方位情報、ディスプレイ方位情報を取得する方法としては、屋内位置測位手法を用いることができる。例えば、Y. Gu, “A Survey of Indoor Positioning Systems for Wireless Personal Networks” に示される手法などが挙げられる。この手法によって取得したユーザ、ロボット2、およびディスプレイ4の屋内位置情報と、さらにロボット2に方位を取得可能なセンサを取り付けることで、ロボット2に対するユーザ・ディスプレイ方向へ視線制御、指差し制御を行うことができる。他の方法としては、ロボット2にカメラを取り付けて画像処理を行うことでユーザ・ディスプレイを識別する方法が挙げられる。カメラ画像中のユーザ・ディスプレイ位置から、ロボット2から見たユーザ方位情報、ディスプレイ方位情報を取得する。

ロボット2に実行させるアクションのアクチュエータ制御シーケンスを取得後、発話・アクション決定部13は、発話内容に対して音声合成する(ステップS54)。音声合成する際、音の高低、発話速度、および音の大小は感情状態に応じて決定する。発話・アクション決定部13は記憶領域から感情状態を取得し、図15のマップから感情状態に対応する盛り上がり値とポジティブ・ネガティブ値を得る。

盛り上がり値の最大値をActMAX、最小値をActMIN、ポジティブ・ネガティブ値の最大値をPNMAX、最小値をPNMIN、図15のマップから得た感情状態に対応する盛り上がり値をActm、ポジティブ・ネガティブ値をPNmとし、音声合成における音の高さの最大値をSTH_MAX、最小値をSTH_MIN、発話速度の最大値をSS_MAX、最小値をSS_MIN、音の大きさの最大値をSV_MAX、最小値をSV_MINとすると、音声合成における音の高さSTHm、発話速度SSm、音の大きさSVmは、次式(4)〜(6)でそれぞれ求めることができる。

式(4)〜(6)で求めた音の高さ、発話速度、および音の大きさに従って発話内容を音声合成する。音声合成の結果は、音声ファイルとして生成する。

そして、発話・アクション決定部13は、ロボット2にアクチュエータ制御信号と音声ファイルを送信する(ステップS55)。アクチュエータ制御信号は、アクチュエータ制御シーケンスから生成され、制御するアクチュエータ部位、制御角度、および制御角度到達までの時間を含む。

ロボット2は、受信したアクチュエータ制御信号により指定の部分のアクチュエータを指定の角度と時間で制御するとともに、受信した音声ファイルを再生してロボット2が備えるスピーカーから出力する。

図18は、ロボット制御装置1により制御されたロボット2の様子を示す図である。図18(a)は、ディスプレイ4の方向へ視線を向けるように制御された様子を示す図であり、図18(b)は、ディスプレイ4の方向を指さしつつ、ユーザの方向へ視線を向けるように制御された様子を示す図である。

ロボット2に対してディスプレイ4の方向へ顔や目を向けるように制御することで、ロボット2がディスプレイ4に注目していることをユーザに自然に知らせることが可能となる。同様に、図示していないが、ロボット2がユーザの方向へ顔や目を向けるように制御することで、ロボット2がユーザに注目していることを自然に知らせることが可能となる。

また、ロボット2がユーザに注目し、映像内容に対する発話を行う場合に、ロボット2がユーザの方向へ顔や目を向け、ディスプレイ4を指さすように制御することで、ディスプレイ4に表示されている内容に対してユーザに発話していることを自然に知らせることが可能となる。

このように、ユーザやディスプレイ4に向けたロボットの視線制御、指差し制御を行うことで、ロボット2がユーザとディスプレイ4の存在を認識していることをユーザに知覚させて、ロボット2が共に映像を視聴しているような感覚をユーザに与えることができる。

以上説明したように、本実施の形態によれば、定型発話文データベース16を参照し、ディスプレイ4に対する操作内容とロボット2の感情状態に基づいてロボット2に発話させる発話内容を決定するとともに、発話内容の対話状態とロボット2の感情状態に応じたアクション内容をアクションデータベース15から抽出することで、ディスプレイ4の状態変化に応じたアクションをロボット2に実行させることが可能となる。

本実施の形態によれば、ソーシャルメディアサーバ7から視聴中の番組に関するコメントを取得し、ロボット2に設定されたパーソナリティと一致するパーソナリティ一致話者のコメントからロボット2に発話させる発話内容を決定するとともに、発話内容の対話状態とロボット2の感情状態に基づいてロボット2に実行させるアクション内容をアクションデータベース15から抽出することで、視聴中の番組の内容に応じたアクションをロボット2に実行させることが可能となる。その結果、ユーザはロボット2と共に番組を視聴している感覚を持たせることができ、ロボットがユーザに対して共感を生じさせることが可能となる。映像視聴時にユーザがロボットに対して共感を得たと感じることで、ロボット2に対する親和動機をユーザに与え、ロボット2にユーザへ対する商品・サービス・行動レコメンドなどを行わせた際に、ユーザが受け入れる確率を高めることが期待できる。

本実施の形態によれば、発話内容を決定する際に、ロボットに設定されたパーソナリティでコメントを絞り込むことで、一貫性のある発話・アクションをロボット2に実行させることが可能となる。

本実施の形態によれば、番組関連発話・アクションタグデータベース19から視聴中の番組に関連する発話・アクションタグ情報を取得して、ロボット2に発話させる発話内容と実行させるアクション内容を決定することで、ユーザが視聴中の番組に沿ったアクションをロボットに実行させることが可能となる。

本実施の形態によれば、ユーザ方向、ディスプレイ方向に応じてロボット2を制御し、ユーザに対し、ロボット2が共にディスプレイ4を見ている感覚や発話時にユーザを見ている感覚を与えることで、ロボット2が映像やユーザの存在を認識していることを感じさせて、より視聴内容へ共感を与えることが可能となる。

1…ロボット制御装置 11…ディスプレイ情報処理部 12…ソーシャルメディア情報取得部 13…発話・アクション決定部 14…ロボットパーソナリティ属性情報データベース 15…アクションデータベース 16…定型発話文データベース 17…ポジネガ単語データベース 18…口調変換データベース 19…番組関連発話・アクションタグデータベース 2…ロボット 3…リモコン 4…ディスプレイ 5…電子番組表情報データベース 6…番組−ソーシャルメディアタグ関連データベース 7…ソーシャルメディアサーバ 8…位置取得サーバ

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈