首页 / 专利库 / 人工智能 / 机器学习 / 人工神经网络 / 玻尔兹曼机 / Robot device and robot control method, recording medium and program

Robot device and robot control method, recording medium and program

阅读:905发布:2021-05-12

专利汇可以提供Robot device and robot control method, recording medium and program专利检索,专利查询,专利分析的服务。并且PROBLEM TO BE SOLVED: To enable a robot to act so as not to make a user feel bored. SOLUTION: An action control unit 72 selects a searching action and a knowledge-utilizing action based on the action selection probability. When the action control unit 72 performs the selected action (a), a reward (r) is given from an environment user 111. The action control unit 72 updates the action value based on the reward (r), and the action value is applied to the Boltzmann distribution to determine the action selection probability. The action control unit 72 changes the Boltzmann temperature based on input information. The present invention is applicable to an enhancement learning system of the robot. COPYRIGHT: (C)2004,JPO,下面是Robot device and robot control method, recording medium and program专利的具体信息内容。

  • 【特許請求の範囲】 【請求項1】 供給される入力情報に応じた行動を行うロボット装置において、 探査的行動と知識利用的行動の選択を動的に変更する行動管理手段を備えることを特徴とするロボット装置。 【請求項2】 前記行動管理手段は、行動選択確率に基づいて、前記探査的行動と前記知識利用的行動を選択することを特徴とする請求項1に記載のロボット装置。 【請求項3】 前記行動選択確率は、ボルツマン温度によって決定されることを特徴とする請求項2に記載のロボット装置。 【請求項4】 前記ボルツマン温度は、前記入力情報に応じて変化されることを特徴とする請求項3に記載のロボット装置。 【請求項5】 時刻を計時する計測手段をさらに備え、 前記ボルツマン温度は、前記時刻に応じて変化されることを特徴とする請求項3に記載のロボット装置。 【請求項6】 供給される入力情報に応じた行動を行うロボット装置のロボット制御方法において、 探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップを含むことを特徴とするロボット制御方法。 【請求項7】 供給される入力情報に応じた行動を行うロボット装置のプログラムであって、 探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップを含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。 【請求項8】 供給される入力情報に応じた行動を行うロボット装置を制御するコンピュータに、 探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップを実行させることを特徴とするプログラム。
  • 说明书全文

    【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、ロボット装置およびロボット制御方法、記録媒体、並びにプログラムに関し、特に、ロボットに、人間と同じように、かつ、ユーザを飽きさせないように、行動させることができるようにしたロボット装置およびロボット制御方法、記録媒体、並びにプログラムに関する。 【0002】 【従来の技術】生命体を模擬するロボット装置とインタラクションする場合、ユーザは、ロボット装置に対して「人と同じような」振る舞いを期待している。 【0003】ロボット装置にこのような行動を実行させるには、ロボット装置に行動獲得のための強化学習を行わせればよい。 ロボット装置は、行動価値から算出される行動選択確率に基づいて、行動を選択する。 選択する行動としては、探査を主とした行動(以下、探査的行動と称する)と知識利用を主とした行動(以下、知識利用的行動と称する)がある。 探査的行動が選択されると、
    ロボット装置は今までと異なる新たな行動をとるようになる。 これに対して、知識的行動が選択されると、ロボット装置は、一般的に期待される通りの行動をとる。 【0004】 【発明が解決しようとする課題】しかしながら、このような従来の強化学習では、行動選択確率は、ロボット装置の外部状態や内部状態によらず一定であった。 【0005】したがって、ロボット装置に、人と同じように、かつ、ユーザを飽きさせないように、振る舞わせることは困難であった。 【0006】本発明はこのような状況に鑑みてなされたものであり、ロボット装置に、人と同じように行動させつつ、ユーザを飽きさせないように行動させることができるようにすることを目的とする。 【0007】 【課題を解決するための手段】本発明のロボット装置は、探査的行動と知識利用的行動の選択を動的に変更する行動管理手段を備えることを特徴とする。 【0008】行動管理手段は、行動選択確率に基づいて、探査的行動と知識利用的行動を選択することができる。 【0009】行動選択確率は、ボルツマン温度によって決定されることができる。 【0010】ボルツマン温度は、入情報に応じて変化されることができる。 【0011】時刻を計測する計測手段をさらに備え、ボルツマン温度は、時刻に応じて変化されることができる。 【0012】本発明のロボット制御方法は、探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップを含むことを特徴とする。 【0013】本発明の記録媒体のプログラムは、探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップを含むことを特徴とする。 【0014】本発明のプログラムは、探査的行動と知識利用的行動の選択を動的に変更する行動管理ステップをコンピュータに実行させることを特徴とする。 【0015】本発明のロボット装置およびロボット制御方法、記録媒体、並びにプログラムにおいては、入力情報に基づいて、探査的行動と知識利用的行動の選択が動的に変化される。 【0016】 【発明の実施の形態】以下、本発明の実施の形態について、図面を参照して説明する。 図1は、本発明を適用したペットロボット1の例を示す斜視図である。 【0017】例えば、ペットロボット1は、4本足の小熊形状のものとされており、胴体部ユニット2の前後左右に、それぞれ脚部ユニット3A、3B、3C、3Dが連結されるとともに、胴体部ユニット2の前端部と後端部に、それぞれ頭部ユニット4と尻尾部ユニット5が連結されている。 【0018】図2は、図1のペットロボット1の内部構成の例を示すブロック図である。 胴体部ユニット2には、ペットロボット1の全体を制御するコントローラ1
    0、ペットロボット1の各部に電力を供給するバッテリ11、並びにバッテリセンサ12、および熱センサ13
    からなる内部センサ14が格納されている。 このコントローラ10には、CPU(Central Processing Unit)10
    A、CPU10Aが各部を制御するためのプログラムが記憶されているメモリ10B、および計時動作を行い、現在の日時、起動後の経過時間等を計測する時計10Cが設けられている。 【0019】また、CPU10Aには、インタネットに代表されるネットワークを介してデータを通信する通信部63、プログラムなどの各種データを格納する半導体メモリなどよりなる記憶部62が接続されている。 さらに、リムーバブルメモリ61などの記録媒体に対してデータを読み書きするドライブ60が必要に応じて接続される。 【0020】このペットロボット1に本発明を適用したロボット装置としての動作を実行させるロボット制御プログラムは、リムーバブルメモリ61に格納された状態でペットロボット1に供給され、ドライブ60によって読み出されて、記憶部62に内蔵されるハードディスクドライブにインストールされる。 記憶部62にインストールされたロボット制御プログラムは、ユーザから入力されるコマンドに対応するCPU10Aの指令によって、
    記憶部62からメモリ10Bにロードされて実行される。 【0021】頭部ユニット4には、外部からの刺激を感知するセンサとして、音を感知する「のような聴覚器官」に相当するマイクロフォン15、CCD(Charge Coupl
    ed Device)、CMOS(Complementary Metal Oxide Semicon
    ductor)、およびイメージセンサなどから構成され、外部の画像信号を取得する「目のような視覚器官」に相当するビデオカメラ16、およびユーザが接触することによる圧力等を感知する「肌等のような触覚器官」に相当するタッチセンサ17が、それぞれ所定の位置に設けられている。 また、頭部ユニット4には、対象物までの距離を測定する位置検出センサ18、および所定の音階を出力するペットロボット1の「口のような発声器官」に相当するスピーカ19が、それぞれ所定の位置に設置されている。 【0022】脚部ユニット3A乃至3Dのそれぞれの関節部分、脚部ユニット3A乃至3Dのそれぞれと胴体部ユニット2の連結部分、頭部ユニット4と胴体部ユニット2の連結部分、並びに尻尾部ユニット5と胴体部ユニット2の連結部分などには、アクチュエータが設置されている。 アクチュエータは、コントローラ10からの指示に基づいて各部を動作させる。 【0023】図2の例においては、脚部ユニット3Aには、アクチュエータ3AA 1乃至3AA Kが設けられ、脚部ユニット3Bには、アクチュエータ3BA 1乃至3B
    Kが設けられている。 また、脚部ユニット3Cには、
    アクチュエータ3CA 1乃至3CA Kが設けられ、脚部ユニット3Dには、アクチュエータ3DA 1乃至3DA Kが設けられている。 さらに、頭部ユニット4には、アクチュエータ4A 1乃至4A Lが設けられており、尻尾部ユニット5には、アクチュエータ5A 1および5A 2がそれぞれ設けられている。 【0024】以下、脚部ユニット3A乃至3Dに設けられているアクチュエータ3AA 1乃至3DA K 、頭部ユニット4に設けられているアクチュエータ4A 1乃至4
    L ,および尻尾部ユニットに設けられているアクチュエータ5A 1および5A 2のそれぞれを個々に区別する必要がない場合、適宜、まとめて、アクチュエータ3AA
    1乃至5A 2と称する。 【0025】さらに、脚部ユニット3A乃至3Dには、
    アクチュエータの他にスイッチ3AB乃至3DBが、ペットロボット1の足の裏に相当する場所に設置されている。 そして、ペットロボット1が歩行したとき、スイッチ3AB乃至3DBが押下され、それを表す信号がコントローラ10に入力されるようになされている。 【0026】頭部ユニット4に設置されるマイクロフォン15は、ユーザの発話を含む周囲の音声(音)を集音し、得られた音声信号をコントローラ10に出力する。
    ビデオカメラ16は、周囲の状況を撮像し、得られた画像信号を、コントローラ10に出力する。 タッチセンサ17は、例えば、頭部ユニット4の上部に設けられており、ユーザからの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ10に出力する。 位置検出センサ18は、例えば、赤外線を出射し、その反射光を受光したタイミングにおいての検出結果をコントローラ10に出力する。 【0027】コントローラ10は、マイクロフォン1
    5、ビデオカメラ16、タッチセンサ17、および位置検出センサ18から与えられる音声信号、画像信号、圧力検出信号等に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断し、その判断結果に基づいて、ペットロボット1が次に実行する動作を決定する。 そして、コントローラ10は、その決定に基づいて、必要なアクチュエータを駆動させ、これにより、頭部ユニット4を上下左右に振らせたり、尻尾部ユニット5を動かせたり、脚部ユニット3A乃至3D
    のそれぞれを駆動して、ペットロボット1を歩行させるなどの動作を実行させる。 【0028】その他にも、コントローラ10は、ペットロボット1の頭部ユニット4などに設けられた、図示しないLED(Light Emitting Diode)を点灯、消灯または点滅させるなどの処理を行う。 【0029】図3は、図2のコントローラ10の機能的構成例を示すブロック図である。 なお、図3に示す各機能は、CPU10Aがメモリ10Bに記憶されている制御プログラムを実行することによって実現される。 【0030】コントローラ10は、外部からの刺激を検知するセンサ(マイクロフォン15乃至位置検出センサ18、およびスイッチ3AB乃至3DB)からの各種信号を検出するセンサ入力処理部31と、センサ入力処理部31により検出された情報等に基づいて、ペットロボット1を動作させる情報処理部32から構成されている。 【0031】センサ入力処理部31を構成する度検出部41は、アクチュエータ3AA 1乃至5A 2のそれぞれに設けられるモータが駆動されたとき、アクチュエータ3AA 1乃至5A 2のそれぞれから通知される情報に基づいて、その角度を検出する。 角度検出部41により検出された角度情報は、情報処理部32の行動管理部72、
    および音データ生成部75に出力される。 【0032】音量検出部42は、マイクロフォン15から供給される信号に基づいて、その音量を検出し、検出した音量情報を行動管理部72、および音データ生成部75に出力する。 【0033】音声認識部43は、マイクロフォン15から供給される音声信号について音声認識を行う。 音声認識部43は、その音声認識結果としての、例えば、「お話しよう」、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、音声認識情報として、本能・感情管理部71、行動管理部72、および音データ生成部75に通知する。 【0034】画像認識部44は、ビデオカメラ16から供給される画像信号を用いて、画像認識を行う。 画像認識部44は、その処理の結果、例えば、「赤い丸いもの」、「地面に対して垂直な、かつ、所定の高さ以上の平面」、「広い開放的な場所」、「家族がいる」、「家族の中の子供の友人がいる」等を検出したときには、
    「ボールがある」、「壁がある」、「畑である」、「家である」、「学校である」等の画像認識結果を、画像認識情報として、本能・感情管理部71、行動管理部7
    2、および音データ生成部75に通知する。 【0035】圧力検出部45は、タッチセンサ17から与えられる圧力検出信号を処理する。 例えば、圧力検出部45は、その処理の結果、所定の閾値以上で、かつ、
    短時間の圧力を検出したときには、「叩かれた(しかられた)」と認識し、所定の閾値未満で、かつ、長時間の圧力を検出したときには、「なでられた(ほめられた)」と認識して、その認識結果を、状態認識情報として、本能・感情管理部71、行動管理部72、および音データ生成部75に通知する。 【0036】位置検出部46は、位置検出センサ18から供給される信号に基づいて、所定の対象物までの距離を測定し、その距離情報を行動管理部72、および音データ生成部75に通知する。 例えば、位置検出部46
    は、目の前にユーザの手などが差し出されたとき、その手までの距離や、画像認識部44により認識されたボールまでの距離を検出する。 【0037】スイッチ入力検出部47は、ペットロボット1の足の裏に相当する部分に設けられているスイッチ3AB乃至3DBから供給される信号に基づき、例えば、ペットロボット1が歩行している状態において、その歩行タイミングや、ユーザにより足の裏が触れられたことを本能・感情管理部71、および行動管理部72に通知する。 【0038】一方、情報処理部32を構成する本能・感情管理部71は、ペットロボット1の本能、および感情を管理し、所定のタイミングで、ペットロボット1の本能を表すパラメータや、感情を表すパラメータを行動管理部72、および音データ生成部75に出力する。 【0039】ペットロボット1の本能を表すパラメータと感情を表すパラメータについて、図4を参照して説明する。 図4に示すように、本能・感情管理部71は、ペットロボット1の感情を表現する感情モデル101と、
    本能を表現する本能モデル102を記憶し、管理している。 【0040】感情モデル101は、例えば、「うれしさ」、「悲しさ」、「怒り」、「驚き」、「恐れ」、
    「苛立ち」等の感情の状態(度合い)を、所定の範囲(例えば、0乃至100等)の感情パラメータによってそれぞれ表し、センサ入力処理部31の音声認識部4
    3、画像認識部44、および圧力検出部45からの出力や時間経過等に基づいて、その値を変化させる。 【0041】この例において、感情モデル101は、
    「うれしさ」を表す感情ユニット101A、「悲しさ」
    を表す感情ユニット101B、「怒り」を表す感情ユニット101C、「驚き」を表す感情ユニット101D、
    「恐れ」を表す感情ユニット101E、および「苛立ち」を表す感情ユニット101Fから構成されている。 【0042】本能モデル102は、例えば、「運動欲」、「愛情欲」、「食欲」、「好奇心」、「睡眠欲」
    等の本能による欲求の状態(度合い)を、所定の範囲(例えば、0乃至100等)の本能のパラメータによってそれぞれ表し、音声認識部43、画像認識部44、および圧力検出部45等からの出力や時間経過等に基づいて、その値を変化させる。 また、本能モデル102は、
    行動履歴に基づいて、「運動欲」を表すパラメータを高めたり、バッテリ11の残量(電圧) に基づいて、
    「食欲」を表すパラメータを高めたりする。 【0043】この例において、本能モデル102は、
    「運動欲」を表す本能ユニット102A、「愛情欲」を表す本能ユニット102B、「食欲」を表す本能ユニット102C、「好奇心」を表す本能ユニット102D、
    および「睡眠欲」を表すユニット102Eから構成されている。 【0044】このような感情ユニット101A乃至10
    1Fと本能ユニット102A乃至102Eのパラメータは、外部からの入力だけでなく、図の矢印で示されるように、それぞれのユニット同士が相互に影響し合うことによっても変化される。 【0045】例えば、「うれしさ」を表現する感情ユニット101Aと「悲しさ」を表現する感情ユニット10
    1Bが相互抑制的に結合することにより、本能・感情管理部71は、ユーザにほめてもらったときには「うれしさ」を表現する感情ユニット101Aのパラメータを大きくするとともに、「悲しさ」を表現する感情ユニット101Bのパラメータを小さくするなどして、表現する感情を変化させる。 【0046】また、感情モデル101を構成する各ユニット同士、および本能モデル102を構成する各ユニット同士だけでなく、双方のモデルを超えて、それぞれのユニットのパラメータが変化される。 【0047】例えば、図4に示されるように、本能モデル102の「愛情欲」を表す本能ユニット102Bや、
    「食欲」を表す本能ユニット102Cのパラメータの変化に応じて、感情モデル101の「悲しさ」を表現する感情ユニット102Bや「怒り」を表現する感情ユニット102Cのパラメータが変化される。 【0048】具体的には、「愛情欲」を表す本能ユニット102Bのパラメータ、または「食欲」を表す本能ユニット102Cのパラメータが大きくなったとき、感情モデル101の「悲しさ」を表現する感情ユニット10
    1Bのパラメータと「怒り」を表現する感情ユニット1
    01Cのパラメータが小さくなる。 【0049】このようにして、本能・感情管理部71により、管理される感情のパラメータ、または本能のパラメータは、所定の周期で計測され、行動管理部72、および音データ生成部75に出力される。 【0050】なお、本能・感情管理部71には、音声認識部43、画像認識部44、および圧力検出部45等から認識情報が供給される他に、行動管理部72から、ペットロボット1の現在、または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになされている。 そして、本能・感情管理部71は、同一の認識情報等が与えられた場合であっても、行動情報により示されるペットロボット1の行動に応じて、異なる内部情報を生成する。 【0051】例えば、ペットロボット1がユーザに挨拶をし、ユーザに頭をなでられた場合には、ユーザに挨拶をしたという行動情報と、頭をなでられたという認識情報が本能・感情管理部71に供給される。 このとき、本能・感情管理部71においては、「うれしさ」を表す感情ユニット101Aの値が増加される。 【0052】図3の説明に戻り、行動管理部72は、音声認識部43、および画像認識部44等から供給されてきた情報と、本能・感情管理部71から供給されてきたパラメータ、および時間経過等に基づいて次の行動を決定し、決定した行動の実行を指示するコマンドを姿勢遷移管理部73に出力する。 姿勢遷移管理部73は、行動管理部72から指示された行動に基づいて、姿勢の遷移を決定し、制御部74に出力する。 制御部74は、姿勢遷移管理部73からの出力に基づき、アクチュエータ3
    AA1乃至5A2を制御して、行動管理部72が決定した動作を行う。 【0053】また、音データ生成部75は、音声認識部43、および画像認識部44等から供給されてきた情報と、本能・感情管理部71から供給されてきたパラメータ、および時間経過等に基づいて音データを生成する。
    そして、行動管理部72は、ペットロボット1に発話をさせるとき、あるいは所定の動作に対応する音をスピーカ19から出力させるとき、音の出力を指示するコマンドを音声合成部76に出力し、音声合成部76は、音データ生成部75から出力された音データに基づいて、スピーカ19に音を出力させる。 【0054】図5は、本発明を適用した強化学習システムの原理的構成を示している。 ステップS1において、
    行動管理部72は、行動選択確率(後述する式(3))
    に基づいて、ランダムに動き、新しい行動をする探査的行動と、過去の行動の中から最も良いと考えられる行動を選択する知識利用的行動のいずれかを選択し、選択された行動aをペットロボット1に実行させる。 ステップS2において、環境・ユーザ111は、その行動aに対して、ペットロボット1に報酬rを与える。 ここで、報酬rとは、行動aが正しかったときに環境・ユーザ11
    1により行われる、例えば、「頭をなでる」行為や、行動aが誤っていた(ユーザが期待していない行動であった)ときに環境・ユーザ111により行われる、例えば、「頭をたたく」行為である。 【0055】行動管理部72は、獲得した報酬rに基づき、以下のような式(1)に従って、この行動aに対する行動価値Q(a)を、新しい(報酬rに基づく)行動価値
    Q 1 (a)に更新する。 【数1】

    【0056】なお、式(1)において、αは、0と1の間の値の係数であって、獲得した報酬をどの程度行動価値に反映させるかを決定するパラメータ(学習率)であり、報酬rは、「頭をなでられる」、「叩かれる」、


    「与えられたタスクを達成する」、「与えられたタスクを失敗する」等のセンサ入力処理部31からの検出信号に応じて決定される値である。 【0057】このようにして求められた行動価値Q(a)


    は、行動aを実行して、報酬rを獲得するごとに更新される。 したがって、新しく獲得した報酬r

    2によって、


    更新された行動価値Q

    2 (a)は、前の行動価値Q

    1 (a)とその前の行動価値Q

    0 (a)を使って表すと、 【数2】 となり、学習率αは0と1の間の値なので、新しく獲得した報酬r

    2の係数αは、前の報酬r

    1の係数(1−α)


    αよりも必ず大きくなる。 したがって、行動価値Q

    2 (a)


    は、過去の報酬r

    1よりも新しく受け取った報酬r

    2のほうに、より重み付けされる。 即ち、式(2)により、行動価値Q(a)は、遠い過去の報酬よりも、最近受け取った報酬が反映される。 【0058】さらに、行動管理部72は、このようにして求められた行動価値Q(a)に基づき、行動aの行動選択確率P(a)を、以下に示すボルツマン分布の式(3)


    から演算する。 【数3】 【0059】なお、式(3)において、Aは選択可能な全ての行動を表す。 Tはボルツマン温度を表し、行動価値Q(a)を、どの程度行動選択確率Pに反映させるかを決定するパラメータである。 【0060】式(3)より明らかなように、ボルツマン温度Tの値が小さいほど、行動価値Q(a)が、より行動選択確率Pに反映され、行動管理部72は、より知識利用的な行動を選択する。 一方、ボルツマン温度Tの値が大きいほど、行動価値Q(a)が、行動選択確率Pに反映され難くなり、行動管理部72は、より探査的な行動を選択する。 【0061】本発明においては、探査的行動と知識利用的行動の選択が、動的に変更される。 このため、行動管理部72は、本能・感情管理部71からの感情のパラメータの出力に応じて、ボルツマン温度Tを適宜変化させる。 この場合の処理を図6を参照して説明する。 【0062】ステップS11において、行動管理部72


    は、本能・感情管理部71から、感情のパラメータを読み出す。 ステップS12において、行動管理部72は、


    読み出した感情のパラメータに基づいて、メモリ10B


    に記憶されている式またはテーブル(例えば、図7の例の場合、「苛立ち」とボルツマン温度Tとの関係を表す式またはテーブル)に基づき、ボルツマン温度Tを演算する。 【0063】「苛立ち」を表すパラメータに基づいて演算されたボルツマン温度Tの例を図7に示す。 図7に示されるように、「苛立ち」を表すパラメータの値が大きいほど、ボルツマン温度Tの値は大きくなる。 したがって、「苛立ち」を表すパラメータの値が大きいほど、行動価値Q(a)は、行動選択確率Pに反映され難くなり、ペットロボット1は、探査的な行動をする。 即ち、ペットロボット1は、人間と同様に、苛立っているときは、理性的な行動をとりにくくなる。 【0064】また、本能・感情管理部71からの本能のパラメータの出力に応じて、ボルツマン温度Tを変化させるようにしてもよい。 この場合の処理を図8を参照して説明する。 【0065】ステップS21において、行動管理部72


    は、本能・感情管理部71から、本能のパラメータを読み出す。 ステップS22において、行動管理部72は、


    読み出した本能のパラメータに基づいて、メモリ10B


    に記憶されている式またはテーブル(例えば、図9の例の場合、「好奇心」とボルツマン温度Tとの関係を表す式またはテーブル)に基づき、ボルツマン温度Tを演算する。 【0066】「好奇心」を表すパラメータに基づいて演算されたボルツマン温度Tの例を図9に示す。 図9の例の場合、「好奇心」を表すパラメータの値が大きいほど、ボルツマン温度Tの値は小さくなる。 したがって、


    「好奇心」を表すパラメータの値が大きいほど、行動価値Q(a)は、行動選択確率Pに反映されやすくなり、ペットロボット1は、知識利用的な行動をする。 即ち、ペットロボット1は、人間と同様に、好奇心があるときは、


    その行動を集中して(熱中して)行う。 【0067】さらに、行動管理部72は、画像認識部4


    4からの場所に関する情報に応じて、ボルツマン温度T


    を変化させることができる。 この場合の処理を図10を参照して説明する。 【0068】ステップS31において、行動管理部72


    は、画像認識部44の出力から、ペットロボット1が位置する場所を検出する。 ステップS32において、行動管理部72は、ペットロボット1が位置する場所が学校であるか否かを判定する。 ステップS32において、ペットロボット1の位置する場所が学校であると判定された場合、行動管理部72は、処理をステップS33に進め、学校におけるボルツマン温度Tをメモリ10Bから読み出す。 【0069】ステップS32において、ペットロボット1が位置する場所が学校ではないと判定された場合、行動管理部72は、処理をステップS34に進め、ペットロボット1が位置する場所が家であるか否かを判定する。 ステップS34において、ペットロボット1が位置する場所が家であると判定された場合、行動管理部72


    は、処理をステップS35に進め、家におけるボルツマン温度Tをメモリ10Bから読み出す。 【0070】ステップS34において、ペットロボット1が位置する場所が家ではないと判定された場合、行動管理部72は、処理をステップS36に進め、ペットロボット1が位置する場所が畑であるか否かを判定する。


    ステップS36において、ペットロボット1が位置する場所が畑であると判定された場合、行動管理部72は、


    処理をステップS37に進め、畑におけるボルツマンの温度Tをメモリ10Bから読み出す。 【0071】ステップS33,S35,またはS37の処理の後、行動管理部72は、ステップS38において、読み出したボルツマン温度Tを、新しいボルツマン温度Tとして設定する。 そして、処理は終了する。 【0072】ステップS36において、ペットロボット1が位置する場所が畑ではないと判定された場合、行動管理部72は、処理をステップS39に進め、エラー処理を行ない、処理を終了する。 【0073】場所によるボルツマン温度Tの値を示す例を、図11に示す。 ペットロボット1が学校に位置するとき、ボルツマン温度Tの値は一番小さく、行動価値Q


    (a)は行動選択確率Pに反映され、ペットロボット1


    は、知識利用的な行動をする。 即ち、ペットロボット1


    は、人間と同様に、学校にいるときは、決まった行動をする。 【0074】ペットロボット1が家に位置するときは、


    ボルツマン温度Tの値は平均的な値とされ、ペットロボット1は、知識利用的行動と探査的行動の両方をバランスよく行う。 そして、ペットロボット1が畑に位置するとき、ボルツマン温度Tの値は、一番大きくなり、行動価値Q(a)は行動選択確率Pに反映され難くなる。 したがって、ペットロボット1は、より探査的な行動をする。


    即ち、ペットロボット1は、人間と同様に、畑のような開放的な場所にいるときは、新しい行動を多くする。 【0075】また、時刻に応じて、ボルツマン温度Tを変化させることもできる。 この場合の処理を、図12を参照して説明する。 【0076】ステップS51において、行動管理部72


    は、時計10Cから、現在の時刻を読み出す。 ステップS52において、行動管理部72は、その読み出された時刻に基づいて、メモリ10Bに記憶されている式またはテーブル(例えば、図13の例の場合、「一日の流れの中の時刻」とボルツマン温度Tとの関係を表す式またはテーブル)に基づき、ボルツマン温度Tを演算する。 【0077】行動管理部72が、時刻に基づいて、ボルツマン温度Tを変化させる例を図13に示す。 朝起きたばかりの時刻t1のとき、ボルツマン温度Tは、最も小さい値とされ、ペットロボット1は、知識利用的な行動(決まった行動)をとり、新しい行動を行なわない。 そして、時刻の経過とともに、徐々にボルツマン温度Tは上がっていき、朝食を食べた後の時刻t2で、ボルツマン温度Tは、最大となる。 したがって、朝食を食べた後の時間帯では、ペットロボット1は、探査的な行動(新しい行動)を行い、活発に動く。 【0078】朝食を食べて、活発に動いた後、眠くなる時刻t3まで、ボルツマン温度Tは徐々に下がっていく。 したがって、時刻t3を中心とする眠くなる時間帯のとき、ペットロボット1は、知識利用的な行動(決まった行動)をとり、活発な動きをしない(ただし、時刻t1を中心とする時間帯よりは活発に活動する)。 その後、夕方から夜にかけての時刻t4まで、ボルツマン温度Tは、徐々に上がっていき、ペットロボット1は、また、探査的な行動(新しい行動)を行う(時刻t2の時間帯と時刻t3の時間帯の中間のレベルの活動を行う)。 【0079】そして、寝る前の時刻t5になるにつれて、ボルツマン温度Tは下がっていき、ペットロボット1は、徐々に知識利用的な行動(決まった行動)をとるようになっていく。 そして、ペットロボット1は就寝する。 このように、ペットロボット1は、人間と同様な行動を、1日の時間の流れの中で行なう。 【0080】さらに、起動後の経過時刻(ペットロボット1の成長時刻)に応じて、ボルツマン温度Tを変化させてもよい。 この場合の処理を、図14を参照して説明する。 【0081】ステップS61において、行動管理部72


    は、時計10Cから、ペットロボット1が生まれて(起動されて)からの時刻(成長時刻)を読み出す。 ステップS62において、行動管理部72は、その読み出された成長時刻に基づいて、メモリ10Bに記憶されている式またはテーブル(例えば、図15の例の場合、「成長時刻」とボルツマン温度Tとの関係を表す式またはテーブル)ボルツマン温度Tを演算する。 【0082】行動管理部72は、成長時刻tに基づいて、例えば、以下に示す式(4)のようにボルツマン温度Tを変化させる。 【数4】 【0083】なお、式(4)において、τは基準時刻、


    βは基準時刻付近での変化率を、それぞれ表す。 また、


    minとT

    maxは、それぞれ最小と最大のボルツマン温度を表す。 【0084】この式(4)を用いて計算されたボルツマン温度Tの変化を示す例を図15に示す。 図15に示されるように、ペットロボット1が生まれたばかり(起動当初)(t=0)のときのボルツマン温度Tは、T

    max


    で表される最大値とされ、探査的な行動(新しい行動)


    を多くする。 その後、時刻(年齢)が経過すると、徐々にボルツマン温度Tは小さくなる。 そして、ボルツマン温度Tは、最終的にはT

    minで表される最小値に収束し、ペットロボット1は、知識利用的行動(過去に学んだ行動)を行うようになる。 即ち、人間と同様に、年をとるにつれて、探査的な行動(新しい行動)をとりにくくなり、知識利用的行動(決まった行動)を行うようになる。 予め設定してある基準時刻(基準年齢)τにおいて、ボルツマン温度Tは、最大値と最小値の中間の値となる。 【0085】なお、上述した一連の処理は、図1に示したような動物型のペットロボットに実行させるだけでなく、例えば、2足歩行が可能な人間型ロボットや、コンピュータ内で活動する仮想ロボット等に実行させるようにしてもよい。 また、本明細書において、ロボットには、人工エージェントも含まれる。 【0086】また、上述した一連の処理は、ハードウエアにより実行させることもできるが、ソフトウエアにより実行させることもできる。 一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているロボット装置、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、


    例えば汎用のロボット装置などに、ネットワークや記録媒体からインストールされる。 【0087】この記録媒体は、図2に示されるように、


    装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されているリムーバブルメモリ61などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているメモリ10Bに含まれるハードディスクなどで構成される。 【0088】なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。 【0089】 【発明の効果】以上のように、本発明によれば、ロボット装置を動作させることができる。 また、その行動を通して、ユーザに、より生命らしい擬似感覚を与えることができる。 従って、ユーザが飽きない、ロボット装置を実現することができる。

    【図面の簡単な説明】 【図1】本発明を適用したペットロボットの外観の構成例を示す斜視図である。 【図2】図1のペットロボットの内部の構成例を示すブロック図である。 【図3】ペットロボットの機能モジュールの構成例を示す図である。 【図4】図3の本能・感情管理部の機能の例を模式的に示す図である。 【図5】本発明を適用した強化学習システムの構成を示す図である。 【図6】感情パラメータに基づいてボルツマン温度を演算する処理を説明するためのフローチャートである。 【図7】感情パラメータに基づくボルツマン温度の変化の例を示す図である。 【図8】本能パラメータに基づいてボルツマン温度を演算する処理を説明するためのフローチャートである。 【図9】本能パラメータに基づくボルツマン温度の変化の例を示す図である。 【図10】場所に基づいてボルツマン温度を決定する処理を説明するためのフローチャートである。 【図11】場所に基づくボルツマン温度の変化の例を示す図である。 【図12】時刻に基づいてボルツマン温度を演算する処理を説明するためのフローチャートである。 【図13】時刻に基づくボルツマン温度の変化の例を示す図である。 【図14】成長時刻に基づいてボルツマン温度を演算する処理を説明するためのフローチャートである。 【図15】成長時刻に基づくボルツマン温度の変化の例を示す図である。 【符号の説明】 31 センサ入力処理部, 32 情報処理部, 41
    角度検出部, 42音量検出部, 43 音声認識部, 44 画像認識部, 45 圧力検出部, 46
    位置検出部, 47 スイッチ入力検出部, 71
    本能・感情管理部, 72 行動管理部, 73 姿勢遷移管理部, 74 制御部, 75音データ生成部,
    76 音声合成部

    ───────────────────────────────────────────────────── フロントページの続き (72)発明者 花形 理 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内(72)発明者 高木 剛 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内Fターム(参考) 2C150 CA02 DA05 DA24 DA25 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED10 ED39 ED42 ED47 ED52 EF07 EF16 EF17 EF22 EF23 EF28 EF29 EF33 EF36 3C007 AS36 CS08 KS23 KS24 KS31 KS36 KS39 KT01 LW12 MT14 WA04 WA14 WB13 WB16 WC00

    高效检索全球专利

    专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

    我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

    申请试用

    分析报告

    专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

    申请试用

    QQ群二维码
    意见反馈