of Privious Study

状態行動地図を用いた実時間行動決定

新井教授,上田助教


 行動決定に実時間性が強く求められるタスクを自律ロボットが行う場合,ロボットの取り得る全ての状況について取るべき行動を記述したルックアップテーブル(状態行動地図)を予め作成しておき,ロボットに搭載するという手段が考えられる.この場合,状態行動地図を参照するだけでロボットは行動決定を行うことができるため,行動決定に必要な計算量はごくわずかとなる.当研究室では,ロボットサッカーを題材としてロボットの様々な行動を動的計画法で作成し,状態行動地図の圧縮やパーティクルフィルタとの併用(real-time Q-MDP法)等の研究を行ってきた1).
 Fig.1はロボットAIBO(SONY製ERS-7)のボール接近例である.ロボットはシュートに有利な体勢となるようにボールへ回り込みながら接近している.同様な計画をゴールキーパーロボットに適用した行動例をFig. 2に示す.自己位置(方向),ボールの位置や速度で張られる空間に対して得られた動的計画法の計算結果を用い,動くボールに対しも適切に反応している.2台のロボットによる協調動作の状態行動地図は,状態量の次元が高くなり,状態数は6億を超える.地図の作成にはPentium 4 3.6GHz CPUのPCで1週間を要する.その地図を使ったシミュレーション結果をFig.3 に示す 2).

Fig 1: Behavior for Obtaining the Ball
Fig 2: Goalkeeper Behavior
Fig 3: Cooporative Behavior of Two Robots on Simulator

Keywords: Dynamic programming, Vector Quantization


References

1) 実川達明:“動的で不確実な環境における移動ロボットの実時間行動決定”,平成17年度東京大学工学系研究科精密機械工学専攻修士論文,2006.

2) 坂本浩平,上田隆一,新井民夫,実川達明,竹下和孝:“動的計画法を用いた協調行動の計画”,第23回日本ロボット学会学術講演会予稿集,1D17,2005.