本論文の構成は以下の通りである.
2章: ロボットが人と共存するにあたって,人の言葉を理解しその言葉の背後に ある潜在的な意味を解釈して行動する必要がある.ロボットの行動(タス ク)は単純なものから複雑なものまで様々であり,これらをこなすための知 能(知識)が必要であると考える.2章ではロボットが家庭環境で活動する ことを前提として,掃除タスクを例に取り上げて概念や言語理解の必要性に について議論する.実際著者は,RoboCup@Homeに参加し競技におけるタ スクを実現するために,ヒューマノイドロボットによる掃除タスクを実装し た.タスク実装のためにまず掃除タスクを定義し,その定義に従った掃除タ スクを実現するためのハードウェア,視覚認識システムやプランニングなど について述べる.さらに掃除タスクの実装によって,実現できたことや実現 できなかったことを通して,ロボットのタスクと概念及び言語理解との関係 性について議論する.
3章: 2章においてロボットがタスクを行うためには,知識が必要でありその知識 を自律的に獲得することが重要であることを議論した.3章ではまず,ロボッ トのタスクに最も必要とされる知識である動作概念の獲得手法について述べ る.提案手法は,先行研究より提案されたマルチモーダル潜在的ディリクレ 配分法(Multimodal Latent Dirichlet Allocation:MLDA)を多層化した多 層MLDA(multilayered Multimodal Latent Dirichlet Allocation:mMLDA) である.mMLDAによって,ロボットのタスクに必要な知識である物体や動 き概念と,それらの関係を表現する動作概念の獲得を同時に行うことが可能
であることを示す.さらに,獲得した概念を利用することで,未観測情報や 概念間など様々な予測が可能であることを実験通して示す.
4章: 3章において提案したモデルでは,物体と動きに対する理解を実現するこ とができるが,より柔軟に理解を行うためには物体や動きの概念だけでは不 十分であり,例えば場所や人物など多様な概念を獲得する必要がある.また,
獲得した多様な概念の意味をどのように言葉として表現するのかを考える必 要がある.4章では,このような問題を解決するために,mMLDAを物体,
動き,場所,人物概念とそれらの関係性を表現する統合概念へ拡張し,獲得 した階層的な概念に単語の結び付けを自動的に行う手法を提案する.さらに 獲得した語意と教示発話を用いることで,教示文に含まれる概念クラスの生 起順を計算し,文法の学習を行う.最終的には多様な概念,語意及び文法を 用いて,観測したシーンを文章として表現する手法を提案し,実験を通して 提案手法の有効性を示す.
5章: 4章において,多様な概念を獲得可能なモデルについて議論し,これが事 物の理解において重要な役割を果たすことを明らかにした.しかし,ロボッ トが人を相手にしてタスク(サービス)を行うために,背景知識や周辺の状 況などといった文脈を考慮しなければ,これを適切に行うことができない.
5章では,ロボットが人と生活する上で,様々な文脈においてどのように行 動決定するかを議論する.これはmMLDAのさらなる応用として,人の言語 命令のみならず,人の習慣(現在の動作と次の動作と動作する際に関係する 物体や場所など)を手がかりにサービスするロボットの実現を目指したもの である.5章では,シミュレーション実験を通して提案手法の有効性を示す.
6章: 本論文のまとめと今後の課題について述べる.
語理解
2.1 はじめに
ロボットが人と自然に暮らすためには,人の言葉を理解する必要があり,その 言葉の意味を解釈して行動しなければならない.前章において述べた,人のよう に理解をするロボットは,人と活動する際に得た経験をもとに多様な概念を獲得 し,獲得した概念を利用することで,事物に対する様々な予測を行う.また,概 念と言葉を結び付けることで,言語の理解が可能となる.
一方で,近年ロボット技術が進歩しており,ロボットが様々な場面・用途に利 用されるようになってきた.中でも我々の身近に存在するロボットとして,掃除 ロボットの普及が目覚ましい.特にiRobot社のRoomba [1]が,最も成功してい ると言える.こうしたロボットの知能とはどのようなものであろうか?明らかに
Roombaは,概念や言語理解の仕組みを持っていない.そのようなロボットが大き
な成功を収めているということは,概念や言語理解がロボットには求められてい ないことを意味しているのであろうか?
実際Roombaは,BrooksのSubsumption Architecture(SA)[36]をベースに作 られている.SA理論では,複雑な知的振る舞い(システム)を多数の単純なシス テムに分割し,それらの階層構造を構築する.各層(システム)は,それぞれ独自 の入出力が存在し,他の層とは独立に環境と相互作用ができるように作られてい る.また,システムを構成する各層において,低次の層は高次の層に依存せずに並 列的に作動できる.これにより,環境の状況に応じた行動が実現される.Brooks の考え方では,最初にあるのは行動であって,この行動と外界との相互作用から 知性が生まれる.単純なタスクにおいて,SA理論で構築されたロボットは環境の
変化に対してロバストにタスクを行うことができるが,人間が日々行っているよ うな複雑なタスクにおいては,このような知能だけでは不十分であろう.特に,人 の言葉(命令)を解釈し動作するようなタスクにおいては,人間の言葉を理解し なければ実現不可能である.逆にRoombaは,非常に単純なタスクをロバストに 実行することを目的に設計されており,そのロバストさこそが一般に受け入れら れている理由であると言える.
しかし,ロボットに求められるのは単純なタスクをこなすことだけではない.例え ば,家庭において求められるタスクに競技形式で取り組む RoboCup@Home [7]で は,GPSR(General Purpose Service Robot)と呼ばれるタスクが存在する.GPSR はランダムに生成された言語命令に対して,ロボットがどれだけ適切に行動でき るかを競う.このタスクでは,ロボットによる命令の解釈(言語理解)が必要で あり,未だこれを完璧にこなすロボットは存在しない.また掃除タスクだけを考 えてみても,実際には難しい問題が多く存在する.
そこで本章では,ロボットが家庭環境で動作することを前提として,掃除タスク を例として概念や言語理解の必要性に関する議論を進める.実際著者は,RoboCup
@Homeにおけるタスクを実現するために,ヒューマノイドロボットによる掃除タ
スクを実装した.ここではまず実装のために掃除タスクを定義し,その定義に従っ た掃除タスク実現のためのハードウェア,画像認識技術,タスク制御について述 べる.そして,その実装によって実現できたことや実現できなかったことを通し て,タスクと概念・言語理解との関係性について考察する.