本論文の構成

本論文の構成は以下の通りである．

2章：ロボットが人と共存するにあたって，人の言葉を理解しその言葉の背後にある潜在的な意味を解釈して行動する必要がある．ロボットの行動（タスク）は単純なものから複雑なものまで様々であり，これらをこなすための知能（知識）が必要であると考える．2章ではロボットが家庭環境で活動することを前提として，掃除タスクを例に取り上げて概念や言語理解の必要性にについて議論する．実際著者は，RoboCup@Homeに参加し競技におけるタスクを実現するために，ヒューマノイドロボットによる掃除タスクを実装した．タスク実装のためにまず掃除タスクを定義し，その定義に従った掃除タスクを実現するためのハードウェア，視覚認識システムやプランニングなどについて述べる．さらに掃除タスクの実装によって，実現できたことや実現できなかったことを通して，ロボットのタスクと概念及び言語理解との関係性について議論する．

3章： 2章においてロボットがタスクを行うためには，知識が必要でありその知識を自律的に獲得することが重要であることを議論した．3章ではまず，ロボットのタスクに最も必要とされる知識である動作概念の獲得手法について述べる．提案手法は，先行研究より提案されたマルチモーダル潜在的ディリクレ配分法（Multimodal Latent Dirichlet Allocation：MLDA）を多層化した多層MLDA（multilayered Multimodal Latent Dirichlet Allocation：mMLDA）である．mMLDAによって，ロボットのタスクに必要な知識である物体や動き概念と，それらの関係を表現する動作概念の獲得を同時に行うことが可能

であることを示す．さらに，獲得した概念を利用することで，未観測情報や概念間など様々な予測が可能であることを実験通して示す．

4章： 3章において提案したモデルでは，物体と動きに対する理解を実現することができるが，より柔軟に理解を行うためには物体や動きの概念だけでは不十分であり，例えば場所や人物など多様な概念を獲得する必要がある．また，

獲得した多様な概念の意味をどのように言葉として表現するのかを考える必要がある．4章では，このような問題を解決するために，mMLDAを物体，

動き，場所，人物概念とそれらの関係性を表現する統合概念へ拡張し，獲得した階層的な概念に単語の結び付けを自動的に行う手法を提案する．さらに獲得した語意と教示発話を用いることで，教示文に含まれる概念クラスの生起順を計算し，文法の学習を行う．最終的には多様な概念，語意及び文法を用いて，観測したシーンを文章として表現する手法を提案し，実験を通して提案手法の有効性を示す．

5章： 4章において，多様な概念を獲得可能なモデルについて議論し，これが事物の理解において重要な役割を果たすことを明らかにした．しかし，ロボットが人を相手にしてタスク（サービス）を行うために，背景知識や周辺の状況などといった文脈を考慮しなければ，これを適切に行うことができない．

5章では，ロボットが人と生活する上で，様々な文脈においてどのように行動決定するかを議論する．これはmMLDAのさらなる応用として，人の言語命令のみならず，人の習慣（現在の動作と次の動作と動作する際に関係する物体や場所など）を手がかりにサービスするロボットの実現を目指したものである．5章では，シミュレーション実験を通して提案手法の有効性を示す．

6章：本論文のまとめと今後の課題について述べる．

語理解

2.1 ^はじめに

ロボットが人と自然に暮らすためには，人の言葉を理解する必要があり，その言葉の意味を解釈して行動しなければならない．前章において述べた，人のように理解をするロボットは，人と活動する際に得た経験をもとに多様な概念を獲得し，獲得した概念を利用することで，事物に対する様々な予測を行う．また，概念と言葉を結び付けることで，言語の理解が可能となる．

一方で，近年ロボット技術が進歩しており，ロボットが様々な場面・用途に利用されるようになってきた．中でも我々の身近に存在するロボットとして，掃除ロボットの普及が目覚ましい．特にiRobot社のRoomba [1]が，最も成功していると言える．こうしたロボットの知能とはどのようなものであろうか？明らかに

Roombaは，概念や言語理解の仕組みを持っていない．そのようなロボットが大き

な成功を収めているということは，概念や言語理解がロボットには求められていないことを意味しているのであろうか？

実際Roombaは，BrooksのSubsumption Architecture（SA）[36]をベースに作られている．SA理論では，複雑な知的振る舞い（システム）を多数の単純なシステムに分割し，それらの階層構造を構築する．各層（システム）は，それぞれ独自の入出力が存在し，他の層とは独立に環境と相互作用ができるように作られている．また，システムを構成する各層において，低次の層は高次の層に依存せずに並列的に作動できる．これにより，環境の状況に応じた行動が実現される．Brooks の考え方では，最初にあるのは行動であって，この行動と外界との相互作用から知性が生まれる．単純なタスクにおいて，SA理論で構築されたロボットは環境の

変化に対してロバストにタスクを行うことができるが，人間が日々行っているような複雑なタスクにおいては，このような知能だけでは不十分であろう．特に，人の言葉（命令）を解釈し動作するようなタスクにおいては，人間の言葉を理解しなければ実現不可能である．逆にRoombaは，非常に単純なタスクをロバストに実行することを目的に設計されており，そのロバストさこそが一般に受け入れられている理由であると言える．

しかし，ロボットに求められるのは単純なタスクをこなすことだけではない．例えば，家庭において求められるタスクに競技形式で取り組む RoboCup@Home [7]では，GPSR（General Purpose Service Robot）と呼ばれるタスクが存在する．GPSR はランダムに生成された言語命令に対して，ロボットがどれだけ適切に行動できるかを競う．このタスクでは，ロボットによる命令の解釈（言語理解）が必要であり，未だこれを完璧にこなすロボットは存在しない．また掃除タスクだけを考えてみても，実際には難しい問題が多く存在する．

そこで本章では，ロボットが家庭環境で動作することを前提として，掃除タスクを例として概念や言語理解の必要性に関する議論を進める．実際著者は，RoboCup

@Homeにおけるタスクを実現するために，ヒューマノイドロボットによる掃除タ

スクを実装した．ここではまず実装のために掃除タスクを定義し，その定義に従った掃除タスク実現のためのハードウェア，画像認識技術，タスク制御について述べる．そして，その実装によって実現できたことや実現できなかったことを通して，タスクと概念・言語理解との関係性について考察する．

ドキュメント内マルチモーダル潜在的ディリクレ配分法の多層化による知識の確率的表現 (ページ 33-36)

語理解

2.1 はじめに

2.1 ^はじめに