学習による共同注視行動の獲得

第 2 章人工システムの構築によるコミュニケーション行動の理解ニケーション行動の理解

2.2 学習による共同注視行動の獲得

Matsuda and Omori (2001)やTriesch et al. (2006)のモデルは，強化学習を用いて共同注視行動を獲得する．強化学習は，受け取る感覚情報に対する行動（視点の移動）に価値を割り当てて，ある行動を起こしたときに得られる報酬によってその行動の価値を形成する学習の仕組みである(Sutton and Barto, 1998)．この仕組みを使うと，共同注視は親の視線という刺激とその方向に視点を動かす行動の結び付きによって実現されることになる．

この仕組みによって共同注視を学習するときの基本的なメカニズムを説明する．図2.1 のような入出力を持つ乳幼児エージェント（以下，子エージェント）を考える．子エージェントは外から観察すれば刺激–反応系であり，その内部は感覚–運動系である．刺激として与えるのは親の視線方向とオブジェクトの配置であり，これはそのまま子エージェントが受け取る感覚情報になる．子エージェントはこの感覚情報に自分の視点の運動方向を何らかの方法で結び付けて，自分の視点を移動させる．

刺激反応

感覚運動

親の視線方向オブジェクトの配置

子エージェント

ex.

?

視点の移動

図 2.1: 子エージェントの感覚–運動系

この感覚–運動系を強化学習で構築する場合に問題になるのは，次の2点である．

1. どのような報酬を設定するか

2. その報酬を高めるために感覚と運動の対応関係をどのように修正するか

報酬の設定は，子エージェントが何らかの行動を行なった結果として受け取った刺激が自分の好むものであるとき，その行動を強化することを意味する．具体的には，例えば親の視線の先にあるオブジェクトを見ることができたとき，それを報酬として受け取る場合

24 第2章人工システムの構築によるコミュニケーション行動の理解

には，その報酬に寄与したと判断される行動の価値を上げて，次回に同じ刺激を受け取ったとき，報酬が高かった行動を選択するようにシステム内部の行動関数を修正することになる．

この基本的な仕組みを踏まえて，Matsuda and Omori (2001)，Triesch et al. (2006)，

Nagai et al. (2003)それぞれのモデルがどのようなメカニズムで共同注視を学習するのか

を説明する．

2.2.1 Matsuda and Omori (2001) の学習モデル

Matsudaらのモデルで想定されるのは，図2.2のような状況である．子エージェントと

親エージェントが正対している状況で，子エージェントの視界には親と複数のオブジェクトが映っている（図2.2左）．また，子エージェントが見えない位置には，左右におもちゃが置かれている（図2.2右）．ただし，このおもちゃは親が見た方向にのみ現われるように設定される．

Infant’s view Bird’s-eye view

図2.2: Matsudaらのモデルで想定されるインタラクション環境(Matsuda and Omori, 2001, Figure.1)

この状況で子エージェントは，視界に映るオブジェクトを見ている状態（S1），親を見ている状態（S2）,親の見ている方向に視点を移動する状態（Sgoal）をそれぞれ認識する．

これを状態遷移として図2.3のように書くと，共同注視は，S₁ →S₂ →S_goalをたどる行動

2.2. 学習による共同注視行動の獲得 25

として定式化される．Matsudaらのモデルでは，S2からS_goalへの遷移が起こったときにのみ報酬が与えられる．つまり，S2からS_goalへの遷移が起こったときにのみ子エージェントは視界の外にあるおもちゃを見ることができて，嬉しさを感じられると仮定されている．

S

^goal

S

goal

S

¹ 理想的な状態遷移

図2.3: 子エージェントの状態認識とその遷移(Matsuda and Omori, 2001, Figure.2を改変)

右の状態遷移図における点線の遷移は著者が書き入れたものである． Mat-sudaらのモデルにおいては，S1とS2は初期段階でS0という一つの状態認識であることを仮定し，そのS0から状態が分離する過程を考えることに焦点を当てている．最初からS1,S2の状態が用意されたときには，S1

からSgoalへの経路を考えることができるため，この点線を書き入れた．

図2.3に定式化した共同注視の状態遷移は，強化学習においてactor-criticと呼ばれる構造と，TD（temporal diﬀerence）学習と呼ばれる学習方法を用いて獲得される(Sutton and Barto, 1998)．詳細を説明すると非常に込み入ってしまうので，ここでは考え方だけを説明する．学習システムにはactorと呼ばれる運動学習器とcriticと呼ばれる評価器が用意される．Matsudaらのモデルではactorを人工ニューラルネットワークで実装する．

ただし，この部分は入力される状態信号と行動を評価器によって修正できるものなら何でもよい²⁴．criticにはTD学習が用いられる．TD学習は，報酬を得られた行動に対してその報酬に至るまでに選択された行動の全てに，その報酬を還元するアルゴリズムである．このため，親を注視している状態（S2）から親の視線方向に視点を移動させる状態

24一般的には確率分布が使われることが多い．

26 第2章人工システムの構築によるコミュニケーション行動の理解

（Sgoal）になったときにしか報酬を得なくとも，オブジェクトを注視している状態（S1）から親を注視するに至った行動に報酬が還元されるようになる．こうしてactorは，例えばコップを見ている状態から，次にもまたオブジェクトである積み木を見るよりは，親を見る方が報酬を得られることを学習することになるのである．

2.2.2 Triesch et al. (2006) の学習モデル

Trieschらのモデルでは図2.4のような状況が想定される．フィールドはグリッド（六

法格子）に分割され，そこに親エージェント，子エージェント，オブジェクトが配置される．1つのグリッドには2つ以上のオブジェクトは配置されない．また，最初に配置した親エージェントと子エージェントは移動しない設定になっている．この環境の中で，子エージェントはグリッドを視点として，そこにいる親や置かれたオブジェクトを注視する．ここで子エージェントはある対象を注視し続けると，徐々に慣れることによって視点の移動が起こるようになっている．

グリッド

Caregiver 親エージェント

Object オブジェクト Infant

子エージェント

図 2.4: 想定するインタラクション環境(Triesch et al., 2006, Figure.1)

報酬は親を見たとき，もしくはオブジェクトを見たときに与えられる．このとき，親はオブジェクトが置かれた方向に視線を向けていることが仮定されている．子エージェント

2.2. 学習による共同注視行動の獲得 27

は，注視するグリッドにオブジェクトがあるのか，親がいるのか，それとも何も映っていないのかを知ることができる．また親を見たときには，親の視線方向も知ることができる．

Trieschらのモデルでは，TD学習によって感覚–運動系が構成される．学習過程は次の

ように進行する．まず子エージェントは親のいる場所を注視するようになる．これは，親を見ることに報酬が設定された状態で親がいつでも同じ場所にいるという状況を体験するために，どこを見れば親がいるのかをすぐに学習できるからである．ただし，オブジェクトの方はランダムに場所が変わるので，特定の行動によってオブジェクトを見ることができるという状況ではない．しかし，親は必ずオブジェクトを見ているという状況があり，

かつ子エージェントは親を見たときに親がどこを見ているかという情報を得ることができる．このとき，親を見た後にオブジェクトを見ることができた場合に，親を見ていたときの親の視線方向と，視点を移動させた行動の関係を強化すれば，子エージェントは親が見ている方向に対応する行動を学習することになる．つまり，何も置かれていないグリッドを見ているとき，闇雲に視点を動かしてもオブジェクトを見ることはできないが，親を見れば，親の視線が情報手掛かりになってオブジェクトを見つけられる確率が高くなるのである．こういった状況を学習することによって，子エージェントは共同注視を獲得するようになる．

2.2.3 Nagai et al. (2003) _{の学習モデル}

Nagaiらは，視野内に映る親やオブジェクトを注視する体験を通じて，親の視線から視

野外のオブジェクトを注視できるようになる学習モデルを構築し，これをロボットに実装している．Nagaiらは，ある行動を足掛かりにして別の行動を獲得する発達過程をブートストラップ学習と呼んでいる．この学習モデルでは，まず視野内に映るものを注視する視覚定位²⁵ の行動が用意される．Nagaiらはこれを生得的な行動に位置付け，フィードバックゲイン制御を用いて実現する（図2.5：視覚定位）．また，視覚定位に並置される形で学習器が用意され，学習器の出力と視覚定位の出力は切替器によって切り替えられる（図 2.5：学習器と切替器）．

切替器は，最初のうちは視覚定位側だけが使われる．学習はヒトを注視したところ（ヒ

25Nagaiらのモデルでは視覚定位を視覚注視と呼ぶが，本論では視覚に関する定位行動を視覚定位と呼ぶ

慣習に従った．これは音に関する定位行動を音源定位と呼ぶことに倣ったものである．

ドキュメント内 JAIST Repository: 乳幼児の視線：視覚的コミュニケーション行動における意図的主体性形成の構成論的研究 (ページ 42-47)

第 2 章 人工システムの構築によるコミュ ニケーション行動の理解ニケーション行動の理解

2.2 学習による共同注視行動の獲得

2.2 学習による共同注視行動の獲得

刺激 反応

感覚 運動

子エージェント

?

2.2.1 Matsuda and Omori (2001) の学習モデル

S

S

S

S

S

S

2.2.2 Triesch et al. (2006) の学習モデル

2.2.3 Nagai et al. (2003) の学習モデル

第 2 章人工システムの構築によるコミュニケーション行動の理解ニケーション行動の理解

刺激反応

感覚運動

2.2.3 Nagai et al. (2003) _{の学習モデル}