分節化したロボット動作と説明文の対応学習

(1)

STARTUP 11

分節化したロボット動作と説明文の対応学習

奈良先端科学技術大学院大学脇本宏平吉野幸一郎中村哲

(2)

STARTUP 2

X 2

人間に代わって家事、介護

物を運ぶ、掃除するなどの作業

世界大会

:

RoboCup＠Home,

World Robot Summit (WRS)

背景(1/2)

生活支援ロボット

(3)

STARTUP 33

人間に代わって家事、介護

物を運ぶ、掃除するなどの作業

世界大会

:

RoboCup＠Home,

World Robot Summit (WRS)

背景(1/2)

生活支援ロボット

人間と協調して作業

・人間の自然言語による指示に従い行動

・自身の動作を文で説明

ロボットの動作：数十～数百の小さな動作の組み合わせ生活支援ロボットの場合：

様々な環境、タスク、指示方法

→ 文と動作パターンの関係の事前定義が困難

(4)

STARTUP 4

X 4

指示

環境情報

(センサ)

動作

「コップを拾って」

背景(2/2)

ロボット動作と指示文・説明文

(5)

STARTUP 55

指示

環境情報

(センサ)

動作

「コップを拾う」説明

背景(2/2)

環境＋身体情報

(6)

STARTUP 6

X 6

指示

動作

環境＋身体情報

「コップを拾う」説明

目的・動作→説明文方向の変換を行うシステムの構築

背景(2/2)

環境情報

(センサ)

(7)

STARTUP 77

深層強化学習を用いたロボットの自然言語による制御への取組み橋本ら

2018

名称方向 ID 方向 ID 動きの単位

上腕を回転左 A 右 B 0.05

上腕を上下下 C 上 D 0.05

肘を回転 右 E 左 F 0.005

手首を捻る下 G 上 H 0.5

単位動作辞書

自然言語の文と動作の対応学習

タスク：「ふたを円柱にはめて」

→中間動作：「腕を移動」「円柱を掴む」「運ぶ」

→単位動作：

AGEC……AH

201６

動作の分節化

・基本動作を教師あり学習（HMM）により抽出

・関節角度系列を基本動作系列に変換

・多様な動作を基本動作クラスの組み合わせとして表現

Yamada et al. 2018

2種類(言語用・動作用)のRecurrent Auto Encoderを使用

・同一の系列を入出力に使用

・系列情報の圧縮

中間表現(系列情報を圧縮したベクトル)を近づけるよう学習中間表現を介して動作、文の双方向変換

encoder CNN encoder CNN

中間表現

画像特徴ベクトル動作系列

Convolutional Auto Encoder (CAE)

(12)

STARTUP 12

X 12

encoder-decoderモデル

問題・動作系列の系列長が増大

→大量の学習データが必要

Encoder Decoder

画像関節角

encoder-decoderモデル

動作

(単語系列)

説明文

動作情報系列

encoder-decoderモデルによる学習

(13)

STARTUP 1313

画像関節角

encoder-decoderモデル

動作

(単語系列)

説明文

動作情報系列

encoder-decoderモデルによる学習

2種類の分節化の導入 1. Attention機構

2.

クラスタリング、チャンキングによる分節化

(14)

STARTUP 14

X 14

Attention機構(暗黙的分節化)

( j

1

, v

1

) ( j

2

, v

2

) ( j

3

, v

3

) ( j

4

, v

4

) <BOS> w'

1

w'

2

a

^t

c

^t

Attention layer

出力時刻に対する入力時刻の重みを学習に導入

予想：重みが強く働く入力部分系列→出力単語に対応する動作クラスとなる

encoder decoder

(15)

STARTUP 1515

(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )

・・・・

ADCACBDCADCBDADCACDD (1) クラスタリング

(k平均法)

動作情報系列(画像・関節角)

クラスタリング, チャンキングによる分節化(明示的分節化)

類似する姿勢をk個のクラスター系列として量子化

(16)

STARTUP 16

X 16

(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )

・・・・

ADCACBDCADCBDADCACDD (1) クラスタリング

(k平均法)

ADCA CBD CAD CBD ADCA CDD (2) チャンキング

(サブワード分割)

動作情報系列

クラスタリング, チャンキングによる分節化(明示的分節化)

１ 2 3 2 1 4

基本動作クラス

出現頻度の高い系列を基本動作クラスに分類

(17)

STARTUP 1717

画像関節角

encoder-decoderモデル

説明文動作

単語系列

提案2. Attention機構

(暗黙的分節化)

動作情報系列

２種類の分節化の導入

提案１. クラスタリング, チャンキング

(18)

STARTUP 18

X 18

評価実験(1/5)

実験条件

ロボット

: Human Support Robot (HSR)

アーム

1個 , カメラ, 9個の関節、

水平移動(前後、左右、回転) シミュレータ

: SIGVerse

環境：室内、家具(机、本棚、椅子等)、

把持可能な物体14種類

(World Robot Summit2018に準拠)

モデル：

(1) 分節化を用いないencoder-decoderモデル

(2) クラスタリング、チャンキングによる分節化を導入したモデル (3) Attention機構を導入したモデル

(4) 両方の分節化を導入したモデル

(19)

STARTUP 1919

評価実験(2/5)

データセット

50個の動作：「取ってくる」「置く」「落とす」「拾う」「見に行く」 (各20~30秒)

動作情報(0.3秒毎)：関節角情報(関節角度、移動速度) (12次元) 視覚情報(160x120 RGB画像からCAEにより抽出) (10次元) 指示文：クラウドソーシングで収集

1000文(20文×50動作)

KyTea (京都テキスト解析ツールキット) により分かち書き

白いテーブルにあるうさぎの人形を取って 台の上のソースを落として

床のぬいぐるみを持ち上げて

たばこが部屋のどこかにないか見てきて

ソファーの隣の棚の一番上にあるお菓子をとって 床の醤油拾って

椅子の上の物を車椅子の上に移動して 缶を持ってきて。

ベットのアヒルの人形を下に落として

訓練40, 検証5, 評価5, 10分割交差検証(全50動作について評価)

(20)

STARTUP 20

X 20

評価実験(3/5)

学習クラスタリング

・k平均法

クラスタ数150 (Elbow methodで決定) チャンキング

・SentencePiece 語彙数200

・encoder-decoderモデル

LSTM (1層 160ユニット )

評価基準

BLEU(自動評価)

参照文との単語n-gramの一致率を計算

→出現単語が参照文に近い出力文ほど高スコア各動作に20文の参照文

→4-gram BLEUスコアが最大の参照文をスコア計算に採用

(21)

STARTUP 2121

評価実験(4/5)

BLEU

モデル

BLEU-2 BLEU-3 BLEU-4

分節化なし

0.0649 0.107 0.128

明示的分節化

0.331 0.295 0.264

Attention機構のみ利用 0.324 0.294 0.266

Attention機構+明示的分節化 0.339 0.301 0.269

結果

自動評価

分節化により性能が向上

2種類の分節化を併用したモデルのスコアが最高

分節化によりうまく基本動作が形成されている可能性

→ 今後：分析と可視化

(22)

STARTUP 22

X 22

評価実験(5/5)

結果

参照文

1. 床のティーポットを拾って

2. 寝室の様子を見てきて

分節化なし

1. ののののののののののののの 2. ののののののててててててて

明示的分節化

1. 床の上のソースを取って

2. 部屋の様子を見てきて

Attention機構のみ利用 1. テーブルの上のソースを取って

2. テーブルの上のぬいぐるみを持ってきて

Attention機構+明示的分節化 1. 床にあるソースを拾って

2. キッチンの上の様子を見て

分節化なし → ・非文が生成された(データ量が不十分)

分節化あり → ・ある程度動作を反映した意味のある文が生成された

・動作を表現する部分はある程度特徴を掴んでいる

・物体名はほとんど正しく生成できなかった

→画像の利用法の検討が必要

自動評価指標だけでは不十分

(拾う、取るコップ、カップの違い)

BLEU計算に使用した参照文と生成結果

(23)

STARTUP 2323

まとめと今後の課題

・ロボットの動作情報から動作の説明文を生成するシステムを構築

・encoder-decoderモデルへのAttention機構、明示的な分節化の導入を提案

・実験の結果、提案した分節化の有効性が確認された

今後の課題

・分節化により形成された基本動作の分析と可視化

・画像情報のより効果的な利用方法の検討

(24)

STARTUP 24

X 24

参考文献

1.

橋本さゆり, 小林一郎. 深層強化学習と言葉による離散化を用いたロボット制御への取組み. JSAI2018

2. 田村優樹, 長崎達也, 中野雅広, 原田実. 意味解析に基づくロボット指示システムAthena2011. 研究報告音声言語情報処理2012 3.森武俊, 祢次金佑, 下坂正倫, 佐藤知正. 日常動作の概念関係と隠れマルコフモデルを利用した動作のオンライン分節化. 日本ロ

ボット学会誌,

4.中村友昭, アッタミミムハンマド, 長井隆行, 持橋大地, 小林一郎, 麻生英樹, 金子正秀. ガウス過程の隠れセミマルコフモデルに基

づく身体動作の分節化. 人工知能学会第30 回全国大会論文集, pp. 1035-1035, 2016.

5. 岩田健輔, 池田成満, 青木達哉, 西原成, 中村友昭, 長井隆行. 動作の分節化に基づく家事タスクにおける行動の構造化人口の

宇学会, 2016.

6. 長野匡隼, 中村友昭, 長井隆行, 持橋大地, 小林一郎, 金子正秀. 階層ディリクレ過程による動作クラス数推定を導入したGP- HSMM による連続動作からの基本動作抽出

7. Sutskever, O. Vinyals and Q. Le. Sequence tosequence learning with neural networks. NIPS, pp.3104-3112, 2014.

8. C.C. Chiu, T. Sainath, Y. Wu, R. Prabhavalkar,P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K.Rao, K. Gonina, N. Jaitly , B. Li, J. Chorowski andM. Bacchiani. State-of-the-art speech recognitionwith sequence-to-sequence models. IEEE-ICASSP, 9. M. Plappert, C. Mandery and T. Asfour. Learning a bidirectional mapping between human whole-bodymotion and natural language using deep recurrentneural networks. Robotics and Autonomous Systems,Vol. 109, pp. 13-26, 2018.

10. T. Yamada, H. Matsunaga and T. Ogata. Paired recurrent autoencoders for bidirectional translation between robotactions and linguistic descriptions. IEEERA-L, pp. 3441-3448, 2018.

11. M. T. Luong, H. Pham and C. D. Manning. Effective

approaches to attention-based neural machine translation. EMNLP, pp. 1412-1421, 2015.

12. J. Fasola and M. J. Mataric. Using semantic fields to model dynamic spatial relations in a robot architecture for natural

language instruction of servicerobots. IEEE/RSJ IROS, pp. 143-150, 2013.

(25)

STARTUP 2525

参考文献

13. O. Fabius and J. R. van Amersfoort. Variational recurrent auto-encoders. ICLR, 2015.

14. X. Guo, X. Liu, E. Zhu and J. Yin. Deep clusteringwith convolutional autoencoders. ICONIP, pp. 373-382, 2017.

15. S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Comput, Vol. 9, No. 8, pp. 1735-1780, 1997.

16. J. Hartigan, M. Wong. A k-means clustering algorithm. J R Stat Soc Series C, Vol. 28, No. 1, pp.100-108, 1979.

17. T. Kudo and J. Richardson. SentencePiece: A simple and language independent subword tokenizer anddetokenizer for Neural Text Processing. EMNLP,2018.

分節化したロボット動作と 説明文の対応学習