STARTUP 11
分節化したロボット動作と 説明文の対応学習
奈良先端科学技術大学院大学 脇本 宏平 吉野 幸一郎 中村 哲
STARTUP 2
X 2
人間に代わって家事、介護
物を運ぶ、掃除する などの作業
世界大会
:
RoboCup@Home,
World Robot Summit (WRS)
背景(1/2)
生活支援ロボット
STARTUP 33
人間に代わって家事、介護
物を運ぶ、掃除する などの作業
世界大会
:
RoboCup@Home,
World Robot Summit (WRS)
背景(1/2)
生活支援ロボット
人間と協調して作業
・人間の自然言語による指示に従い行動
・自身の動作を文で説明
ロボットの動作: 数十~数百の小さな動作の組み合わせ 生活支援ロボットの場合:
様々な環境、タスク、指示方法
→ 文と動作パターンの関係の事前定義が困難
STARTUP 4
X 4
指示
環境情報
(センサ)
動作
「コップを拾って」
背景(2/2)
ロボット動作と指示文・説明文
STARTUP 55
指示
環境情報
(センサ)
動作
「コップを拾って」
「コップを拾う」説明
背景(2/2)
ロボット動作と指示文・説明文
環境+身体情報
STARTUP 6
X 6
指示
動作
環境+身体情報
「コップを拾って」
「コップを拾う」説明
目的・動作→説明文方向の変換を行うシステムの構築
背景(2/2)
ロボット動作と指示文・説明文
環境情報
(センサ)
STARTUP 77
深層強化学習を用いたロボットの自然言語による制御への取組み 橋本ら
2018
名称 方向 ID 方向 ID 動きの単位
上腕を回転 左 A 右 B 0.05
上腕を上下 下 C 上 D 0.05
肘を回転 右 E 左 F 0.005
手首を捻る 下 G 上 H 0.5
単位動作辞書
自然言語の文と動作の対応学習
タスク:「ふたを円柱にはめて」
→中間動作:「腕を移動」「円柱を掴む」「運ぶ」
→単位動作:
AGEC……AH
関連研究(1/3)
STARTUP 8
X 8
動作の分節化に基づく家事タスクにおける行動の構造化 岩田ら
2016
動作の分節化
・基本動作を教師あり学習(HMM)により抽出
・関節角度系列を基本動作系列に変換
・多様な動作を基本動作クラスの組み合わせとして表現
関連研究(2/3)
基本動作を用いた動作の構造化
STARTUP 99
Paired Recurrent Autoencoders for Bidirectional Translation Between Robot Actions and Linguistic Descriptions
Yamada et al. 2018
2種類(言語用・動作用)のRecurrent Auto Encoderを使用
・同一の系列を入出力に使用
・系列情報の圧縮
中間表現(系列情報を圧縮したベクトル)を近づけるよう学習 中間表現を介して動作、文の双方向変換
関連研究(3/3)
動作と指示文・説明文のEnd-to-endでの学習
STARTUP 10
X 10
先行研究の問題点
・観測される生の系列データをそのまま学習に使用
・動作が複雑化すると系列長が増大
・長い系列の学習が困難(勾配消失)
・動作と文が中間表現により一対一対応
・実際のロボット動作系列上には類似した部分系列が存在するが 活用できない
→ 多量の学習データが必要
提案
・動作の分節化をEnd-to-endでの学習に導入
分節化したロボット動作と説明文の対応学習(1/7)
STARTUP 1111
・画像
・関節角
動作
問題設定
入力(観測データ)
画像 復元
出力
日本語の文
例「コップをテーブルに置いて」
形態素解析により分かち書き
→ 単語のone-hotベクトル系列
encoder CNN encoder CNN
中間表現
画像特徴ベクトル 動作系列
分節化したロボット動作と説明文の対応学習(2/7)
Convolutional Auto Encoder (CAE)
STARTUP 12
X 12
encoder-decoderモデル
問題・動作系列の系列長が増大
→大量の学習データが必要
Encoder Decoder
画像 関節角
encoder-decoderモデル
動作
(単語系列)
説明文動作情報系列
encoder-decoderモデルによる学習
分節化したロボット動作と説明文の対応学習(3/7)
STARTUP 1313
画像 関節角
encoder-decoderモデル
動作
(単語系列)
説明文動作情報系列
encoder-decoderモデルによる学習
2種類の分節化の導入 1. Attention機構
2.
クラスタリング、チャンキングによる分節化分節化したロボット動作と説明文の対応学習(4/7)
STARTUP 14
X 14
Attention機構(暗黙的分節化)
( j
1, v
1) ( j
2, v
2) ( j
3, v
3) ( j
4, v
4) <BOS> w'
1w'
2a
tc
tAttention layer
出力時刻に対する入力時刻の重みを学習に導入
予想:重みが強く働く入力部分系列→出力単語に対応する動作クラスとなる
encoder decoder
分節化したロボット動作と説明文の対応学習(5/7)
STARTUP 1515
(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )
・・・・
ADCACBDCADCBDADCACDD (1) クラスタリング
(k平均法)
動作情報系列(画像・関節角)
クラスタリング, チャンキングによる分節化(明示的分節化)
類似する姿勢をk個のクラスター系列として量子化
分節化したロボット動作と説明文の対応学習(6/7)
STARTUP 16
X 16
(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )
・・・・
ADCACBDCADCBDADCACDD (1) クラスタリング
(k平均法)
ADCA CBD CAD CBD ADCA CDD (2) チャンキング
(サブワード分割)
動作情報系列クラスタリング, チャンキングによる分節化(明示的分節化)
1 2 3 2 1 4
基本動作クラス
出現頻度の高い系列を基本動作クラスに分類
分節化したロボット動作と説明文の対応学習(6/7)
STARTUP 1717
画像 関節角
encoder-decoderモデル
説明文 動作
単語系列
提案2. Attention機構
(暗黙的分節化)
動作情報系列2種類の分節化の導入
提案1. クラスタリング, チャンキング
分節化したロボット動作と説明文の対応学習(7/7)
STARTUP 18
X 18
評価実験(1/5)
実験条件
ロボット
: Human Support Robot (HSR)
アーム1個 , カメラ, 9個の関節、
水平移動(前後、左右、回転) シミュレータ
: SIGVerse
環境: 室内、家具(机、本棚、椅子等)、
把持可能な物体14種類
(World Robot Summit2018に準拠)
モデル:
(1) 分節化を用いないencoder-decoderモデル
(2) クラスタリング、チャンキングによる分節化を導入したモデル (3) Attention機構を導入したモデル
(4) 両方の分節化を導入したモデル
STARTUP 1919
評価実験(2/5)
データセット
50個の動作: 「取ってくる」「置く」 「落とす」 「拾う」「見に行く」 (各20~30秒)
動作情報(0.3秒毎): 関節角情報(関節角度、移動速度) (12次元) 視覚情報(160x120 RGB画像からCAEにより抽出) (10次元) 指示文:クラウドソーシングで収集
1000文(20文×50動作)
KyTea (京都テキスト解析ツールキット) により分かち書き
白いテーブルにあるうさぎの人形を取って 台の上のソースを落として
床のぬいぐるみを持ち上げて
たばこが部屋のどこかにないか見てきて
ソファーの隣の棚の一番上にあるお菓子をとって 床の醤油拾って
椅子の上の物を車椅子の上に移動して 缶を持ってきて。
ベットのアヒルの人形を下に落として
訓練40, 検証5, 評価5, 10分割交差検証(全50動作について評価)
STARTUP 20
X 20
評価実験(3/5)
学習クラスタリング
・k平均法
クラスタ数150 (Elbow methodで決定) チャンキング
・SentencePiece 語彙数200
・encoder-decoderモデル
LSTM (1層 160ユニット )
評価基準
BLEU(自動評価)
参照文との単語n-gramの一致率を計算
→出現単語が参照文に近い出力文ほど高スコア 各動作に20文の参照文
→4-gram BLEUスコアが最大の参照文をスコア計算に採用
STARTUP 2121
評価実験(4/5)
BLEU
モデル
BLEU-2 BLEU-3 BLEU-4
分節化なし
0.0649 0.107 0.128
明示的分節化0.331 0.295 0.264
Attention機構のみ利用 0.324 0.294 0.266
Attention機構+明示的分節化 0.339 0.301 0.269
結果
自動評価
分節化により性能が向上
2種類の分節化を併用したモデルのスコアが最高
分節化によりうまく基本動作が形成されている可能性
→ 今後:分析と可視化
STARTUP 22
X 22
評価実験(5/5)
結果
参照文
1. 床のティーポットを拾って
2. 寝室の様子を見てきて
分節化なし
1. ののののののののののののの 2. ののののののててててててて
明示的分節化1. 床の上のソースを取って
2. 部屋の様子を見てきて
Attention機構のみ利用 1. テーブルの上のソースを取って
2. テーブルの上のぬいぐるみを持ってきて
Attention機構+明示的分節化 1. 床にあるソースを拾って
2. キッチンの上の様子を見て
分節化なし → ・非文が生成された(データ量が不十分)
分節化あり → ・ある程度動作を反映した意味のある文が生成された
・動作を表現する部分はある程度特徴を掴んでいる
・物体名はほとんど正しく生成できなかった
→画像の利用法の検討が必要
自動評価指標だけでは不十分
(拾う、取る コップ、カップの違い)
BLEU計算に使用した参照文と生成結果
STARTUP 2323
まとめと今後の課題
・ロボットの動作情報から動作の説明文を生成するシステムを構築
・encoder-decoderモデルへのAttention機構、明示的な分節化の導入を提案
・実験の結果、提案した分節化の有効性が確認された
今後の課題
・分節化により形成された基本動作の分析と可視化
・画像情報のより効果的な利用方法の検討
STARTUP 24
X 24
参考文献
1.
橋本さゆり, 小林一郎. 深層強化学習と言葉による離散化を用いたロボット制御への取組み. JSAI20182. 田村優樹, 長崎達也, 中野雅広, 原田実. 意味解析に基づくロボット指示システムAthena2011. 研究報告音声言語情報処理2012 3.森武俊, 祢次金佑, 下坂正倫, 佐藤知正. 日常動作の概念関係と隠れマルコフモデルを利用した動作のオンライン分節化. 日本ロ
ボット学会誌,4.中村友昭, アッタミミムハンマド, 長井隆行, 持橋大地, 小林一郎, 麻生英樹, 金子正秀. ガウス過程の隠れセミマルコフモデルに基
づく身体動作の分節化. 人工知能学会第30 回全国大会論文集, pp. 1035-1035, 2016.5. 岩田健輔, 池田成満, 青木達哉, 西原成, 中村友昭, 長井隆行. 動作の分節化に基づく家事タスクにおける行動の構造化 人口の
宇学会, 2016.6. 長野匡隼, 中村友昭, 長井隆行, 持橋大地, 小林一郎, 金子正秀. 階層ディリクレ過程による動作クラス数推定を導入したGP- HSMM による連続動作からの基本動作抽出
7. Sutskever, O. Vinyals and Q. Le. Sequence tosequence learning with neural networks. NIPS, pp.3104-3112, 2014.
8. C.C. Chiu, T. Sainath, Y. Wu, R. Prabhavalkar,P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K.Rao, K. Gonina, N. Jaitly , B. Li, J. Chorowski andM. Bacchiani. State-of-the-art speech recognitionwith sequence-to-sequence models. IEEE-ICASSP, 9. M. Plappert, C. Mandery and T. Asfour. Learning a bidirectional mapping between human whole-bodymotion and natural language using deep recurrentneural networks. Robotics and Autonomous Systems,Vol. 109, pp. 13-26, 2018.
10. T. Yamada, H. Matsunaga and T. Ogata. Paired recurrent autoencoders for bidirectional translation between robotactions and linguistic descriptions. IEEERA-L, pp. 3441-3448, 2018.
11. M. T. Luong, H. Pham and C. D. Manning. Effective
approaches to attention-based neural machine translation. EMNLP, pp. 1412-1421, 2015.
12. J. Fasola and M. J. Mataric. Using semantic fields to model dynamic spatial relations in a robot architecture for natural
language instruction of servicerobots. IEEE/RSJ IROS, pp. 143-150, 2013.
STARTUP 2525