• 検索結果がありません。

分節化したロボット動作と 説明文の対応学習

N/A
N/A
Protected

Academic year: 2021

シェア "分節化したロボット動作と 説明文の対応学習"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

STARTUP 11

分節化したロボット動作と 説明文の対応学習

奈良先端科学技術大学院大学 脇本 宏平 吉野 幸一郎 中村 哲

(2)

STARTUP 2

X 2

人間に代わって家事、介護

物を運ぶ、掃除する などの作業

世界大会

:

RoboCup@Home,

World Robot Summit (WRS)

背景(1/2)

生活支援ロボット

(3)

STARTUP 33

人間に代わって家事、介護

物を運ぶ、掃除する などの作業

世界大会

:

RoboCup@Home,

World Robot Summit (WRS)

背景(1/2)

生活支援ロボット

人間と協調して作業

・人間の自然言語による指示に従い行動

・自身の動作を文で説明

ロボットの動作: 数十~数百の小さな動作の組み合わせ 生活支援ロボットの場合:

様々な環境、タスク、指示方法

→ 文と動作パターンの関係の事前定義が困難

(4)

STARTUP 4

X 4

指示

環境情報

(センサ)

動作

「コップを拾って」

背景(2/2)

ロボット動作と指示文・説明文

(5)

STARTUP 55

指示

環境情報

(センサ)

動作

「コップを拾って」

「コップを拾う」説明

背景(2/2)

ロボット動作と指示文・説明文

環境+身体情報

(6)

STARTUP 6

X 6

指示

動作

環境+身体情報

「コップを拾って」

「コップを拾う」説明

目的・動作→説明文方向の変換を行うシステムの構築

背景(2/2)

ロボット動作と指示文・説明文

環境情報

(センサ)

(7)

STARTUP 77

深層強化学習を用いたロボットの自然言語による制御への取組み 橋本ら

2018

名称 方向 ID 方向 ID 動きの単位

上腕を回転 左 A B 0.05

上腕を上下 下 C D 0.05

肘を回転 E F 0.005

手首を捻る 下 G H 0.5

単位動作辞書

自然言語の文と動作の対応学習

タスク:「ふたを円柱にはめて」

→中間動作:「腕を移動」「円柱を掴む」「運ぶ」

→単位動作:

AGEC……AH

関連研究(1/3)

(8)

STARTUP 8

X 8

動作の分節化に基づく家事タスクにおける行動の構造化 岩田ら

2016

動作の分節化

・基本動作を教師あり学習(HMM)により抽出

・関節角度系列を基本動作系列に変換

・多様な動作を基本動作クラスの組み合わせとして表現

関連研究(2/3)

基本動作を用いた動作の構造化

(9)

STARTUP 99

Paired Recurrent Autoencoders for Bidirectional Translation Between Robot Actions and Linguistic Descriptions

Yamada et al. 2018

2種類(言語用・動作用)のRecurrent Auto Encoderを使用

・同一の系列を入出力に使用

・系列情報の圧縮

中間表現(系列情報を圧縮したベクトル)を近づけるよう学習 中間表現を介して動作、文の双方向変換

関連研究(3/3)

動作と指示文・説明文のEnd-to-endでの学習

(10)

STARTUP 10

X 10

先行研究の問題点

・観測される生の系列データをそのまま学習に使用

・動作が複雑化すると系列長が増大

・長い系列の学習が困難(勾配消失)

・動作と文が中間表現により一対一対応

・実際のロボット動作系列上には類似した部分系列が存在するが 活用できない

→ 多量の学習データが必要

提案

・動作の分節化をEnd-to-endでの学習に導入

分節化したロボット動作と説明文の対応学習(1/7)

(11)

STARTUP 1111

・画像

・関節角

動作

問題設定

入力(観測データ)

画像 復元

出力

日本語の文

例「コップをテーブルに置いて」

形態素解析により分かち書き

→ 単語のone-hotベクトル系列

encoder CNN encoder CNN

中間表現

画像特徴ベクトル 動作系列

分節化したロボット動作と説明文の対応学習(2/7)

Convolutional Auto Encoder (CAE)

(12)

STARTUP 12

X 12

encoder-decoderモデル

問題・動作系列の系列長が増大

→大量の学習データが必要

Encoder Decoder

画像 関節角

encoder-decoderモデル

動作

(単語系列)

説明文

動作情報系列

encoder-decoderモデルによる学習

分節化したロボット動作と説明文の対応学習(3/7)

(13)

STARTUP 1313

画像 関節角

encoder-decoderモデル

動作

(単語系列)

説明文

動作情報系列

encoder-decoderモデルによる学習

2種類の分節化の導入 1. Attention機構

2.

クラスタリング、チャンキングによる分節化

分節化したロボット動作と説明文の対応学習(4/7)

(14)

STARTUP 14

X 14

Attention機構(暗黙的分節化)

( j

1

, v

1

) ( j

2

, v

2

) ( j

3

, v

3

) ( j

4

, v

4

) <BOS> w'

1

w'

2

a

t

c

t

Attention layer

出力時刻に対する入力時刻の重みを学習に導入

予想:重みが強く働く入力部分系列→出力単語に対応する動作クラスとなる

encoder decoder

分節化したロボット動作と説明文の対応学習(5/7)

(15)

STARTUP 1515

(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )

・・・・

ADCACBDCADCBDADCACDD (1) クラスタリング

(k平均法)

動作情報系列(画像・関節角)

クラスタリング, チャンキングによる分節化(明示的分節化)

類似する姿勢をk個のクラスター系列として量子化

分節化したロボット動作と説明文の対応学習(6/7)

(16)

STARTUP 16

X 16

(0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 ) (0 .2 ,0 .1 ,0 .2 ,0 .9 ,0 .7 ,1 .0 ,0 .5 ,0 .5 ) (0 .2 ,0 .3 ,0 .2 ,1 .1 ,0 .0 ,1 .5 ,0 .4 ,0 .2 ) (0 .1 ,0 .1 ,0 .3 ,1 .5 ,0 .8 ,1 .2 ,0 .4 ,0 .5 )

・・・・

ADCACBDCADCBDADCACDD (1) クラスタリング

(k平均法)

ADCA CBD CAD CBD ADCA CDD (2) チャンキング

(サブワード分割)

動作情報系列

クラスタリング, チャンキングによる分節化(明示的分節化)

1 2 3 2 1 4

基本動作クラス

出現頻度の高い系列を基本動作クラスに分類

分節化したロボット動作と説明文の対応学習(6/7)

(17)

STARTUP 1717

画像 関節角

encoder-decoderモデル

説明文 動作

単語系列

提案2. Attention機構

(暗黙的分節化)

動作情報系列

2種類の分節化の導入

提案1. クラスタリング, チャンキング

分節化したロボット動作と説明文の対応学習(7/7)

(18)

STARTUP 18

X 18

評価実験(1/5)

実験条件

ロボット

: Human Support Robot (HSR)

アーム

1個 , カメラ, 9個の関節、

水平移動(前後、左右、回転) シミュレータ

: SIGVerse

環境: 室内、家具(机、本棚、椅子等)、

把持可能な物体14種類

(World Robot Summit2018に準拠)

モデル:

(1) 分節化を用いないencoder-decoderモデル

(2) クラスタリング、チャンキングによる分節化を導入したモデル (3) Attention機構を導入したモデル

(4) 両方の分節化を導入したモデル

(19)

STARTUP 1919

評価実験(2/5)

データセット

50個の動作: 「取ってくる」「置く」 「落とす」 「拾う」「見に行く」 (各20~30秒)

動作情報(0.3秒毎): 関節角情報(関節角度、移動速度) (12次元) 視覚情報(160x120 RGB画像からCAEにより抽出) (10次元) 指示文:クラウドソーシングで収集

1000文(20文×50動作)

KyTea (京都テキスト解析ツールキット) により分かち書き

白いテーブルにあるうさぎの人形を取って 台の上のソースを落として

床のぬいぐるみを持ち上げて

たばこが部屋のどこかにないか見てきて

ソファーの隣の棚の一番上にあるお菓子をとって 床の醤油拾って

椅子の上の物を車椅子の上に移動して 缶を持ってきて。

ベットのアヒルの人形を下に落として

訓練40, 検証5, 評価5, 10分割交差検証(全50動作について評価)

(20)

STARTUP 20

X 20

評価実験(3/5)

学習クラスタリング

・k平均法

クラスタ数150 (Elbow methodで決定) チャンキング

・SentencePiece 語彙数200

・encoder-decoderモデル

LSTM (1層 160ユニット )

評価基準

BLEU(自動評価)

参照文との単語n-gramの一致率を計算

→出現単語が参照文に近い出力文ほど高スコア 各動作に20文の参照文

→4-gram BLEUスコアが最大の参照文をスコア計算に採用

(21)

STARTUP 2121

評価実験(4/5)

BLEU

モデル

BLEU-2 BLEU-3 BLEU-4

分節化なし

0.0649 0.107 0.128

明示的分節化

0.331 0.295 0.264

Attention機構のみ利用 0.324 0.294 0.266

Attention機構+明示的分節化 0.339 0.301 0.269

結果

自動評価

分節化により性能が向上

2種類の分節化を併用したモデルのスコアが最高

分節化によりうまく基本動作が形成されている可能性

→ 今後:分析と可視化

(22)

STARTUP 22

X 22

評価実験(5/5)

結果

参照文

1. 床のティーポットを拾って

2. 寝室の様子を見てきて

分節化なし

1. ののののののののののののの 2. ののののののててててててて

明示的分節化

1. 床の上のソースを取って

2. 部屋の様子を見てきて

Attention機構のみ利用 1. テーブルの上のソースを取って

2. テーブルの上のぬいぐるみを持ってきて

Attention機構+明示的分節化 1. 床にあるソースを拾って

2. キッチンの上の様子を見て

分節化なし → ・非文が生成された(データ量が不十分)

分節化あり → ・ある程度動作を反映した意味のある文が生成された

・動作を表現する部分はある程度特徴を掴んでいる

・物体名はほとんど正しく生成できなかった

→画像の利用法の検討が必要

自動評価指標だけでは不十分

(拾う、取る コップ、カップの違い)

BLEU計算に使用した参照文と生成結果

(23)

STARTUP 2323

まとめと今後の課題

・ロボットの動作情報から動作の説明文を生成するシステムを構築

・encoder-decoderモデルへのAttention機構、明示的な分節化の導入を提案

・実験の結果、提案した分節化の有効性が確認された

今後の課題

・分節化により形成された基本動作の分析と可視化

・画像情報のより効果的な利用方法の検討

(24)

STARTUP 24

X 24

参考文献

1.

橋本さゆり, 小林一郎. 深層強化学習と言葉による離散化を用いたロボット制御への取組み. JSAI2018

2. 田村優樹, 長崎達也, 中野雅広, 原田実. 意味解析に基づくロボット指示システムAthena2011. 研究報告音声言語情報処理2012 3.森武俊, 祢次金佑, 下坂正倫, 佐藤知正. 日常動作の概念関係と隠れマルコフモデルを利用した動作のオンライン分節化. 日本ロ

ボット学会誌,

4.中村友昭, アッタミミムハンマド, 長井隆行, 持橋大地, 小林一郎, 麻生英樹, 金子正秀. ガウス過程の隠れセミマルコフモデルに基

づく身体動作の分節化. 人工知能学会第30 回全国大会論文集, pp. 1035-1035, 2016.

5. 岩田健輔, 池田成満, 青木達哉, 西原成, 中村友昭, 長井隆行. 動作の分節化に基づく家事タスクにおける行動の構造化 人口の

宇学会, 2016.

6. 長野匡隼, 中村友昭, 長井隆行, 持橋大地, 小林一郎, 金子正秀. 階層ディリクレ過程による動作クラス数推定を導入したGP- HSMM による連続動作からの基本動作抽出

7. Sutskever, O. Vinyals and Q. Le. Sequence tosequence learning with neural networks. NIPS, pp.3104-3112, 2014.

8. C.C. Chiu, T. Sainath, Y. Wu, R. Prabhavalkar,P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K.Rao, K. Gonina, N. Jaitly , B. Li, J. Chorowski andM. Bacchiani. State-of-the-art speech recognitionwith sequence-to-sequence models. IEEE-ICASSP, 9. M. Plappert, C. Mandery and T. Asfour. Learning a bidirectional mapping between human whole-bodymotion and natural language using deep recurrentneural networks. Robotics and Autonomous Systems,Vol. 109, pp. 13-26, 2018.

10. T. Yamada, H. Matsunaga and T. Ogata. Paired recurrent autoencoders for bidirectional translation between robotactions and linguistic descriptions. IEEERA-L, pp. 3441-3448, 2018.

11. M. T. Luong, H. Pham and C. D. Manning. Effective

approaches to attention-based neural machine translation. EMNLP, pp. 1412-1421, 2015.

12. J. Fasola and M. J. Mataric. Using semantic fields to model dynamic spatial relations in a robot architecture for natural

language instruction of servicerobots. IEEE/RSJ IROS, pp. 143-150, 2013.

(25)

STARTUP 2525

参考文献

13. O. Fabius and J. R. van Amersfoort. Variational recurrent auto-encoders. ICLR, 2015.

14. X. Guo, X. Liu, E. Zhu and J. Yin. Deep clusteringwith convolutional autoencoders. ICONIP, pp. 373-382, 2017.

15. S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Comput, Vol. 9, No. 8, pp. 1735-1780, 1997.

16. J. Hartigan, M. Wong. A k-means clustering algorithm. J R Stat Soc Series C, Vol. 28, No. 1, pp.100-108, 1979.

17. T. Kudo and J. Richardson. SentencePiece: A simple and language independent subword tokenizer anddetokenizer for Neural Text Processing. EMNLP,2018.

18. T. Inamura, T. Shibata, H. Sena, T. Hashimoto,N. Kawai, T. Miyashita, Y. Sakurai, M. Shimizu,M. Otake, K. Hosoda, S.

Umeda, K. Inui and Y. Yoshikawa. Simulator platform that enables social interaction simulation -SIGVerse:

SocioIntelliGenesis simulator-. IEEE/SICE SII pp. 212-217, 2010.

19. U. Yamaguchi, F. Saito, K. Ikeda and T. Yamamoto.

HSR, Human Support Robot as Research and Development Platform. ICAM, pp. 39-40, 2015.

20. G. Neubig,Y. Nakata and S. Mori. Pointwise prediction for robust, adaptable japanese morphological analysis. ACL-HLT, pp. 529-533, 2011

21. P. Bholowalia and A. Kumar. EBK-means: A clustering technique based on elbow method and k-means in WSN. Int J Comput Appl, Vol. 105, No. 9, 2014.

22. K. Papineni, S. Roukos, T. Ward and W. J. Zhu.

Bleu: a Method for Automatic Evaluation of Machine Translation. ACL, pp. 311-318,

参照

関連したドキュメント

定期的に採集した小学校周辺の水生生物を観 察・分類した。これは,学習指導要領の「身近

アメリカ心理学会 APA はこうした動向に対応し「論 文作成マニュアル」の改訂を実施してきている。 21 年前 の APA Publication Manual 4th Edition(American

明治33年8月,小学校令が改正され,それま で,国語科関係では,読書,作文,習字の三教

Research in mathematics education should address the relationship between language and mathematics learning from a theoretical perspective that combines current perspectives

tandem queue effect may be detected by traffic simulation methods, it is necessary to directly observe the two successive (upstream and local) overall sojourn times for a local

Scival Topic Prominence

③ 新産業ビジョン岸和田本編の 24 ページ、25 ページについて、説明文の最終段落に経営 者の年齢別に分析した説明があり、本件が今回の新ビジョンの中で謳うデジタル化の

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文