言語返答と非言語返答を有する一人称視覚対話データセット

全文

(1)IA0248_22kamezawa (2021-02-25 19:07). 学会記事. 言語返答と非言語返答を有する一人称視覚対話データセット亀澤尚志 † はじめに. 1. 本稿では, EMNLP 2020 に採択された論文 “A Visually-grounded First-person Dialogue Dataset. with Verbal and Non-verbal Responses” について解説を行う．採択論文では, 言語返答と非言語返答を有する一人称視覚対話データセットを提案した．私たちのデータセットの大きな特徴は, 視線を含む一人称の視覚情報と言語的かつ非言語的な返答がアノテーションされている点である．実世界の対話では, 相手の意図を理解するために, 相手がどこにいるのかや何に注意を払っているのかという一人称の視覚情報が重要である．また, 微笑むといった非言語的な返答も人とのコミュニケーションにおいて重要な役割を果たす．本解説記事では, どのように論文公開・採択まで至ったかについて採択論文の内容の説明を加えながら, 時系列で紹介する．. テーマ決め. 2. 多くの新入生がテーマ決めに難航するように, 私も最初に取り組む研究テーマを決めるのに苦しんでいた．特に私は修士で専攻を変えており, 学部時代も卒業論文を書かずに卒業したのでほぼゼロからのスタートであった．研究室配属から約 2 ヶ月経ったころ, 研究テーマを決めあぐねている私に対して研究室の先輩が, 「共同研究でテーマをもらって研究の 1 サイクルを回してみるのもいいんじゃない」と声をかけてくれた．幸いにも所属する研究室ではいくつかの共同研究があったのでその中から興味があるテーマを選ぶことができた．そのテーマがマルチモーダル対話である．対話というとチャットボットのようにテキストのみが使われるケースが多いが, 音声や画像・映像などの複数のモダリティを組み合わせた入出力を扱うのがマルチモーダル対話システムである．共同研究先のヤフー株式会社が作成していたデータセット（VFD データセット）では, 対話文のテキストのみではなくロボットなどの視覚を持つ対話エージェントを想定した一人称視点の画像と対話相手の視線の位置を有している．また, 対話文の返答は言語返答だけでなく非言語返答もアノテーションされている点がユニークである．VFD データセットは, (1) エージェントの一人称画像, (2) 画像中の話者の発話, (3) 話者の視線の位置, (4) エージェントの言語返答と非言語返答を有する．既存の GazeFollow データセット (Recasens et al. †. 東京大学.

(2) IA0248_22kamezawa (2021-02-25 19:07). 自然言語処理 Vol. 28 No. 1. March 2021. 図 1 提案した VFD データセットの例．U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す．. 2015) の視線位置を含む一人称画像に対して, クラウドソーシングを用いて, 画像内の話者の発話とエージェントの言語および非言語返答をアノテーションした．数としては約 3 万 4 千枚の一人称画像に対して, 約 30 万個の言語返答と 8 万個の非言語返答がアノテーションされている．. VFD データセットの一例を図 1 に示す．この例を見ても分かるように, 対話エージェントは一人称画像が無いと, 話者の発話の代名詞「これ」が, 他の商品（例えば茶色の服）ではなく, 黄色の服の商品を指していることを認識するのが難しい．このデータセットを共有していただいた 2019 年 12 月に私は新しいマルチモーダル対話データセットの提案を行う研究を開始した．. 3. 大枠の作成まず返答生成のタスクで, テキストのみを使った場合に比べて画像や視線の情報を加えるとよ. り自然な返答が出力されるのか簡単に予備実験を行ってみた．シンプルな Seq2Seq モデルで実験した結果, 比較的短く無難な返答が生成される問題が発生した．生成結果は良好ではなかったが, 現段階の定量的なスコアを数値で出す必要があると感じ, 当時評価指標にあまり詳しくなかった私は BLEU スコアを出してみた．ここまでの進捗結果を研究室内ミーティングで共有したところ, 雑談対話タスクの評価で BLEU は適していないので他の自動評価尺度を探した方が良いとの指摘を受けた．評価指標について先行研究を調べてみると雑談対話のタスクを自動で評価するのは難しいことが分かってきた．機械翻訳であれば BLEU, 要約であれば ROUGE といった自動評価尺度が一般に使用されるが, 非タスク志向型の雑談対話では事実上標準の自動評価尺度は存在しない．予備実験の段階だったので別のタスク, 返答選択タスクを次に試すことにした．選択タスクでは一つの正解を含む返答候補の中から正解文を正しく選ぶことができるかを測る．自動評価尺度としては, Ubuntu 対話コーパス (Lowe et al. 2015) で用いられていた Recall@k という指標を使用できた．予備実験において画像, そして視線のモダリティを加えることで精度が向上したので, 返答選択タスクの実験を論文に載せることに決定した．最終的に論文に掲載した定量的な評価を表 1 に, 定性的な評価を図 2 に示す．数値結果を見. 260.

(3) IA0248_22kamezawa (2021-02-25 19:07). 亀澤. 言語返答と非言語返答を有する一人称視覚対話データセット. Input U U+I U+I+G. Encoders Text Image BERT BERT VGGNet BERT VGGNet. Verbal Response Non-verbal R10 @1 R10 @2 R10 @5 R2 @1 R10 @1 R10 @2 50.1 67.4 89.7 84.3 42.3 60.1 52.7 44.8 71.1 91.9 86.1 65.7 72.1 92.5 86.6 46.2 66.3 53.6. Response R10 @5 R2 @1 86.2 80.6 89.7 82.6 90.7 82.9. 表 1 ベースラインモデルの言語・非言語返答選択問題での比較結果．U, I, G は, それぞれ入力に Utterance, Image, Gaze を使用していることを示す．. 図 2 ベースラインモデルにより選択された言語返答と非言語返答の例．U, V はそれぞれ Utterance, Verbal response を, U, I, G は, それぞれ入力に発話, 画像, 視線位置を使用していることを示す． V*はリファレンスの返答である．正解は 3, 不正解は 7 でマークした．. ると, 一人称画像は言語および非言語返答の選択性能を最大 5.6 ポイント向上させる（U vs U+I を参照）．視線の位置は最大 1.4 ポイントまで性能をさらに向上させる（U+I vs U+I+G 参照）．これらの結果は, エージェントの視線付き一人称視点の視覚情報が人間の意図を理解する上で有効であることを示している．図 2 に示す個別の例では, 発話のみを使用した場合, 代名詞「これ」が何を指しているのか理解できていない．画像情報 (U+I) を使うと, モデルは画像の中の人間の顔に誤って焦点を合わせてしまい, 「面白い顔だね」と反応してしまう．視線の位置 (U+I+G) を使うことで, モデルは発話者がリンゴに注目していることを理解し, 正しい返答を選択することに成功する．ベースラインモデルで予備実験を完成させ, 上記の様な実験結果を一通り出したのが 2020 年 2 月中頃であった．論文執筆経験が無いとはいえ春休みで十分に時間が取れることから 4 月上旬締切の COLING 2020 への投稿を目指して論文執筆を開始した．. 4. 締切延期からの詰め 4 月上旬締切に向けて着々と進めていき, 締切 2 週間前には論文を約 8 割方埋めることに成功し. ていたが, かなり荒削りで完成にはまだまだ時間が必要だった．締切が近くなったとき, COLING の約 2 ヶ月の締切延長が通知された．COVID-19 の影響で現地開催が危ぶまれる中, 本会議の日程を後ろにずらことで現地開催に望みを繋いだ結果であった．EMNLP の締切の方が早く来る. 261.

(4) IA0248_22kamezawa (2021-02-25 19:07). 自然言語処理 Vol. 28 No. 1. March 2021. 図 3 VFD データセット（上）と IGC データセット（下）の比較．U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す．. ので共著の方々と相談の上, 6 月初旬の EMNLP への投稿を目指すことに方針を変更した．改めて注意深く論文全体を見直したところ, 関連研究の調査が甘いことが発覚した．それまで我々の. VFD データセットはマルチモーダル対話という分野で先行研究が無いため新規性があると思い込んでいたのだが, よくよく調べてみると先行研究は存在した．例えば, 画像中の視覚的感情や表情, シーン特徴を用いた対話エージェントを開発した研究 (Huber et al. 2018) や, 公開データセットとして画像に基づいた対話をアノテーションした研究 (Mostafazadeh et al. 2017) がすでに提案されていた．今一度, 共著の方々と VFD データセットの売り出し方について議論した結果, 一人称視点を強調することに決まった．既存のマルチモーダル対話の研究では画像は対話のトピックとして与えられており, 対話エージェントが画像中の人物と話す状況を想定したものではなかった．VFD データセットに最も近い IGC データセット (Mostafazadeh et al. 2017) と比較する．図 3 は VFD データセット（上）と IGC データセット（下）を比較したものである．. IGC データセットでは, 対話の話題として画像を用いており, 話者はエージェントの視界には現れない．一方, 我々の VFD データセットでは, 画像はエージェントの一人称視点であり, 画像内の話者と対話する状況を想定している．当初投稿を予定していた会議の締切延長の通知を受けてからの約 2 ヶ月で中身を充実させ何度も推敲したことで論文の完成度を高めることができた．. 5. おわりにはじめにの章で話したように, 私は研究や論文執筆の経験が全くなかったため, 共同研究の. テーマで修士の研究をスタートした．共著の皆さんの大きな支えがあり, 着手してから約半年で論文を投稿し研究の 1 サイクルを早めに回すことができた．私は現在, 対話とは異なる別の. 262.

(5) IA0248_22kamezawa (2021-02-25 19:07). 亀澤. 言語返答と非言語返答を有する一人称視覚対話データセット. 自然言語処理のタスクの研究を行っているが, EMNLP への論文投稿・採択の経験がとても役に立っていると感じる．EMNLP で発表した論文では, データセットの紹介に重きを置いているため, ベースラインモデルはシンプルなものになっている．視線の位置情報の扱い方や複数モダリティの結合の仕方など工夫できる点は多くある．また, 返答選択タスクだけではなく生成タスクにおいても複数モダリティが役に立つのか確かめる意義はある．VFD データセットに少しでも興味をお持ちいただけたら公開 URL1 からぜひチェックしてみてほしい．. 参考文献 Huber, B., McDuﬀ, D., Brockett, C., Galley, M., and Dolan, B. (2018). “Emotional Dialogue Generation using Image-grounded Language Models.” In Proceedings of the CHI Conference on Human Factors in Computing Systems, pp. 1–12. Lowe, R., Pow, N., Serban, I. V., and Pineau, J. (2015). “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems.” In Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 285–294. Mostafazadeh, N., Brockett, C., Dolan, B., Galley, M., Gao, J., Spithourakis, G., and Vanderwende, L. (2017). “Image-Grounded Conversations: Multimodal Context for Natural Question and Response Generation.” In Proceedings of the 8th International Joint Conference on Natural Language Processing, pp. 462–472. Recasens, A., Khosla, A., Vondrick, C., and Torralba, A. (2015). “Where are They Looking?” In Proceedings of the Advances in Neural Information Processing Systems, pp. 199–207.. 略歴亀澤尚志：2017 年慶應義塾大学経済学部卒業．東京大学大学院情報理工学系研究科修士課程在籍中．. 1. https://github.com/yahoojapan/VFD-Dataset. 263.

(6)