• 検索結果がありません。

言語返答と非言語返答を有する一人称視覚対話データセット

N/A
N/A
Protected

Academic year: 2021

シェア "言語返答と非言語返答を有する一人称視覚対話データセット"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)IA0248_22kamezawa (2021-02-25 19:07). 学会記事. 言語返答と非言語返答を有する一人称視覚対話データセット 亀澤 尚志 † はじめに. 1. 本稿では, EMNLP 2020 に採択された論文 “A Visually-grounded First-person Dialogue Dataset. with Verbal and Non-verbal Responses” について解説を行う.採択論文では, 言語返答と非言語 返答を有する一人称視覚対話データセットを提案した.私たちのデータセットの大きな特徴は, 視線を含む一人称の視覚情報と言語的かつ非言語的な返答がアノテーションされている点であ る.実世界の対話では, 相手の意図を理解するために, 相手がどこにいるのかや何に注意を払っ ているのかという一人称の視覚情報が重要である.また, 微笑むといった非言語的な返答も人 とのコミュニケーションにおいて重要な役割を果たす.本解説記事では, どのように論文公開・ 採択まで至ったかについて採択論文の内容の説明を加えながら, 時系列で紹介する.. テーマ決め. 2. 多くの新入生がテーマ決めに難航するように, 私も最初に取り組む研究テーマを決めるのに苦 しんでいた.特に私は修士で専攻を変えており, 学部時代も卒業論文を書かずに卒業したので ほぼゼロからのスタートであった.研究室配属から約 2 ヶ月経ったころ, 研究テーマを決めあぐ ねている私に対して研究室の先輩が, 「共同研究でテーマをもらって研究の 1 サイクルを回して みるのもいいんじゃない」と声をかけてくれた.幸いにも所属する研究室ではいくつかの共同 研究があったのでその中から興味があるテーマを選ぶことができた.そのテーマがマルチモー ダル対話である.対話というとチャットボットのようにテキストのみが使われるケースが多い が, 音声や画像・映像などの複数のモダリティを組み合わせた入出力を扱うのがマルチモーダル 対話システムである.共同研究先のヤフー株式会社が作成していたデータセット(VFD データ セット)では, 対話文のテキストのみではなくロボットなどの視覚を持つ対話エージェントを 想定した一人称視点の画像と対話相手の視線の位置を有している.また, 対話文の返答は言語 返答だけでなく非言語返答もアノテーションされている点がユニークである.VFD データセッ トは, (1) エージェントの一人称画像, (2) 画像中の話者の発話, (3) 話者の視線の位置, (4) エー ジェントの言語返答と非言語返答を有する.既存の GazeFollow データセット (Recasens et al. †. 東京大学.

(2) IA0248_22kamezawa (2021-02-25 19:07). 自然言語処理  Vol. 28 No. 1. March 2021. 図 1 提案した VFD データセットの例.U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す.. 2015) の視線位置を含む一人称画像に対して, クラウドソーシングを用いて, 画像内の話者の発 話とエージェントの言語および非言語返答をアノテーションした.数としては約 3 万 4 千枚の 一人称画像に対して, 約 30 万個の言語返答と 8 万個の非言語返答がアノテーションされている.. VFD データセットの一例を図 1 に示す.この例を見ても分かるように, 対話エージェントは一 人称画像が無いと, 話者の発話の代名詞「これ」が, 他の商品(例えば茶色の服)ではなく, 黄 色の服の商品を指していることを認識するのが難しい.このデータセットを共有していただい た 2019 年 12 月に私は新しいマルチモーダル対話データセットの提案を行う研究を開始した.. 3. 大枠の作成 まず返答生成のタスクで, テキストのみを使った場合に比べて画像や視線の情報を加えるとよ. り自然な返答が出力されるのか簡単に予備実験を行ってみた.シンプルな Seq2Seq モデルで実 験した結果, 比較的短く無難な返答が生成される問題が発生した.生成結果は良好ではなかっ たが, 現段階の定量的なスコアを数値で出す必要があると感じ, 当時評価指標にあまり詳しくな かった私は BLEU スコアを出してみた.ここまでの進捗結果を研究室内ミーティングで共有し たところ, 雑談対話タスクの評価で BLEU は適していないので他の自動評価尺度を探した方が 良いとの指摘を受けた.評価指標について先行研究を調べてみると雑談対話のタスクを自動で 評価するのは難しいことが分かってきた.機械翻訳であれば BLEU, 要約であれば ROUGE と いった自動評価尺度が一般に使用されるが, 非タスク志向型の雑談対話では事実上標準の自動 評価尺度は存在しない.予備実験の段階だったので別のタスク, 返答選択タスクを次に試すこ とにした.選択タスクでは一つの正解を含む返答候補の中から正解文を正しく選ぶことができ るかを測る.自動評価尺度としては, Ubuntu 対話コーパス (Lowe et al. 2015) で用いられてい た Recall@k という指標を使用できた.予備実験において画像, そして視線のモダリティを加え ることで精度が向上したので, 返答選択タスクの実験を論文に載せることに決定した. 最終的に論文に掲載した定量的な評価を表 1 に, 定性的な評価を図 2 に示す.数値結果を見. 260.

(3) IA0248_22kamezawa (2021-02-25 19:07). 亀澤. 言語返答と非言語返答を有する一人称視覚対話データセット. Input U U+I U+I+G. Encoders Text Image BERT BERT VGGNet BERT VGGNet. Verbal Response Non-verbal R10 @1 R10 @2 R10 @5 R2 @1 R10 @1 R10 @2 50.1 67.4 89.7 84.3 42.3 60.1 52.7 44.8 71.1 91.9 86.1 65.7 72.1 92.5 86.6 46.2 66.3 53.6. Response R10 @5 R2 @1 86.2 80.6 89.7 82.6 90.7 82.9. 表 1 ベースラインモデルの言語・非言語返答選択問題での比較結果.U, I, G は, それぞれ入力に Utterance, Image, Gaze を使用していることを示す.. 図 2 ベースラインモデルにより選択された言語返答と非言語返答の例.U, V はそれぞれ Utterance, Verbal response を, U, I, G は, それぞれ入力に発話, 画像, 視線位置を使用していることを示す. V*はリファレンスの返答である.正解は 3, 不正解は 7 でマークした.. ると, 一人称画像は言語および非言語返答の選択性能を最大 5.6 ポイント向上させる(U vs U+I を参照) .視線の位置は最大 1.4 ポイントまで性能をさらに向上させる(U+I vs U+I+G 参照) . これらの結果は, エージェントの視線付き一人称視点の視覚情報が人間の意図を理解する上で有 効であることを示している.図 2 に示す個別の例では, 発話のみを使用した場合, 代名詞「これ」 が何を指しているのか理解できていない.画像情報 (U+I) を使うと, モデルは画像の中の人間の 顔に誤って焦点を合わせてしまい, 「面白い顔だね」と反応してしまう.視線の位置 (U+I+G) を使うことで, モデルは発話者がリンゴに注目していることを理解し, 正しい返答を選択するこ とに成功する.ベースラインモデルで予備実験を完成させ, 上記の様な実験結果を一通り出し たのが 2020 年 2 月中頃であった.論文執筆経験が無いとはいえ春休みで十分に時間が取れるこ とから 4 月上旬締切の COLING 2020 への投稿を目指して論文執筆を開始した.. 4. 締切延期からの詰め 4 月上旬締切に向けて着々と進めていき, 締切 2 週間前には論文を約 8 割方埋めることに成功し. ていたが, かなり荒削りで完成にはまだまだ時間が必要だった.締切が近くなったとき, COLING の約 2 ヶ月の締切延長が通知された.COVID-19 の影響で現地開催が危ぶまれる中, 本会議の日 程を後ろにずらことで現地開催に望みを繋いだ結果であった.EMNLP の締切の方が早く来る. 261.

(4) IA0248_22kamezawa (2021-02-25 19:07). 自然言語処理  Vol. 28 No. 1. March 2021. 図 3 VFD データセット(上)と IGC データセット(下)の比較.U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す.. ので共著の方々と相談の上, 6 月初旬の EMNLP への投稿を目指すことに方針を変更した.改め て注意深く論文全体を見直したところ, 関連研究の調査が甘いことが発覚した.それまで我々の. VFD データセットはマルチモーダル対話という分野で先行研究が無いため新規性があると思い 込んでいたのだが, よくよく調べてみると先行研究は存在した.例えば, 画像中の視覚的感情や 表情, シーン特徴を用いた対話エージェントを開発した研究 (Huber et al. 2018) や, 公開データ セットとして画像に基づいた対話をアノテーションした研究 (Mostafazadeh et al. 2017) がすで に提案されていた.今一度, 共著の方々と VFD データセットの売り出し方について議論した結 果, 一人称視点を強調することに決まった.既存のマルチモーダル対話の研究では画像は対話 のトピックとして与えられており, 対話エージェントが画像中の人物と話す状況を想定したもの ではなかった.VFD データセットに最も近い IGC データセット (Mostafazadeh et al. 2017) と 比較する.図 3 は VFD データセット(上)と IGC データセット(下)を比較したものである.. IGC データセットでは, 対話の話題として画像を用いており, 話者はエージェントの視界には現 れない.一方, 我々の VFD データセットでは, 画像はエージェントの一人称視点であり, 画像内 の話者と対話する状況を想定している.当初投稿を予定していた会議の締切延長の通知を受け てからの約 2 ヶ月で中身を充実させ何度も推敲したことで論文の完成度を高めることができた.. 5. おわりに はじめにの章で話したように, 私は研究や論文執筆の経験が全くなかったため, 共同研究の. テーマで修士の研究をスタートした.共著の皆さんの大きな支えがあり, 着手してから約半年 で論文を投稿し研究の 1 サイクルを早めに回すことができた.私は現在, 対話とは異なる別の. 262.

(5) IA0248_22kamezawa (2021-02-25 19:07). 亀澤. 言語返答と非言語返答を有する一人称視覚対話データセット. 自然言語処理のタスクの研究を行っているが, EMNLP への論文投稿・採択の経験がとても役に 立っていると感じる.EMNLP で発表した論文では, データセットの紹介に重きを置いているた め, ベースラインモデルはシンプルなものになっている.視線の位置情報の扱い方や複数モダ リティの結合の仕方など工夫できる点は多くある.また, 返答選択タスクだけではなく生成タ スクにおいても複数モダリティが役に立つのか確かめる意義はある.VFD データセットに少し でも興味をお持ちいただけたら公開 URL1 からぜひチェックしてみてほしい.. 参考文献 Huber, B., McDuff, D., Brockett, C., Galley, M., and Dolan, B. (2018). “Emotional Dialogue Generation using Image-grounded Language Models.” In Proceedings of the CHI Conference on Human Factors in Computing Systems, pp. 1–12. Lowe, R., Pow, N., Serban, I. V., and Pineau, J. (2015). “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems.” In Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pp. 285–294. Mostafazadeh, N., Brockett, C., Dolan, B., Galley, M., Gao, J., Spithourakis, G., and Vanderwende, L. (2017). “Image-Grounded Conversations: Multimodal Context for Natural Question and Response Generation.” In Proceedings of the 8th International Joint Conference on Natural Language Processing, pp. 462–472. Recasens, A., Khosla, A., Vondrick, C., and Torralba, A. (2015). “Where are They Looking?” In Proceedings of the Advances in Neural Information Processing Systems, pp. 199–207.. 略歴  亀澤 尚志:2017 年慶應義塾大学経済学部卒業.東京大学大学院情報理工学系 研究科修士課程在籍中.. 1. https://github.com/yahoojapan/VFD-Dataset. 263.

(6)

図 1 提案した VFD データセットの例. U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す. 2015) の視線位置を含む一人称画像に対して, クラウドソーシングを用いて, 画像内の話者の発 話とエージェントの言語および非言語返答をアノテーションした.数としては約 3 万 4 千枚の 一人称画像に対して, 約 30 万個の言語返答と 8 万個の非言語返答がアノテーションされている. VFD データセットの一例を図 1 に示
図 3 VFD データセット(上)と IGC データセット(下)の比較. U, V, N はそれぞれ Utterance, Verbal response, Non-verbal response を示す.

参照

関連したドキュメント

 “ボランティア”と言えば、ラテン語を語源とし、自

関西学院大学手話言語研究センターの研究員をしております松岡と申します。よろ

今回の調査に限って言うと、日本手話、手話言語学基礎・専門、手話言語条例、手話 通訳士 養成プ ログ ラム 、合理 的配慮 とし ての 手話通 訳、こ れら

手話言語研究センター講話会.

本センターは、日本財団のご支援で設置され、手話言語学の研究と、手話の普及・啓

既にこめっこでは、 「日本手話文法理解テスト」と「質問応答関係検査」は行 っています。 2020 年には 15 名、

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

話題提供者: 河﨑佳子 神戸大学大学院 人間発達環境学研究科 話題提供者: 酒井邦嘉# 東京大学大学院 総合文化研究科 話題提供者: 武居渡 金沢大学