配布可能なマルチモーダル対話データの収集とアノテーション不一致傾向の分析

(1)

配布可能なマルチモーダル対話データの収集と

アノテーション不一致傾向の分析

Collecting Sharable Multimodal Dialogue Data and

Analysis of Annotation Disagreement Tendency

駒谷和範

1∗

_岡田将吾

2

_西本遥人

1

_荒木雅弘

3

_中野幹生

4

Kazunori Komatani

1

_{Shogo Okada}

2

_{Haruto Nishimoto}

1

Masahiro Araki

3

_{Mikio Nakano}

4

1

_大阪大学

2

_{北陸先端科学技術大学院大学}

3

_{京都工芸繊維大学}

4

_HRI-JP

1

_{Osaka University}

2

_JAIST

3

_{Kyoto Institute of Technology}

4

_HRI-JP

Abstract: We report another multimodal dialogue data collection, which is a part of activities of a SIG-SLUD working group (WG) for building Human-System Multimodal Dialogue Sharable Corpus. We recruited 30 participants whose genders and ages were almost balanced. The consent form from the participants was updated to enable data distribution to researchers other than the WG members as long as it is used for research purposes. The labels representing whether the participant seems to have interest in the current topic were given to every exchange in the data by multiple annotators in the WG. They do not always agree among the annotators because they depend on subjective impressions. We also report analyses on the disagreement among annotators and an analysis on temporal changes of impressions of the same annotators.

1 はじめに

マルチモーダル情報は，対話の主要な構成要素のひとつである．音声言語により伝えられる言語情報が着目されることが多いが，対話にはそれ以外にも多くの要素が含まれる．対話ロボットなどのアプリケーションを考えた場合，システムがマルチモーダル情報から言外の意図や態度，感情を読み取れることが望ましい． 2016 年 4 月より，人工知能学会言語・音声理解と対話処理研究会のワーキンググループとして，「人システム間マルチモーダル対話共有コーパス構築グループ」の活動が開始された．このワーキンググループは，意図や態度，感情がアノテートされたマルチモーダル対話コーパスを整備・共有することが目的である．人の会話のマルチモーダル分析やマルチモーダルコーパスの共有は，複数の人どうしの会話を対象としたものが数多く行われている [1, 2]．これに対して，本プロジェクトでの対象は，人対人ではなく，人対システムの対話である．ユーザがシステムを相手にどうふるまうかというデータを収集し共有することで，マルチモーダル対話システム研究の要素技術の開発に資すること ∗_{連絡先：大阪大学産業科学研究所} 大阪府茨木市美穂ヶ丘 8-1 e-mail: [email protected] を目指している．本稿では，昨年度の報告 [3, 4] の後に実施したデータ収集と，そのデータに対するアノテーション結果の分析について報告する．まず 2 章で新たなデータ収集とアノテーション内容について整理する．アノテーション内容は，昨年度の報告と同様，話題への興味とした．続いて 3 章と 4 章では，アノテーション結果の相違について分析する．3 章では，全体の一致度に加え，ラベルを連続値としてみなした場合のアノテーションの傾向について分析する．4 章では，時間経過後の同一アノテータの付与傾向の変化を分析する．その後，5 章で関連研究に触れ，6 章でデータ配布に向けた課題について述べる．

2 対話データの収集

Wizard-of-Oz（WoZ）法を用いて，実験参加者がシステムと対話をする様子をマルチモーダルデータとして収録した．用いたシステムは昨年度の報告 [3, 4] と概ね同じであるが，新たに被験者を募集した点と，その際に用いた同意書の記述が主な更新点である．データ収集の後，データ内の各交換に対して話題への興味の有無を示すアノテーションを行った．人工知能学会研究会資料 SIG-SLUD-B802-08

(2)

図 1: 被験者から見たシステム

2.1 システム

被験者が対話を行うインタフェースとして，MMDA-gent1_{を用いた．被験者側から見たシステムを図 1 に示} す．被験者はいすに座り，正面に表示されているエージェントと対話する．マルチモーダルデータは，エージェントを表示しているディスプレイの上部に設置したビデオカメラと Mi-crosoft 社製 Kinect V2 を用いて収録した．ビデオカメラにより被験者の顔の映像を録画し，Kinect により被験者の音声や上半身の姿勢や奥行き情報を記録した．システムは，別室からエージェントを操作する WoZ (Wizard of Oz) 方式で制御した．操作者側のインタフェースを図 2 に示す [5]．操作者が話題を選択すると，その話題に関する発話例が表示される．操作者がいずれかの発話を選んで送信ボタンを押すと，エージェントが発話する．一部の発話の末尾には，喜び・疑問・微笑み等を表す特定の文字列が付与されており，発話に伴うエージェントの表情変化や動作を制御することもできる．

2.2 タスク

タスクは雑談である．準備した 10 数個の話題のうち，事前に被験者が興味あり／なしとした各 3 話題を，適当な順序で用いた．各話題の中では，初めはシステム側から質問を行い，準備した質問や想定される応答に対する反応などを行いながら，1 話題あたり十数回の交換を行なった．図 3 に対話の例を示す． 1_{http://www.mmdagent.jp/}

Copyright 2009-2013 Nagoya Institute of Technology (MMDAgent Model “ Mei ”) 図 2: 操作者側のインタフェース [3] ---S:これから鉄道(0.0)について話しましょう． U:はい((snuff)) S:電車は好きです↑か↓： U:まあ別に(0.0)好きでも嫌いでもないですね S:では，電車はよく利用しますか？ U:ん，まああんまり最近乗らないですね，((snuff)) S:どういった時に電車を利用するんですか U:なんか，ん：：まあちょっと：：(0.0)県外というか府外に出かけるとか：，(0.0)まあお酒飲む(.)からあんまり>原付き<とか使えへんなあっていうとき(0.2) ですね ---図 3: 雑談対話例 [3]

2.3 実験参加者と収集データ

実験参加者は一般から公募した 20 代から 50 代の男女 30 名である．研究の意義や実験参加者の権利（いつでも実験参加を撤回できることなど）を説明した同意書に同意した者のみからデータを収録した．同意書には，利用に関する誓約書を提出することを前提に，研究者に対して研究開発目的でデータを配布できることが明記されている．顔映像などの学会発表での表示については，同意された部分のみ利用可能である．実験参加者のうち 1 名分は機材トラブルのため収録できなかったため，残りの合計 29 名分のデータを得た．動画は 1 名あたり 10 分から 15 分程度である．1 名との対話の中には，6 つの話題に対して，合計 80 回強の交換が含まれている．

(3)

表 1: データ量とアノテータのグループ構成グループ被験者数交換数アノテータ数 A 10 844 6 B 10 816 3 C 9 762 3

2.4 アノテーション

各実験参加者が，その対話内容に興味を持っているかように見えるどうかを，第三者が付与した．付与するラベルは，基本的に興味あり（o），不明（t），興味なし（x）とした．付与は 1 交換（システムの発話 S とユーザの発話 U の対）ごとに，表情・音声の韻律情報・発話内容などから判断して行った．アノテータに対して，交換の一部分のみから判断しないことや，特定のモダリティに偏った判定はしないこと，実験参加者の感情表出の大きさやくせなどを動画全体から把握したうえで付与することなどを，アノテーションマニュアルにより指示した．ワーキンググループ内の計 8 名2_{のアノテータが，3} グループに分かれてアノテーションを実施した．被験者の個人情報保護のため，クラウドソーシングは用いなかった．各グループのデータ量とアノテータのグループ構成を表 1 に示す．グループ B と C についてはラベルの多数決が取れるように奇数である 3 人を割当てた．残りのアノテータは全てグループ A に割り当て，複数人による付与傾向の分析ができるようにした．

3 アノテーション結果の不一致のモ

デル化

興味の有無のアノテーションはアノテータの主観性が介入するため，各アノテータ間でアノテーション結果は完全には一致しない．本章では，アノテータ間のラベルの相関・一致度を議論することで，アノテーションの傾向を分析する．

3.1 アノテーション結果をラベルとスコアと

みなした場合の一致率の比較

最初に，各アノテータグループごとに，アノテーショ ンの一致率を Fleiss’s κ，Krippendorff’s α[6] の 2 つの 指標で計算する Fleiss’s κ は，興味あり（o），不明（t），興味なし （x）の 3 つのラベルのうち，被験者の各ターンに対して，アノテータ間で付与されたラベルが一致した度合 2_{2 名のアノテータは，3 グループ全てのデータに対してアノテー} ションを行った． 表 2: アノテータ間の一致率 (Fleiss’s κ と Interval 距離を用いた Krippendorff’s α) グループ κ αKI A 0.49 0.60 B 0.55 0.56 C 0.45 0.50 いを評価している．Krippendorff’s α も，2 人以上のア ノテータ間の一致度 (inter-coder agreement) を計算す るための指標であるが，各アノテータペア間 (i1と i2) のスコア間距離（不一致度）を δ(si1,j, si2,j) として 任意に定義できる．ここではアノテータ i が対話中の 交換 j に付与したスコアを si,jとしている． Krippendorff’s α において，Interval と呼ばれる指標 を導入し，以降 αKIとする．ここでは上記のスコア間 の二乗距離を用い，δ(si1,j, si2,j) = (si1,j− si2,j) 2_とする．不明のラベル（t）を興味ありと興味なしの中間と考えた場合，このアノテーションタスクは，x, t, o の順に，対応する興味度の 3 つの段階的なレベルをスコアリングしているとみなすことが出来る．これにより，x, t, o をそれぞれ，−1, 0, 1 点と置き換えて，不一致度を スコア間の距離として計算する．αKIでは，アノテーションのスコアリング傾向が類似していれば高い一致率が得られる．またアノテータ間で，興味度の有無の判定が x と o とに反転するようなケース（つまりスコアでは_{−1 と 1）の二乗誤差は 4 となり，このような場} 合に対してより大きなペナルティを割り当てられる． アノテータ間の一致率（κ, αKI）を表 2 に示す．表よ り，κ の最大値はグループ B で 0.55 であり，最小値は グループ C で 0.45 であった．この値は 0.41∼0.60 に属しており，一般に中等度の一致 (moderate agreement) が認められる．一方，αKI に関して，最大値はグループ A の 0.60 であり，最小値はグループ C の 0.50 であっ た．社会学の研究では，一般に αKI > 0.8 が信頼性を 持った一致率であるとされているが，本研究のように付与結果が各アノテータの主観に依存することが多いタスクでは，比較的一致率は低くなる傾向にある．プレゼンターのプレゼンテーション能力のアノテーションを行った関連研究 [7] では，この種の印象評定タスク の αKIは 0.4 程度が妥当であると報告している．この 記述と照らすと，0.5 ≤ αKI ≤ 0.6 は，低くはない一 致率であると考えられる． ラベルとしての一致率を計算する κ と，連続値とし ての一致度を計算する αKIでは，グループごとに一致 率の順序は異なる．表 2 よりグループ A の κ は 0.49 で 3 グループの中で 2 番目の一致率であったが，αKIは 0.60 と 3 グループで最大の一致率であった．この理由

(4)

表 3: アノテータ B2 と B3 のスコアのペアの混同行列（エラーと付与された 1 交換は除いた） B2 / B3 o t x 総計 o 192 19 18 229 t 23 64 9 96 x 125 68 297 490 総計 340 151 324 815 を探るために，A グループ内の各アノテータ間の κ と αKIを調査した結果，κ が低く αKIが大きいのは，アノテータ A3 と A6 のペアであった．具体的には，この ペアの κ は 0.39 と最小であった一方で，αKI = 0.56 であり，αKIの値では中程度以上の一致度を得ていた． このように，ラベルが不一致である場合（κ が低くなる 場合）にも，アノテーション結果をスコアとして解釈 した場合には，不一致の度合が考慮されることで，αKI は極端に低くならない傾向にあることを示唆している．

3.2 回帰分析に基づくアノテータのスコア

リング傾向の分析

アノテーション結果の傾向を理解するために，アノテータ間でスコアの付与傾向を分析する．グループ B の 2 名のアノテータ（B2，B3）のラベルのペアを計数した混同行列を表 3 に示す．表中の対角成分は 2 者のラベルが一致した回数を表し，対角成分以外は不一致であった回数を示している．不一致であった回数のうち，表 3 では，対角成分よりも左下に位置する不一致の回数（23 + 125 + 68 = 216 回）の方が，右上に位置する回数（19 + 18 + 9 = 46 回）よりも多い．これはすなわち，同じ対象に対して，B3 は B2 よりも「興味あり」の方向に付与する傾向がある，つまり，スコアで言うと高いスコアをつけがちであることを示している．この傾向を分析するために，数値の平行移動のみを 許す関数（y = x + b）に基づく回帰分析を行う．各 アノテータ i が対話中の各交換 j に付与したスコアを si,j∈ {−1, 0, 1} として，同一グループ（A-C）に属す る 2 名のアノテータのスコア間（si1,j, si2,j）で回帰分析を行う．この 2 名のアノテータのスコア付与傾向に 差があると仮定して si1,j = si2,j + b とし，si1,j, si2,j の間の二乗誤差が減少するように b を推定する．得ら れた b の値の絶対値と符号により，そのアノテータが 相対的に興味なし／興味ありと判定しがちであるという傾向が得られる．グループ B のアノテータ B2 と B3 の付与結果の場合 の例を図 4 に示す．各点はスコアのペア (sB2,j, sB3,j) -1.5 -1 -0.5 0 0.5 1 1.5 -1.5 -1 -0.5 0 0.5 1 1.5 Annotator B3 Annotator B2 図 4: 回帰分析例（アノテータ B2 と B3 のペア） -1.5 -1 -0.5 0 0.5 1 1.5 -1.5 -1 -0.5 0 0.5 1 1.5 Annotator average Annotator C3 y = b - 0.192 Annotator C3 図 5: 平均への回帰分析の例を示している．スコアのペアの取り得る位置は 9 通り（9 つのグリット点）であり，複数の点がここに重なるた めに，回数に応じて位置をずらして表示している．sB2,∗ を sB3,∗に回帰させた結果，回帰式のバイアス項（平行 移動の量）は b = 0.26 となった．この結果は sB3,∗の 方が，sB2,∗よりも高い傾向にあることを示している．この分析方法を用いると，比較ペア間の，スコアの付与傾向を把握できる． 次にグループ内アノテータ全員のスコアの平均値 sj を計算し，各アノテータのスコア si,j を sjへ変換するように回帰分析を行う．例として，グループ C の平均スコアを目的変数として，アノテータ C3 のスコアを回帰した結果を図 5 に示す．この分析により，変換式 のバイアス b をグループ内で比較することで，各アノ テータのスコアリングの傾向を比較することが出来る．各グループで上記の回帰分析を行った際に推定された b の値を表 4 に示す． 表に示されているように，スコアを平均値に回帰し た結果，アノテータ A2，A1，A3 では b > 0 であり， アノテータ A6，A5，A4 では b < 0 であった．この結 果は，アノテータ A1，A2，A3 のスコアは平均値より

(5)

表 4: 各アノテータのスコアと平均スコア間での回帰分 析に基づくバイアス b （b が大きいほど，平均スコアに 回帰させるためにスコアに加算する必要があり，そのアノテータはスコアを低く付与していることを示す．） A b B b C b A2 0.178 B2 0.138 C2 0.117 A1 0.104 B1 0.063 C1 0.076 A3 0.046 B3 −0.202 C3 −0.192 A6 −0.093 A5 −0.094 A4 −0.142 も低く，「興味なし」の方向に付与しがちであった一方で，アノテータ A4，A5，A6 のスコアは平均値より高く，「興味あり」の方向に付与しがちであったことを示している．またグループ B,C では，アノテータ B3，C3 のみ，b が負の値であり，他の 2 名のアノテータよりも 「興味あり」の方向に付与しがちであったことが示されている．以上，スコア間の回帰分析を通じて，対話中の各交換に対するアノテーション結果のスコアを比較し，スコアの付与傾向について確認した．このように，各アノテータ個人の主観による付与傾向をモデル化することで，この傾向がアノテーション結果に及ぼした影響をキャンセルする変換を考えられる可能性がある．

4 経時変化による同一アノテータの

印象の揺れの分析

アノテーション結果の信頼性を測るために，時間が経った後に同一アノテータ 2 名が再度アノテーションを行い，結果の変化を分析した．グループ A に属するアノテータ 2 名（A4 と A5）が，初回のアノテーションから約 1ヶ月後に，再度同じデータに対してアノテーションを行った．1 回目と 2 回目のアノテーション結果をそれぞれ A4(1st) と A5(1st)， A4(2nd) と A5(2nd) とし，それぞれの間の一致率 κ を 表 5，表 6 に示す．表 5 より，同一アノテータ内でも時間経過後に再度アノテーションをした場合は，その付与結果は完全には一致しないことが確認できる．また，表 5 と表 6 の値を比較すると，異なるアノテー タ間の全ての κ 値（表 6）よりも，表 5 に示されてい る同一アノテータ内での κ 値の方が高いことがわかる． つまり，時間が経った後の自分の付与結果との一致率の方が，他人の付与結果の一致率よりも高い．これは，時間が経過しても保存される，アノテータ個人ごとの 表 5: 同一アノテータ内での κ 値 A4(1st)-A4(2nd) 0.605 A5(1st)-A5(2nd) 0.689 表 6: 異なるアノテータ間での κ 値 A5(1st) A5(2nd) A4(1st) 0.509 0.549 A4(2nd) 0.502 0.537 付与傾向があることが示唆している．興味の有無の認定は，アノテータが各自の主観により判定している．このためアノテーション結果は常に同一となるわけではないが，個人の中では一定の傾向がありそれは他人とは異なることを，定量的に確認した．

5

6 データ配布に向けた課題

収集したデータには顔画像など個人情報が含まれるため，法令やガイドラインに沿った適切な取扱いが必要である．現在，収集したデータは本稿の第一著者が配布しているが，研究用データの配布をミッションとする機関から配布できる方が，継続的な対応が可能となり望ましい．データの配布を別機関に委託する場合は，その機関でも倫理審査が要求される場合がある．同意書や倫理審査においてはデータの使用用途がより具体的である方がよいが，一方でデータの配布や共有を目的とする場合，使用用途を限定すると利用機会が限られてしまうことになる．またデータを簡単に試せる状態にある方が，より研究分野の広がりにも貢献できる．共有を目的としたマルチモーダルデータの収集の開始にあたっては，データ配布の自由度と個人情報保護のバランスの取れた同意書を事前に設計する必要がある．

謝辞

アノテーションにご協力いただいたワーキンググループのメンバーに深く感謝する．データ収集では冨増紗也華氏による多大な貢献があった．データ公開に向けては国立情報学研究所大須賀智子氏に継続的にご尽力いただいている．ワーキンググループの活動をご支援していただいている言語・音声理解と対話処理研究会主査伝康晴先生に感謝する．

参考文献

[1] Jean Carletta. Unleashing the killer corpus: experi-ences in creating the multi-everything AMI meeting corpus. Language Resources and Evaluation, Vol. 41, No. 2, pp. 181–190, 2007.

[2] Adam Janin, Don Baron, Jane Edwards, Dan El-lis, David Gelbart, Nelson Morgan, Barbara Peskin, Thilo Pfau, Elizabeth Shriberg, Andreas Stolcke, and Chuck Wooters. The ICSI meeting corpus. In Proc. IEEE International Conference on Acoustics, Speech & Signal Processing (ICASSP), pp. I–364–I– 367, 2003.

[3] 荒木雅弘, 冨増紗也華,中野幹生,駒谷和範,岡田将吾,

藤江真也,杉山弘晃. マルチモーダル対話データの収集と興味判定アノテーションの分析. 人工知能学会研究会

資料, SIG-SLUD-B508-05, pp. 20–25, 2017.

[4] Masahiro Araki, Sayaka Tomimasu, Mikio Nakano, Kazunori Komatani, Shogo Okada, Shinya Fujie, and Hiroaki Sugiyama. Collection of Multimodal Dialog Data and Analysis of the Result of Annotation of Users’ Interest Level. In Proc. International Confer-ence on Language Resources and Evaluation (LREC), 2018.

[5] 冨増紗也華,荒木雅弘. 雑談対話におけるマルチモーダル情報からの興味の有無の判定. 人工知能学会第30回

全国大会, 2016.

[6] Klaus Krippendorﬀ. Computing Krippendorﬀ’s

alpha-reliability. https://repository.upenn.edu/

asc_papers/43/, 2011.

[7] Mathieu Chollet, Helmut Prendinger, and Stefan Scherer. Native vs. non-native language fluency im-plications on multimodal interaction for interpersonal skills training. In Proc. International Conference on Multimodal Interaction (ICMI), pp. 386–393, 2016. [8] Alexander Waibel and Rainer Stiefelhagen.

Comput-ers in the Human Interaction Loop. Springer Pub-lishing Company, Incorporated, 1st edition, 2009. [9] Lei Chen, R. Travis Rose, Ying Qiao, Irene

Kim-bara, Fey Parrill, Haleema Welji, Tony Xu Han, Jilin Tu, Zhongqiang Huang, Mary Harper, Francis Quek, Yingen Xiong, David McNeill, Ronald Tuttle, and Thomas Huang. VACE multimodal meeting corpus. In Proceedings of the Second International Confer-ence on Machine Learning for Multimodal Interaction (MLMI05), pp. 40–51, 2006.

[10] Giota Stratou and Louis-Philippe Morency.

Multisense—context-aware nonverbal behavior

analysis framework: A psychological distress use

case. IEEE Transactions on Aﬀective Computing,

Vol. 8, No. 2, pp. 190–203, 2017.

[11] 大塚和弘,竹前嘉修,大和淳司,村瀬洋. 複数人物の対面会話を対象としたマルコフ切替えモデルに基づく会話構造の確率的推論. 情報処理学会論文誌, Vol. 47, No. 7, pp. 2317–2334, 2006.

[12] Takatsugu Hirayama, Yasuyuki Sumi, Tatsuya

Kawa-hara, and Takashi Matsuyama. Info-concierge:

Proactive multi-modal interaction through mind probing. In The Asia Pacific Signal and Information Processing Association Annual Summit and Confer-ence (APSIPA ASC 2011), 2011.

[13] 中村和晃,角所考,正司哲朗,美濃導彦,澤木美奈子,南泰浩,前田英作. 擬人化エージェントとの音声対話時におけるユーザの非言語動作からの難/易及び興味/退屈の推定. 電子情報通信学会論文誌, Vol. J95-A, No. 1, pp. 85–96, 2012.

[14] Yuya Chiba, Masashi Ito, Takashi Nose, and

Aki-nori Ito. User modeling by using bag-of-behaviors

for building a dialog system sensitive to the inter-locutor’s internal state. In Proc. Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), pp. 74–78, 2014.

[15] 西本遥人,駒谷和範. 対話におけるマルチモーダル情報を用いたユーザの興味の有無の推定.人工知能学会第32

回全国大会, 2018.

[16] Yasuhiro Shibasaki, Kotaro Funakoshi, and Koichi Shinoda. Boredom recognition based on users’ spon-taneous behaviors in multiparty human-robot inter-actions. In Proc. MultiMedia Modeling, pp. 677–689, 2017.