配布可能なマルチモーダル対話データの収集と
アノテーション不一致傾向の分析
Collecting Sharable Multimodal Dialogue Data and
Analysis of Annotation Disagreement Tendency
駒谷和範
1∗岡田将吾
2西本遥人
1荒木雅弘
3中野幹生
4Kazunori Komatani
1Shogo Okada
2Haruto Nishimoto
1Masahiro Araki
3Mikio Nakano
41
大阪大学
2北陸先端科学技術大学院大学
3京都工芸繊維大学
4HRI-JP
1
Osaka University
2JAIST
3Kyoto Institute of Technology
4HRI-JP
Abstract: We report another multimodal dialogue data collection, which is a part of activities of a SIG-SLUD working group (WG) for building Human-System Multimodal Dialogue Sharable Corpus. We recruited 30 participants whose genders and ages were almost balanced. The consent form from the participants was updated to enable data distribution to researchers other than the WG members as long as it is used for research purposes. The labels representing whether the participant seems to have interest in the current topic were given to every exchange in the data by multiple annotators in the WG. They do not always agree among the annotators because they depend on subjective impressions. We also report analyses on the disagreement among annotators and an analysis on temporal changes of impressions of the same annotators.
1
はじめに
マルチモーダル情報は,対話の主要な構成要素のひ とつである.音声言語により伝えられる言語情報が着 目されることが多いが,対話にはそれ以外にも多くの 要素が含まれる.対話ロボットなどのアプリケーショ ンを考えた場合,システムがマルチモーダル情報から 言外の意図や態度,感情を読み取れることが望ましい. 2016 年 4 月より,人工知能学会 言語・音声理解と 対話処理研究会のワーキンググループとして,「人シス テム間マルチモーダル対話共有コーパス構築グループ」 の活動が開始された.このワーキンググループは,意 図や態度,感情がアノテートされたマルチモーダル対 話コーパスを整備・共有することが目的である. 人の会話のマルチモーダル分析やマルチモーダルコー パスの共有は,複数の人どうしの会話を対象としたも のが数多く行われている [1, 2].これに対して,本プロ ジェクトでの対象は,人対人ではなく,人対システムの 対話である.ユーザがシステムを相手にどうふるまう かというデータを収集し共有することで,マルチモー ダル対話システム研究の要素技術の開発に資すること ∗連絡先: 大阪大学産業科学研究所 大阪府茨木市美穂ヶ丘 8-1 e-mail: [email protected] を目指している. 本稿では,昨年度の報告 [3, 4] の後に実施したデータ 収集と,そのデータに対するアノテーション結果の分 析について報告する.まず 2 章で新たなデータ収集と アノテーション内容について整理する.アノテーショ ン内容は,昨年度の報告と同様,話題への興味とした. 続いて 3 章と 4 章では,アノテーション結果の相違に ついて分析する.3 章では,全体の一致度に加え,ラベ ルを連続値としてみなした場合のアノテーションの傾 向について分析する.4 章では,時間経過後の同一ア ノテータの付与傾向の変化を分析する.その後,5 章 で関連研究に触れ,6 章でデータ配布に向けた課題に ついて述べる.2
対話データの収集
Wizard-of-Oz(WoZ)法を用いて,実験参加者がシ ステムと対話をする様子をマルチモーダルデータとし て収録した.用いたシステムは昨年度の報告 [3, 4] と 概ね同じであるが,新たに被験者を募集した点と,そ の際に用いた同意書の記述が主な更新点である.デー タ収集の後,データ内の各交換に対して話題への興味 の有無を示すアノテーションを行った. 人工知能学会研究会資料 SIG-SLUD-B802-08図 1: 被験者から見たシステム
2.1
システム
被験者が対話を行うインタフェースとして,MMDA-gent1を用いた.被験者側から見たシステムを図 1 に示 す.被験者はいすに座り,正面に表示されているエー ジェントと対話する. マルチモーダルデータは,エージェントを表示して いるディスプレイの上部に設置したビデオカメラと Mi-crosoft 社製 Kinect V2 を用いて収録した.ビデオカメ ラにより被験者の顔の映像を録画し,Kinect により被 験者の音声や上半身の姿勢や奥行き情報を記録した. システムは,別室からエージェントを操作する WoZ (Wizard of Oz) 方式で制御した.操作者側のインタ フェースを図 2 に示す [5].操作者が話題を選択すると, その話題に関する発話例が表示される.操作者がいず れかの発話を選んで送信ボタンを押すと,エージェン トが発話する.一部の発話の末尾には,喜び・疑問・微 笑み等を表す特定の文字列が付与されており,発話に 伴うエージェントの表情変化や動作を制御することも できる.2.2
タスク
タスクは雑談である.準備した 10 数個の話題のうち, 事前に被験者が興味あり/なしとした各 3 話題を,適 当な順序で用いた.各話題の中では,初めはシステム 側から質問を行い,準備した質問や想定される応答に 対する反応などを行いながら,1 話題あたり十数回の 交換を行なった.図 3 に対話の例を示す. 1http://www.mmdagent.jp/Copyright 2009-2013 Nagoya Institute of Technology (MMDAgent Model “ Mei ”) 図 2: 操作者側のインタフェース [3] ---S:これから鉄道(0.0)について話しましょう. U:はい((snuff)) S:電車は好きです↑か↓: U:まあ別に(0.0)好きでも嫌いでもないですね S:では,電車はよく利用しますか? U:ん,まああんまり最近乗らないですね,((snuff)) S:どういった時に電車を利用するんですか U:なんか,ん::まあちょっと::(0.0)県外というか府外 に出かけるとか:,(0.0)まあお酒飲む(.)から あんまり>原付き<とか使えへんなあっていうとき(0.2) ですね ---図 3: 雑談対話例 [3]
2.3
実験参加者と収集データ
実験参加者は一般から公募した 20 代から 50 代の男 女 30 名である.研究の意義や実験参加者の権利(いつ でも実験参加を撤回できることなど)を説明した同意 書に同意した者のみからデータを収録した.同意書に は,利用に関する誓約書を提出することを前提に,研 究者に対して研究開発目的でデータを配布できること が明記されている.顔映像などの学会発表での表示に ついては,同意された部分のみ利用可能である. 実験参加者のうち 1 名分は機材トラブルのため収録 できなかったため,残りの合計 29 名分のデータを得た. 動画は 1 名あたり 10 分から 15 分程度である.1 名と の対話の中には,6 つの話題に対して,合計 80 回強の 交換が含まれている.表 1: データ量とアノテータのグループ構成 グループ 被験者数 交換数 アノテータ数 A 10 844 6 B 10 816 3 C 9 762 3
2.4
アノテーション
各実験参加者が,その対話内容に興味を持っている かように見えるどうかを,第三者が付与した.付与す るラベルは,基本的に興味あり(o),不明(t),興味 なし(x)とした.付与は 1 交換(システムの発話 S と ユーザの発話 U の対)ごとに,表情・音声の韻律情報・ 発話内容などから判断して行った.アノテータに対し て,交換の一部分のみから判断しないことや,特定の モダリティに偏った判定はしないこと,実験参加者の 感情表出の大きさやくせなどを動画全体から把握した うえで付与することなどを,アノテーションマニュア ルにより指示した. ワーキンググループ内の計 8 名2のアノテータが,3 グループに分かれてアノテーションを実施した.被験 者の個人情報保護のため,クラウドソーシングは用い なかった.各グループのデータ量とアノテータのグルー プ構成を表 1 に示す.グループ B と C についてはラベ ルの多数決が取れるように奇数である 3 人を割当てた. 残りのアノテータは全てグループ A に割り当て,複数 人による付与傾向の分析ができるようにした.3
アノテーション結果の不一致のモ
デル化
興味の有無のアノテーションはアノテータの主観性 が介入するため,各アノテータ間でアノテーション結 果は完全には一致しない.本章では,アノテータ間の ラベルの相関・一致度を議論することで,アノテーショ ンの傾向を分析する.3.1
アノテーション結果をラベルとスコアと
みなした場合の一致率の比較
最初に,各アノテータグループごとに,アノテーショ ンの一致率を Fleiss’s κ,Krippendorff’s α[6] の 2 つの 指標で計算する Fleiss’s κ は,興味あり(o),不明(t),興味なし (x)の 3 つのラベルのうち,被験者の各ターンに対し て,アノテータ間で付与されたラベルが一致した度合 22 名のアノテータは,3 グループ全てのデータに対してアノテー ションを行った. 表 2: アノテータ間の一致率 (Fleiss’s κ と Interval 距離を用いた Krippendorff’s α) グループ κ αKI A 0.49 0.60 B 0.55 0.56 C 0.45 0.50 いを評価している.Krippendorff’s α も,2 人以上のア ノテータ間の一致度 (inter-coder agreement) を計算す るための指標であるが,各アノテータペア間 (i1と i2) のスコア間距離(不一致度)を δ(si1,j, si2,j) として 任意に定義できる.ここではアノテータ i が対話中の 交換 j に付与したスコアを si,jとしている. Krippendorff’s α において,Interval と呼ばれる指標 を導入し,以降 αKIとする.ここでは上記のスコア間 の二乗距離を用い,δ(si1,j, si2,j) = (si1,j− si2,j) 2とす る.不明のラベル(t)を興味ありと興味なしの中間と 考えた場合,このアノテーションタスクは,x, t, o の順 に,対応する興味度の 3 つの段階的なレベルをスコア リングしているとみなすことが出来る.これにより,x, t, o をそれぞれ,−1, 0, 1 点と置き換えて,不一致度を スコア間の距離として計算する.αKIでは,アノテー ションのスコアリング傾向が類似していれば高い一致 率が得られる.またアノテータ間で,興味度の有無の 判定が x と o とに反転するようなケース(つまりスコ アでは−1 と 1)の二乗誤差は 4 となり,このような場 合に対してより大きなペナルティを割り当てられる. アノテータ間の一致率(κ, αKI)を表 2 に示す.表よ り,κ の最大値はグループ B で 0.55 であり,最小値は グループ C で 0.45 であった.この値は 0.41∼0.60 に属 しており, 一般に中等度の一致 (moderate agreement) が認められる.一方,αKI に関して,最大値はグルー プ A の 0.60 であり,最小値はグループ C の 0.50 であっ た.社会学の研究では,一般に αKI > 0.8 が信頼性を 持った一致率であるとされているが,本研究のように 付与結果が各アノテータの主観に依存することが多い タスクでは,比較的一致率は低くなる傾向にある.プ レゼンターのプレゼンテーション能力のアノテーショ ンを行った関連研究 [7] では,この種の印象評定タスク の αKIは 0.4 程度が妥当であると報告している.この 記述と照らすと,0.5 ≤ αKI ≤ 0.6 は,低くはない一 致率であると考えられる. ラベルとしての一致率を計算する κ と,連続値とし ての一致度を計算する αKIでは,グループごとに一致 率の順序は異なる.表 2 よりグループ A の κ は 0.49 で 3 グループの中で 2 番目の一致率であったが,αKIは 0.60 と 3 グループで最大の一致率であった.この理由表 3: アノテータ B2 と B3 のスコアのペアの混同行列 (エラーと付与された 1 交換は除いた) B2 / B3 o t x 総計 o 192 19 18 229 t 23 64 9 96 x 125 68 297 490 総計 340 151 324 815 を探るために,A グループ内の各アノテータ間の κ と αKIを調査した結果,κ が低く αKIが大きいのは,ア ノテータ A3 と A6 のペアであった.具体的には,この ペアの κ は 0.39 と最小であった一方で,αKI = 0.56 であり,αKIの値では中程度以上の一致度を得ていた. このように,ラベルが不一致である場合(κ が低くなる 場合)にも,アノテーション結果をスコアとして解釈 した場合には,不一致の度合が考慮されることで,αKI は極端に低くならない傾向にあることを示唆している.
3.2
回帰分析に基づくアノテータのスコア
リング傾向の分析
アノテーション結果の傾向を理解するために,アノ テータ間でスコアの付与傾向を分析する. グループ B の 2 名のアノテータ(B2,B3)のラベ ルのペアを計数した混同行列を表 3 に示す.表中の対 角成分は 2 者のラベルが一致した回数を表し,対角成 分以外は不一致であった回数を示している.不一致で あった回数のうち,表 3 では,対角成分よりも左下に 位置する不一致の回数(23 + 125 + 68 = 216 回)の方 が,右上に位置する回数(19 + 18 + 9 = 46 回)よりも 多い.これはすなわち,同じ対象に対して,B3 は B2 よりも「興味あり」の方向に付与する傾向がある,つ まり,スコアで言うと高いスコアをつけがちであるこ とを示している. この傾向を分析するために,数値の平行移動のみを 許す関数(y = x + b)に基づく回帰分析を行う.各 アノテータ i が対話中の各交換 j に付与したスコアを si,j∈ {−1, 0, 1} として,同一グループ(A-C)に属す る 2 名のアノテータのスコア間(si1,j, si2,j)で回帰分 析を行う.この 2 名のアノテータのスコア付与傾向に 差があると仮定して si1,j = si2,j + b とし,si1,j, si2,j の間の二乗誤差が減少するように b を推定する.得ら れた b の値の絶対値と符号により,そのアノテータが 相対的に興味なし/興味ありと判定しがちであるとい う傾向が得られる. グループ B のアノテータ B2 と B3 の付与結果の場合 の例を図 4 に示す.各点はスコアのペア (sB2,j, sB3,j) -1.5 -1 -0.5 0 0.5 1 1.5 -1.5 -1 -0.5 0 0.5 1 1.5 Annotator B3 Annotator B2 図 4: 回帰分析例(アノテータ B2 と B3 のペア) -1.5 -1 -0.5 0 0.5 1 1.5 -1.5 -1 -0.5 0 0.5 1 1.5 Annotator average Annotator C3 y = b - 0.192 Annotator C3 図 5: 平均への回帰分析の例 を示している.スコアのペアの取り得る位置は 9 通り (9 つのグリット点)であり,複数の点がここに重なるた めに,回数に応じて位置をずらして表示している.sB2,∗ を sB3,∗に回帰させた結果,回帰式のバイアス項(平行 移動の量)は b = 0.26 となった.この結果は sB3,∗の 方が,sB2,∗よりも高い傾向にあることを示している. この分析方法を用いると,比較ペア間の,スコアの付 与傾向を把握できる. 次にグループ内アノテータ全員のスコアの平均値 sj を計算し,各アノテータのスコア si,j を sjへ変換する ように回帰分析を行う.例として,グループ C の平均 スコアを目的変数として,アノテータ C3 のスコアを 回帰した結果を図 5 に示す.この分析により,変換式 のバイアス b をグループ内で比較することで,各アノ テータのスコアリングの傾向を比較することが出来る. 各グループで上記の回帰分析を行った際に推定された b の値を表 4 に示す. 表に示されているように,スコアを平均値に回帰し た結果,アノテータ A2,A1,A3 では b > 0 であり, アノテータ A6,A5,A4 では b < 0 であった.この結 果は,アノテータ A1,A2,A3 のスコアは平均値より表 4: 各アノテータのスコアと平均スコア間での回帰分 析に基づくバイアス b (b が大きいほど,平均スコアに 回帰させるためにスコアに加算する必要があり,その アノテータはスコアを低く付与していることを示す.) A b B b C b A2 0.178 B2 0.138 C2 0.117 A1 0.104 B1 0.063 C1 0.076 A3 0.046 B3 −0.202 C3 −0.192 A6 −0.093 A5 −0.094 A4 −0.142 も低く,「興味なし」の方向に付与しがちであった一方 で,アノテータ A4,A5,A6 のスコアは平均値より高 く,「興味あり」の方向に付与しがちであったことを示 している.またグループ B,C では,アノテータ B3,C3 のみ,b が負の値であり,他の 2 名のアノテータよりも 「興味あり」の方向に付与しがちであったことが示され ている. 以上,スコア間の回帰分析を通じて,対話中の各交 換に対するアノテーション結果のスコアを比較し,ス コアの付与傾向について確認した.このように,各ア ノテータ個人の主観による付与傾向をモデル化するこ とで,この傾向がアノテーション結果に及ぼした影響 をキャンセルする変換を考えられる可能性がある.
4
経時変化による同一アノテータの
印象の揺れの分析
アノテーション結果の信頼性を測るために,時間が 経った後に同一アノテータ 2 名が再度アノテーション を行い,結果の変化を分析した. グループ A に属するアノテータ 2 名(A4 と A5)が, 初回のアノテーションから約 1ヶ月後に,再度同じデー タに対してアノテーションを行った.1 回目と 2 回目 のアノテーション結果をそれぞれ A4(1st) と A5(1st), A4(2nd) と A5(2nd) とし,それぞれの間の一致率 κ を 表 5,表 6 に示す.表 5 より,同一アノテータ内でも時 間経過後に再度アノテーションをした場合は,その付 与結果は完全には一致しないことが確認できる. また,表 5 と表 6 の値を比較すると,異なるアノテー タ間の全ての κ 値(表 6)よりも,表 5 に示されてい る同一アノテータ内での κ 値の方が高いことがわかる. つまり,時間が経った後の自分の付与結果との一致率 の方が,他人の付与結果の一致率よりも高い.これは, 時間が経過しても保存される,アノテータ個人ごとの 表 5: 同一アノテータ内での κ 値 A4(1st)-A4(2nd) 0.605 A5(1st)-A5(2nd) 0.689 表 6: 異なるアノテータ間での κ 値 A5(1st) A5(2nd) A4(1st) 0.509 0.549 A4(2nd) 0.502 0.537 付与傾向があることが示唆している. 興味の有無の認定は,アノテータが各自の主観によ り判定している.このためアノテーション結果は常に同 一となるわけではないが,個人の中では一定の傾向が ありそれは他人とは異なることを,定量的に確認した.5
関連研究
人の会話のマルチモーダル分析やマルチモーダルコー パスの共有を目的として,複数人が参加する会議デー タが,AMI (Augmented Multi-party Interaction) [1] や ICSI meeting corpus [2] として公開されている.ま た,CHIL (Computers in Human Interaction Loop) [8] ではオフィスや教室でなされるインタラクションが, VACE (Video Analysis and Content Extraction) [9] では空軍における戦闘ゲームセッションにおけるイン タラクションが,それぞれ対象とされている.人どう しの対話のマルチモーダル分析の研究としては,例え ば,カウンセリング対象の状態を推定して意思決定支 援に用いるシステムや [10],人間どうしの会話におけ る視線の自動推定 [11] などがある. これらに対して本プロジェクトでは,人対システム の対話を対象としている.対話においてユーザの興味 [12, 13, 14, 5, 15] や飽き [16] を検出する研究も行われ ており,その検出結果に応じて,話題を続けたり話題 を深めたりと,その後の対話を変化させることができ る.本プロジェクトは,これらの研究の延長線上に位 置し,人対システムの対話において,ユーザの興味を 含むマルチモーダルデータを共有し,これらの研究の 基盤となることを目指している. 人対人のデータと,人対システムのデータの最大の 違いは,相手がシステムであることをユーザが意識し ているか否かである.ユーザのふるまいは,人に対す る場合とシステムに対する場合とで異なる.人対シス テムのデータを収集することで,実際にシステムを構 築した際に,システムに対してユーザが行うであろう ふるまいが収集できる.また,対話システムでは,言 語を用いたやりとりが複数ターンにわたって続き,か つ,システムは対話状態を持つという特徴がある.単なるマルチモーダルデータではなく,対話状態を持つ システムとの対話データを収集することで,一問一答 的な対話ではなく,対話の進行を考慮したシステム設 計などに繋がる可能性がある.
6
データ配布に向けた課題
収集したデータには顔画像など個人情報が含まれる ため,法令やガイドラインに沿った適切な取扱いが必 要である.現在,収集したデータは本稿の第一著者が 配布しているが,研究用データの配布をミッションと する機関から配布できる方が,継続的な対応が可能と なり望ましい. データの配布を別機関に委託する場合は,その機関 でも倫理審査が要求される場合がある.同意書や倫理 審査においてはデータの使用用途がより具体的である 方がよいが,一方でデータの配布や共有を目的とする 場合,使用用途を限定すると利用機会が限られてしま うことになる.またデータを簡単に試せる状態にある 方が,より研究分野の広がりにも貢献できる.共有を目 的としたマルチモーダルデータの収集の開始にあたっ ては,データ配布の自由度と個人情報保護のバランス の取れた同意書を事前に設計する必要がある.謝辞
アノテーションにご協力いただいたワーキンググルー プのメンバーに深く感謝する.データ収集では冨増紗 也華氏による多大な貢献があった.データ公開に向け ては国立情報学研究所 大須賀智子氏に継続的にご尽力 いただいている.ワーキンググループの活動をご支援 していただいている言語・音声理解と対話処理研究会 主査 伝康晴先生に感謝する.参考文献
[1] Jean Carletta. Unleashing the killer corpus: experi-ences in creating the multi-everything AMI meeting corpus. Language Resources and Evaluation, Vol. 41, No. 2, pp. 181–190, 2007.
[2] Adam Janin, Don Baron, Jane Edwards, Dan El-lis, David Gelbart, Nelson Morgan, Barbara Peskin, Thilo Pfau, Elizabeth Shriberg, Andreas Stolcke, and Chuck Wooters. The ICSI meeting corpus. In Proc. IEEE International Conference on Acoustics, Speech & Signal Processing (ICASSP), pp. I–364–I– 367, 2003.
[3] 荒木雅弘, 冨増紗也華,中野幹生,駒谷和範,岡田将吾,
藤江真也,杉山弘晃. マルチモーダル対話データの収集 と興味判定アノテーションの分析. 人工知能学会研究会
資料, SIG-SLUD-B508-05, pp. 20–25, 2017.
[4] Masahiro Araki, Sayaka Tomimasu, Mikio Nakano, Kazunori Komatani, Shogo Okada, Shinya Fujie, and Hiroaki Sugiyama. Collection of Multimodal Dialog Data and Analysis of the Result of Annotation of Users’ Interest Level. In Proc. International Confer-ence on Language Resources and Evaluation (LREC), 2018.
[5] 冨増紗也華,荒木雅弘. 雑談対話におけるマルチモーダ ル情報からの興味の有無の判定. 人工知能学会第30回
全国大会, 2016.
[6] Klaus Krippendorff. Computing Krippendorff’s
alpha-reliability. https://repository.upenn.edu/
asc_papers/43/, 2011.
[7] Mathieu Chollet, Helmut Prendinger, and Stefan Scherer. Native vs. non-native language fluency im-plications on multimodal interaction for interpersonal skills training. In Proc. International Conference on Multimodal Interaction (ICMI), pp. 386–393, 2016. [8] Alexander Waibel and Rainer Stiefelhagen.
Comput-ers in the Human Interaction Loop. Springer Pub-lishing Company, Incorporated, 1st edition, 2009. [9] Lei Chen, R. Travis Rose, Ying Qiao, Irene
Kim-bara, Fey Parrill, Haleema Welji, Tony Xu Han, Jilin Tu, Zhongqiang Huang, Mary Harper, Francis Quek, Yingen Xiong, David McNeill, Ronald Tuttle, and Thomas Huang. VACE multimodal meeting corpus. In Proceedings of the Second International Confer-ence on Machine Learning for Multimodal Interaction (MLMI05), pp. 40–51, 2006.
[10] Giota Stratou and Louis-Philippe Morency.
Multisense—context-aware nonverbal behavior
analysis framework: A psychological distress use
case. IEEE Transactions on Affective Computing,
Vol. 8, No. 2, pp. 190–203, 2017.
[11] 大塚和弘,竹前嘉修,大和淳司,村瀬洋. 複数人物の対面 会話を対象としたマルコフ切替えモデルに基づく会話構 造の確率的推論. 情報処理学会論文誌, Vol. 47, No. 7, pp. 2317–2334, 2006.
[12] Takatsugu Hirayama, Yasuyuki Sumi, Tatsuya
Kawa-hara, and Takashi Matsuyama. Info-concierge:
Proactive multi-modal interaction through mind probing. In The Asia Pacific Signal and Information Processing Association Annual Summit and Confer-ence (APSIPA ASC 2011), 2011.
[13] 中村和晃,角所考,正司哲朗,美濃導彦,澤木美奈子,南 泰浩,前田英作. 擬人化エージェントとの音声対話時に おけるユーザの非言語動作からの難/易及び興味/退屈の 推定. 電子情報通信学会論文誌, Vol. J95-A, No. 1, pp. 85–96, 2012.
[14] Yuya Chiba, Masashi Ito, Takashi Nose, and
Aki-nori Ito. User modeling by using bag-of-behaviors
for building a dialog system sensitive to the inter-locutor’s internal state. In Proc. Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL), pp. 74–78, 2014.
[15] 西本遥人,駒谷和範. 対話におけるマルチモーダル情報 を用いたユーザの興味の有無の推定.人工知能学会第32
回全国大会, 2018.
[16] Yasuhiro Shibasaki, Kotaro Funakoshi, and Koichi Shinoda. Boredom recognition based on users’ spon-taneous behaviors in multiparty human-robot inter-actions. In Proc. MultiMedia Modeling, pp. 677–689, 2017.