交渉対話におけるマルチモーダル情報に基づいた対立場面の推定

(1)

交渉対話におけるマルチモーダル情報に基づいた

対立場面の推定

Estimation of conflict scenes based on multimodal information

in negotiation dialogue

松田章洋

1

_{岡田将吾}

2

_{新田克己}

2

Akihiro Matsuda

1

Shogo Okada

2

Katsumi Nitta

2

1

_{東京工業大学大学院総合理工学研究科知能システム科学専攻}

1

Department of Computational Intelligence and Systems Interdisciplinary,

Graduate School of Science and Engineering, Tokyo Institute of Technology

2

_{東京工業大学情報理工学院情報工学系}

2

School of Computing, Tokyo Institute of Technology

Abstract: In this research, we analyze the dialogue records of face-to-face negotiation by constructing a model that estimates scenes where talkers in negotiations are taking opposing attitudes towards opponents. In order to discriminate conflicting scenes and the usual scene, the model is constructed using the timing of the speaker change, the frequency of the presence or absence of the overlap of the utterance is different, and so on. At first, we gathered bilateral negotiation dialogue data , and an external observer attached labels manually indicating whether or not they are attitudinal to each utterance fragment of both, which are used as teacher label data of machine learning. A model for estimating speech fragments of a conflicting attitude was constructed from the language information and prosodic information in the dialogue during negotiation dialogue. The evaluation of estimation was that the recall rate was 72.5% and the precision rate was 61.6% for concurrent utterance extraction accuracy.

1. はじめに

人間は日々社会で生活する上で，多種多様な多くの信号を発信している．例えば会話を例にとると，話している声の大きさや速さ，仕草，表情など非常に多くの信号を発信する．このようなコミュニケーションをしている人の社会的な信号，マルチモーダル情報を処理することを「Social Signal Processing (SSP)」と呼ぶ．SSP は人間が社会の中で，コミュニケーションを行う上で必要不可欠な能力である．近年，SSP に関する研究は盛んに行われてきた[1]．就職面接，グループディスカッションにおけるコミュニケーション能力や，同意・非同意の態度の認識など，様々な研究が行われている．多くの研究では，協調的な対話場面を対象に SSP の研究が行われてきた．一方で，交渉など対立する対話場面における SSP の研究はほとんど行われていない．本研究では交渉対話を題材として，そこで観測される対立場面の推定に焦点を当てる．対立場面の推定を，発話者の態度の推定と置き換え，二者間の交渉対話の中で少なくとも一方が相手に対して非協力的な態度を取っている場面を，マルチモーダル情報に基づいて推定するモデルを提案し，評価することを目的とする．本研究では高村ら[2]の感情極性辞書を用いて発言に含まれる感情極性情報を対立場面の推定に用いる．また，非言語情報として韻律情報を用いる．本論文ではまず，第 2 章で関連研究について紹介する．次に，第 3 章で研究の概要とモデルの構成手順，使用するデータ等について説明し，第 4 章で本実験の結果について述べる．また，第 5 章で実験結果の考察を行い，第 6 章で本研究のまとめを述べる． ――――――――――― *連絡先：[email protected] 人工知能学会研究会資料 SIG-SLUD-B506-10

(2)

2. 関連研究

2.1. 対面コミュニケーションにおける参

加者の状態推定に関する研究

対面二者対話の交渉について着目した研究の中に， Park ら[3]による交渉中の相手の反応予測を行った研究がある．この研究では対面交渉の対話を分析して，提案者のオファーに対する，回答者の承諾や拒否などの反応を予測するモデルをマルチモーダル情報に基づいて作成し，評価を行っている．ここでは，笑顔や目の凝視度合いなどの視覚的な特徴と，声の高さを表すピッチや声の大きさなどの音響的な特徴を用いて回答者の反応の予測を行っている．しかし，これらは交渉対話におけるオファー時に関しての反応予測の手法であり，本研究の着目する対立的な場面の推定は行われていない．また，グループ会話の個人特性について着目した研究の中に，岡田ら[4]によるグループ会話におけるコミュニケーション能力の推定を行った研究がある．この研究では会話参加者のコミュニケーション能力をマルチモーダル情報に基づいて推定するモデルを構築し，その評価を行っている．しかし，これらは 4 人一組で行うグループ会話におけるコミュニケーション能力の推定手法であり，情報伝達力などを必要としない対面二者対話における交渉対話の研究とは異なっている．対話中の怒りの感情に着目した研究に，野本ら[5] による韻律的特徴と対話的特徴を用いた怒り通話音声の抽出を行った研究がある．この研究ではオペレータと顧客によるコンタクトセンタ通話音声を対象に，韻律的特徴に加えて一方的な怒りの状況で特徴的に現れる発話の時間的な関係性を用いて，顧客が怒っているかどうかを推定している．この発話の時間的な関係性に着目した提案手法は，従来研究で行われてきた「HotAnger」と呼ばれる怒鳴った怒りの推定だけでなく，「ColdAnger」と呼ばれる静かで押し殺した怒りに対しても有効であることを報告している．しかし，この研究では一方の話者が怒っていて，もう片方の話者が一方的に怒られているという環境であるコンタクトセンタでの通話音声を対象としている．そのため，本研究で対象としている一般的な交渉のように互いの立場が対等な場で発生する対立とは想定している環境が異なり，このモデルを直接利用することは難しい．

2.2. 言語の感情極性モデルに関する研究

岡田ら[4]は，参加者状態の推定に発話内容の品詞情報などの一般的な特徴量を用いている．一方，本研究では参加者の感情状態に特化した特徴量を抽出する必要があるため，単語の感情極性辞書を導入して，発話内単語特徴量の抽出を行う．本研究では高村ら[2]によるスピンモデルによる単語の感情極性抽出の研究によって作成された，単語感情極性対応表の日本語版を使用する．単語の感情極性とは，ある単語が良い印象を持つか，悪い印象を持つかを表す変数のことで，前者をポジティブ，後者をネガティブと呼ぶ．文章内に含まれるポジティブな単語とネガティブな単語の出現割合から，その文書自体の感情極性を推定出来るという報告がある[6]．そのため，本研究ではこの単語の感情特性値を用いて発話内容の印象を分析することにより，対立的な場面の推定を試みる．

3. 対立場面推定モデルの構築手順

3.1. 概要

本研究では，対面二者対話の交渉をマルチモーダル情報に基づいて分析し，少なくとも一方が相手に対して非協力的な態度を取っている場面の推定を行うモデルを構築し，その評価を行う．交渉実験の様子を図 1 に，研究全体の流れを図 2 にそれぞれ示す．研究の流れは，まず実験参加者を 2 名 1 組のペアに分けて，対面交渉タスクの収録を行う．2 名の実験参加者間の中央にマイクロフォンアレイを設置して発話内容の録音を行う．次に，音声から発話内容を人手により書き起こしを行う．その後，実験参加者以外の第三者の評価者に，発話内容の録音音声と発話内容の書き起こしテキストを視聴してもらい，対立度合いの評価値を各発話ターンに付与させる．続いて，発話内容の録音音声と発話内容の書き起こしテキストからマルチモーダル特徴量を抽出する．最後に，このマルチモーダル特徴量から対立度合いの評価値を推定するモデルを機械学習により構築し，その評価を行う．

3.2. 交渉実験の設定課題

交渉対話のコーパスを収録するために，予め二者間の立場が殆ど対等で，交渉すべき要素を多く含んだ課題を設定して用いる．なお，本実験で設定したコーパスの設定課題は，ゴミ屋敷と呼ばれる住居に

(3)

図 1 対面二者交渉実験の様子図 2 研究全体の流れまつわる諸問題についての交渉課題である．具体的には，近隣住民からゴミ屋敷と呼ばれる住居に居住する高齢者と，市役所の担当者の間での交渉で，屋敷の近隣住民から市役所に対して悪臭や火災の心配など多くの苦情が寄せられている．一方，屋敷の住人は大量に保有しているものはゴミではなく，リサイクル用の財産であり捨てる気はないと主張している．そこで，市役所の担当者は近隣住民からの苦情との兼ね合いから，屋敷の住人に現状を改善するように交渉を行う．担当者はゴミの撤去を強制する為には法的根拠に基づく必要があるものの，問題を容易に解決出来るような法的根拠が足りないなど議論が深まりやすい設定課題としている．さらに，屋敷の住人しか知らない情報と市役所の担当者しかしらない情報や関連法案の情報なども含めている．

3.3. 発話内容の録音及び，書き起こし

本実験では，いわゆるゴミ屋敷問題に関する設定課題に基づき，合計 5 セッション（2 名×5 グループ）の交渉対話を，実験参加者間の中央に設置したマイクロフォンアレイで録音して使用した．全セッションの発話総数は 942 発話となり，実験参加者の構成は男性 8 名，女性 2 名で年齢層は 20 代 8 名，50～60 表 1 セッション毎の発話数代 2 名である．さらに，この音声から発話内容を人手により書き起こし，発話内容をテキスト化した．

3.4. 人手による対立度合いの評価

収集したデータに対して，人手による対立度合いの評価を行う．まず，交渉に参加した実験参加者とは別の評価者に，発話内容の録音音声と発話内容の書き起こしテキストを視聴し，対立度合いの評価をして貰う．この評価値は 1 発話毎に評価し，評価は 1 発話の全体を通して相手に対し，非協力的な態度を取っていると評価者が感じるか否かとする．これらの態度を 5 段階で評価し，「とても協力的であると感じた」「やや協力的であると感じた」「どちらとも言えない」「あまり協力的であると感じなかった」「全く協力的であると感じなかった」のいずれかに分類する．その後で，「あまり協力的であると感じなかった」と「全く協力的であると感じなかった」の 2 つを対立的な発話とし，「とても協力的であると感じた」と「やや協力的であると感じた」及び，「どちらとも言えない」を非対立的な発話として，対立的か非対立的かの二値化を行う．本実験での評価者の構成は男性 2 名で年齢層は 20 代である．評価は初めに 1 セッションを 2 名で別々に評価し，それらの一致率を調べたところ，91.88% でκ係数は 0.826 の高い一致を示した．そのため，他の 4 セッションは 1 名の評価者で評価を行った．その結果，対立的な発話の総数は 466 発話，非対立的な発話の総数は 476 発話となった．なお，5 セッションのそれぞれの発話の総数と対立・非対立数を表 1 に示す．

3.5. 特徴抽出及び，モデルの構築

まず，発話内容の録音音声と発話内容の書き起こしテキストからマルチモーダル特徴量を抽出し，これらから対立度合いの評価値を推定するモデルを構築する．モデルの構築に用いた各特徴量について表 2 で示し，以下でそれぞれ説明する．また，発話時間の間隔を用いた特徴量の説明を図 4 に示す．図 4

(4)

表 2 使用特徴量のまとめ図 4 発話時間を用いた特徴量の説明は上段に交渉者 A の発話時間，下段に交渉者 B の発話時間をバーで表している．発話は A と B が交互に行うものの，いずれかが話している最中にもう一方が割り込みのように話し始めたり，逆に発話順序が自分に移ってもすぐに発話を始めないことがある．対象となる箇所を複数視聴してみたところ，交渉時の対立的な場面には以下のような特徴的状況が観察された為，これらの発話時間の特徴的な箇所を特徴量に使用している．  双方の話者が対立的なときは発話のオーバーラップが頻繁に生じやすい  一方の話者が非常に対立的であり，もう一方の話者が非対立的かどちらとも言えないときは発話のインターバルが生じやすい Overlap：一方の話者が話している最中でまだ話し終えていないにもかかわらず，もう一方の話者が発話を開始した為，対話が重なった時間を取った値を Overlap と定義する．初めに話し始めた方の発話終了時間を Be(n)とし，後から話しを始めた方の発話開始時間を As(n+1)とすると，式（1）のように表せる． Interval：一方の話者が話し終えて，もう一方の話者が発話を開始するまでの待ち時間を取った値を Interval と定義する．初めに話し始めた方の発話終了時間を Ae(n)とし，後から話しを始めた方の発話開始時間を Bs(n)とすると，式（2）のように表せる． Speech length：発話の開始時から終了時までにかかった合計時間を用いる．音声データから韻律特徴量を抽出する．なお，本研究では音声の特徴抽出工程に Speech Prosody Analysis Tools[7]を用いた．ラウドネス曲線下の面積：ラウドネスとは人の聴覚による音の大きさのことで，人の聴覚は周波数によって感度が異なる．そのため，周波数によって同じ音圧であっても感じる音の大きさが異なる．このラウドネス曲線の下部面積を計算した値を用いる．絶対ラウドネス曲線： Zwicker の絶対ラウドネスのモデル[8]に基づいて計算した絶対ラウドネス曲線の 25%，50%，75%の値を用いる． RMS 曲線：時間的に変化する信号の大きさを評価する為，RMS （二乗平均平方根）を用いた曲線の 25%，50%，75% の値を用いる．特定ラウドネスの平均値：周波数範囲 510Hz〜3.7kHz の特定ラウドネスの平均値を用いる．ピッチ： 1 発話中の全体からピッチの最大値，平均，分散をそれぞれ計算して用いる．メル周波数ケプストラム係数（MFCC）（13 次元）：人の声の信号を表す特徴ベクトルとしてよく用いられ，声道特性を表す特徴量である．1 発話全体からメル周波数ケプストラム係数の最大値，最小値，平均，分散をそれぞれ計算して用いる．

(5)

感情極性値：高村ら[2]によるスピンモデルによる単語の感情極性抽出の研究に基づいて作成された「単語感情極性対応表」の日本語版を使用して計算した値で，-1 から+1 の実数値で-1 に近いほどネガティブ，+1 に近いほどポジティブを表している．本実験で用いる感情極性値の計算には，まず MeCab を用いて形態素解析を行い，自然文である 1 発話のテキストを単語に分割する．その後，感情極性対応表内の単語と一致した単語の感情極性値を式（3）により，ネガティブとポジティブの度合いが大きい範囲のみを足し合わせて最後に割った値を用いる．1 発話内容の中で，感情極性対応表内の単語と一致する単語を wi とし，その単語の感情極性値を p(wi)として，p(wi)≧|0.50|に一致した語数を N とすると，ここでは，例えば「外（そと）」と「外（がい）」など同じ単語で読み方が異なる単語に関しては，形態素解析の誤りが発生しやすいため除外する．

4. モデルの評価

本章では，対立度合いの評価値を推定する提案手法の有効性を確認する為に，構築したモデルの評価実験を行う．対立場面の認識を，対立的な発話か否かの 2 値分類タスクとして扱い，機械学習手法にはソフトマージン SVM を用いた．5 つのセッションの交渉対話がコーパスに含まれており，評価実験では 4 つのセッションから取得されたデータを訓練データとし，残り 1 セッションから取得されたデータをテストデータとして，5 分割交差検証を行った．表 3 に対立的な発話の推測を行った機械学習の結果を示す．音声情報のみからの推定結果は，全セッションの Accuracy の平均値が 60.7%であった．また，対立的な発話と非対立的な発話の双方の推定結果を平均した結果では，Recall が 59.8%，Precision が 59.9%で，F 値が 59.8%であった．言語情報を用いた場合，全セッションの Accuracy の平均値は 56.7%であった．また，対立的な発話と非対立的な発話の双方の推定精度を平均した結果， Recall は 60.6%，Precision は 62.6%で，F 値は 58.9% 表 3 機械学習結果となった．Accuracy は音声情報を用いた推定精度より下がったものの，いずれも音声情報と非常に近い精度であった．音声情報と言語情報の両方を用いて，それぞれの機械学習の出力値を足し合わせる Latest fusion の手法を適用した結果（ここでは音声情報 0.8，言語情報 0.2 の割合），全セッションの Accuracy の平均値は 62.8%となり，それぞれ単体の結果よりも上回った．また，対立的な発話と非対立的な発話の双方の結果を平均した推定結果に関して，Recall は 64.1%，Precision は 64.5%で，F 値は 63.8%となり，いずれの値もそれぞれ単体の結果よりも上回る結果であった．

5. 考察

本実験で得られた機械学習結果の 5 つのセッションそれぞれに着目したところ，セッションによって推定精度のばらつきが大きかった．音声情報の推定結果に着目するとセッション 5 の精度が特に低くなっており（Accuracy：45.6%），言語情報の推定結果に着目するとセッション 3 の精度が特に低くなっている（Accuracy：35.8%）．これらの理由として考えられることの一つに，まず音声情報の推定結果は，セッション 5 の対話内容に弱気で小さな声の非協力的な音声が多く含まれていたことが挙げられる．次に言語情報の推定結果は，セッション 3 の対話内容に「火事にならないようにお手伝いいたしましょうか」などの「火事」というネガティブな単語を後から打ち消す場合が多かったことが挙げられる．本提案手法の音声情報のみ・言語情報のみを用いた場合では著しく精度が下がっていたセッション（3， 5）に Latest fusion を適用した推定結果，精度が向上した．（セッション 3 Accuracy：52.6%，セッション 5 Accuracy：63.9%）音声情報と言語情報を組み合わせることで 1 つずつの手法では顕著に低い精度を示していたデータの

(6)

推定精度が向上した．また，本実験で用いた感情極性値が非協力的な態度の推定に有効な特徴量であったかを調査する為に t 検定を行った．その結果，p 値が 3.58-09_の有意な特徴量であることが分かった．そのため，本実験で用いた感情極性値は，非協力的な態度の推定に有効な特徴量だと考えられる．

6. 結論

本研究では，対面二者対話の交渉をマルチモーダル特徴量から推定するモデルを構築し，その評価を行った．マルチモーダル情報には，交渉対話を韻律情報に加えて，発話時間の特徴量を含む音声情報と，感情極性値を用いた言語情報を用いてモデルを構築した．ソフトマージン SVM を用いて，対立的な発話と非対立的な発話の双方の結果を平均した結果では， 62.8%の精度で推定出来ることを示した（ Recall 64.1%，Precision 64.5%，F 値 63.8%）．今後の課題として，まず今回の実験では使用したデータサンプルの総数が少なかったため，機械学習の精度を上げることが難しかった．この原因はデータ収集の段階で人手による作業量が多く，十分なデータ量を集めるのに人的なコストがかかるという問題があった．そのため，この工程では既存の交渉対話ログを探してきて用いるなど，さらに改善して人手による作業量を削減する必要がある．また，言語情報に採用出来た特徴量の種類が少なかった為，他にもモデル生成に有効な特徴量を調査して追加し，言語情報のみの推定精度を向上させる必要がある．さらに，音声情報と言語情報を組み合わせたよりよい特徴を調査する必要がある．

参考文献

[１] M. Pantic, A. Pentland, A. Nijholt, and T. S. Huang: Human Computing and Machine Understanding of Human Behavior: A Survey, Artificial Intelligence for Human Computing, Vol. 4451, pp. 47–71, (2007) [２] Hiroya Takamura, Takashi Inui, and Manabu Okumura:

Extracting Semantic Orientations of Words using Spin Model, Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL2005), pp. 133-140, (2005)

[３] Sunghyun Park, Stefan Scherer, Jonathan Gratch, Peter Carnevale, and Louis-Philippe Morency: Mutual Behaviors during Dyadic Negotiation: Automatic Prediction of Respondent Reactions, Humaine Association Conference on Affective Computing and

Intelligent Interaction (ACII), (2013)

[４] 岡田将吾, 松儀良広, 中野有紀子, 林佑樹, 黄宏軒, 高瀬裕, 新田克己: マルチモーダル情報に基づくグループ会話におけるコミュニケーション能力の推定, 人工知能学会論文誌, Vol. 31, No. 6, pp. 1-12, (2016) [５] 野本済央, 政瀧浩和, 吉岡理, 高橋敏: 韻律的特徴と対話的特徴を用いた怒り通話音声の抽出, 電子情報通信学会技術研究報告, Vol.110, No. 143, pp. 7-12, (2010)

[６] Kushal Dave, Steve Lawrence, and David M. Pennock, Mining the peanut gallery: opinion extraction and semantic classification of product reviews, Proceedings of the 12th international conference on World Wide Web, pp. 519-528, (2003)

[７] R. Fernandez, R. W. Picard: Classical and Novel Discriminant Features for Affect Recognition from Speech, Interspeech, pp. 473-476, (2005)

[８] E. Zwicker, H. Fastl: Psychoacoustics, Facts and Models, (1990)

交渉対話におけるマルチモーダル情報に基づいた対立場面の推定