• 検索結果がありません。

交渉対話におけるマルチモーダル情報に基づいた対立場面の推定

N/A
N/A
Protected

Academic year: 2021

シェア "交渉対話におけるマルチモーダル情報に基づいた対立場面の推定"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

交渉対話におけるマルチモーダル情報に基づいた

対立場面の推定

Estimation of conflict scenes based on multimodal information

in negotiation dialogue

松田 章洋

1

岡田 将吾

2

新田 克己

2

Akihiro Matsuda

1

Shogo Okada

2

Katsumi Nitta

2

1

東京工業大学大学院 総合理工学研究科 知能システム科学専攻

1

Department of Computational Intelligence and Systems Interdisciplinary,

Graduate School of Science and Engineering, Tokyo Institute of Technology

2

東京工業大学 情報理工学院 情報工学系

2

School of Computing, Tokyo Institute of Technology

Abstract: In this research, we analyze the dialogue records of face-to-face negotiation by constructing a model that estimates scenes where talkers in negotiations are taking opposing attitudes towards opponents. In order to discriminate conflicting scenes and the usual scene, the model is constructed using the timing of the speaker change, the frequency of the presence or absence of the overlap of the utterance is different, and so on. At first, we gathered bilateral negotiation dialogue data , and an external observer attached labels manually indicating whether or not they are attitudinal to each utterance fragment of both, which are used as teacher label data of machine learning. A model for estimating speech fragments of a conflicting attitude was constructed from the language information and prosodic information in the dialogue during negotiation dialogue. The evaluation of estimation was that the recall rate was 72.5% and the precision rate was 61.6% for concurrent utterance extraction accuracy.

1. はじめに

人間は日々社会で生活する上で,多種多様な多く の信号を発信している.例えば会話を例にとると, 話している声の大きさや速さ,仕草,表情など非常 に多くの信号を発信する.このようなコミュニケー ションをしている人の社会的な信号,マルチモーダ ル情報を処理することを「Social Signal Processing (SSP)」と呼ぶ.SSP は人間が社会の中で,コミュニ ケーションを行う上で必要不可欠な能力である.近 年,SSP に関する研究は盛んに行われてきた[1].就 職面接,グループディスカッションにおけるコミュ ニケーション能力や,同意・非同意の態度の認識な ど,様々な研究が行われている.多くの研究では, 協調的な対話場面を対象に SSP の研究が行われてき た. 一方で,交渉など対立する対話場面における SSP の研究はほとんど行われていない. 本研究では交渉対話を題材として,そこで観測さ れる対立場面の推定に焦点を当てる.対立場面の推 定を,発話者の態度の推定と置き換え,二者間の交 渉対話の中で少なくとも一方が相手に対して非協力 的な態度を取っている場面を,マルチモーダル情報 に基づいて推定するモデルを提案し,評価すること を目的とする. 本研究では高村ら[2]の感情極性辞書を用いて発 言に含まれる感情極性情報を対立場面の推定に用い る.また,非言語情報として韻律情報を用いる. 本論文ではまず,第 2 章で関連研究について紹介 する.次に,第 3 章で研究の概要とモデルの構成手 順,使用するデータ等について説明し,第 4 章で本 実験の結果について述べる.また,第 5 章で実験結 果の考察を行い,第 6 章で本研究のまとめを述べる. ――――――――――― *連絡先:[email protected] 人工知能学会研究会資料 SIG-SLUD-B506-10

(2)

2. 関連研究

2.1. 対面コミュニケーションにおける参

加者の状態推定に関する研究

対面二者対話の交渉について着目した研究の中に, Park ら[3]による交渉中の相手の反応予測を行った 研究がある.この研究では対面交渉の対話を分析し て,提案者のオファーに対する,回答者の承諾や拒 否などの反応を予測するモデルをマルチモーダル情 報に基づいて作成し,評価を行っている.ここでは, 笑顔や目の凝視度合いなどの視覚的な特徴と,声の 高さを表すピッチや声の大きさなどの音響的な特徴 を用いて回答者の反応の予測を行っている. しかし,これらは交渉対話におけるオファー時に 関しての反応予測の手法であり,本研究の着目する 対立的な場面の推定は行われていない. また,グループ会話の個人特性について着目した 研究の中に,岡田ら[4]によるグループ会話における コミュニケーション能力の推定を行った研究がある. この研究では会話参加者のコミュニケーション能力 をマルチモーダル情報に基づいて推定するモデルを 構築し,その評価を行っている. しかし,これらは 4 人一組で行うグループ会話に おけるコミュニケーション能力の推定手法であり, 情報伝達力などを必要としない対面二者対話におけ る交渉対話の研究とは異なっている. 対話中の怒りの感情に着目した研究に,野本ら[5] による韻律的特徴と対話的特徴を用いた怒り通話音 声の抽出を行った研究がある.この研究ではオペレ ータと顧客によるコンタクトセンタ通話音声を対象 に,韻律的特徴に加えて一方的な怒りの状況で特徴 的に現れる発話の時間的な関係性を用いて,顧客が 怒っているかどうかを推定している.この発話の時 間的な関係性に着目した提案手法は,従来研究で行 われてきた「HotAnger」と呼ばれる怒鳴った怒りの 推定だけでなく,「ColdAnger」と呼ばれる静かで押 し殺した怒りに対しても有効であることを報告して いる. しかし,この研究では一方の話者が怒っていて, もう片方の話者が一方的に怒られているという環境 であるコンタクトセンタでの通話音声を対象として いる.そのため,本研究で対象としている一般的な 交渉のように互いの立場が対等な場で発生する対立 とは想定している環境が異なり,このモデルを直接 利用することは難しい.

2.2. 言語の感情極性モデルに関する研究

岡田ら[4]は,参加者状態の推定に発話内容の品詞 情報などの一般的な特徴量を用いている.一方,本 研究では参加者の感情状態に特化した特徴量を抽出 する必要があるため,単語の感情極性辞書を導入し て,発話内単語特徴量の抽出を行う.本研究では高 村ら[2]によるスピンモデルによる単語の感情極性 抽出の研究によって作成された,単語感情極性対応 表の日本語版を使用する.単語の感情極性とは,あ る単語が良い印象を持つか,悪い印象を持つかを表 す変数のことで,前者をポジティブ,後者をネガテ ィブと呼ぶ.文章内に含まれるポジティブな単語と ネガティブな単語の出現割合から,その文書自体の 感情極性を推定出来るという報告がある[6].そのた め,本研究ではこの単語の感情特性値を用いて発話 内容の印象を分析することにより,対立的な場面の 推定を試みる.

3. 対立場面推定モデルの構築手順

3.1. 概要

本研究では,対面二者対話の交渉をマルチモーダ ル情報に基づいて分析し,少なくとも一方が相手に 対して非協力的な態度を取っている場面の推定を行 うモデルを構築し,その評価を行う.交渉実験の様 子を図 1 に,研究全体の流れを図 2 にそれぞれ示す. 研究の流れは,まず実験参加者を 2 名 1 組のペア に分けて,対面交渉タスクの収録を行う.2 名の実 験参加者間の中央にマイクロフォンアレイを設置し て発話内容の録音を行う.次に,音声から発話内容 を人手により書き起こしを行う. その後,実験参加者以外の第三者の評価者に,発 話内容の録音音声と発話内容の書き起こしテキスト を視聴してもらい,対立度合いの評価値を各発話タ ーンに付与させる.続いて,発話内容の録音音声と 発話内容の書き起こしテキストからマルチモーダル 特徴量を抽出する. 最後に,このマルチモーダル特徴量から対立度合 いの評価値を推定するモデルを機械学習により構築 し,その評価を行う.

3.2. 交渉実験の設定課題

交渉対話のコーパスを収録するために,予め二者 間の立場が殆ど対等で,交渉すべき要素を多く含ん だ課題を設定して用いる.なお,本実験で設定した コーパスの設定課題は,ゴミ屋敷と呼ばれる住居に

(3)

図 1 対面二者交渉実験の様子 図 2 研究全体の流れ まつわる諸問題についての交渉課題である. 具体的には,近隣住民からゴミ屋敷と呼ばれる住 居に居住する高齢者と,市役所の担当者の間での交 渉で,屋敷の近隣住民から市役所に対して悪臭や火 災の心配など多くの苦情が寄せられている.一方, 屋敷の住人は大量に保有しているものはゴミではな く,リサイクル用の財産であり捨てる気はないと主 張している.そこで,市役所の担当者は近隣住民か らの苦情との兼ね合いから,屋敷の住人に現状を改 善するように交渉を行う.担当者はゴミの撤去を強 制する為には法的根拠に基づく必要があるものの, 問題を容易に解決出来るような法的根拠が足りない など議論が深まりやすい設定課題としている.さら に,屋敷の住人しか知らない情報と市役所の担当者 しかしらない情報や関連法案の情報なども含めてい る.

3.3. 発話内容の録音及び,書き起こし

本実験では,いわゆるゴミ屋敷問題に関する設定 課題に基づき,合計 5 セッション(2 名×5 グループ) の交渉対話を,実験参加者間の中央に設置したマイ クロフォンアレイで録音して使用した. 全セッショ ンの発話総数は 942 発話となり,実験参加者の構成 は男性 8 名,女性 2 名で年齢層は 20 代 8 名,50~60 表 1 セッション毎の発話数 代 2 名である.さらに,この音声から発話内容を人 手により書き起こし,発話内容をテキスト化した.

3.4. 人手による対立度合いの評価

収集したデータに対して,人手による対立度合い の評価を行う.まず,交渉に参加した実験参加者と は別の評価者に,発話内容の録音音声と発話内容の 書き起こしテキストを視聴し,対立度合いの評価を して貰う.この評価値は 1 発話毎に評価し,評価は 1 発話の全体を通して相手に対し,非協力的な態度 を取っていると評価者が感じるか否かとする.これ らの態度を 5 段階で評価し,「とても協力的であると 感じた」「やや協力的であると感じた」「どちらとも 言えない」「あまり協力的であると感じなかった」「全 く協力的であると感じなかった」のいずれかに分類 する. その後で,「あまり協力的であると感じなかった」 と「全く協力的であると感じなかった」の 2 つを対 立的な発話とし,「とても協力的であると感じた」と 「やや協力的であると感じた」及び,「どちらとも言 えない」を非対立的な発話として,対立的か非対立 的かの二値化を行う. 本実験での評価者の構成は男性 2 名で年齢層は 20 代である.評価は初めに 1 セッションを 2 名で別々 に評価し,それらの一致率を調べたところ,91.88% でκ係数は 0.826 の高い一致を示した.そのため, 他の 4 セッションは 1 名の評価者で評価を行った. その結果,対立的な発話の総数は 466 発話,非対 立的な発話の総数は 476 発話となった.なお,5 セ ッションのそれぞれの発話の総数と対立・非対立数 を表 1 に示す.

3.5. 特徴抽出及び,モデルの構築

まず,発話内容の録音音声と発話内容の書き起こ しテキストからマルチモーダル特徴量を抽出し,こ れらから対立度合いの評価値を推定するモデルを構 築する.モデルの構築に用いた各特徴量について表 2 で示し,以下でそれぞれ説明する.また,発話時 間の間隔を用いた特徴量の説明を図 4 に示す.図 4

(4)

表 2 使用特徴量のまとめ 図 4 発話時間を用いた特徴量の説明 は上段に交渉者 A の発話時間,下段に交渉者 B の発 話時間をバーで表している.発話は A と B が交互に 行うものの,いずれかが話している最中にもう一方 が割り込みのように話し始めたり,逆に発話順序が 自分に移ってもすぐに発話を始めないことがある. 対象となる箇所を複数視聴してみたところ,交渉時 の対立的な場面には以下のような特徴的状況が観察 された為,これらの発話時間の特徴的な箇所を特徴 量に使用している.  双方の話者が対立的なときは発話のオーバー ラップが頻繁に生じやすい  一方の話者が非常に対立的であり,もう一方の 話者が非対立的かどちらとも言えないときは 発話のインターバルが生じやすい Overlap: 一方の話者が話している最中でまだ話し終えてい ないにもかかわらず,もう一方の話者が発話を開始 した為,対話が重なった時間を取った値を Overlap と定義する.初めに話し始めた方の発話終了時間を Be(n)とし,後から話しを始めた方の発話開始時間を As(n+1)とすると,式(1)のように表せる. Interval: 一方の話者が話し終えて,もう一方の話者が発話 を開始するまでの待ち時間を取った値を Interval と定義する.初めに話し始めた方の発話終了時間を Ae(n)とし,後から話しを始めた方の発話開始時間を Bs(n)とすると,式(2)のように表せる. Speech length: 発話の開始時から終了時までにかかった合計時間 を用いる. 音声データから韻律特徴量を抽出する.なお,本 研 究 で は 音 声 の 特 徴 抽 出 工 程 に Speech Prosody Analysis Tools[7]を用いた. ラウドネス曲線下の面積: ラウドネスとは人の聴覚による音の大きさのこと で,人の聴覚は周波数によって感度が異なる.その ため,周波数によって同じ音圧であっても感じる音 の大きさが異なる.このラウドネス曲線の下部面積 を計算した値を用いる. 絶対ラウドネス曲線: Zwicker の絶対ラウドネスのモデル[8]に基づい て計算した絶対ラウドネス曲線の 25%,50%,75%の 値を用いる. RMS 曲線: 時間的に変化する信号の大きさを評価する為,RMS (二乗平均平方根)を用いた曲線の 25%,50%,75% の値を用いる. 特定ラウドネスの平均値: 周波数範囲 510Hz〜3.7kHz の特定ラウドネスの平 均値を用いる. ピッチ: 1 発話中の全体からピッチの最大値,平均,分散 をそれぞれ計算して用いる. メル周波数ケプストラム係数(MFCC)(13 次元): 人の声の信号を表す特徴ベクトルとしてよく用い られ,声道特性を表す特徴量である.1 発話全体か らメル周波数ケプストラム係数の最大値,最小値, 平均,分散をそれぞれ計算して用いる.

(5)

感情極性値: 高村ら[2]によるスピンモデルによる単語の感情 極性抽出の研究に基づいて作成された「単語感情極 性対応表」の日本語版を使用して計算した値で,-1 から+1 の実数値で-1 に近いほどネガティブ,+1 に 近いほどポジティブを表している. 本 実 験 で 用 い る 感 情 極 性 値 の 計 算 に は , ま ず MeCab を用いて形態素解析を行い,自然文である 1 発話のテキストを単語に分割する.その後,感情極 性対応表内の単語と一致した単語の感情極性値を式 (3)により,ネガティブとポジティブの度合いが大 きい範囲のみを足し合わせて最後に割った値を用い る.1 発話内容の中で,感情極性対応表内の単語と 一致する単語を wi とし,その単語の感情極性値を p(wi)として,p(wi)≧|0.50|に一致した語数を N と すると, ここでは,例えば「外(そと)」と「外(がい)」 など同じ単語で読み方が異なる単語に関しては,形 態素解析の誤りが発生しやすいため除外する.

4. モデルの評価

本章では,対立度合いの評価値を推定する提案手 法の有効性を確認する為に,構築したモデルの評価 実験を行う. 対立場面の認識を,対立的な発話か否かの 2 値分 類タスクとして扱い,機械学習手法にはソフトマー ジン SVM を用いた.5 つのセッションの交渉対話が コーパスに含まれており,評価実験では 4 つのセッ ションから取得されたデータを訓練データとし,残 り 1 セッションから取得されたデータをテストデー タとして,5 分割交差検証を行った. 表 3 に対立的な発話の推測を行った機械学習の結 果を示す.音声情報のみからの推定結果は,全セッ ションの Accuracy の平均値が 60.7%であった.また, 対立的な発話と非対立的な発話の双方の推定結果を 平均した結果では,Recall が 59.8%,Precision が 59.9%で,F 値が 59.8%であった. 言語情報を用いた場合,全セッションの Accuracy の平均値は 56.7%であった.また,対立的な発話と 非対立的な発話の双方の推定精度を平均した結果, Recall は 60.6%,Precision は 62.6%で,F 値は 58.9% 表 3 機械学習結果 となった.Accuracy は音声情報を用いた推定精度よ り下がったものの,いずれも音声情報と非常に近い 精度であった. 音声情報と言語情報の両方を用いて,それぞれの 機械学習の出力値を足し合わせる Latest fusion の 手法を適用した結果(ここでは音声情報 0.8,言語 情報 0.2 の割合),全セッションの Accuracy の平均 値は 62.8%となり,それぞれ単体の結果よりも上回 った.また,対立的な発話と非対立的な発話の双方 の結果を平均した 推定結果に関して,Recall は 64.1%,Precision は 64.5%で,F 値は 63.8%となり, いずれの値もそれぞれ単体の結果よりも上回る結果 であった.

5. 考察

本実験で得られた機械学習結果の 5 つのセッショ ンそれぞれに着目したところ,セッションによって 推定精度のばらつきが大きかった.音声情報の推定 結果に着目するとセッション 5 の精度が特に低くな っており(Accuracy:45.6%),言語情報の推定結果 に着目するとセッション 3 の精度が特に低くなって いる(Accuracy:35.8%). これらの理由として考えられることの一つに,ま ず音声情報の推定結果は,セッション 5 の対話内容 に弱気で小さな声の非協力的な音声が多く含まれて いたことが挙げられる. 次に言語情報の推定結果は,セッション 3 の対話 内容に「火事にならないようにお手伝いいたしまし ょうか」などの「火事」というネガティブな単語を 後から打ち消す場合が多かったことが挙げられる. 本提案手法の音声情報のみ・言語情報のみを用い た場合では著しく精度が下がっていたセッション(3, 5)に Latest fusion を適用した推定結果,精度が向 上した.(セッション 3 Accuracy:52.6%,セッショ ン 5 Accuracy:63.9%) 音声情報と言語情報を組み合わせることで 1 つず つの手法では顕著に低い精度を示していたデータの

(6)

推定精度が向上した. また,本実験で用いた感情極性値が非協力的な態 度の推定に有効な特徴量であったかを調査する為に t 検定を行った.その結果,p 値が 3.58-09の有意な 特徴量であることが分かった.そのため,本実験で 用いた感情極性値は,非協力的な態度の推定に有効 な特徴量だと考えられる.

6. 結論

本研究では,対面二者対話の交渉をマルチモーダ ル特徴量から推定するモデルを構築し,その評価を 行った.マルチモーダル情報には,交渉対話を韻律 情報に加えて,発話時間の特徴量を含む音声情報と, 感情極性値を用いた言語情報を用いてモデルを構築 した.ソフトマージン SVM を用いて,対立的な発話 と非対立的な発話の双方の結果を平均した結果では, 62.8%の精 度で推定出来ること を示した( Recall 64.1%,Precision 64.5%,F 値 63.8%). 今後の課題として,まず今回の実験では使用した データサンプルの総数が少なかったため,機械学習 の精度を上げることが難しかった.この原因はデー タ収集の段階で人手による作業量が多く,十分なデ ータ量を集めるのに人的なコストがかかるという問 題があった.そのため,この工程では既存の交渉対 話ログを探してきて用いるなど,さらに改善して人 手による作業量を削減する必要がある. また,言語情報に採用出来た特徴量の種類が少な かった為,他にもモデル生成に有効な特徴量を調査 して追加し,言語情報のみの推定精度を向上させる 必要がある.さらに,音声情報と言語情報を組み合 わせたよりよい特徴を調査する必要がある.

参考文献

[1] M. Pantic, A. Pentland, A. Nijholt, and T. S. Huang: Human Computing and Machine Understanding of Human Behavior: A Survey, Artificial Intelligence for Human Computing, Vol. 4451, pp. 47–71, (2007) [2] Hiroya Takamura, Takashi Inui, and Manabu Okumura:

Extracting Semantic Orientations of Words using Spin Model, Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL2005), pp. 133-140, (2005)

[3] Sunghyun Park, Stefan Scherer, Jonathan Gratch, Peter Carnevale, and Louis-Philippe Morency: Mutual Behaviors during Dyadic Negotiation: Automatic Prediction of Respondent Reactions, Humaine Association Conference on Affective Computing and

Intelligent Interaction (ACII), (2013)

[4] 岡田 将吾, 松儀 良広, 中野 有紀子, 林 佑樹, 黄 宏軒, 高瀬 裕, 新田 克己: マルチモーダル情報に基 づくグループ会話におけるコミュニケーション能力 の推定, 人工知能学会論文誌, Vol. 31, No. 6, pp. 1-12, (2016) [5] 野本 済央, 政瀧 浩和, 吉岡 理, 高橋 敏: 韻律的特 徴と対話的特徴を用いた怒り通話音声の抽出, 電子 情報通信学会技術研究報告, Vol.110, No. 143, pp. 7-12, (2010)

[6] Kushal Dave, Steve Lawrence, and David M. Pennock, Mining the peanut gallery: opinion extraction and semantic classification of product reviews, Proceedings of the 12th international conference on World Wide Web, pp. 519-528, (2003)

[7] R. Fernandez, R. W. Picard: Classical and Novel Discriminant Features for Affect Recognition from Speech, Interspeech, pp. 473-476, (2005)

[8] E. Zwicker, H. Fastl: Psychoacoustics, Facts and Models, (1990)

図 1  対面二者交渉実験の様子  図 2  研究全体の流れ  まつわる諸問題についての交渉課題である.  具体的には,近隣住民からゴミ屋敷と呼ばれる住 居に居住する高齢者と,市役所の担当者の間での交 渉で,屋敷の近隣住民から市役所に対して悪臭や火 災の心配など多くの苦情が寄せられている.一方, 屋敷の住人は大量に保有しているものはゴミではな く,リサイクル用の財産であり捨てる気はないと主 張している.そこで,市役所の担当者は近隣住民か らの苦情との兼ね合いから,屋敷の住人に現状を改 善するように交渉を行う
表 2  使用特徴量のまとめ  図 4  発話時間を用いた特徴量の説明  は上段に交渉者 A の発話時間,下段に交渉者 B の発 話時間をバーで表している.発話は A と B が交互に 行うものの,いずれかが話している最中にもう一方 が割り込みのように話し始めたり,逆に発話順序が 自分に移ってもすぐに発話を始めないことがある. 対象となる箇所を複数視聴してみたところ,交渉時 の対立的な場面には以下のような特徴的状況が観察 された為,これらの発話時間の特徴的な箇所を特徴 量に使用している.    双方の話者

参照

関連したドキュメント

本稿で取り上げる関西社会経済研究所の自治 体評価では、 以上のような観点を踏まえて評価 を試みている。 関西社会経済研究所は、 年

ヘッジ手段のキャッシュ・フロー変動の累計を半期

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..

具体的な取組の 状況とその効果 に対する評価.

具体的な取組の 状況とその効果

添付資料 1.0.6 重大事故等対応に係る手順書の構成と概要について 添付資料 1.0.7 有効性評価における重大事故対応時の手順について 添付資料

実効性 評価 方法. ○全社員を対象としたアンケート において,下記設問に関する回答

通関業者全体の「窓口相談」に対する評価については、 「①相談までの待ち時間」を除く