The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
ン
け
議論状態
変
検出
Detecting Discussion State Shifts in Group Discussions
瓶
芙巳雄
*1
林
佑樹
*1中
有紀子
*1Fumio NIHEI Yuki HAYASHI Yukiko NAKANO
*1
成蹊大学理
学部
Faculty of Science and Technology, Seikei University
In recent years, group discussion is used in job interview process to assess the candidates’ social abilities such as communication skill, leadership. However, the measurement of such abilities solely relies on interviewer’s subjective judgments. Aiming at approaching this problem from multimodal corpus analysis, this study, first, collected conversation corpus for group discussion by four people. The collected data include speech, head motions, face images, eye gaze, bone data, and personality traits. Focusing on speech audio and head motions, we analyzed discussion state changes, and defined three kinds of discussion states: ordered, unordered, and discontinuity. By applying SVM, we created a discussion state recognition model, and found that the model performed very well for ordered and discontinuity states (F-measure were 0.85 and 0.76 respectively), but not very well for unordered state (F-measure 0.47).
1.
じめに
採用選考 ,被面接者 一人 場 や複数 場 ,
多様 面接 行わ . 最近 , マを え 数人 被
面接者 ンを , 様子 評価を
決定 頻繁 行わ い . ,評価 面接者
異 場 あ , ン け
被面接者 行動 対 ,客観的 評価を え ,被
面接者 対 , く 評価 支援を行う ,
基 く ン 析 必要
あ 考え .
, ンを 議論 ,互い
意見や提案を述 あう,意思決定 け 意 確 を ,
議論 停滞 い , い 様々 状態 あ , 議論 支援
や を行う を 実現 , 議
論状態 変 を検知 ,議論 状態 応 支援を行う必要
あ .
以 課題 組 ,本研究 ,(1) 採用選考
け ンを対象 ,多様 非言語行動
を含 ン対話 を構築 .
(2) ,収集 対話 を 析 ,
ン け 議論状態 変 を検知 を 構築 . 本
研 究 音声 非言語情報 あ 韻 情報 , 発話 有
無 音圧, 加え 加速 ン 頭部 置 変 着
目 ,機械学習を用い を作成 . ,
を 収集 対話 適用 , 議論 活発 行
わ い ,停滞 い を自動的
を検証 .
2.
関連研究
ン や 参加者 析 を
目 的 収 集 対 話 ,AMI [Jovanovic 2005]やMSC [Pianesi 2007] あ .AMI 4人
を 1 ,各被験者 対 役割を え 議論を
行わ .議論 マ ビ用 ン ン ,各被
験者 役割 マ ,マ ン 専門家,
ン , 業 4種 あ .
実験中 映像,音声を記録 , 対 ,
話者,発話 隣接 ,視線方向 ンを 行
い .MSC AMI く 4人を 1 ,
災害時 非常 態 を想定 複数 道具 対 優先
を議論 決 組 ,
ン ンを収集 い .
, ン け 言語 非言語行動を
析 研究 ,大本 [大本 2011] , ン
行動 着目 , う 情報 基
ン行動を選択 い を明 い . 研
究 ,議論 発散 収束 状態を 持 , を繰 返
い [堀 2004] , 議論を発散あ い 収
束 議論を活性 い 述 い .
Jurafsky [Jurafsky 1997] , 者間 対話を対象 ,談
話構造を音声 言語,非言語情報 自動 検出 方法を
提 案 い . 研 究 , 談 話 対 Statement や
Opinion を手動 付 ,韻 情報や音声 識
得 単語, 単語 並び , 付 並
びを用い ,談話 種類を 定 い .
本研究 ,非言語情報 議論 状態を 推定 う
あ , 研究 目的 異 , 構築方
法や議論 析方法,推定 利用 非言語行動 選択
い , 記 先行研究を参考 .
3.
対話データ
収集
3.1
対話収集実験
実施
ン対話 を構築 ,対
話収集実験を行 .4 被験者 構成 ,
採用面接 け ン 用い う
課題 組 ,各種機材 各被験者 言語 非言語
行動を記録 .
連絡先: 瓶芙巳雄,成蹊大学理 学部,東京都武蔵 市
祥寺 3-3-1,[email protected]
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
(1) 被験者
被験者 男性32 ,女性12 ,計44 大学生 あ .
被験者 学部や学 ,学 様々 あ .4 人 被験者を 1
, 計 11 を形成 .各
, 能 限 就職活動経験者を1 入 ,男女 数
う , 知 い 含 い う .
(2) 実験課題
ン 課題を選定 , ,採
用面接 け ン く扱わ 議題を
前 調査 . 結果, ン 議題 ,
自 討論型, ン 型, 型,
型 い 類 わ .今回 実
験 , ン 型 議題を 1 , 型
議題を2 ,計3 議題を設定 .
ン 型課題 , 代表 う ,
複数 目 対 優先 を 議論 決 課
題 あ .本研究 , を ン ,15人
有 人 を え,学園祭 呼び い を ン 付け
学園祭有 人 ンキン いう課題を設定 .
型 課題 ,あ 問題 対 ,解決策 立 案
や問題点 析を行う あ .本研究 ,学園祭 出
店計 学園祭出店計 ,外国人を日本 招い 旅行
ン 外国人 友人 計 2 を設定 .
(3) 実験環境
実験を行う あ ,専用 実験環境を用意 .実験環境
を 1 示 . , 環境 い 実験を実施 い 様
子を 2 示 .実験 一辺を450cm 空間 あ
, 辺 端点 中点 支柱を 立 , 間を 黒
ン あ い 白い壁 .各支柱 ンキ
OptiTrack用 赤外線 , 全体 様子を
録 ビ を設置 . ,実験 中心
一辺 120cm を配置 , を う 4
人 被験者を着席 . 中心 各被験者 向
け を 4 設置 ,被験者 顔映像を 得 .
Kinect ン 被験者 近いほう 深 情報や骨格情報を
得 や い わ . Kinect ン を被験者 近 け 各被験者 背 支柱を立 Kinect ン
を設置 ,対面 被験者 計測を行 .
図 1 実験環境
図 2 実験の様子
(4) 手続き
対話収集実験 先立 ,各被験者 性格 を実施 .
性格 詳細 3.2(7)節 詳述 . ,各被験者 各
種 ン を装着 い 3 ,各 ン 必要 キ
ンを行 .各種 ン い 詳細 3.2節 述
.
図 3 各センサ装着の様子
各被験者 述 学園祭有 人 ン キ ン ,学
園祭出店計 , 外国人 友人 計 課 題
い 議論 う ,3会話を収録 .課題 序
影響を除去 ,各 け 課題
ン .各課題 制限時間 ン 型 15 ,
型 20 . 各課題 組 前 ,
各自 者 相談 考え 時間を 2 設け .制
限時間を示 マ ,各被験者 見 出来 置 2
個 所 配置 あ , 制限時間 終了時 , を 鳴
知 .
3.2
実験データ
取得
44 被験者 11 被験者 構成 ,各
対 3 ン実施 , 132人 言
語 非言語 を収集 .
(1) 音声
被験者 マ audio-technica:HYP-190H を
装着 い,各被験者 発話音声 を 得 .各
マ 入力 ,PC 接続
ン Roland:UA-1000 集 積 , 音 声 編 集 ソ DigiOnSound5を 用い 録音 . 複数 ン
時録音 対応 ソ あ .実験終了 ,各被験者
音声 をwav形式 変換 保存 .一部
損 ,最終的 得 音声 128
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
(2) 頭部動き量
被 験 者 頭 部 加 速 ン ATR-Promotions:
WAA-010 を 付け ,x,y,z 3 軸 け 加 速 ,角 速 を 33msec 計測 ,各被験者 頭部 動 情報
を 得 .加速 ン 出力 Bluetoothを使用 送信
, 信側 キ 保存 .
(3) ーションキ プチ データ
被験者 ンキ 用 マ を 付け 帽
子を装着 い, 帽子を1 識 ,
x, y, z 標 回転角 を計測 4 . ,マ を
肩,肘,手首 付け 服を着 い, 中指 マ
を巻 付け う , 4 マ
収集 .
図 4 ッドボディ
(4) 顔映像
中心 各被験者 正面顔 撮影 角
Logicool:HD Pro Webcam C920t を設置 ,被験者
顔映像を 得 .被験者 距離 約1m あ
,録 際 被験者 顔を 録 .顔映像
録 ,使用 標準 搭載 い ソ
を使用 .
(5) 骨格情報
各被験者 背 配置 Kinect ン ,対面 い
被験者 骨格情報 深 情報を 得 5参照 .
図 5 Kinectの配置
(6) 視線情報
被 験 者 視 線 追 跡 用 装 置 あ 型
Tobii:Tobii Glasses Eye Tracker を装着 い,各被験者
視線情報を 得 .視線 SD 保存 ,
実験 専用ソ TobiiStudio 処理 ,
被験者視点 ン 映像 , 畳 被験者 注視
点をavi形式 映像 保存 .
(7) 性格特性
実験開始前 , NEO-FFI性格特性評定 を実施 .
性格 ,BigFiveScale 基 設定 60 目
質問紙形式 あ . 活気 あ 所 い 好
や, 抽象的 考え方や理論を楽 くあ い
質 問 目 対 , 非常 う 全く う い 5
段階 回答 う , BigFive 性格特性 目 あ
経験 開放性 , 勤勉性 , 外向性 , 協調性 , 情緒
安定性 5 目 い 評定 得 .
4.
議論状態把握
デル
音声 加速 ン を 用い 議論状態を 把握
を作成 . ,各 加 方法を以 述 .
4.1
音声情報
収録 音声 を 0.01 単 割 ,各区間 い
,発話 有無 韻 情報を付 .発話 有無 い ,
各区間 各被験者 発話状態を0, 1 表現 .具体的 ,
音声 析ソ Praat 算出 音圧 値 一定以
場 1を,音圧 値 閾値以 あ 場 0を
え .4人 被験者 対 様 処理を 行う ,0.01
単 構成員 発話状態を0, 1 ビ ン
表 .0000 誰 発話を い い状態 (Ptn0), 0010や0001 う ,1 所 け値 1 い ン
一人 被験者 発話 い 状態 (Ptn1),0110や0111
う 2 所以 1 あ ン 複数 被験者 時
発話 い 状態 (Ptn2)を表 . ,発話状態 変 考 慮 ,誰 発話 い い状態 移行 (ShiftToPtn0), 一人 被験者 発話 状態 移行(ShiftToPtn1) 含
, 計5種類 発話状態を定義 .
韻 情報 い ,0.01 各区間 け 音圧をPraat
計測 , 値を使用 .
4.2
加速度情報
加 速 ン 3 軸 け 加 速 , 角 速 を
33msec 出力 .本研究 加速 ン 得
加速 情報を用い ,各被験者 頭部 人 均的
姿勢 程 変 を求 , を被験者 け 頭
部 置変 ,以 計算式 算出 .
け 変 √ ̅ ̅ ̅
,任意 時点 t け 軸 加速
を, ̅ ̅ ̅ ンを通 軸 け 加速 均
を表 .
4.3
議論状態
分析
3 章 収集 ン 様子を ビ 観察
, 3種類 議論状態 類 考え .
ordered:参加者 番 発言 , マ ン 整
然 行わ い 状態
unordered:複数 人 時 発言を ,発話
, マ ン 乱 い 状態
discontinuity: 発言 ,話 途 状態
本研究 , 3 状態を自動的 ば,議論
活発 あ 停滞 い を 断 有益 情報
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 4 -
,教師 を作成 ,ビ 対 , 記3
種類 議論状態を,ビ ン ELANを用い
ン . ,実験 実施 3 種類 課題
う ,提示 課題 対 解決案を話 う,
型課題 あ 学園祭出店計 を 析対象
. ,音声 加速 一部 損 い ,最
終的 11 中8 を学習 用い .
4.4
議論状態把握
デル
学習
4.1, 4.2節 準備 0.01 単 を1 単 集
計 頻 を作成 , を機械学習 用い .具体的
,1 区間 い ,4.1節 定義 5種類
発 話状態 各発生回数,4 参加者 音圧 計,
び頭部 置変 計を算出 . 7種類 特徴
い ,1 前, び2 前 履歴情報 追加 ,計21
特徴 を設定 .
要 属性を 削除 , 方法
を用い ,属性選択を行 . 結果,Ptn0,Ptn1,Ptn2 頻
,音圧 計,一 前 区間 け Ptn1, Ptn2 頻
残 ,加速 情報 選択 . 6 種類 特徴
学習 を用い ,SVM 機械学習を行 .
,4 多 式 を使用 ,C
1.0 設定 .
評価 leave-one-group-out法を用い .
評価結果を表 1 示 .議論 途 あ discontinuity
ン交代 整然, 円滑 行わ い ordered 状態 , F-measure 0.755,0.851 高い精 得 .
対 , マ ン 乱 い unordered 状態 推定 0.467 . 原因 再現率 あ . 本 ,unordered あ 箇所を十 精 検出
い い 言え .
表 1 各ク に対する分類の評価結果
Class Precision Recall F-Measure
discontinuity 0.807 0.709 0.755
ordered 0.798 0.911 0.851
unordered 0.742 0.341 0.467
4.5
議論状態把握
デル
考察
4.4 節 得 議論状態推定 を 学習 利用 い
い 適用 結果を 6 示 . ,20 間
議論 け ,discontinuity,ordered,unordered 各状態
推定 回数を5 単 集計 結果を示 い .
図 6 議論状態の推定
誰 発言 ,話 途 状態 あ discontinuity
多い ,議論 停滞 い 能性 高い 考え ,
議論 い 半ほ discontinuity 推定回数 増加
,時間経過 伴い議論 停滞 いく状況 示唆 .
実際 ビ を観察 示 う 傾向 見
を確 .
5.
おわりに
本研究 , , ン 対 話 収 集 実
験を行う ,対話 を構築 . 4
人 構成 被験者 対 ,
ン 課題 を え, 課題遂行中 各被験者 発話音声,頭
部 動 , ンキ ,顔向 映像,骨格情
報,視線情報を計測 作成 , 行動
加え,全被験者 質問紙 性格特性検査を行 .
,構築 を 観察 ,discontinuity,ordered, unordered 3 議論状態を定義 ,発話状態 ン
頭部 置変 を学習 , 3状態を
をSVM 作成 . 結果,発話状態 ン
を 用い 得 . ,作成 を 新
対話 適用 ,議論状態推定結果 ,議論 活発 ,
停滞 い を を確 .
本研究 ,ビ 観察 基 議論状態を独自 定義
,社会学や議論学 知見を 利用 ,議論状態 定義を
再検討 必要 あ 考え . ,提案 言語情報
依存 い ,今回対象 議論以外 適用
能性 あ .今 , 汎用性 い 検証 いく予
定 あ .
参考文献
[堀 2004] 堀公俊 : ン入門,日経文庫 (2004). [Jovanovic 2005] N. Jovanovic, R. op den Akke, and A. Nijholt:
A corpus for studying addressing behavior in multi-party dialogues, In Proc. of The 6th SigDial conference on Discourse and Dialogue (2005).
[Jurafsky 1997] D. Jurafsky, et al.: Automatic Detection of Discourse Structure for Speech Recognition and Understanding, In Proc. of IEEE Workshop on Speech Recognition and Understanding (1997).
[大本 2010] 大本義正, 戸 泰 , 植 一博, 西 豊明: 議論
参加態 非言語情報 基 く ン 析,
情報処理学会論文 , Vol.52, No.12, pp.1234–1245 (2011). [Pianesi 2007] F. Pianesi, M. Zancanaro, B. Lepri, and A. Cappelletti: A multimodal annotated corpus of consensus decision making meetings, Language Resources and Evaluation, 41:409–429 (2007).