議論タイムスパン木を生成する
ルールの重みパラメータの妥当性評価について
Evaluation of Validity of Weight Parameter
in Automatic Discussion Time-span Tree Analyzer
三浦 寛也
∗牧野 孝史
能登 楓
竹川 佳成
平田 圭二
Hiroya Miura
Takashi Makino
Kaede Noto
Yoshinari Takegawa
Keiji Hirata
公立はこだて未来大学
Future University Hakodate
Abstract: ADTTA (Automatic Discussion Time-Span Tree Analyzer) is an analyzer that can automatically acquire a tree structure (discussion time-span tree) that expresses the relationship between utterances existing in recorded meeting contents and hierarchical importance. The Dis-cussion time-span trees are expected to be used for summary of conference proceedings, deep structure discovery such as divergence / convergence. The purpose of this research is to evaluate the validity of rule weighting parameters in ADTTA. From the experimental results, we confirmed that all weighting parameters are necessary for analysis. Furthermore, we clarified the items of weight parameters that worked effectively.
1
はじめに
本研究の目的は,ADTTA(Automatic Discussion Time-Span Tree Analyzer) におけるルールの重みパラメー タに関する妥当性を評価することである.ADTTA と は,記録された会議コンテンツに存在する発言間の関 係や階層的な重要度を表す木構造 (議論タイムスパン 木) (図 1) を自動獲得できる分析器のことである.議論 タイムスパン木は,会議録の要約,発散・収束などの 深層的な構造発見などへの利用が期待されている [1]. 我々はこれまで,ADTTA を実装するために,複数 のルールを定義し,その抽出方式を提案した.議事録 の閲覧においては,利用者の求める観点に応じて重要 度の尺度は変化する.そのため,我々は ADTTA を拡 張し,ルールの重みパラメータの導入などをおこない, 計算機上への実装を可能にした.これにより,ADTTA は異なる観点への対応を可能とし,システム利用者は インタラクティブに構造化を進めることができる. 議論タイムスパン木は,言語・非言語情報に基づい て,グループ構造分析と重要発言選定の 2 項目の分析 から生成される.グループ構造分析とは,議論をある まとまりに分割する分析のことである.また,重要発言 選定は,あるグループ全体の時間幅を代表する重要な 発言を同定することである.談話構造分析や議論の構 ∗連絡先:公立はこだて未来大学 〒 041-8655 北海道函館市亀田中野町 116-2 E-mail: [email protected]
U
4U
1U
2U
3U
5 Level a U1,U5 Level b U1,U3,U5 ( Un : 1つの発言 ) 図 1: 議論タイムスパン木 造化に関する関連研究は数多く存在する [2, 3] が,これ らの手法では表面的なグループを得ることはできるも のの階層的なグループ構造を獲得することはできない. 本研究で提案している議論タイムスパン木のグループ 構造では,議論の階層的なグループ構造を獲得できる ことが特徴となっている.ADTTA では,このグループ 構造を獲得するために,複数のルールを定義しており, これらはグループの境界になる条件や,より好ましいグ ループ構造を獲得するための条件などである.ADTTA にルールの重みパラメータを導入することで,異なる 観点からの議論タイムスパン木の生成が期待される. 本研究の概要を図 2 に示す.ADTTA では,導入し た重みパラメータをユーザが自由に操作できる.しか しながら,それぞれのパラメータの重要度については 人工知能学会研究会資料 SIG-SLUD-B508-02・ユーザインターフェース の構築 利用者が自由に重みパラメ ータを操作できる etc... ・ルールの重み値の制御 異なる観点への対応 ・重みパラメータ操作によ ・る分析精度向上の実証 ・木構造生成におけるパラ メータの妥当性評価 本研究で解明すること Automatic Discussion Time-Span Tree Analyzer
・分析のためのルール実装 ・木構造の簡約による抽出 型要約の実現 拡張 ・分析ルールの重み値を決定 ・一意に決定できない事項を パラメータにより操作する etc... パラメータとは ... 研究課題 図 2: 本研究の概要 示されていない.そのため,ユーザは適用されている ルールを参考にしながら,試行錯誤で重みパラメータ を操作し,理想的な形で分析を進めることができる.こ れは非常に労力がいる作業である.そこで我々は,重み パラメータ設定の完全自動化に向けて,重みパラメー タ操作による分析精度向上の実証と重みパラメータの 妥当性について評価する.さらに,本知見を生かした 分析器の改良についても考察する.
2
議論コーパス
本研究では,ディスカッションマイニング 1と呼ば れる技術で記録された発言の書き起こしテキストデー タとマルチメディアデータに対するメタ情報を含む会 議コンテンツをコーパスとして用いる.この技術では, 会議中の人間活動にメタ情報を付与することで,発言 内容に関する様々な言語・非言語情報が獲得される [4]. この会議では,発表者がスライドを用いて研究内容に 関する発表を行い,その発表に対して参加者が自由に 発言を行う.会議参加者は,導入発言と継続発言の 2 つの発言タイプを自ら申告し,議論の構造化を補助す る.先行する発言がないものを導入発言,そうでない ものを継続発言と呼ぶ.この操作により,導入発言に 継続発言が連なる発言集合が複数生成され,この発言 集合を議論セグメントと呼ぶ.議論タイムスパン木は, 議論セグメントごとに生成される. 本研究では,本議論コーパスから,発言タイプや発 言間隔などの発話ターン特徴量や,形態素解析から得 られる重要単語などの言語情報特徴量を抽出する.こ れらの特徴量群は,前述したコーパスと,類似したコー パスを用いて会話分析をおこない,有効な特徴量を高 い精度で明らかにした研究である [5, 6, 7] を参考に抽 出している.本研究では,形態素解析には MeCab を用 1名古屋大学 長尾確研究室:ディスカッションマイニングプロジェ クト, 入手先⟨http://dm.nagao.nuie.nagoya-u.ac.jp/⟩. GPR パラメータ 1a 発言間隔 1b 発話順序 1c 発言量 1d 発言時間長 2a 発表者による発言 2b 重要単語の初出箇所表 1: Grouping Preference Rules (GPR) 一覧
SPR パラメータ 1a 発言時間長 1b 発話量 1c 賛同数 2a 導入/終止発言 2b 発言者ステータス 2c 発表者による発言 3a 重要単語の初出箇所 3b 重要単語を含む発言
表 2: Significance Preference Rules (SPR) 一覧
いた2.また,議論に含まれる名詞と形容詞を抽出し, TF-IDF法を適用して得られた単語群の上位 10%を重 要単語として用いている.
3
ADTTA
におけるパラメータの重
要度とパラメータ設定方法
3.1
重みパラメータの意味と重要度
本章では,ADTTA が備えているパラメータの意味 と設定方法について述べる.議論タイムスパン木は,前 章で述べた議論コーパスによって得られる言語・非言語 情報に基づいて,以下 2 項目のルールから得られる:(1) 議論に含まれるグループを抽出するルール (Grouping Preference Rule: GPR), (2) あるグループ全体の時間 幅を代表する重要な発言を同定するルール (Significance Preference Rule: SPR).(1) では,“GPR1: 連続した 4発言の間 (b1, b2, b3)において,b2が最も大きい値の 場合,b2に境界値を付与する” ,“GPR2: ある特定の 発言の直前/後に境界が生じる” など 6 項目から構成さ れる (表 1).(2) では,“SPR1:連続した 4 発言 (u1, u2, u3, u4)において,パラメータの値が最大となる発 言 uiに重要度を付与する” ,“ SPR2, 3: ある特定の基 準を満たす発言に重要度を付与する” など 8 項目から 構成される (表 2) . 2MeCab: http://taku910.github.io/mecab/図 3: 重みパラメータ操作のための GUI
3.2
重みパラメータの設定方法と問題点
ADTTAは,ルールの重みを操作するパラメータが 与えられている.本パラメータ操作によって,分析の 精度を高めることや,異なる観点に対応した木構造を 生成することができる.各パラメータは,0.0 から 1.0 までの 0.1 きざみで 11 段階の操作が可能である.なお, 初期値は 1.0 である.本パラメータ操作には,重みの 数値を制御する機構があり,ユーザは,自由に重みパ ラメータを操作することができる.また,分析結果の 表示機能もあることから,重みパラメータの影響を確 かめることもできる.さらに,結果表示部には適用さ れている重みの数値を頼りにパラメータ操作をおこな うことができる.本パラメータのユーザインターフェ イスは,図 3 に示すような GUI を設計した. ここで,各重みパラメータの数値をどのように設定 するかは,分析者の判断に委ねられる.そのため,ユー ザは適用されているルールを参考にしながら,試行錯 誤でパラメータを操作し,グループ構造の分析や重要 発言の選定を理想的な形に近づける必要があるが,こ の作業は非常に労力が掛かる.4
ルールの重み値を一律にした分析
精度評価
ADTTAのベースラインとなる分析精度について評 価するため,すべての重みパラメータの数値を 1.0 に統 一したベースラインとなる木構造を対象とした実験を おこなった.分析の精度については,分析の正解データ を用意したコーパスと ADTTA の出力を比較する.こ こで用意した正解データは,“議論非参加者に対して全 体の流れを把握する” という観点に基づいて人手で作成 したものである.本データは,ADTTA を熟知した本 著者の 2 名が吟味し,一意に定めたものであり,2 者間 発言数 グループ構造分析 重要発言選定 2∼5 件 0.83 0.67 6∼9 件 0.74 0.58 10件以上 0.47 0.46 平均 0.75 0.60 表 3: 1 議論セグメントの中に含まれる発言数に対する グループ構造分析と重要発言選定の F 値 のアノテーション一致度 (Inter-annotator agreement) は,68%であった. 分析結果は,F 値を用いる.本実験では,正解データ がシステムの出力に含まれる割合を適合率,システム が出力したデータが正解に含まれる割合を再現率とし ている.評価項目は,グループ構造分析と重要発言選 定の 2 点である.グループ構造分析ではグループが所 属する階層に関係なく,ADTTA の出力と正解データ の両方に完全一致しているグループがある場合を正解 とみなした.一方,重要発言選定では,ADTTA の出力 と評価用データにおける枝と幹の接点が同じレベルか つ同じ位置にある場合を正解とみなした.なお,コー パスサイズは,議論セグメントの総数が 169 件,総発 言数が 758 件である. 本実験結果を表 3 に示す.すべての議論セグメント のデータに対するグループ構造分析の平均 F 値は 0.75, 重要発言選定の平均 F 値は 0.60 であった.不正解が頻 発した代表例として,発言数や発言人物が多い場合が 挙げられる.これらの特徴は,前半と後半で話題の中 心人物と内容が大きく変化することである.また,議 論セグメントに含まれる発言数が奇数の場合,F 値が 低下する傾向があった.この原因として,質問応答対 が入れ子構造である話題に対して,妥当な木構造を生 成できていないことが考えられる.5
重みパラメータ操作による分析精
度向上実験
本章では,ADTTA の重みパラメータ操作における 有効性の評価として,重みパラメータ操作による分析 精度の向上を目的とした実験について述べる.我々は, 前章で述べた実験でシステム出力と正解データが不一 致だったデータ群に対して,重みパラメータ操作を施 した追実験をおこなった.本実験では,1 人の実験担当 者が議論データおよび正解データを見ながら,1 デー タあたり 5∼10 分で,システム出力が正解データに近 くなるように重みパラメータを操作した.操作の結果, 議論セグメントに含まれる発言が 6 件以下のデータ群 に対しては,グループ構造分析と重要発言選定ともに,正解データと完全一致した出力を確認した.一方,議 論セグメントに含まれる発言が 7 件以上のものに対し ては,F 値が一部向上したが,発言数が増加するにつ れ,適合率,再現率ともに低下する傾向にあった.本 実験において,重みパラメータの操作に関して得られ た気付きと知見を以下に列挙する. • 本実験では,すべての重みパラメータを操作して 分析したため,ADTTA の重みパラメータはどれ も必要なものであると考えられる. • 議論データによっては,分析結果や精度の向上に 影響を及ぼさない重みパラメータが存在した. • 重みパラメータの操作は議論ごとに異なるため, 全議論に共通する重み付けを一意に定めることは 困難であると考えられる. • 重みパラメータの数が減ることで効率よく最適な パラメータセットを発見できる可能性があるが, 局所解に陥る可能性がある. • 既存の重みパラメータの管理では,各ルールを一 律全範囲に適用しているため,局所的な重み付け に対処する必要がある. • 重みパラメータの操作は,僅かな変更によって適 用結果が大きく変化する傾向があったため,分析 に揺らぎが生じている可能性が高い.
6
重みパラメータの妥当性評価
6.1
実験方法
先述の通り,ADTTA の重みパラメータは手動によ る操作が必要であり,ユーザはシステムが出力する結 果を見ながら,重みパラメータを試行錯誤で操作して いく必要がある.ADTTA に備えられている重みパラ メータは 14 項目あり,各パラメータは 11 段階の操作 が可能である.これら重みパラメータの操作によって, 分析精度が一部向上することを第 5 章で実証した.しか し,各パラメータは相互に関係を持っているため,様々 な重みパラメータを試行錯誤しながら操作することが 強いられる.そのため,手動の操作によって最適解を 得られる保証はないが,最適解を得るため全探索する ためには,約 3.797× 1016( = 1114 × 10) 通りの組み 合わせを調べることになり,現実的ではない. そこで,本実験では,大学生および大学院生 7 名の 被験者を対象とした ADTTA のユーザ利用から,各パ ラメータにどのような相互関係があるのかを調査した. 被験者には,ADTTA を用いて 1 件分の議論データ (議 論セグメント数:11 件,発言数:86 件) を閲覧しても らい,重みパラメータ操作を施しながら分析をしても らった.本実験のタスクは,全体の流れを把握するこ とを目的とし,タスク実施時間は 10 分間3と規定した. 我々は,各被験者の重みパラメータ操作についての 試行錯誤の結果が顕著に表れるものとして,最終的な 重みパラメータの数値に着目した.そこで,ADTTA の 最終的な重みの数値に対して,主成分分析 (Principal Component Analysis)をおこなった.主成分分析とは, データ行列の固有値を求めることで,データの次元数 を圧縮する多変量解析の手法である.低次元でのデー タ表現は,データ分布からの知識抽出を容易にするこ とができる.入力データは,被験者 7 名の最終的な重み パラメータの数値 (0.0∼0.1) である.重みパラメータ は,グループ構造分析および重要発言選定に関する全 14項目である.我々は,被験者全 7 名の重みパラメー タの数値で構成されたデータセットに対して主成分分 析を行い,各主成分の全データに対する寄与率・累積 寄与率と主成分に対する各変数の因子負荷量を求めた.6.2
結果と考察
主成分分析の結果は,各主成分の寄与率は,第 1 主成 分で 28.1%,第 2 主成分で 27.2%,第 3 主成分で 17.6% であり,これらの累積寄与率は 72.8%であった.各重み パラメータの数値に対する第 1∼3 主成分の因子負荷量の 一覧を表 4 に示す.第 1 主成分に対する各変数の因子負 荷量は,GPR1b,GPR1c,GPR2b ,SPR2b,SPR3a の項目の重み値に対して中等度の関連性を示した (r = 0.31∼0.46).第 2 主成分に対する各変数の因子負荷量 は,GPR1a,GPR1d,SPR1b,SPR2c の項目の重み 値に対して中等度の関連性を示した (r = 0.35∼0.50). 第 3 主成分に対する各変数の因子負荷量は,GPR1a, GPR2a,SPR1c,SPR2a,SPR2b,SPR3b の項目の重 み値に対して中等度の関連性を示した (r = 0.32∼0.45). GPR1a,SPR2a,SPR2b の 3 項目は,複数の主成分 にわたって寄与することがわかった.また,すべての 重みパラメータが第 3 成分までに中等度の関連性を示 していることがわかった. 実験結果から,全 14 項目の重みパラメータでは,最 初の 3 成分までに全体の 7 割程度の情報が縮約されてい ることが明らかになった.また,GPR1a(:発言間隔), GPR2a(:導入/終止発言),SPR2b(:発表者ステータ ス)の項目の重み値は,複数の主成分にわたって中程度 の関連性を示すことから,分析において特に有効であ る可能性が示唆された.我々は,分析精度の向上や異な る観点に対応した分析を実現するため,重みパラメー タのプリセットを数種類に分類することを考えている. 本実験で得られた知見から,各主成分ごとに中等度の関 連性を示した重みパラメータを抽出すると,16 項目の 3予備実験を繰り返した結果,十分な収束が得られる時間として 10分を選択した.- 第 1 主成分 第 2 主成分 第 3 主成分 GPR1a -0.03 0.40 0.33 GPR1b -0.46 -0.19 0.07 GPR1c -0.40 0.15 0.09 GPR1d -0.02 0.43 0.17 GPR2a 0.24 -0.17 0.45 GPR2b 0.46 -0.20 0.06 SPR1a 0.08 0.10 0.14 SPR1b 0.09 0.35 -0.03 SPR1c 0.07 0.15 -0.40 SPR2a -0.17 -0.32 0.44 SPR2b 0.31 0.06 0.37 SPR2c 0.07 0.50 0.01 SPR3a -0.46 0.04 0.15 SPR3b -0.03 0.16 0.32 表 4: 重みパラメータの数値に対する第 1∼3 主成分の 因子負荷量の結果 パラメータは以下の 3 種類に分類されることが考えられ る;(1) GPR1b,GPR1c,GPR2b,SPR2b,SPR3a, (2) GPR1a,GPR1d,SPR1b,SPR2a,SPR2c,(3) GPR1a,GPR2a,SPR1c,SPR2a,SPR2b,SPR3d. このように,本実験での知見は,既存の ADTTA の改 良に貢献できると考えている.
7
おわりに
本稿では,議論タイムスパン木を生成するルールの 重みパラメータの妥当性評価について述べた.重みパ ラメータの操作による分析精度向上の実験結果から,す べての重みパラメータが分析に必要であることが確認 された.その一方で,議論によって必要な重みパラメー タは変化し,その影響度も議論ごとによって変わって くる.このことから,一般にすべての議論において高 い精度で分析できるようなパラメータセットを見つけ ることは困難であることが予想され,複数の重みパラ メータによる影響度の評価などが必要になってくる. 重みパラメータの妥当性の評価実験では,ユーザ利 用による被験者 7 名の重みパラメータの数値で構成さ れたデータセットに対して主成分分析を行い,有効に 作用する重みパラメータの項目を明らかにした.また, 各主成分ごとに関連性を示した重みパラメータを抽出 することで,16 項目のパラメータの分類を試みた.こ れらの知見は,分析精度の向上や異なる観点に対応し た分析を実現するための重みパラメータのプリセット 設計に貢献できると考えている.今後の予定として,重 みパラメータ操作の完全自動化を目指し,正解データ が用意されていない議論データに対しても,理想的な 分析をおこなうための手法について検討する.参考文献
[1] 三浦寛也, 長尾確, 平田圭二, 音楽理論 GTTM に基づく議論タイムスパン木の生成方式とその評 価, 情報処理学会論文誌, Vol.56, No.3, pp.942-950 (2015).[2] Marcu, D., The rhetorical parsing of unrestricted texts: A surface-based approach, Computational Linguistics, Vol.26, No.3, pp.395-448 (2000). [3] Hirao, T., Yoshida, Y., Nishino, M., Yasuda, N.,
and Nagata, M., Single-document summarization as a tree knapsack problem, In Proceedings of EMNLP, the Conference on Empirical Methods on Natural Language Processing, pp.1515-1520 (2013).
[4] Nagao, K., Kaji, K., Yamamoto, D., and To-mobe, H., Discussion Mining: Annotation-Based Knowledge Discovery from RealWorld Activities, In Proceedings of PCM, the Fifth PacificRim Conference on Multimedia, pp.522-531 (2004). [5] Otsuka, K., Sawada, H., and Yamato, J.,
Au-tomatic inference of cross-modal nonverbal in-teractions in multiparty conversations: “ Who Responds to Whom, When, and How?” from gaze, head gestures, and utterances, In Proceed-ings of ACM ICMI, the International Conference on Multimodal Interaction, pp.255-262 (2007). [6] 市野順子, 田野俊一, 発言の時系列的パターンを用 いた会議における発散/収束の判別の可能性, 人工 知能学会論文誌, Vol.25, No.3, pp.504-513 (2010). [7] 岡田将吾, 松儀良広, 中野有紀子, 林佑樹, 黄宏軒, 高瀬裕, 新田克己, マルチモーダル情報に基づく グループ会話におけるコミュニケーション能力の 推定, 人工知能学会論文誌, Vol.31, No.6 AI30-E (2016).