議論タイムスパン木を生成するルールの重みパラメータの妥当性評価について

(1)

議論タイムスパン木を生成する

ルールの重みパラメータの妥当性評価について

Evaluation of Validity of Weight Parameter

in Automatic Discussion Time-span Tree Analyzer

三浦寛也

∗

牧野孝史

能登楓

竹川佳成

平田圭二

Hiroya Miura

Takashi Makino

Kaede Noto

Yoshinari Takegawa

Keiji Hirata

公立はこだて未来大学

Future University Hakodate

Abstract: ADTTA (Automatic Discussion Time-Span Tree Analyzer) is an analyzer that can automatically acquire a tree structure (discussion time-span tree) that expresses the relationship between utterances existing in recorded meeting contents and hierarchical importance. The Dis-cussion time-span trees are expected to be used for summary of conference proceedings, deep structure discovery such as divergence / convergence. The purpose of this research is to evaluate the validity of rule weighting parameters in ADTTA. From the experimental results, we confirmed that all weighting parameters are necessary for analysis. Furthermore, we clarified the items of weight parameters that worked eﬀectively.

1 はじめに

本研究の目的は，ADTTA(Automatic Discussion Time-Span Tree Analyzer) におけるルールの重みパラメータに関する妥当性を評価することである．ADTTA とは，記録された会議コンテンツに存在する発言間の関係や階層的な重要度を表す木構造 (議論タイムスパン木) (図 1) を自動獲得できる分析器のことである．議論タイムスパン木は，会議録の要約，発散・収束などの深層的な構造発見などへの利用が期待されている [1]．我々はこれまで，ADTTA を実装するために，複数のルールを定義し，その抽出方式を提案した．議事録の閲覧においては，利用者の求める観点に応じて重要度の尺度は変化する．そのため，我々は ADTTA を拡張し，ルールの重みパラメータの導入などをおこない，計算機上への実装を可能にした．これにより，ADTTA は異なる観点への対応を可能とし，システム利用者はインタラクティブに構造化を進めることができる．議論タイムスパン木は，言語・非言語情報に基づいて，グループ構造分析と重要発言選定の 2 項目の分析から生成される．グループ構造分析とは，議論をあるまとまりに分割する分析のことである．また，重要発言選定は，あるグループ全体の時間幅を代表する重要な発言を同定することである．談話構造分析や議論の構 ∗_{連絡先：公立はこだて未来大学} 〒 041-8655 北海道函館市亀田中野町 116-2 E-mail: [email protected]

U

4

U

1

U

2

U

3

U

5 Level a _U1,U5 Level b U1,U3,U5 ( Un : 1つの発言 ) 図 1: 議論タイムスパン木造化に関する関連研究は数多く存在する [2, 3] が，これらの手法では表面的なグループを得ることはできるものの階層的なグループ構造を獲得することはできない．本研究で提案している議論タイムスパン木のグループ構造では，議論の階層的なグループ構造を獲得できることが特徴となっている．ADTTA では，このグループ構造を獲得するために，複数のルールを定義しており，これらはグループの境界になる条件や，より好ましいグループ構造を獲得するための条件などである．ADTTA にルールの重みパラメータを導入することで，異なる観点からの議論タイムスパン木の生成が期待される．本研究の概要を図 2 に示す．ADTTA では，導入した重みパラメータをユーザが自由に操作できる．しかしながら，それぞれのパラメータの重要度については人工知能学会研究会資料 SIG-SLUD-B508-02

(2)

・ユーザインターフェースの構築利用者が自由に重みパラメータを操作できる etc... ・ルールの重み値の制御 異なる観点への対応 ・重みパラメータ操作によ・る分析精度向上の実証・木構造生成におけるパラメータの妥当性評価 本研究で解明すること Automatic Discussion Time-Span Tree Analyzer

・分析のためのルール実装・木構造の簡約による抽出型要約の実現拡張・分析ルールの重み値を決定・一意に決定できない事項をパラメータにより操作する etc... パラメータとは ... 研究課題 図 2: 本研究の概要示されていない．そのため，ユーザは適用されているルールを参考にしながら，試行錯誤で重みパラメータを操作し，理想的な形で分析を進めることができる．これは非常に労力がいる作業である．そこで我々は，重みパラメータ設定の完全自動化に向けて，重みパラメータ操作による分析精度向上の実証と重みパラメータの妥当性について評価する．さらに，本知見を生かした分析器の改良についても考察する．

2 議論コーパス

本研究では，ディスカッションマイニング 1と呼ばれる技術で記録された発言の書き起こしテキストデータとマルチメディアデータに対するメタ情報を含む会議コンテンツをコーパスとして用いる．この技術では，会議中の人間活動にメタ情報を付与することで，発言内容に関する様々な言語・非言語情報が獲得される [4]．この会議では，発表者がスライドを用いて研究内容に関する発表を行い，その発表に対して参加者が自由に発言を行う．会議参加者は，導入発言と継続発言の 2 つの発言タイプを自ら申告し，議論の構造化を補助する．先行する発言がないものを導入発言，そうでないものを継続発言と呼ぶ．この操作により，導入発言に継続発言が連なる発言集合が複数生成され，この発言集合を議論セグメントと呼ぶ．議論タイムスパン木は，議論セグメントごとに生成される．本研究では，本議論コーパスから，発言タイプや発言間隔などの発話ターン特徴量や，形態素解析から得られる重要単語などの言語情報特徴量を抽出する．これらの特徴量群は，前述したコーパスと，類似したコーパスを用いて会話分析をおこない，有効な特徴量を高い精度で明らかにした研究である [5, 6, 7] を参考に抽出している．本研究では，形態素解析には MeCab を用 1_{名古屋大学長尾確研究室：ディスカッションマイニングプロジェ} クト, 入手先⟨http://dm.nagao.nuie.nagoya-u.ac.jp/⟩. GPR パラメータ 1a 発言間隔 1b 発話順序 1c 発言量 1d 発言時間長 2a 発表者による発言 2b 重要単語の初出箇所

表 1: Grouping Preference Rules (GPR) 一覧

SPR パラメータ 1a 発言時間長 1b 発話量 1c 賛同数 2a 導入/終止発言 2b 発言者ステータス 2c 発表者による発言 3a 重要単語の初出箇所 3b 重要単語を含む発言

表 2: Significance Preference Rules (SPR) 一覧

いた2_{．また，議論に含まれる名詞と形容詞を抽出し，} TF-IDF法を適用して得られた単語群の上位 10%を重要単語として用いている．

3 ADTTA

におけるパラメータの重

要度とパラメータ設定方法

3.1 重みパラメータの意味と重要度

本章では，ADTTA が備えているパラメータの意味と設定方法について述べる．議論タイムスパン木は，前章で述べた議論コーパスによって得られる言語・非言語情報に基づいて，以下 2 項目のルールから得られる：(1) 議論に含まれるグループを抽出するルール (Grouping Preference Rule: GPR)， (2) あるグループ全体の時間幅を代表する重要な発言を同定するルール (Significance Preference Rule: SPR)．(1) では，“GPR1: 連続した 4発言の間 (b1, b2, b3)において，b2が最も大きい値の 場合，b2に境界値を付与する” ，“GPR2: ある特定の発言の直前/後に境界が生じる” など 6 項目から構成さ れる (表 1)．(2) では，“SPR1：連続した 4 発言 (u1, u2, u3, u4)において，パラメータの値が最大となる発 言 uiに重要度を付与する” ，“ SPR2, 3: ある特定の基準を満たす発言に重要度を付与する” など 8 項目から構成される (表 2) ． 2_{MeCab: http://taku910.github.io/mecab/}

(3)

図 3: 重みパラメータ操作のための GUI

3.2 重みパラメータの設定方法と問題点

ADTTAは，ルールの重みを操作するパラメータが与えられている．本パラメータ操作によって，分析の精度を高めることや，異なる観点に対応した木構造を生成することができる．各パラメータは，0.0 から 1.0 までの 0.1 きざみで 11 段階の操作が可能である．なお，初期値は 1.0 である．本パラメータ操作には，重みの数値を制御する機構があり，ユーザは，自由に重みパラメータを操作することができる．また，分析結果の表示機能もあることから，重みパラメータの影響を確かめることもできる．さらに，結果表示部には適用されている重みの数値を頼りにパラメータ操作をおこなうことができる．本パラメータのユーザインターフェイスは，図 3 に示すような GUI を設計した．ここで，各重みパラメータの数値をどのように設定するかは，分析者の判断に委ねられる．そのため，ユーザは適用されているルールを参考にしながら，試行錯誤でパラメータを操作し，グループ構造の分析や重要発言の選定を理想的な形に近づける必要があるが，この作業は非常に労力が掛かる．

4 ルールの重み値を一律にした分析

精度評価

ADTTAのベースラインとなる分析精度について評価するため，すべての重みパラメータの数値を 1.0 に統一したベースラインとなる木構造を対象とした実験をおこなった．分析の精度については，分析の正解データを用意したコーパスと ADTTA の出力を比較する．ここで用意した正解データは，“議論非参加者に対して全体の流れを把握する” という観点に基づいて人手で作成したものである．本データは，ADTTA を熟知した本著者の 2 名が吟味し，一意に定めたものであり，2 者間発言数グループ構造分析重要発言選定 2∼5 件 0.83 0.67 6∼9 件 0.74 0.58 10件以上 0.47 0.46 平均 0.75 0.60 表 3: 1 議論セグメントの中に含まれる発言数に対するグループ構造分析と重要発言選定の F 値のアノテーション一致度 (Inter-annotator agreement) は，68%であった．分析結果は，F 値を用いる．本実験では，正解データがシステムの出力に含まれる割合を適合率，システムが出力したデータが正解に含まれる割合を再現率としている．評価項目は，グループ構造分析と重要発言選定の 2 点である．グループ構造分析ではグループが所属する階層に関係なく，ADTTA の出力と正解データの両方に完全一致しているグループがある場合を正解とみなした．一方，重要発言選定では，ADTTA の出力と評価用データにおける枝と幹の接点が同じレベルかつ同じ位置にある場合を正解とみなした．なお，コーパスサイズは，議論セグメントの総数が 169 件，総発言数が 758 件である．本実験結果を表 3 に示す．すべての議論セグメントのデータに対するグループ構造分析の平均 F 値は 0.75，重要発言選定の平均 F 値は 0.60 であった．不正解が頻発した代表例として，発言数や発言人物が多い場合が挙げられる．これらの特徴は，前半と後半で話題の中心人物と内容が大きく変化することである．また，議論セグメントに含まれる発言数が奇数の場合，F 値が低下する傾向があった．この原因として，質問応答対が入れ子構造である話題に対して，妥当な木構造を生成できていないことが考えられる．

5 重みパラメータ操作による分析精

度向上実験

本章では，ADTTA の重みパラメータ操作における有効性の評価として，重みパラメータ操作による分析精度の向上を目的とした実験について述べる．我々は，前章で述べた実験でシステム出力と正解データが不一致だったデータ群に対して，重みパラメータ操作を施した追実験をおこなった．本実験では，1 人の実験担当者が議論データおよび正解データを見ながら，1 データあたり 5∼10 分で，システム出力が正解データに近くなるように重みパラメータを操作した．操作の結果，議論セグメントに含まれる発言が 6 件以下のデータ群に対しては，グループ構造分析と重要発言選定ともに，

(4)

正解データと完全一致した出力を確認した．一方，議論セグメントに含まれる発言が 7 件以上のものに対しては，F 値が一部向上したが，発言数が増加するにつれ，適合率，再現率ともに低下する傾向にあった．本実験において，重みパラメータの操作に関して得られた気付きと知見を以下に列挙する． • 本実験では，すべての重みパラメータを操作して 分析したため，ADTTA の重みパラメータはどれも必要なものであると考えられる． • 議論データによっては，分析結果や精度の向上に 影響を及ぼさない重みパラメータが存在した． • 重みパラメータの操作は議論ごとに異なるため， 全議論に共通する重み付けを一意に定めることは困難であると考えられる． • 重みパラメータの数が減ることで効率よく最適な パラメータセットを発見できる可能性があるが，局所解に陥る可能性がある． • 既存の重みパラメータの管理では，各ルールを一 律全範囲に適用しているため，局所的な重み付けに対処する必要がある． • 重みパラメータの操作は，僅かな変更によって適 用結果が大きく変化する傾向があったため，分析に揺らぎが生じている可能性が高い．

6 重みパラメータの妥当性評価

6.1 実験方法

先述の通り，ADTTA の重みパラメータは手動による操作が必要であり，ユーザはシステムが出力する結果を見ながら，重みパラメータを試行錯誤で操作していく必要がある．ADTTA に備えられている重みパラメータは 14 項目あり，各パラメータは 11 段階の操作が可能である．これら重みパラメータの操作によって，分析精度が一部向上することを第 5 章で実証した．しかし，各パラメータは相互に関係を持っているため，様々な重みパラメータを試行錯誤しながら操作することが強いられる．そのため，手動の操作によって最適解を得られる保証はないが，最適解を得るため全探索するためには，約 3.797× 1016_{( = 11}14 _{× 10) 通りの組み} 合わせを調べることになり，現実的ではない．そこで，本実験では，大学生および大学院生 7 名の被験者を対象とした ADTTA のユーザ利用から，各パラメータにどのような相互関係があるのかを調査した．被験者には，ADTTA を用いて 1 件分の議論データ (議論セグメント数：11 件，発言数：86 件) を閲覧してもらい，重みパラメータ操作を施しながら分析をしてもらった．本実験のタスクは，全体の流れを把握することを目的とし，タスク実施時間は 10 分間3_{と規定した．} 我々は，各被験者の重みパラメータ操作についての試行錯誤の結果が顕著に表れるものとして，最終的な重みパラメータの数値に着目した．そこで，ADTTA の最終的な重みの数値に対して，主成分分析 (Principal Component Analysis)をおこなった．主成分分析とは，データ行列の固有値を求めることで，データの次元数を圧縮する多変量解析の手法である．低次元でのデータ表現は，データ分布からの知識抽出を容易にすることができる．入力データは，被験者 7 名の最終的な重みパラメータの数値 (0.0∼0.1) である．重みパラメータは，グループ構造分析および重要発言選定に関する全 14項目である．我々は，被験者全 7 名の重みパラメータの数値で構成されたデータセットに対して主成分分析を行い，各主成分の全データに対する寄与率・累積寄与率と主成分に対する各変数の因子負荷量を求めた．

6.2 結果と考察

主成分分析の結果は，各主成分の寄与率は，第 1 主成分で 28.1%，第 2 主成分で 27.2%，第 3 主成分で 17.6% であり，これらの累積寄与率は 72.8%であった．各重みパラメータの数値に対する第 1∼3 主成分の因子負荷量の一覧を表 4 に示す．第 1 主成分に対する各変数の因子負荷量は，GPR1b，GPR1c，GPR2b ，SPR2b，SPR3a の項目の重み値に対して中等度の関連性を示した (r = 0.31∼0.46)．第 2 主成分に対する各変数の因子負荷量は，GPR1a，GPR1d，SPR1b，SPR2c の項目の重み値に対して中等度の関連性を示した (r = 0.35∼0.50)．第 3 主成分に対する各変数の因子負荷量は，GPR1a， GPR2a，SPR1c，SPR2a，SPR2b，SPR3b の項目の重み値に対して中等度の関連性を示した (r = 0.32∼0.45)． GPR1a，SPR2a，SPR2b の 3 項目は，複数の主成分にわたって寄与することがわかった．また，すべての重みパラメータが第 3 成分までに中等度の関連性を示していることがわかった．実験結果から，全 14 項目の重みパラメータでは，最初の 3 成分までに全体の 7 割程度の情報が縮約されていることが明らかになった．また，GPR1a（：発言間隔）， GPR2a（：導入/終止発言），SPR2b（：発表者ステータス）の項目の重み値は，複数の主成分にわたって中程度の関連性を示すことから，分析において特に有効である可能性が示唆された．我々は，分析精度の向上や異なる観点に対応した分析を実現するため，重みパラメータのプリセットを数種類に分類することを考えている．本実験で得られた知見から，各主成分ごとに中等度の関連性を示した重みパラメータを抽出すると，16 項目の 3_{予備実験を繰り返した結果，十分な収束が得られる時間として} 10分を選択した．

(5)

- 第 1 主成分第 2 主成分第 3 主成分 GPR1a -0.03 0.40 0.33 GPR1b -0.46 -0.19 0.07 GPR1c -0.40 0.15 0.09 GPR1d -0.02 0.43 0.17 GPR2a 0.24 -0.17 0.45 GPR2b 0.46 -0.20 0.06 SPR1a 0.08 0.10 0.14 SPR1b 0.09 0.35 -0.03 SPR1c 0.07 0.15 -0.40 SPR2a -0.17 -0.32 0.44 SPR2b 0.31 0.06 0.37 SPR2c 0.07 0.50 0.01 SPR3a -0.46 0.04 0.15 SPR3b -0.03 0.16 0.32 表 4: 重みパラメータの数値に対する第 1∼3 主成分の因子負荷量の結果パラメータは以下の 3 種類に分類されることが考えられる；(1) GPR1b，GPR1c，GPR2b，SPR2b，SPR3a， (2) GPR1a，GPR1d，SPR1b，SPR2a，SPR2c，(3) GPR1a，GPR2a，SPR1c，SPR2a，SPR2b，SPR3d．このように，本実験での知見は，既存の ADTTA の改良に貢献できると考えている．

7 おわりに

本稿では，議論タイムスパン木を生成するルールの重みパラメータの妥当性評価について述べた．重みパラメータの操作による分析精度向上の実験結果から，すべての重みパラメータが分析に必要であることが確認された．その一方で，議論によって必要な重みパラメータは変化し，その影響度も議論ごとによって変わってくる．このことから，一般にすべての議論において高い精度で分析できるようなパラメータセットを見つけることは困難であることが予想され，複数の重みパラメータによる影響度の評価などが必要になってくる．重みパラメータの妥当性の評価実験では，ユーザ利用による被験者 7 名の重みパラメータの数値で構成されたデータセットに対して主成分分析を行い，有効に作用する重みパラメータの項目を明らかにした．また，各主成分ごとに関連性を示した重みパラメータを抽出することで，16 項目のパラメータの分類を試みた．これらの知見は，分析精度の向上や異なる観点に対応した分析を実現するための重みパラメータのプリセット設計に貢献できると考えている．今後の予定として，重みパラメータ操作の完全自動化を目指し，正解データが用意されていない議論データに対しても，理想的な分析をおこなうための手法について検討する．

参考文献

[1] 三浦寛也, 長尾確, 平田圭二, 音楽理論 GTTM に基づく議論タイムスパン木の生成方式とその評価, 情報処理学会論文誌, Vol.56, No.3, pp.942-950 (2015).

[2] Marcu, D., The rhetorical parsing of unrestricted texts: A surface-based approach, Computational Linguistics, Vol.26, No.3, pp.395-448 (2000). [3] Hirao, T., Yoshida, Y., Nishino, M., Yasuda, N.,

and Nagata, M., Single-document summarization as a tree knapsack problem, In Proceedings of EMNLP, the Conference on Empirical Methods on Natural Language Processing, pp.1515-1520 (2013).

[4] Nagao, K., Kaji, K., Yamamoto, D., and To-mobe, H., Discussion Mining: Annotation-Based Knowledge Discovery from RealWorld Activities, In Proceedings of PCM, the Fifth PacificRim Conference on Multimedia, pp.522-531 (2004). [5] Otsuka, K., Sawada, H., and Yamato, J.,

Au-tomatic inference of cross-modal nonverbal in-teractions in multiparty conversations: “ Who Responds to Whom, When, and How?” from gaze, head gestures, and utterances, In Proceed-ings of ACM ICMI, the International Conference on Multimodal Interaction, pp.255-262 (2007). [6] 市野順子, 田野俊一, 発言の時系列的パターンを用いた会議における発散／収束の判別の可能性, 人工知能学会論文誌, Vol.25, No.3, pp.504-513 (2010). [7] 岡田将吾, 松儀良広, 中野有紀子, 林佑樹, 黄宏軒, 高瀬裕, 新田克己, マルチモーダル情報に基づくグループ会話におけるコミュニケーション能力の推定, 人工知能学会論文誌, Vol.31, No.6 AI30-E (2016).

議論タイムスパン木を生成するルールの重みパラメータの妥当性評価について