情報探索情報構造化
2.6 当該研究のための指針と課題
本章では,これまで述べてきた研究背景や関連領域を踏まえた上で,当該研究を進める ための指針に関する筆者の主張を以下3項目の通りに掲げる.
適切なコーパス収集および選択
会議内容の記録やその応用に関する研究では,研究目的に沿うような適切なコーパス収 集や選択の設定が重要であると考える.そのためには,まず第一に,コーパス収集のため のコストとその制約に対処し,どのような会議を対象とするかを定める必要がある.ま た,会議における1つの発話や意味のまとまりに関する適切な分析単位をどのように設定 するかについても吟味する必要がある.以上を考慮した上で,整形されたデータを用いて 理論的な研究を進めていくか,ある程度制約のないデータを用いた実践的な研究を進めて いくか,といったトレードオフにも対処する必要があるだろう.
正確な記述と簡潔な記述とのトレードオフへの対処
新たなモデルやシステムを考案する場合,正確な記述と簡潔な記述はトレードオフの関 係にあることを考慮すべきであると考える.ここで指す正確さとは,どれだけ正確かつ 詳細に記述できるかという指標である.また,簡潔さとは,人にとっての可読性,機械に とっての操作性・構文解析の容易さの指標である.最も望ましいのは,正確かつ簡潔な記 述法であるが,一般にこれらを両立させるのは難しい.このように,モデルやシステムで の記述法に関する正確さと簡潔さのトレードオフは,当該研究を進めていく上で重要な課 題であり,この課題にできるだけ対処していく必要があると考えている.
2.7 おわりに 23 情報システムやユーザビリティの観点に基づく多角的な評価の実施
自動要約の分野において,その評価方法は興味深い問題である[60].現在,要約システ ムの自動評価法として最も広く用いられているROUGE-N[42]は,参照要約とシステム要 約の間で一致するNグラムの割合を計算するものである.ROUGE-Nは,要約の生成手 法に依存することなく評価することが可能である点で重要であるが,要約が内包する意味 や利用者の可読性といった内的評価を実施することは難しい.また,要約においては利用 者の要求に対して重要な情報を提示することを目指すため,1つの文書に対して1つの要 約が一意に決まるというわけではない.そのため,利用者の要求を考慮することで,評価 はいっそう複雑で困難になることが考えられる.以上より,当該研究における評価におい ては,モデルやシステムの精度評価といった情報システムの観点だけでなく,システムを 用いたユーザ利用の評価といったユーザビリティの観点についても対応し,多角的に評価 を進める必要があると考えている.
2.7 おわりに
本章では,本研究の背景と関連領域をまとめた.2.2 節では,本研究の背景として,本 研究が対象とする会議の定義を明確に示し,会議内容の記録とその応用に関する具体的な 研究事例について述べた.次に,本研究の関連領域として,情報構造化に関する研究(2.3 節),要約生成に関する研究(2.4節),情報探索に関する研究(2.5節)について説明した.
上記でまとめた知見を踏まえ,当該研究のための指針と課題に関する著者の主張を述べた (2.6節).以上を踏まえ,本研究の位置づけとして,本研究の特色および独創的な点は,以 下の通りである.
• 人間の認知過程を反映した情報構造化を実現する枠組みとして,階層的順序構造 (木構造)によって発言間の関係や集合といった構造を議論全体の意図として表現し ている点
• 社会学やコミュニケーション科学における会話分析の知見を踏まえ,会議中に交わ される言語情報と非言語情報を統合した理論的枠組みを構築し,さらに自動要約シ ステムへの応用を実現している点
• 会議内容を効率的に把握するための手段として,異なる観点や抽象度に対応した議 論の構造化および要約生成を対話的に進めるための機構を設計し,議事録生成にお ける情報探索のための視点をシステムユーザごとに付与可能である点
• 会議内容の効率的な把握を目的に開発したシステムとそのユーザとのインタラク ションにおいて,ユーザが議事録生成における情報探索のための視点をどのように 試行錯誤し与えていくのか,さらにその探索過程を明らかにするために,複数の
ユーザ利用実験を実施し,試験的に観察および分析している点
25
第 3 章
本研究のアプローチ
概要
本章では,本研究にて採用したアプローチについて述べる.自然言語や音楽などの時 系列メディアを介したコミュニケーションにおいて,人は意図を込めて記号列を表出す る.その意図は,Noam Chomskyを始祖とする階層的順序構造(木構造)として表現され ることが多い.また,会議構造と楽曲構造を対比した場合,会議においては発言が,楽 曲においては音イベントが時間の進行とともに発生しグループ(ゲシュタルト)を生成す る.このような言語と音楽の間の様々な共通点に着目すると,会議コンテンツにおける時 系列データの分析手法として音楽理論の応用が考えられる.そのため,本研究では,Fred
Lerdahl & Ray Jackendoff によって提唱された人間の認知に対応する楽曲構造を抽出する
理論であるGenerative Theory of Tonal Music (GTTM)を用いて,会議コンテンツにおけ る意図を込めた表出を計算論的な立場から定式化する.本章では,以上のアプローチにつ いて詳述する.