Japan Advanced Institute of Science and Technology
JAIST Repository
https://dspace.jaist.ac.jp/
Title 不要個所の削除と言い替えによる講演音声の要約
Author(s) 幅田, 隆
Citation
Issue Date 2001‑03
Type Thesis or Dissertation Text version author
URL http://hdl.handle.net/10119/1470 Rights
Description Supervisor:奥村 学, 情報科学研究科, 修士
不要個所の削除と言い替えによる講演音声の要約
幅田 隆
北陸先端科学技術大学院大学 情報科学研究科
2001
年
2月
15日
キーワード: 要約筆記, 文短縮形要約,要約筆記.
字幕放送などの様に、音声を文字化して提示する事は聴覚障害者支援の観点から重要視 されている。その際、音声をそのまま文字化するのではなく、適切な長さへと要約してい く必要がある。しかしこの場合、要約の結果は音声の代りとして情報を伝えるものである ため、要約による情報の欠落は極力避ける必要がある。これに対して、重要文抽出法など の要約手法は、文単位の要約手法であるため情報が多く欠落する可能性があり不適切であ ると指摘されている。
その一方で、講演音声の様な話し言葉の場合、一文中に多くの冗長表現が含まれてい る。この冗長表現は情報伝達という観点から考えると明らかに不要個所であると考えられ る。したがって、この様な表現を不要個所として削除する事により、情報を欠落させずに 要約が行えるものと考えられる。しかし、話し言葉を対象とした要約手法に関する研究は あまりなされていない。
この様な話し言葉を対象とした文短縮形要約の実例として、要約筆記というものがあ る。これは、講演音声などの話し言葉を聞きながら、リアルタイムで要約を行い、その内 容を手書き文字やキーボード 入力などによって伝える活動の事である。この活動は、聴覚 障害者支援の観点から非常に重要な活動であり、自動要約筆記システムを開発する事はま た非常に有用だと考えられる。また、要約筆記は人間による話し言葉の文短縮形要約の良 いモデルになると考えられる。
本研究は、自動要約筆記システム開発の第一歩として、より話し言葉に近いと考えられ る講演音声の書き起こしテキストを対象とし、重要文抽出法ではなく、文中の不要個所を 削除または言い替えすることによって要約を行なう文短縮形要約システムの開発を目的と している。
文中の不要個所として話し言葉の冗長表現に注目した。話し言葉には多くの特徴的な表 現が存在している。その中から間投詞、言い直し・繰り返し表現、挿入句表現、丁寧表現 を冗長表現として考えている。
Copyright c
2001byTakashiHabata
これらの各表現が実際の要約筆記においてどのように要約処理されているかの調査を 行った。その結果、「間投詞」は形態素解析の結果から削除が可能であった。「言い直し・
繰り返し表現」は文節間類似度と文節構成形態素などからの条件を元に削除する事が可能 であった。「挿入句表現」は有効な削除手法が発見できなかったが、「〜ように、」という 句末表現となっている句に関しては削除が可能であった。「丁寧表現」は字幕生成に関す る要約手法の研究において言い替え手法が提案されており、その手法を参考にしている。
ただし、先行研究では字幕特有の表現へと言い替え手法であるので、言い替え手法を自前 で作成した。
さらに要約筆記の調査を進めていく中で、「〜という〜」表現もまた不要個所として削 除されている事が判明した。この表現は「という」の前後に出現する形態素の品詞関係よ り削除手法を決定することが可能であった。しかし、「という」の後に続く単語の種類に よっては例外処理が適用されていた。
この調査結果を元に、各表現を削除または言い替えするモジュールの実装を個別に行っ た。この各モジュールを組み合わせることで要約システムを構築している。
システムの評価としては、実際の講演の書き起しデータを入力とし際の削除率、およ び、その講演の要約筆記データを正解とした精度 (precision)と再現率(recall)によって 評価を行っている。削除率は15%〜20%程度であり、調査に用いた講演データの書き起し データを入力した際の削除率と比べてやや低い削除率になっており、発表講演者の個人差 による影響があった。精度に関しては、完全一致、部分一致、完全不一致内正解の三段階 の評価行っている。完全不一致内正解による評価が本システムのもっともらしい評価と考 えているが、その結果が 80% 程度となっている。再現率に関しては完全一致、部分一致 の二段階の評価を行っており、部分一致による評価で 50% 程度となっている。
今後の課題としては、まず挿入句表現削除モジュールの改良が挙げられる。現段階で は講演データに現れる挿入句の一部しか削除ができていないため、このモジュールによ る削除率が低くなっている。また、精度の改善のために、言い直し・繰り返し表現削除モ ジュールの改良も必要である。このモジュールにおける文節間類似度計算法は、文節構成 形態素の文字列マッチングによって計算しているが、自立語の意味的類似度等も考慮する 必要があると考えられる。再現率に関しては、より多くの要約筆記データの調査を行う必 要がある。しかし、本研究は informativeな要約を想定しているため、精度を犠牲にして まで再現率を上げる必要はないと考えられる。