• 検索結果がありません。

要約文採点の支援システムの開発と評価

N/A
N/A
Protected

Academic year: 2021

シェア "要約文採点の支援システムの開発と評価"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

要約文採点の支援システムの開発と評価

著者

牛 娜

1

学位授与機関

Tohoku University

学位授与番号

教情博第11号

URL

http://hdl.handle.net/10097/59754

(2)

牛郷

学位の種類 博士(教育情報学) 学位記番号 教情博第 11 号 学位授与年月日 平成 22 年 3 月 25 日 学位授与の要件 学位規則第 4 条第 1 項該当 研究科・専攻 東北大学大学院教育情報学教育部(博士課程後期 3 年の課程) 教育情報学専攻 学位論文題目 要約文採点の支援システムの開発と評価 論文審査委員 (主査) 教授村木英治 准教授 中島 教授柴山 平 直 (教育学研究科)

〈論文内容の要旨〉

近時、文章等の主旨を、より少ない言語分量で再構成し、簡潔に表現する要約技能(要約文作 成能力)が要求される機会が増えつつある。要約文の作成には、膨大な量の言語情報を短時間の なかで効率的に処理する能力が重視されることから、大学の入学試験等では、文章の理解力と表 現力の両面に関わる受験者の基礎的な能力を測定する方法として利用されている。しかし、採点 の際には、客観的な採点基準が明確にされていない。人間による採点結果は評定者の主観が大き く影響されている。受験者が増加するほど、採点者に掛かる時間と労力の負担が漸増していくこ とから、その負担の軽減が望まれている。信頼性の高い要約文自動採点システムが開発されれば、 採点者の主観的採点による点数のばらつきが出やすかった従来の要約文採点に一定の尺度基準を 提供するとともに採点者の負担が軽減される可能性が大きい。

一方、 Latent

S

e

m

a

n

t

i

c

Analysis( 潜在意味分析、以下 LSA) は文章自動採点へ応用されている。 LSA を用いた文章の採点の信頼性について、 LSA が示す類似は人間の判断と密接な近似を示すこ とが明らかになった。 LSA とは大量の自然言語テキストから、単語同士の意味関係や節同士の類 似度を示す数学的な手法である。 LSA を用いることによって、文(テキスト)の一貫性と内容の

(3)

理解を測定することができ、テキストの主観評定(小論文の成績等)も可能となる。本研究では、 LSA を用いて要約文自動採点、システムの開発と評価を行った。

本システムは C 持を用いて開発し、 Microsoft Excel が入っている Windows98 以上の環境で動

作を確認した。本システムはテキストコーパスの作成、単語ー文の頻度の行列の作成、形態素解析、 特異値分解、行列の再構成、平均情報量の計算、相関係数の計算という手順で採点を行う。茶築 を用いて形態素解析を行い、 MATLAB を用いて特異値分解、行列の再構成、情報量の計算など の数値解析を行った。 システムを評価するために要約文調査を行った。本研究では、二つの要約文調査を行った。要 約文 1 の調査は文章 1 (恐竜を探る)を使用し、仙台青葉学院短期大学の 52 名の日本人大学 1 年 生を実施の対象者として行った。要約文 2 の調査は文章 2 (人類が滅びるか)を使用し、東北学院 大学の 57 名の日本人大学 1 年生を実施の対象者として行った。日本語教師による採点結果と比較 することによって本システムの評価を行った。その結果は、文章 1 は、システムによる採点結果 と日本語教師による採点結果の相関係数は 0.73 であり、強い相関があることがわかった。文章 2 は、システムによる採点結果と日本語教師による採点結果の相関係数は 0.67 であり、かなり相関 関係があることがわかった。この結果に影響が与える要素はテキストコーパスの大きさ、固有値 の選定、原文の重要なセンテンスの選び方と日本語教師による採点方法という 4 つであると考え られる。 本研究では、日本語教師による採点結果について、 5 人の日本語教師に採点してもらった。二つ の文章はどちらも採点結果のばらつきが大きく、個人差が大きく見られるので、 5 人の日本語教師 による採点結果の平均値を実験協力者の最後の得点とした。日本語教師による採点方法について、 模範要約文を与えて五段階評価を使用した。今後は、詳細な評価用のループリックを用いてより 信頼性がある採点を実施する。 本システムによる採点項目は内容のみである。文法、語句などの採点ができない。本研究では、 作成した行列は約 500

x

300 である。作成した行列は千×千の行列ならば、システムの計算能力 を超え、採点は難しい。本システムを要約文採点の支援ツールとして扱う。ひとつの答案は人間 と本システムが独立に採点を行い、得点差が大きければ第 3 の評定者(人間)が最終的な得点を 決定する。日本語教師による採点結果との相関係数に基づき、本システムにより、 5 段階評価の結 果が出力できた。人間による要約文採点に一定の尺度基準を提供できることがわかった。本シス テムによる採点結果と日本語教師による採点結果がかなり強い相闘があるので、一つの要約文に 対し、複数の採点者がいる必要がなくなり、採点者の負担が軽減できることがわかった。 先行研究は小論文を対象とする自動採点システムである。日本語要約文の自動採点に関する研 究はない。日本語要約文の自動採点に関する研究において本研究は初めてである。要約文のすべ

(4)

ての面を採点しているシステムではないので、人聞による採点結果の暖昧性を直接的に解決する ものではない。システムの開発とその評価を行うことで得られる知見により、今後の客観性が高 い要約文採点方法に関する研究に貢献したい。 本研究の限界としては、本システムは要約文の内容についての評価を行い、現段階では要約文の 全側面を評価できない。本研究では対象とした文章のテーマが二つに限定された。テーマを変更 する度に、新たな評定データが必要になる。要約文の全側面を評価できるシステムの開発と学習 者に即時のフィードパックを提供し、指導するシステムの開発は今後の課題として残された。

〈論文審査の結果の要旨〉

牛郷氏の博士論文の最終審査は 2010 年 2 月 8 日午後 6 時から審査委員 3 名の出席の上、文学研 究棟 ISTU スタジオ室において行われた。まず 2009 年 12 月 10 日におこなわれた予備審査会で審 査委員各位から指摘された訂正項について、牛郷氏から最終稿における訂正案がプレゼ、ントされ た。指摘されていた項目についての筆者の訂正案のすべてを審査委員は了承した。次に新たに訂 正すべき記述の指摘がいくつかなされた。それらの訂正箇所は最終稿に直接加筆し、あるいは訂 正項を貼り付けることでなされることに審査委員全員が了承し、これらの訂正を行うことを条件 として、本論文は博士(教育情報学)の学位論文として合格と認めることとした。後日、主査村 木教授はこれらの訂正が牛郷氏により、彼女の博士論文最終稿に正しくなされたことを確認した。

本審査論文は Latent

S

e

m

a

n

t

i

c

Analysis( 潜在意味分析、以下 LSA) を日本語文章の要約文に ついての自動採点へ応用したものである。 LSA についての研究自体日本では少ない。研究を進め ていくために筆者は米国の論文をもとに、その分析方法の習得に努めた。そしてその習得した方 法を日本文の要約技能の評価に応用した。このような米国を中心に研究が進められている LSA を 日本文の要約技能試験に応用した研究例は本論文が唯一である。また LSA をその研究分野に選ん でいる研究者は筆者を含めわずか 2 名(東工大の椿本氏)であると思う。筆者は修士論文において 同様のトピックをとりあげているが、博士論文では、テキストコーパスをそのプロセスに組み込 むことを考案し、 LSA システムによる結果と日本語教師による採点結果の相関を上げることに成 功している。筆者はまた C 言語を用い、一連のコンビュータによる要約採点のシステムを Windows 98 以上の環境において構築している。このシステムは筆者の更なるこの分野における研究に大き く貢献するものであり、さらに将来、日本文の要約技能の評価および訓練等にスタンダードとし て用いられることが大いに期待できる。 本論文をとおして筆者は米国で主になされてきた LSA を日本語の言語教育の分野に応用するこ

(5)

とに成功している。その貢献はきわめて独自なものであり、創造的なものである。本論文に用い

られた LSA という分析方法を今後さらに学会での発表をとおして普及していくことにより、筆者 はこの分野における研究の先導的立場を占めることができるであろう。そのスターティングポイ ントに相応しい画期的な論文であると思う。

参照

関連したドキュメント

C−1)以上,文法では文・句・語の形態(形  態論)構成要素とその配列並びに相互関係

暑熱環境を的確に評価することは、発熱のある屋内の作業環境はいう

デスクトップまたはスタートボタンの“プログラム”に 標準宅地鑑定評価システム 2023 のショートカ

法制執務支援システム(データベース)のコンテンツの充実 平成 13

○水環境課長

 まず STEP1 の範囲を確認→ STEP2 、 3 については、前段の結果を踏まえ適宜見直し... 2.-③ TIP機器の動作確認

解析実行からの流れで遷移した場合、直前の解析を元に全ての必要なパスがセットされた状態になりま