外国人日本語学習者による日本語作文のn‑gramモデ ルを用いた特徴抽出と作文評価
著者 高建 斌, 小高 知宏, 小倉 久和
雑誌名 福井大学工学部研究報告
巻 49
号 2
ページ 217‑225
発行年 2001‑09
URL http://hdl.handle.net/10098/3291
福 井 大 学 工 学 部 研 究 報 告 第
49巻 第
2号
2001年
9月
Me
m .
Fac. Eng. Fukui Univ., Vol .
49, No. 2 (September 2001) 217外国人日本語学習者による日本語作文の n‑gram モデ、ルを用いた 特徴抽出と作文評価
高 建 斌 ' 小 高 知 宏 * * 小 倉 久 和 "
A
Tr
ial of Feature Extraction by n‑gram Model for Japanese Composition of Foreign J apanese ‑
Learners**
Jianbin GAO*, Tomohiro ODAKA** and Hisakazu OGURA ** (Received August 24, 2001)
In this report
,
we present a method to extract the features and to evaluate the Japanese composition of Chinese Japanese leamers by the n‑gram model. In our experiments,
we propose to extract the features, and to甘
yevaluation with four similarity indises by the 3・grammodel among the 55 compositions written by Chinese students,
EDR Japanese co中
us for references of standard Japanese sentences,
37 compositions written by Japanese students,
and the original of Japanese writers.Key Words : Chinese Students
,
Japanese Composition,
n‑gram Model,
Similar Degree,
Evaluation of Composition,
Characteristic Extraction1. はじめに
日本語教育に関する報告によると、海外の外国 人日本語学習者の人数が一番多い国は韓国で、そ の次は中国である。中韓両国の日本語学習者は外 国人日本語学習者の7割あまりを占める[1]。日本 国内の外国人日本語学習者の中では中国人が最も 多く 3分の lを超えると言われる[2]0また、外国 人日本語教師の中で中国人教師が一番多く、海外
* 大学院工学研究科情報工学専攻
料
工学部知能システム工学科
ホ Informationengineering Coures, Graduate School of Engineering
料 Dep
t .
of Human and Artificial Intel1igent Systemsの外国人日本語教師の約3割を占め、小・中・高・
専門学校・大学の他、大人教育でも日本語教育を 行っている[3]。
学校教育では、生徒作文の評価を行う。作文を 評価するには学習段階に応じていくつかの項目を 設定して、それぞれの項目にそれぞれの配点を決 める。各項目を評価して得点をつけ、最後に各々 の項目の点数を合わせ作文の得点にし、コメント をつける。これは母国語(或は母語)で書いた作文 評価のしかたであるが、外国語で書いた作文を評 価する場合にはあまり使われていない。外国語教 育の場合でも、主題の把握、文章の構想・叙述・
形態、符号の用し、かたなどの項目を設けて学習者 の作文を評価した方が望ましい。しかし、外国語 らしさに重点をおいて外国語学習者の作文を評価
順に並べ記録する。このように作成した出現回数 が含まれた文字列パターンをn‑gram分布と呼ぶ。
ぢ主 Lデt包,
一
げ 出 し ,園 町 園 間 四
出 し た ' し た 。
図
1
:文を隣接するn個の文字ごとにの区切り一 一 一 山
一 九 五 六
一
剤 一 捨 一 一 指 一
を 一 を 一
石町
数⁝
一口 一目
現 ⁝
7 6 6 4 4 4 3 3 3 3 3 3
出 ⁝
︑/"
ザ
⁝ は れ
︒ 分 者 る の 分 り が 小
︒ 制 止 者 そ る 自 作 あ そ 自 も と の た 字
⁝ 作
︑ あ
︑
︒ で
︒
﹁ い こ こ し
文 山
図2: n‑gram分布
本研究では評価対象である中国人日本語学習者 の日本語作文(作文と呼ぶ)と評価基準となるEDR
日本語コーパステキスト(コーパスと呼ぶ)、小説 の原文(原文と呼ぶ)、日本人学生作文(日作と呼 ぶ)を、 n=3とした文字列パターンに区切り、そ のn‑gram分布ファイルを別々に作成する。そし て図3のように評価対象と評価基準問でリンクし て、 2.2に定義した類似度を求め、各々の類似度と 作文評価指標との関係について検討する。
手法 2
類似度の定義
n‑gram分布の中には、一回しか出現しない文字 列パターンもあれば、何回も出現する文字列パター ンもある。本研究では、作文とコーパス、原文、日 作間の類似度を求めるために、作文のn‑gram分布 中の文字列パターンがコーパス、原文、日作の分 布中でそれぞれ何回出現しているか、また原文の することが多いのと、評価主体となる教師が自分
の身についた日本語を基準にすることが一般的で あるため、その結果は暖昧かつ主観的である。そ こで明確でかつ客観的な評価が必要される。本研 究では外国人日本語学習者の日本語学習支援シス
テムの開発を目的とし、その一環として中国の外 国語大学日本語専攻学生が書いた作文の定量的な 評価方法を検討し提案する。
本報告ではn‑gramモデルを用いて、中国人日本 語専攻学生作文の特徴抽出や評価指標について実 験を行う。中国入学生作文の特徴を抽出したり評 価を行ったりするため、中国人日本語学習者の日 本語作文を評価対象とし、現代日本語の例文を最 も多く集積したデータベースであるEDR日本語 コーパステキストと、評価対象にかかわる日本人 作家の小説の原文、中国入学生作文と同じテーマ の日本人学生作文を評価基準とする。 n‑gramモデ ル手法による評価対象と評価基準とのn‑gram分 布を作成し、評価対象のn‑gra.m分布と評価基準 のn‑gram分布との類似度を求め、その類似度を 用いて評価対象の特徴を抽出し評価指標を検討す る。その結果、評価対象とした中国人日本語専攻 コース学生日本語作文の書き方の特徴を抽出でき たと同時に、中国人学生日本語作文の日本語らし さと感想文としてよさを評価できる二つの指標を 獲得した。
以下、第二章では本研究の手法について説明す る。第三章で実験データや実験結果について述べ、
その結果について第四章で考察する。最後に第五 章で今後の課題について述べる。
2 . 2
n‑gramモデルは確率的言語モデルの中で最も基本的な方法で、文章の特徴抽出によく使われる
[ 4 ] [ 5 ] [ 6 ] [ 7 ]
。形態素解析や構文解析を行わず、膨大 な品詞接続情報や意味情報などを必要としないた め、各種のテキスト、特に不自然な日本語が含ま れた外国人日本語文章の処理にも適していると考 えられる。この手法では、ある文章を始めから終 わりまで隣接するn個の文字ごとに区切り、図 1 に示すような文字列パターンを作成し、各パター ンの出現回数を集計して、図2
のようにまず出現 回数の多い順にソートし、文字列パターンを辞書I ト
gramモデル
2 . 1
評 価 対 象 分 布
i
評 価 基 準 分 布文字列パターン・
出現回数i 文字列パターン:
出現回数しミ宅》 ス ポ ッ 2
しミ宅3り オ そ ッ ト 2
げ 出 し 、 ス ポ
し た 。 、ソト、
ってご、 、y ト辛ヨ
寸士、 しミ ト 、 ス
一千十一
も りり F、LM
LデJbまへJ ¥持主 戸、名主 bデ
を 拾 っ ま れ た
モヨを提言 れ た 。
出 し た 右 が 水
拾 っ て 込 ま れ
投 げ 出 水 へ 投
投 げ 込
図3: n‑gram分布聞のリンク
n‑gram分布中の文字列パターンが作文のn‑gram 分布の中で何回出現しているかを数え上げること で評価を行う。ある中国人学生Xの作文
S x
の3‑ gram分布中の文字パターン組みをSDx'
コーパスCの3‑gram分布の文字パターン組みをCD、原文 Oの3‑gram分布の文字パターン組みをOD、日作 Jの3‑gram分布の文字パターン組みをJDとし、
SDx
の大きさをNSDx
、O Dの大きさをNOD
とする。 SDx と CD の問のマッチング数を M~gx' SDx
と OD の聞のマッチング数を M~Ex' SDx
とJD の聞のマッチング数をM L B Z
とし、S D x
とCD、SDx
とO D、SDx
とJDの聞の文字パターンの類 似度を次のように定義する。定義
1
:ある作文とコーパスとの類似度Rga=M32z/N3D
定義2:ある作文とその原文との類似度
RgEZ=Mggz/N3D
定義3:ある原文とその作文との類似度
R52z=Mggz/NOD
定義4:ある作文と日作との類似度
R52z=M52z/N3D
3 実験
本報告で、は二つの実験を行った。実験1は中国 入学生の書いた志賀直哉の『城の崎にて』の粗筋 文を対象に、 EDR日本語コーパス、及び志賀直哉 自身の小説原文を用いて作文の特徴抽出と評価を
219
行った。実験 2は、中国入学生の書いた芥川龍之 介の『羅生門』の感想文を対象に、コーパス、日 本人学生作文、及び芥川龍之介自身の小説原文を 使用して、作文と評価基準聞の類似度と作文を評 価する指標との関係を検討してみた。
3.1
実験データ
(1)作文作文は中国入学生が(3)の原文に挙げた小説を 読んで書いた粗筋まとめ文と感想文からなるもの である。書きかたは人により異なり、解釈的な書 き方もあれば、感想的な書き方もある。また文章 の長さもそれぞれで、 500文字以下のものもあれ ば、 3000文字以上のものもある。どの作文も中国 某外国語大学日本語コース三年生のもので、原文 別に分けると、作文のデータは表
1
のようになる。表1 作文データ表
データ項目 1M RA KI 内容 原文要約文 感想文 原文粗筋文 分数 17人分 19人分 19人分 総文数 425文 664文 643文 総文字数 13696字 24686字 18140字 最長作文 1086字 3018字 1394字 最短作文 638字 788字 487字 表
1
の1Mは「芋粥作文j
、RAは「羅生門作文J、 KIは「城の崎にて作文Jを表す。(2)コーパス
約16MBのデータ量を持つEDRコーパスの日 本語コーパス中のテキスト文を抽出したものであ る。テキスト文194135文で、総文字数は8059226 で、一文は約41.51文字で、評価基準として用いた データ中で最も長い。作成した文字列n‑gramは 1469286である。また、コーパスの仮名使用率は 54.06%で評価基準の中で最も低い一方、漢字使用 率は35.74%で評価基準の中で最も高い。記号使用 率は7.34%で、その他は2.86%で評価基準の中で 最も高い。ただし、今回の評価対象のn‑gram分 布の中に英文字パターンがないことにより類似度 の精度を高めるため、コーパスの中の英文字だけ の文字列パターンはコーパスのn‑gram分布から 取り除いてある。
(3)原文
学生たちが読んだ小説は芥川竜之介の『芋粥』、
『羅生門』と志賀直哉の『城の崎にて』の三つで、
いずれも現代仮名遣いに書き直した作品である。
ここでも現代仮名遣い文に書き改められた三作品 [8][9]を評価基準として使用した。本論文でいう原 文はこの三つの小説を指す。原文データを表2に 示す。
表2 原文データ表
原文名 芋粥 羅生門 城の崎にて 総文数 400文 152文 197文 総文字数 15131字 5972字 5281字 一文の長さ 37.83字 39.29字 26.81字 仮名使用率 67.53% 68.73% 59.73%
漢字使用率 22.99% 21.43% 33.17%
記号使用率 9.44% 9.84% 6.74%
その他 0.04%
。
0.36%(4)日作
全国学校図書館協議会編「考える読書J[10]の 日本人の中高校生の『羅生門』感想文37篇を一つ のテキストファイルにしたものであり、総文字数 は68805で、作成したn‑gramは27019である。
3.2
特徴抽出に関する実験
Q )
0.8@
』
0..
Q )
U.I刀
~ 0.6
E
0.5ω
0.4
0.3
。
2。
1. . . . J l l
JII...・・・・・・・・・・......'・・・・・・・・・・・・・・・・・・・。 。
10 12 14 16 18sample 図4:
W
芋粥』作文類似度表1が示す通り、作文には要約文、感想文、粗 筋まとめ文の三種がある。実験1はこの三種の作 文の特徴を抽出したもので、作文とコーパス、及
︑︑
4 v
•
a
・ ︑
..
6 町‑R向干
Ja eF
u v
ヘ
. D伽
. ︐
・
J唱4
眠︑ .e aE E‑
‑E
回
・ ︑
•
一︐ ︐
︑
〆
︑ 今 ︑
札 ︑
︑ 一
lI
LE
I‑
‑B
IB
BE
r‑
11
a
‑ u a m u
‑ ' ' ' a
ぬ
M
‑
AU
︽U A u n u
@ @
﹄ O
@ 匂
﹄ 酬
‑ E ‑ ω と
0.5 0.4
0.3
••
• ••
.
.
‑
a ・
t ' ' ' f
P
te
‑
‑U E R
‑
n u n u
‑ ‑
︐
AhR'・
u・ .
‑r
LF
E‑
‑'
a︐
a︐ a︐ e
• •
•
•
︐ •
• •
•
••
•
‑
a '
︐ a︐
• •
‑
a︐
a︐
︐
•
• •
•
• •
•
•
•
•
‑L
‑
・
rAHV
0.2
10 12 14 16 18 20
sample 図
5:W
羅生門』作文類似度Q )
.091a )
" ' 1 . ; . . . . . ¥ .
・ 、 . ' 、 ‑
δ0ω8~
↓ ‑ " 市 , 向 ' . ‑. , / 〆 〆 , . . , . . . . . . . . .
~
I ‑
司~..r句F 円必c ∞
D刀 L t '
~ .0
7 t
1 ~Dx伺 E
0.6ω
.050 .4
0 .3
nSDx
~~ ~
1
0 1 )
...‘~.
~.‘ 4・・・・ _.・....・~.. ・.. 0.1t・..'・、...‑ 、・..', ,~ ・・.・ .
・ ・ . . '
......・ ‑....'10 12 14 16 18 20
sample 図6:f城崎にて』作文類似度
。
0』 1x
』
国
+
+
+
O
. H
+ + +議
書
D E
evaluati
∞
value 図 7:r
城崎にて』作文類似度分散び原文の間でn‑gram分布の比較による類似度の 評価を行った。図4、図5、図6にその結果を示す。
図
4
、図5
、図6
の中のR g B Z
、R g g z
、R O " 包 z
は2.2で定義した作文とコーパス・原文との各々の類 似度である。横軸は学生作文を表示する番号で、
縦軸は類似度である。ただし、作文の番号はSDx とODの類似度
R g B Z
の大きさの順につけた。図
7
は三種の作文の特徴としてよく現れている と考えられる『城崎にて』作文類似度の表3による 分散図である。図の中の+はR S &
、×はR 3 2 3
、*は
R 2 2 3
を表す。縦軸は『城崎にて』作文の類 似度で、横軸は『城の崎にて』作文の書き方を表 す番号である。表3 図
7
の横軸の番号 横軸番号 作文の書き方 A 感想文・解説文 B 挿入文 C 挿入置換文 D キーワード置換文 E 抜き出し文 作文の書き方は次の通りである。A.感想文・解説文
原文を引用しながら自分の感想、或は作者の 主張を説明する作文(1、2、3)。
B.挿入文
原文を引用するが、作文の前後に概説的な説 明、或は引用中に解説的な言葉で文章を繋げる作 文。 (4、5、6)
C.挿入置換文
挿入文より説明や解説が少ないが、原文のキー ワードの言い方を置き換える作文。 (7、8、9、10、 15)
D.キーワード置換文
抜き出し文に似ているが、原文のキーワード 言い方を置き換えたり、漢語を仮名に書き換える 作文。 (11、14、12、13、16)
E.抜き出し文
殆んど原文そのままを抜き出して、小説に現 れた順に繋げてできた作文。 (17、18、19)
3.3
作文評価に関する実験
実験2は作文の類似度と採点という作文評価の 指標との関係を探索するもので、作文とコーパス、
。
10
』
0 0
刀
0.8』
;J/ijJ
n s
0.4
0.2
n ∞
n s o x
ー 一 一 ‑ ‑ '
.'. I Fも │
h¥RSDJ/1
OQ........〆
10 12 14
sample 図
8: W
羅生門』作文に関する類似度221
原文、及び日本人学生作文の間でn‑gramによる 類似度評価を行った。その結果を図8、図9、図10
に示す。
図8は
R g B Z
、R S B Z
、R g B Z
、R 8 2 2
の結果である。横軸は19人学生の作文を表す番号で、縦軸は 類似度である。ただし、作文の番号はSとOの類 似度
R g B Z
の大きさの順につけた。@
@
L..
0 Q) ..
℃四
』
a l
E ω ω
0..
02
x
-~
可
+
白ロ x ×
x
美
x誕
業
良 優
e v a l u a t i o n v a l u e
図9:感想文としての評価指標
図8に示した四つの類似度のどれが作文評価指 標に相応しいかについて検討した。その結果を図
9
と図10に示す。図9と図 10の縦軸は作文と比較基準との類似 度を表す。横軸は可・良・優という 3段階評価の 作文評価値を示す。作文評価値は表
4
に示すよう な基準で採点したものである。図9の+はR S B f
口は
R 3 2 z
、×はR 3 2 z
、*はR 8 2 5
を表す。中では日本語らしさの評価指標として期待できるのは
222
目
口 口
ロ
x xM
x
車
• '
a u a u
@ @
﹄ 窃
@ 百
﹄ 酬
w z E B
凪4
ω
可 良 優
e v a l u a t i o n v a l u e
図10:日本語らしさの評価指標
R g B Z
である。R g B Z
は作文の原文から引用した度 合を表すもので、原文から引用したものが多けれ ば多いほど高くなると考えられる。図10の印は図2と同じ類似度を表す。各類似 度の中で、作文の評価指標として考えられるのは
R 3 2 z
である。R 3 2 z
は中国人学生の作文と日本人 学生作文との類似度である。表
4
評価値の基準表評価項目 優 良 可 評価項目 優 良 可 文法 3 2 1 原文理解 3 2 1 言葉遣い 3 2 1 筋まとめ 3 2 1 表現 3 2 1 主題把握 3 2 1 表記 3 2 1 文章構成 3 2 1 最終評価 3 2 1 最終評価 3 2 1
4 考察
4.1
作文の特徴抽出
4.1.1 類似度の意義R 3 2 z
は作文とコーパスとの類似度である。図 5の『羅生門』作文類似度と図6の『城の崎にて』作文類似度との
R 3 2 z
は0.8前後に留まり、個人 差が0.1を越えないのに対して、図4の『芋粥』作文類似度の
R S Z
は上限でも 0.8に達していな いし、個人間にも0.2ぐらいの差がある。これは コーパスを参照して作文を見れば、『芋粥』作文間 の言葉遣いの個性は『羅生門』作文と『城の崎に て』作文より強いことを示唆する。R 3
ゑ は 作 文 の n‑gram分布の文字列パターン 中に原文の文字列パターンがどれくらい含まれる かの度合を示すものである。図4
の『芋粥』作文の類似度は0.5‑‑‑0.7の間で、図5の『羅生門』作 文は0.2‑‑‑0.5の間で、図6の『城の崎にて』作文 は0.3‑‑0.7の間である。これは三種の作文の中で は、原文からの引用量が最も多いのは『芋粥』作 文で、その次は『城の崎にて』作文であり、最も 少ないのは『羅生門』作文であることが推測でき る。また、三種の作文の中で、『城の崎にて』作文 の類似度
R g g z
は、『芋粥』作文と『羅生門』作文 とのR鉱の個人差と比較して倍くらい高い。こ れは作文と原文との関係において、『城の崎にて』作文の類似度
R 3 2 :
が三種の作文の特徴をよく示 していると考えられる。R 5 2 z
は作文のn‑gram分布の文字列パターンが 原文n‑gram分布の中に現れた度合を表すもので、他の類似度と比べると非常に低い。『芋粥』作文は 0.04くらいで、『城の崎にて』作文は0.1に近い、
『羅生門』作文は0.08前後である。これは三種の 作文のどれも原文の一部しか引用しなかったとい うことを意味する。また、 3.1の実験データに示 された原文の文字数と作文の文字数を参考して考 えると、『芋粥』作文の
R g B z
が他の作文のより低 いことは文字数の最も多い原文に対して、『芋粥』作文の文字数が最も少ないことに関係があるとい うことを暗示する可能性がある。
4.1.2 特徴抽出
内容の違う三種の作文の特徴が最も現れている と考えられるのは、『城の崎にて』作文である。こ こで、『城の崎にて』作文を分析して、作文の特徴 抽出について考察する。
『城の崎にて』作文は『城の崎にて』の粗筋を まとめたものであるが、小説原文を要約するだけ のものもあれば、原文を分析し解説するものもあ る。作文1‑‑‑3は、原文の引用量が少ないし、引用 しでも作家の書き方や思想、について説明するため のもので原文とかなり異なり、感想文或は解説文 と言ってもよろしいものである。特に作文1の引 用量は全文の1/5にも達しない。作文2、3は作文 1より引用量が多いが、作文全体の半分にも及ば ない。作文4‑‑‑5の引用量は文章全体の大部分を 占めるが、文章の前後や文中で適当に説明したり まとめたりする。挿入置換文と名つけた作文
7 ‑ ‑ ‑
10と作文15は、解説的なところもあるがその量 が少ない。ただし、原文を引用した時原文の「自 分j
を「私」や「作者」と置き換えるのは殆んどである。作文11‑‑14と作文16は、原文の「自分J を「私
j
や「作者j
と置き換えたり、漢字を仮名 に書き換えたり(例えば「怪我Jを「けが」に)、原文の言い方を変えたり(例えば「明瞭Jを「はっ きり Jに)するところを除けば、ほぼ原文のまま を引用したと言える。作文 17‑‑19の内容は原文 の順番通りに抜きだしたもので、全く原文の要約 である。この特徴は図6の
R 3 2 z
が示すように、作文を現す番号が大きくなるにつれその作文は原 文からの引用、あるいは抜きだ、した部分が多くな るとうことである。図
7
はその分散を示すもので ある。実は『芋粥』作文の書き方は『城の崎にて』作 文の 17‑‑19と同じで、原文の重要な部分だけを 抜き書きしたもので、原文との類似度は高い。そ こで、図4の類似度
R 3 2 z
は、図4‑‑6の中で最も 高い。その一方、『羅生門』作文は原文を読んでか らの感想を書いたものであるが、中には原文をよ く引用する学生もいる。しかし、『芋粥』作文のよ うな抜き出しはない。だから、図4‑‑6の図5の類 似度R鉱は中では最も低い。つまり、この実験 で類似度R g B z
により、表3に示した文章の書き 方の特徴を抽出できた。この類似度は作文の評価 指標として使うことも期待できる。4.2
作文評価指標について
実験2は作文の評価指標に関するものであるが、
中国人学生の作文と同じジャンルの日本人学生の 作文は『羅生門』の感想文以外入手できなかった ため、『羅生門』作文に限って実験を行った。図8
図10が示したのはその結果である。
4.2.1 類似度の意義
図8の
R S B Z
は作文がコーパスのテキスト文に 類似する度合を示すもので、四つの類似度の中で 最も高く、作文が日本語文章として成り立ってい ることを示している。R 5 2 z
は中国人学生の作文 と日本人学生作文との類似度で、四つの類似度の 中で個人間の差が著しいものの一つで、作文の日 本語らしさや文章のまとめ方を評価する指標とし て使えると推測できる。R g B Z
は作文から考察した場合、作文が原文にどれほど類似するかを示し、
四つの類似度の中で個人間の差が著しいものの一 つで、作文の原文からの引用量を測定できる可能
223
性がある。
R 8 2 z
は原文から見た場合、作文がど れくらい原文から写し出したかを示すもので、作 文の自作量を測定する指標になることが推定でき る。実験に使用したコーパスのテキスト文は殆ん どジャーナル関係のもので、作文とやや異なる性 質を持つため、作文とコーパスとの類似度R S B Z
は作文の日本語らしさや感想文の評価指標として 使いにくい。
同じテーマで書いた感想文の中国人学生の作文 と、優れた感想文として認められる全国コンクー ル入選作品の日本人学生作文との類似度R
沼
zは、 高れば高いほど感想文として高く評価できる。つ まりR 5 2 z
は日本語学習者の文章を評価する指標 として認められる。作文の原文からの引用度を表 すR 3 2 z
は、例外があるが、日本語らしさの評価 指標として利用可能であると考えられる。4.2.2 作文評価指標について
図
9
によれば日本人学生作文との類似度R 3 2 z
は感想文の評価指標として使用が可能であると言 える。全国コンクール入選作品の日本人学生の作 文は日本語としては自然であるし標準的であるし、
『羅生門』の感想文として最も優れている。これ らの作文は原文への理解が深く、主題をよく把握 し、文章の構成が上手で、引用は適当で、主張が 明確であるなどの特徴がある。学生作文にはこの ような特徴が多ければ多いほど、入選作品の日本 人学生の作文との類似度が高くなる。文章評価か らすれば、類似度
R 3 2 z
が高ければ高いほどその 作文を高く評価すべきである。作文の原文からの引用度を表す類似度
R 3 2 z
は、 日本語らしさの評価指標として利用可能であると 考えられる。原文の日本語は間違いなく自然であ るから、原文を短文のまま多く引用すればするほ ど、その作文は日本語として自然なものとなる。もちろん原文引用量の作文全体の割合が少なけれ ば少ないほど、類似度が低くなり、日本語らしさが 低下する。これは日本人の場合では考えられない が、外国人日本語学習者の場合では事実に合う現 象である。というのは学生作文の中で不自然な日 本語や誤りなどが多い部分は殆んど引用以外のも のであるからである。つまり、自作量が多ければ 不自然な日本語などが出てくる可能性が高くなる。
ただし、原文との類似度の
R g B Z
の最も高い19番 の作文のように、必ずしも高く評価されないという例外もある。
5 今後の課題
日本語教育は日本の国内をはじめ、世界の多く の国々において盛んに行われている
[ 1 ]
。教師が著 しく足りない [3][12][13][14]中、殆んど外国人教 師である 13000人あまりの日本語教師は海外で活 躍し、 100万人と言われる外国人日本語学習者の 日本語教育を支えている [16]。しかし、この外国 人教師の多くは日本語教師としての日本語レベル を向上すべき [1][3][11] [13]とされるにもかかわら ず、日本語教育以外の分野に流出しつつある。 IT 技術の導入による日本語教師不足問題の解消、語 学の教育方法の改善などが大いに期待されている [3][15] 0本報告では、 n‑gramを用いて中国人学生日本語 作文と日本人による日本語文章との類似度を比較 して、中国人学生日本語作文の特徴抽出と外国人 日本語学習者の日本語作文を評価する指標につい て検討した。学生作文と原文との類似度の
R 3 2 z
は作文の書き方の特徴を抽出できることと、学生 作文の日本語らしいさの評価指標として使用でき ることが分かった。また、学生作文と同じテーマ の日本人生徒作文との類似度
R 3 2 z
は感想文とし ての学生作文を評価する指標として期待できるこ とが分かった。同時に、次に挙げるものが今後の 課題として明確になった。原文との類似度の R~Ex' ま、学生作文の日本語
らしさの評価指標として使用することが可能であ るが、最も高い 19番の作文は優として評価され なかった例外もある。この作文と 18番の作文の 引用量の割合はほぼ同じであるが、引用文以外の 部分に間違いが多いため全体的な評価は低くなっ た。このような例外をどう処理すればよいかは今 後の課題の一つである。
日本人学生作文との類似度
R 3 2 z
は、感想文の評価指標として期待できるが、類似度のあまり高 くない 18番の作文は優として評価された。この 文章は19人分の作文の中で最も長く、最も短い作 文の四倍くらい長く、二番目に長い作文の二倍の 長さである。作文が特別に長かった場合、模範文 章との類似度に影響があるかどうか、もしあると すればどんな影響があるかを検討する余地がある と考えている。
学生作文の中に不自然な言葉遣いや文法の誤り、
誤字脱字などの表記問題が少なくない。これらの ものを検出し訂正するには、一つは学生作文を処 理に相応しい日本語コーパスが必要である。もう 一つはn‑gram以外の手法を検討する必要もある。
謝辞
本研究を行うにあたり、教育地域科学部小川栄 一教授が中国入学生作文を提供してくださった。
研究を進める上で、工学部知能システム工学科白 井治彦技官、工学部知能システム講座第3研究室 の大学院生下羅宏樹氏、森下卓哉氏、河原林友美 氏、同研究室研究生諏訪いずみ氏に多大な御助言、
御教授を頂いた。実験用としての日本人学生作文 を検索するには、福井県立武生高等学校教諭中川 和彦氏が協力してくださった。また、実験を行っ たりその結果を考察したりするにあたり、元福井 県立科学技術高等学校国語教諭村国明雄氏と、元 福井市藤島中学校教頭山本芙美子氏に中国入学生 作文の評価を協力して頂いた。ここでは、以上の 方々に厚くお礼を申し上げる。
参考文献
[ 1 ]
国際交流基金日本語国際センターr
<日本語 教育事情報告編〉世界の日本語教育(1994[第 1号])~
[ 2 ]
日本語教育学会編『日本語教育ハンドブック』大修館書店(1990)
[ 3 ]
国際交流基金日本語国際センターr
<日本語教育事情報告編)世界の日本語教育(1995[第 3
号])~
[ 4 ]
高建斌、馬火玄、西野順二、小高知宏、小倉 久和著「中国入学生作文n‑gramモデルによる 特徴抽出」情報処理学会第62回全国大会講演 論文集(2)p2‑227[ 5 ]
下畑さより・杉尾俊之著「隣接文字情報を用 いたn‑gram抽出文字列からの名詞句の自動抽 出j
情報処理学会研究報告96‑NL‑114,
PP.13‑18.
[ 6 ]
近藤弓末、西野順二、小高知宏、小倉久和、崎 畑広昭、横尾摂子著「日本語コーパスを使用 した文章完成テストの表層的な解析J電子情報通信学会論文誌 AVol.J80‑A No.6 pp1038・ 1041
,
1997.[ 7 ]
松浦司・金田康正著「近代日本小説家8
人に よる文章の情n‑gram分布を用いた著者判別j
報処理学会研究報告2000‑NL‑137ぅPP.1‑8.
[ 8 ]
井上靖、大江健三郎、大岡信、清岡卓行、中村光夫、山本健吉、吉行淳之介編『日本の短篇・
上』文芸春秋(1989)
[ 9 ]
芥川龍之介作『羅生門・杜子春』岩波少年文庫 (2000)[10]全国学校図書館協議会編「考える読書J毎日新 聞社(昭和44
,
50,
52"'‑'55,
57"'‑'61,
1988"'‑'1999) [11 ]佐治圭三著『外国人が間違えやすい日本語の表現の研究』ひつじ書房(1996)
[12]国際交流基金日本語国際センター
r (
日本語 教育事情報告編〉世界の日本語教育 (1995[第 2号]).!1[13]国際交流基金日本語国際センター
W (
日本語 教育事情報告編〉世界の日本語教育 (1999[第 5号]).!1[14]国際交流基金日本語国際センター
r (
日本語 教育事情報告編〉世界の日本語教育 (2001[第 6号]).!1[15]岡田直之著『自然言語処理入門』共立出版 (1991)
[16]国際交流基金日本語国際センター『海外の日 本 語 教 育 の 現 状 海 外 日 本 語 教 育 機 関 調 査 ・ 1990年==.!I
225