修 士 論 文
文 脈情報 とイ デ ィ オ ム を考慮 し た 英 文
への 冠 詞 付 与 に 関 す る 研 究
平 成
1 9年 度
三
重 大 学 大 学 院
二博 士 前 期 課程 情 寺 人
工知 能 研
宮 井 俊
.修 了
I l 当 工】
エ
学 研 究 科 報
工学 専 攻 肝 究 室
≧
也
三 重 大 学 大 学 院 工 学 研 究 科
目 次
1 . は じめに 2 . 本研究の背景
2 . 1 英文 へ の冠詞決定手法
2 . 1 . 1 文脈、 前置詞、 形容詞を考慮した 冠詞付与手法
2 . 1 . 2 イディオムを用いた冠詞付 与手法
3 . 提 案する統 合手法
4 . 評価実験
4 . 1 コ ー パス と して用いる論文誌
4 . 2 実験 手順 4 . 3 評価 方法
4 . 4 評価 結果 5 . 考 察
5 1 1 精 度の比較
5 . 2 今後の課題 6 . ま と め
・宇17 L
,
▲
̲ ] り . ‑
2
1 . は じめに
日本 人の英語学習者にと っ て, 最も 誤 り を 犯 しや すい文法項 目の 一 つ に冠 詞の用法が あ る. 日本語に は冠 詞 という概 念が な く, その用法に慣れてい ないため, 多くの冠 詞 誤 り を 犯すと考え ら れてい る. 文 献[6] で は, 実際に実 験 を 行い, 日本人の書いた英文に は冠 詞
の誤 り が多いと報告 し てい る. 冠 詞 の用 法 や 可算 ・ 不 可算名詞の区 別に は厳密なル ー ル が ない場合が多く, 冠 詞 を正 しく 付 与 するため に は, 辞書や多く の用例を 調 べ な け れ ば な ら ない.
ま た, 日本人 研 究者にと っ て, 英作文 をする機 会は多い. 論文 を日本 語で書く 場合にも,
アブス トラク トは英語で記 述 する ように求めら れるこ と も多く, 研 究 内 容 を英語で述 べ る 必 要 が ある. 科学技術論文に は, 可算 ・ 不 可算ど ち らでも使用 さ れる名詞 が多い【7] ため, 文脈や 周 りの単語から判断 し て冠 詞 を使い分け な け れ ば な ら ない. ま た, 論 文で は文脈を は っ き り と させ て記 述 すること が 重 要で あるため, 文脈に よっ て冠 詞 を変化 させ る用 法 な どは適切に行 う 必 要 が ある. 以上の よう な 理 由か ら, 英語で論 文 を 記 述 する場合, 冠 詞 の 用 法は重 要 な要素と なる.
英 作文 中の冠 詞 を 添 削 す る場合, コ ン ピ ュ ー タ を利用 した 方 法 と し て, 市販 さ れて いる 英文 法 チ ェ ッカ ー の使用が考え ら れる. ある英文 法 チェ ッカ ー[4] の調 査結果に よ ると, 冠 詞の誤りや 脱 落は検出し, 付与 可 能 な 冠 詞の侯補を 表 示 す る機能は実装さ れて いた. し か し, 正 しい冠 詞 を自動で選 択 し, 付 与 する機能は実装さ れて いなか っ た. そ して, いく
つ かの 問 題 点 が存在する. 第 一 に, こ の英文法チ ェ ッカ ー が商用 シ ステム であるため, シ
ス テム が 誤 っ たメ ッセ ー ジ を 出 さ ない よう, 確実に文 法 が 誤 りである場合で し か エ ラ ー メ ッ セ ー ジ を 出 さ ない . その た め, エ ラ ー メ ッセ ー ジが 出 さ れる割り合いは非常に低く なる.
2 つ 目 と し て, 専門分野の論 文に出現する 一 般的で ない用 語に対 し て は, 誤 りの検出機能 が 無い こと が挙げ ら れる. 最後に, その誤 り検出に, 周 囲の 単語 (い わ ゆる文 内 文脈や 文 間 文脈) を 用いてい ると考えにくい点 が ある. ま た, 人 手で冠 詞 を 添 削 する場合は, 冠 詞
の用 例集な ど を参照 する方 法 が考え ら れる. し か し, 本 を 見 な が らの作業は手 間 がか か る 上, 紙上の情報 だ けで は, 限 ら れ た もの し か添 削 するこ と ができ ない. また, 記 述 する内 容の分野に よ っ て, 冠 詞の用法が異 なっ てい る場合が ある[7]ため, その分野に適し た書 物 を 参 照 しな くて はな ら ない. し か し, 分野 別の冠 詞 用 例集は種類が 少 な く, 存在さ えし ない分野 も多い. よ っ て, 冠 詞の添 削は時 間 と労力 を 要 する作業で ある.
こ の よう な 現状を受けて, 冠 詞 誤 り を自動的に検出 する手 法[1], [3], [6], 【9]が 提案さ れてい る. 手 法【1】, [6]で は, 構 文解析な ど を 用いて英文 を解析 し, 人 手で作成さ れ たル ー
ル に基づいて冠 詞 誤りを検出 する. ま た, 手 法[9] で は, 電 子 化 さ れ た英字新聞 な どから 統 計 量 を抽出し, その統 計 量に基づ いて冠 詞 誤りを検出 する.
し か し, 学習者が 記 述 し た英文に冠 詞 を 付 与 する手 法 の研 究は盛ん に は行 わ れていない .
従 来 研 究[2]で は, 統 計 量 を 用いた冠 詞 付 与 手 法 を 提案 して い る. し か し, 特 殊 な コ ‑ パ
3
ス を 使 用し てい る点 や, 機 械 翻 訳の際に行 う 冠 詞の選 択 を 対象と して い る点から,
一 般 的
な英文 ‑ の冠 詞 付 与に は適 して い ない と考え ら れる. また, 従 来 研 究[1 0] で, 統 計に よ る自動での冠 詞 付 与 手 法が提案さ れて い る が, コ ー パ ス に お ける文 章と して の問 題が判 明 して い る. ま た, 従 来 研 究[1 0】で は, 大 き く2 つ の冠 詞 付 与 手 法が提案さ れて お り, これ らが付 与できる冠 詞 の傾 向が異 なることがわか っ て い る. こ の こと に つ い ては 2 . で詳 し く 述 べ るこ とと する.
そこ で, 本 論 文では, 従 来 研 究[1 0]を踏ま え た 上 で, 提案さ れた 2 つ の手 法 を 効 果 的に 統合する手 法 を 提案し, 更 なる精度向 上 をめ ざす. ま た, 前 述の ように専門 用 語の冠 詞 決 定が特に難しい ことから, 科学技術英文 を対象とし, 分 野 ごとに学習コ ー パ ス を 取得する
ことの必 要 性[1 1]から 分 野 ご とでの辞書の 作成を 行 う.
以 下, 2 . で本研 究の背 景 と従来 研 究[1 0]での冠 詞 付 与 手 法に つ いて述 べ る. そ し て3 . で, 提案する 統合手 法 と, 学習用 コ ー パ ス の選 択 ・ 取得方 法に つ いて述 べ る. 4 . で評価 実験を 行 う. 5 . で結果に対 し, 考察を 述 べ る.
4
1
+ f
、 }‑ ′、 ・′し 盲 i i
t
2 . 本研究の背 景
本章で は, 前研 究[1 0]で提案さ れ た, 英文 ‑ の冠 詞 付 与 手 法に つ いて述 べ る. 2 . 1 で は, 冠 詞 決 定の要 因 と, そ れに基 づき 提案さ れた 2 種 類の冠 詞 付 与 手 法に つ いて述 べ る.
2 . 2 では, これ らの冠 詞 付 与 手 法 を 統合 す るための 手 法 を 提案する.
2 . 1 英文 へ の冠詞決定手法
英 語の冠 詞に は, 不 定 冠 詞 と 定 冠 詞の 2 種類がある. 本 論 文で は, こ の 2 種類に加 えて 無 冠 詞 も 冠 詞の 一 種 であると み なす. 以 後, 無 冠 詞 を " め
"
で表 す. 本 論 文は, こ の 3 種 類 を 冠 詞 と して扱う.
一 般的に, 冠 詞の決 定は表1 の よう なル ー ル に基 づ い て行 わ れて い る. つ ま り, 冠 詞 を 付 与 する名 詞に つ い て, その名詞が可算名 詞 で ある か不 可算名 詞 である か, さ らに, その
名詞 が意味的に限 定 さ れているかいないか, という2 つ の判定ができ れ ば, 多くの場合,
正 しく 冠 詞 付 与 を行 うことが できると考え られ る. し か し, 図1 の ル ー ル にあて はま ら な
い場合が ある. 例 え ば,
一 般に可算名 詞 を無冠 詞で使 用 す ることは誤り であるが, 慣用句 な どでは許 さ れる( 例 : b y c a r) . また, 可算名 詞 ・ 不 可算名 詞 ど ち らにも 属 する名 詞が存 在 し, 使 用 さ れる場 面に よ っ て冠 詞の用 法は変化 する.
加 えて, 冠 詞の決 定にお いて, 前後の文 脈情報が必 要になることが多い . 例 え ば, 文章中
に既に出 現した名詞 が, その後 再 び 出現 した と きは, その名詞は限定さ れていることにな り, 定冠 詞 「the」 が 付 与 される. 特に, 科学技術 論文の ように, 文脈をは っ き り させ て 記 述 するよ う な文章の場合は, こ の よう な 文 脈 を考慮し た冠 詞の用 法は重 要で ある.
つ まり, 冠 詞 を 決 定 する に は, 名 詞の性質や, イディオ ム による例 外, 文脈な ど を考慮す る 必 要 が あるとい え る.
これ を踏ま えて提案さ れ た, 文脈を考慮した 冠詞 付 与 手 法 を2 . 1 . 1 で, イディオム を 用いた 冠 詞 付 与 手 法 を2 . 1 . 2 で述 べ ること と する.
図1 :
一 般的 な 冠 詞の決 定ル ー ル
I ]、 ,
i
, ,
L l吾 IIL7‑ i
5
2 . 1 . 1 文脈, 前 置詞, 形容詞 を考慮 した冠詞付 与 手法
名詞 に付 与 す る冠 詞 を 決 定 す る に は, 付 与 対象の名 詞の性質や, 意味 的に限 定 さ れて い る か いないかな ど を 知 る 必要がある. 本 手 法 では, 名 詞が どの冠 詞に修 飾 され や すい かを
コ ー パ スから学習する. さ らに, 文 脈, 前 置 詞, 形 容 詞 を考慮する ことで, 名 詞が限 定 的 である かを 判 断し, 冠 詞 を 付 与 する.
N を 名 詞, A R T を 冠 詞 ( 本 論 文で は, a , the , ¢ の 3 種類を 対象と す る) と すると, N
がA R T で修飾さ れ る 確 率は
p( A R TI N) ‑ f(A R TI N) ノ
、
(〟) (1)
と, 条件付 き確 率で表 すことが できる. こ こで, ′は コ ー パ ス 中の生 起頻度を 表 す. 例 え ば,
"
m eth od" とい う 名 詞が1 0 0 回 出 現 し, その う ち6 0 回, 定 冠詞 「tbe」 に修飾さ れ た と
す る と, f(m ethod) = 1 0 0 , f(thel m ethod) = 6 0 , p(thel m ethod) = 6 0 /1 0 0 = 0.6 と な る. 本 論 文で は, こ の p(A R TJN) を 冠 詞 生 起 確 率 と 呼ぶ. こ の生 起 確 率 をコ ー パ ス 中から学習し, 辞書
に登 録 する. ま た, 闇値とし てOfを導入 し, ・f(N)< Of の と きは, 低頻度であると 判 断し, 辞書に は登録しない .
こ の冠 詞 生 起確率 を 用いれ ば, ある程度の精度で冠 詞 付 与 を 行 うことが できる. た だ,
多くの名詞で は, 文 脈によっ て冠 詞 が 使い分け ら れるため, 単純に冠 詞 生 起確率 が最も高
い冠 詞 を 付 与 す る だ けで は, 精度の高い冠 詞 付 与 を 行 うことは でき ない. そこで, 文 脈, 前置詞, 形 容 詞 を考慮し た冠 詞 生 起 確 率 をコ ー パ ス から学習し, そ れ ら を 冠 詞 付 与に用 い
ることで状況に応 じ た冠 詞 付 与 を 行 う.
文 脈に よっ て冠 詞が決 定 さ れる場合, 名 詞が文章内で初 出のと きは, その名 詞は非 限 定 的になりや すいため, 不 定 冠 詞 「a」 が付 与 さ れることが多い. また, ある名詞が, 同 一 文章内で既に出 現 し て いた と き, その名 詞は限 定 さ れ や す く, 定 冠 詞 「the」 が 付 与 さ れ ること が多い. こ の冠 詞 用 法に対 応する ため に, 文脈を考慮した 冠 詞 生起確率を定義す る .
いま, 名 詞 をN , 冠 詞 をA R T , N が前 回 出 現 し たと きに修飾して いた冠 詞 をP R E ̲ A R T と し, N が 前 回 P R E
̲ A R T に修 飾 さ れて いた 状 態 をp R E‑A R TN と 表 す. な お, N が文 中で初 出の と きは, P R E
̲ A R T ‑ jir st と する. N が前回 出 現 し たと きの冠 詞 がP R E ̲ A R T で, 同 じ文 中で N が再 び 出 現 し たと き A R T に修飾さ れる確 率は
p( A R TIpR EIA R TN) ‑ f(A R TIP R E‑A R TN)
f (P R E‑A R TN) (
2)
と なる. こ の p(A R TIp R E‑A R TN) を, 文 脈 を考慮 し た冠 詞 生 起 確 率 と 呼び, これ をコ ー パ ス中 から学習し, 辞書に登 録 する.
ま た, 名 詞句の前後の前置詞 を考慮 す る場合, その 前置詞によっ て, 名 詞の意味が限 定
6
iT言∴・,l\r,
;二: )、、
、
i
′'
…;;L
'
i
I
;一'r̀u汗‑'1;・右:i‑