Kiyotaka Uchimoto (National Institute of Information and Communications Technology) Yasuharu Den (Faculty of Letters, Chiba University)
1. はじめに
文部科学省科学研究費特定領域研究「代表性を有する大規模日本語書き言葉コーパスの 構築:21 世紀の日本語研究の基盤整備」の電子化辞書班では、語彙形態論研究に適した短 単位、音声研究に適した中単位、構文・意味研究に適した長単位という複数粒度の「語」
を高精度(98%以上)で自動構成するシステムを提供することを目的のひとつとしている。
その各単位の例を図1と図2に挙げる。図1は「日本型国際貢献が求められている。」とい う文における短単位、中単位、長単位の関係を、図 2 は短単位と長単位の関係を表してい る。長単位は中単位を、中単位は短単位をそれぞれ結合することにより構成できる。例え ば、「日本型国際貢献」という長単位は「日本型」「国際貢献」という二つの中単位から成 るとともに、さらに「日本」「型」「国際」「貢献」のように分割した四つの短単位から成る。
本稿では、この三種類の語の単位のうち、中単位と長単位を対象に各単位を自動構成する 方法について述べる。自動構成は次の手順で行なう。まず、短単位を入力として長単位を 構成し、次に、短単位と長単位を入力として中単位を構成する。
文 日本型国際貢献が求められている。
文節 日本型国際貢献が 求められている。
長単位 日本型国際貢献 が 求め られ ている 。 中単位 日本型 国際貢献 が 求め られ ている 。 短単位 日本 型 国際 貢献 が 求め られ て いる 。
図 1:短単位、中単位、長単位の例
2. 長単位解析
2.1. チャンキングモデルと書き換え規則に基づく長単位解析
長単位は、短単位列を入力とし、以下に述べるチャンキングモデルと書き換え規則に基 づく手法により認定する。長単位を認定するという問題は、長単位を構成する短単位のそ れぞれに次の四つのラベルのうちいずれかを付与する問題に置き換えることができる (Uchimoto & Isahara, 2007)。この四つのラベルの尤もらしさを推定するモデルをチャンキン グモデルと呼ぶ。
Ba 長単位を構成する短単位のうち先頭の要素で、かつ、その品詞、活用型、活用形が 長単位のものと一致する。
短単位
ラ ベ ル
長単位
書 字 形
語 彙 素 読 み
語 彙 素
発 音 形
品詞 活 用 型
活 用 形
書 字 形
語 彙 素 読 み
語 彙 素
品詞 活 用 型
活 用 形
日 本
ニ ホ ン
日 本
ニ ホ ン
名詞-固有 名詞-地名 -国
B
型 ガ タ
型 ガ タ
接尾辞-名 詞的-一般
I
国 際
コ ク サ イ
国 際
コ ク サ イ
名詞-普通 名詞-一般
Ia
貢 献
コ ウ ケ ン
貢 献
コ ウ ケ ン
名詞-普通 名詞-サ変 可能
I 日 本 型 国 際 貢 献
ニ ホ ン ガ タ コ ク サ イ コ ウ ケ ン
日 本 型 交 際 貢 献
名 詞 - 普 通名詞-一般
が ガ が ガ 助詞-格助 詞
Ba が ガ が 助 詞 - 格 助詞
(文節境界)
求 め
モ ト メ ル
求 め る
モ ト メ
動詞-一般 下 一 段 -マ行
未 然 形 -一般
Ba 求
め モ ト メ ル
求 め る
動 詞 - 一 般
下 一 段 -マ行
未 然 形 -一般
ら れ
ラ レ ル
ら れ る
ラ レ
助動詞 下 一 段 -ラ行-一般
連 用 形 -一般
Ba ら
れ ラ レ ル
ら れ る
助動詞 下 一 段 -ラ 行 - 一 般
連 用 形 -一般
て テ て テ 助詞-接続 助詞
B
い る
イ ル
い る
イ ル
動詞-非自 立可能
上 一 段 -ア行
終 止 形 -一般
I て い る
テ イ ル
て い る
助動詞 上 一 段 -ア行
終 止 形 -一般
。
補助記号-句点
Ba 。 補 助 記
号-句点
図 2:短単位と長単位の例
Ia 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用 形が長単位のものと一致する。
B 長単位を構成する短単位のうち先頭の要素で、かつ、その品詞、活用型、活用形の いずれかが長単位のものと一致しない。
I 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用 形のいずれかが長単位のものと一致しない。
これは、長単位を構成する先頭の要素に付与されるラベルは「Ba」か「B」であり、長単位 を構成する先頭以外の要素に付与されるラベルは「Ia」か「I」であることを意味する。ま た、「Ba」「Ia」が付与された要素は長単位と同じ品詞、活用型、活用形を持つことを意味す る。したがって、このモデルにより、単位境界だけでなく、多くの場合、品詞、活用型、
活用形の情報も得られる。例えば、図2の短単位には、「ラベル」の列に示されるようなラ ベルが付与される。これらのラベルを正しく推定できれば、「Ba」あるいは「Ia」が付与さ れた短単位から品詞、活用型、活用形が得られる。図2は、「ている」以外の長単位につい ては品詞、活用型、活用形も得られることを表わしている。一方、「ている」については品 詞が短単位「て」「いる」のどちらとも異なるため、各短単位には「B」あるいは「I」のラ ベルしか付与されない。この場合は、ラベルを正しく推定できたとしても品詞は得られず、
単位境界の情報のみが得られることになる。この場合の品詞、活用型、活用形は後に述べ る書き換え規則により得ることができる。
上記にあげた「ている」の例のように、長単位を構成する短単位のいずれにも「Ba」「Ia」
が付与されない場合、チャンキングモデルにより品詞、活用型、活用形の情報は得られな い。この場合は、単位境界のみが分かっている長単位ごと、つまり、「B」あるいは「I」が 付与された短単位のみから構成される長単位ごとに書き換え規則を獲得、適用することに よって品詞、活用型、活用形の情報を得る。書き換え規則は対象の長単位とその前後の短 単位を抽出することによって自動獲得する。例えば、図2からは、「ている」に関して図3 のような規則が獲得される。この規則は、「て」「いる」という短単位にそれぞれ「B」「I」
というラベルが付与されたとき、「ている」という助動詞に書き換えられることを意味して いる。前件部が同じ規則が複数得られた場合、最も頻度の高いもののみ書き換え規則とし て獲得する。どの書き換え規則も適用されない場合は、次の手順で規則を汎化して再適用 する。
z 後方文脈を削除
z 前方文脈と後方文脈を削除
z 前方文脈、後方文脈、書字形、語彙素読み、語彙素、発音形を削除
この手順で再適用し結果的にどの規則も適用されなかった場合は、短単位の先頭の品詞、
活用型、活用形をコピーする。語彙素、語彙素読みについては、基本的に短単位の情報を 結合して作成する。
前件部 後件部
図3:書き換え規則の例(「て/いる」→「ている」の書き換え(「/」は短単位境界))
2.2. 文節と長単位の逐次認定および同時認定
本節では、長単位だけでなく文節も認定する方法について述べる。認定方法は、文節を 認定してからその情報を用いて長単位を認定する逐次認定の方法と、文節と長単位を同時 に認定する同時認定の方法がある。逐次認定では、まず文節を認定するために、「Ba」「Ia」
「B」「I」のラベルの代わりに、次のラベルを短単位に付与する。そして、「S」が付与され た短単位の直前に文節境界があると仮定して、2.1節に述べた手順で長単位を認定する。
S 文節を構成する短単位のうち先頭の要素 I 文節を構成する短単位のうち先頭以外の要素
一方、同時認定では、「Ba」「B」を、着目している短単位が文節の先頭の要素であるかいな かで区別し、次のラベルを短単位に付与する。そして、2.1節に述べた書き換え規則を適用 する。
Sa 長単位を構成する短単位のうち文節の先頭の要素で、かつ、長単位の先頭の要素で もあり、かつ、その品詞、活用型、活用形が長単位のものと一致する。
Ba 長単位を構成する短単位のうち文節の先頭以外の要素で、かつ、長単位の先頭の要 素であり、かつ、その品詞、活用型、活用形が長単位のものと一致する。
Ia 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用 形が長単位のものと一致する。
S 長単位を構成する短単位のうち文節の先頭の要素で、かつ、長単位の先頭の要素で もあり、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。
B 長単位を構成する短単位のうち文節の先頭以外の要素で、かつ、長単位の先頭の要 素であり、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しな い。
I 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用 形のいずれかが長単位のものと一致しない。
ら れ
ラ レ ル
ら れ る
ラ レ
助動詞 下 一 段 -ラ行-一般
連 用 形 -一般
て テ て テ 助詞-接続 助詞
B
い る
イ ル
い る
イ ル
動詞-非自 立可能
上 一 段 -ア行
終 止 形 -一般
I
。
補助記号-句点
て い る
テ イ ル
て い る
助 動 詞
上 一 段 -ア 行
終 止 形 -一 般
2.3. 実験と考察
チャンキングモデルの学習と適用には、SVM に基づく汎用チャンカーである YamCha
(Kudo & Matsumoto, 2001)を用いた。カーネルは多項式カーネルを採用しており、べき指 数は 3 とした。解析方向は文末側から文頭側とし、多クラスへの拡張は one-versus-rest 法 を用いた。素性としては、前後2 短単位、合計5 短単位の範囲内における書字形、語彙素 読み、語彙素、発音形、品詞、活用型、活用形を用いた。文節境界の情報については素性 として加えた場合と加えなかった場合の両方について実験を行なった。一方、書き換え規 則の適用対象となるのはチャンキングモデルのラベル推定結果に依存する。実験ではラベ ル推定結果のうち約10%が適用対象となった。
データ班と協力し、『京都大学テキストコーパス(Version3.0)』の1月1日分の記事1,129 文における文節および短・長単位を新規定に基づいて修正した。京都大学テキストコーパ スは、1995年の毎日新聞記事から抽出した約4万文に形態素・文節係り受け構造を付与し たものである。この修正済みコーパスの先頭の9割(1,017文、8,920文節、26,125短単位、
20,179 長単位)を用いてチャンキングモデルの学習と書き換え規則の獲得を行ない、残り
の1 割(112 文、1,028 文節、3,037 短単位、2,319 長単位)で評価したときの解析精度(F 値)は表1の通りである。
表1:長単位解析システムの解析精度
文節境界の有無 境界認定 品詞認定 語彙素認定 あり
なし
97.4%
97.0%
91.9%
92.0%
90.3%
90.4%
逐次認定 同時認定
92.2%
97.2%
87.9%
91.9%
86.4%
90.3%
この表の「文節境界の有無」について、「あり」と「なし」はそれぞれ、正しい文節境界を 素性として与えた場合と全く与えなかった場合、「逐次認定」と「同時認定」はそれぞれ、
2.2節に述べたように、文節境界を自動認定した後に長単位を認定した場合と文節境界と長 単位を同時認定した場合を意味する。
書き換え規則を用いない場合の品詞認定精度は、文節境界を入力として与えた場合に
86.2%であった。さらに書き換え規則を用いた場合でも品詞認定精度が 91.9%と低いのは、
この書き換え規則が本研究領域の新規定に十分チューニングされていないことが大きな要 因のひとつである。また、学習データが『日本語話し言葉コーパス』(CSJ)の3%程度と小 規模であることの影響も大きい。図 4 に学習データ量と長単位解析精度との関係を示す。
図から、100文程度の学習データ量でも境界認定精度は94%と高く、その10倍の学習デー タ量で誤りが半分に減少することが分かる。品詞や語彙素の認定精度の伸びは境界認定精 度より大きく、学習データ量が増えるとさらなる精度向上が期待できる。今後、学習コー パスの量を増やすとともに、書き換え規則のチューニングなどにより品詞認定および語彙 素認定の精度向上を図りたい。