Development of Middle and Long Words Analysis Systems

Kiyotaka Uchimoto (National Institute of Information and Communications Technology) Yasuharu Den (Faculty of Letters, Chiba University)

1. はじめに

文部科学省科学研究費特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築：21 世紀の日本語研究の基盤整備」の電子化辞書班では、語彙形態論研究に適した短単位、音声研究に適した中単位、構文・意味研究に適した長単位という複数粒度の「語」

を高精度（98%以上）で自動構成するシステムを提供することを目的のひとつとしている。

その各単位の例を図1と図2に挙げる。図1は「日本型国際貢献が求められている。」という文における短単位、中単位、長単位の関係を、図 2 は短単位と長単位の関係を表している。長単位は中単位を、中単位は短単位をそれぞれ結合することにより構成できる。例えば、「日本型国際貢献」という長単位は「日本型」「国際貢献」という二つの中単位から成るとともに、さらに「日本」「型」「国際」「貢献」のように分割した四つの短単位から成る。

本稿では、この三種類の語の単位のうち、中単位と長単位を対象に各単位を自動構成する方法について述べる。自動構成は次の手順で行なう。まず、短単位を入力として長単位を構成し、次に、短単位と長単位を入力として中単位を構成する。

文日本型国際貢献が求められている。

文節日本型国際貢献が求められている。

長単位日本型国際貢献が求められている。中単位日本型国際貢献が求められている。短単位日本型国際貢献が求められている。

図 1：短単位、中単位、長単位の例

2. 長単位解析

2.1. チャンキングモデルと書き換え規則に基づく長単位解析

長単位は、短単位列を入力とし、以下に述べるチャンキングモデルと書き換え規則に基づく手法により認定する。長単位を認定するという問題は、長単位を構成する短単位のそれぞれに次の四つのラベルのうちいずれかを付与する問題に置き換えることができる (Uchimoto & Isahara, 2007)。この四つのラベルの尤もらしさを推定するモデルをチャンキングモデルと呼ぶ。

Ba 長単位を構成する短単位のうち先頭の要素で、かつ、その品詞、活用型、活用形が長単位のものと一致する。

† [email protected]

短単位

ラベル

長単位

書字形

語彙素読み

語彙素

発音形

品詞活用型

活用形

書字形

語彙素読み

語彙素

品詞活用型

活用形

日本

ニホン

日本

ニホン

名詞-固有名詞-地名 -国

型ガタ

接尾辞-名詞的-一般

国際

コクサイ

国際

コクサイ

名詞-普通名詞-一般

貢献

コウケン

貢献

コウケン

名詞-普通名詞-サ変可能

I 日本型国際貢献

ニホンガタコクサイコウケン

日本型交際貢献

名詞 - 普通名詞-一般

がガがガ助詞-格助詞

Ba がガが助詞 - 格助詞

（文節境界）

求め

モトメル

求める

モトメ

動詞-一般下一段 -マ行

未然形 -一般

Ba 求

めモトメル

求める

動詞 - 一般

下一段 -マ行

未然形 -一般

られ

ラレル

られる

ラレ

助動詞下一段 -ラ行-一般

連用形 -一般

Ba ら

れラレル

られる

助動詞下一段 -ラ行 - 一般

連用形 -一般

てテてテ助詞-接続助詞

いる

イル

いる

イル

動詞-非自立可能

上一段 -ア行

終止形 -一般

I ている

テイル

ている

助動詞上一段 -ア行

終止形 -一般

。

補助記号-句点

Ba 。補助記

号-句点

図 2：短単位と長単位の例

Ia 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用形が長単位のものと一致する。

B 長単位を構成する短単位のうち先頭の要素で、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。

I 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。

これは、長単位を構成する先頭の要素に付与されるラベルは「Ba」か「B」であり、長単位を構成する先頭以外の要素に付与されるラベルは「Ia」か「I」であることを意味する。また、「Ba」「Ia」が付与された要素は長単位と同じ品詞、活用型、活用形を持つことを意味する。したがって、このモデルにより、単位境界だけでなく、多くの場合、品詞、活用型、

活用形の情報も得られる。例えば、図2の短単位には、「ラベル」の列に示されるようなラベルが付与される。これらのラベルを正しく推定できれば、「Ba」あるいは「Ia」が付与された短単位から品詞、活用型、活用形が得られる。図2は、「ている」以外の長単位については品詞、活用型、活用形も得られることを表わしている。一方、「ている」については品詞が短単位「て」「いる」のどちらとも異なるため、各短単位には「B」あるいは「I」のラベルしか付与されない。この場合は、ラベルを正しく推定できたとしても品詞は得られず、

単位境界の情報のみが得られることになる。この場合の品詞、活用型、活用形は後に述べる書き換え規則により得ることができる。

上記にあげた「ている」の例のように、長単位を構成する短単位のいずれにも「Ba」「Ia」

が付与されない場合、チャンキングモデルにより品詞、活用型、活用形の情報は得られない。この場合は、単位境界のみが分かっている長単位ごと、つまり、「B」あるいは「I」が付与された短単位のみから構成される長単位ごとに書き換え規則を獲得、適用することによって品詞、活用型、活用形の情報を得る。書き換え規則は対象の長単位とその前後の短単位を抽出することによって自動獲得する。例えば、図2からは、「ている」に関して図3 のような規則が獲得される。この規則は、「て」「いる」という短単位にそれぞれ「B」「I」

というラベルが付与されたとき、「ている」という助動詞に書き換えられることを意味している。前件部が同じ規則が複数得られた場合、最も頻度の高いもののみ書き換え規則として獲得する。どの書き換え規則も適用されない場合は、次の手順で規則を汎化して再適用する。

z 後方文脈を削除

z 前方文脈と後方文脈を削除

z 前方文脈、後方文脈、書字形、語彙素読み、語彙素、発音形を削除

この手順で再適用し結果的にどの規則も適用されなかった場合は、短単位の先頭の品詞、

活用型、活用形をコピーする。語彙素、語彙素読みについては、基本的に短単位の情報を結合して作成する。

前件部後件部

図3：書き換え規則の例（「て／いる」→「ている」の書き換え（「／」は短単位境界））

2.2. 文節と長単位の逐次認定および同時認定

本節では、長単位だけでなく文節も認定する方法について述べる。認定方法は、文節を認定してからその情報を用いて長単位を認定する逐次認定の方法と、文節と長単位を同時に認定する同時認定の方法がある。逐次認定では、まず文節を認定するために、「Ba」「Ia」

「B」「I」のラベルの代わりに、次のラベルを短単位に付与する。そして、「S」が付与された短単位の直前に文節境界があると仮定して、2.1節に述べた手順で長単位を認定する。

S 文節を構成する短単位のうち先頭の要素 I 文節を構成する短単位のうち先頭以外の要素

一方、同時認定では、「Ba」「B」を、着目している短単位が文節の先頭の要素であるかいなかで区別し、次のラベルを短単位に付与する。そして、2.1節に述べた書き換え規則を適用する。

Sa 長単位を構成する短単位のうち文節の先頭の要素で、かつ、長単位の先頭の要素でもあり、かつ、その品詞、活用型、活用形が長単位のものと一致する。

Ba 長単位を構成する短単位のうち文節の先頭以外の要素で、かつ、長単位の先頭の要素であり、かつ、その品詞、活用型、活用形が長単位のものと一致する。

Ia 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用形が長単位のものと一致する。

S 長単位を構成する短単位のうち文節の先頭の要素で、かつ、長単位の先頭の要素でもあり、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。

B 長単位を構成する短単位のうち文節の先頭以外の要素で、かつ、長単位の先頭の要素であり、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。

I 長単位を構成する短単位のうち先頭以外の要素で、かつ、その品詞、活用型、活用形のいずれかが長単位のものと一致しない。

られ

ラレル

られる

ラレ

助動詞下一段 -ラ行-一般

連用形 -一般

てテてテ助詞-接続助詞

いる

イル

いる

イル

動詞-非自立可能

上一段 -ア行

終止形 -一般

。

補助記号-句点

ている

テイル

ている

助動詞

上一段 -ア行

終止形 -一般

2.3. 実験と考察

チャンキングモデルの学習と適用には、SVM に基づく汎用チャンカーである YamCha

（Kudo & Matsumoto, 2001）を用いた。カーネルは多項式カーネルを採用しており、べき指数は 3 とした。解析方向は文末側から文頭側とし、多クラスへの拡張は one-versus-rest 法を用いた。素性としては、前後2 短単位、合計5 短単位の範囲内における書字形、語彙素読み、語彙素、発音形、品詞、活用型、活用形を用いた。文節境界の情報については素性として加えた場合と加えなかった場合の両方について実験を行なった。一方、書き換え規則の適用対象となるのはチャンキングモデルのラベル推定結果に依存する。実験ではラベル推定結果のうち約10%が適用対象となった。

データ班と協力し、『京都大学テキストコーパス（Version3.0）』の1月1日分の記事1,129 文における文節および短・長単位を新規定に基づいて修正した。京都大学テキストコーパスは、1995年の毎日新聞記事から抽出した約4万文に形態素・文節係り受け構造を付与したものである。この修正済みコーパスの先頭の9割（1,017文、8,920文節、26,125短単位、

20,179 長単位）を用いてチャンキングモデルの学習と書き換え規則の獲得を行ない、残り

の1 割（112 文、1,028 文節、3,037 短単位、2,319 長単位）で評価したときの解析精度（F 値）は表1の通りである。

表1：長単位解析システムの解析精度

文節境界の有無境界認定品詞認定語彙素認定あり

なし

97.4%

97.0%

91.9%

92.0%

90.3%

90.4%

逐次認定同時認定

92.2%

97.2%

87.9%

91.9%

86.4%

90.3%

この表の「文節境界の有無」について、「あり」と「なし」はそれぞれ、正しい文節境界を素性として与えた場合と全く与えなかった場合、「逐次認定」と「同時認定」はそれぞれ、

2.2節に述べたように、文節境界を自動認定した後に長単位を認定した場合と文節境界と長単位を同時認定した場合を意味する。

書き換え規則を用いない場合の品詞認定精度は、文節境界を入力として与えた場合に

86.2%であった。さらに書き換え規則を用いた場合でも品詞認定精度が 91.9%と低いのは、

この書き換え規則が本研究領域の新規定に十分チューニングされていないことが大きな要因のひとつである。また、学習データが『日本語話し言葉コーパス』（CSJ）の3%程度と小規模であることの影響も大きい。図 4 に学習データ量と長単位解析精度との関係を示す。

図から、100文程度の学習データ量でも境界認定精度は94％と高く、その10倍の学習データ量で誤りが半分に減少することが分かる。品詞や語彙素の認定精度の伸びは境界認定精度より大きく、学習データ量が増えるとさらなる精度向上が期待できる。今後、学習コーパスの量を増やすとともに、書き換え規則のチューニングなどにより品詞認定および語彙素認定の精度向上を図りたい。

ドキュメント内 corpus.indd (ページ 169-177)