日本語固有表現抽出における冗長的な形態素解析の利用

全文

(1)自然言語処理 153−７（２００３．１．２０）. 日本語固有表現抽出における冗長的な形態素解析の利用浅原正幸. 松本裕治. 奈良先端科学技術大学院大学情報科学研究科. fmasayu-a,[email protected] 一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる．形態素解析出力結果をそのままチャンカーの入力にすると，形態素解析結果より小さい単位の固有表現を抽出することは困難である．そこで，文字単位でチャンキングを行う手法を提案する．まず，統計的形態素解析器で入力文を冗長的に解析を行う．次に，入力文を文字単位に分割し，文字，字種および形態素解析結果のｎ次解までの品詞情報などを各文字に付与する．最後に，これらを素性として，サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する．この手法により，１次解のみを用いる場合より. 豊かな素性をチャンカーに与えることができ，固有表現抽出の精度を向上させることができた．CRL 固有表現データを用いて評価実験 (交差検定. 5-fold) を行った結果，F 値約 88% という高精度の結果が得られた．. キーワード : 日本語固有表現抽出，サポートベクトルマシン，形態素解析，冗長解析，チャンキング. Japanese Named Entity Extraction with Redundant Morphological Analysis. Masayuki Asahara. Yuji Matsumoto. Graduate School of Infomation Science, Nara Institute of Science and Technology fmasayu-a,[email protected] Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the e ectiveness of the method. Keywords : Named Entity Extraction, Support Vector Machines, Morphological Analysis, Redundant Analysis, Chunking. 1 はじめに. 解析などにも影響を及ぼすために，重要な問題の１つ. Message Understanding Conference (MUC-7) や日本語における Information Retrieval and Extraction Exercise (IREX) などで共. である．また，英語における. 固有表現抽出は，地名・人名・組織名などの固有名詞や日時・時間・通貨などの数値表現をテキスト中から切り出し分類する技術である．情報抽出や質問応答シ. 通のデータセットが公開されて，多くの研究者が様々. ステムなどの基礎技術のみならず，形態素解析や構文. −49−.

(2) なモデルを提案し，この問題に取り組んできた．一般的に固有表現抽出は，形態素解析をまず行い，. 表. 前後２単語程度の品詞情報などを用いることにより，形態素解析結果の語の単位を基にしてまとめあげるという作業が行われる．しかし，この手法のままでは，形態素解析結果より短い単位の固有表現を抽出すること困難である．例えば「小泉首相が９月に訪朝」という文を. ChaSen を用いて形態素解析を行うと「小泉/. 首相/が /９月/に/訪朝」のように分割される．人名である「小泉」および日時である「９月」は，このわか. ち書き単位から抽出が可能であるが，国名をあらわす「朝」（＝北朝鮮・朝鮮民主主義人民共和国の略称）は形態素解析のわかち書き単位より小さいために抽出が不可能である．本稿では，このような固有表現抽出における語のわかち書きの単位の問題にも対処する．このわかち書きの問題に対し，先行研究は様々な前処理的な対処方法を導入している．内元ら. [4] は，こ. のわかち書きの問題に対して，書き換え規則を導入し，わかち書きをしなおす手法を取っている．山田ら. [10]. は，学習データ中に出現したものについては，分割し. た単位で抽出している．磯崎ら [3] は形態素解析器の未知語生起コストを下げることにより，未知語を出現. しやすくし，よりわかち書きを細かくするようにして対処している．これらの前処理的な対処方法に対して，我々はより直接的な対処方法を提案する．提案手法ではテキストを文字単位に分割し，文字単位でチャンキ. 1: IREX で定義されてある固有表現の種類と例固有表現の種類例 ARTIFACT 固有物名ノーベル化学賞 DATE 日付表現五月五日 LOCATION 地名日本，韓国 MONEY 金額表現２０００万ドル ORGANIZATION 組織名社会党 PERCENT 割合表現二○％，三割 PERSON 人名村山 TIME 時間表現午前五時. の単語列が固有表現か否かを識別するチャンク同定問題と見なすことができ，チャンク同定問題では１つ以上の要素列からなるチャンクを導出するために，トークン列に. IOB1, IOB2, IOE1, IOE2 および SE と呼ば. れる５種類のチャンクタグ集合を付与することによって行う手法が提案されている．トークンの単位としては形態素解析で切り出された単語を用いる場合が多いが，我々はこれを文字単位で用いる．図. 1 に文字単位でタグ付けした「小泉首相は日朝. 間における…」の文中の固有表現の例を示す．この文. (PERSON)，「日」「朝」：地名 (LOCATION) が固有表現であるが，図中では IOB1, IOB2, IOE1, IOE2 および SE のチャンクタグ集合に. 中では「小泉」：人名. 基づいた固有表現タグを付与している．尚，ここで固有表現タグとは \I-PERSON" のように固有表現名と. チャンクタグを \-"（ハイフン）で結んだもののことを言う．. ングを行う．各文字により豊かな品詞情報を与えるために，冗長的な形態素解析を導入し，ｎ次解までの品詞情報をチャンカーの素性として利用する．チャンキ. [10] が採用している Support Vector Machine に基づくチャンカー yamcha [6] を利用し，. 3. ングには山田ら. 既存の手法を上回る解析精度を達成した．以下，次章では. IREX 日本語固有表現抽出タスク. について述べる．３章では，今回提案する手法の詳細. 提案手法本章では提案手法について述べる．提案手法は以下. の３ステップによる．. 1. 2.. 文字単位に分割し，各文字が属する形態素の情報と，その形態素中における文字の位置情報を付与. について説明する．４章で，抽出実験と考察を報告し，最後にまとめと今後の課題について述べる．. 冗長的に形態素解析を行う. する. 3.. 文字に付与された情報を手がかりに，文字単位にまとめあげを行う. 2. IREX 日本語固有表現抽出タス. 以下，各ステップについて説明する．. ク. IREX 日本語固有表現抽出タスク [1] では，表 1 に. 3.1. 示す８種類の固有表現を定義し，それぞれの固有表現は重ならないとしている．固有表現抽出は，入力文中. 冗長的な形態素解析. まず，冗長的な形態素解析について説明する．本手法では形態素解析器として. −50−. ChaSen [9] を用いる．.

(3) IOB1 IOB2 IOE1 IOE2 SE. 小. I-PERSON B-PERSON I-PERSON I-PERSON B-PERSON. 泉. I-PERSON I-PERSON I-PERSON E-PERSON E-PERSON 図. ChaSen. は -v -w [コスト幅]. 首. O O O O O. 相. O O O O O. は. O O O O O. 日. 朝. I-LOCATION B-LOCATION E-LOCATION E-LOCATION S-LOCATION. B-LOCATION B-LOCATION I-LOCATION E-LOCATION S-LOCATION. 間. …. O O O O O. 1: 固有表現タグの例. のオプションをつ. これらの品詞情報の他に，字種，文字などを手がか. けることにより，冗長解析出力を行うことができる．りとしてチャンキングを行う．ここで字種は表. ChaSen はコスト最小法を用いた形態素解析器であり，. コストはマルコフモデルに基づいてコーパスから推定表. された対数尤度を用いている．上記オプションを用いることにより，最適解がもたらすコストから指定され. 2:. 字種の分類. 字種タグ. ZSPACE ZDIGIT ZLLET ZULET HIRAG KATAK OTHER. たコスト幅以内にある可能な２次解，３次解を出力することができる．本手法で利用するコスト幅は，最小確率値に割り振られるコスト値である. 2 に示. す７種類を導入した．. 4000 を用いる．. 冗長的な形態素解析結果を用いる狙いについて述べる．第一に，形態素解析において１次解で誤った場合. 説明空白アラビア数字英字小文字英字大文字ひらがなカタカナその他. でも２次解以降で正解となる場合があり，冗長解析結果を使うことによって，より頑健な解析を行うことができる．第二に，形態素解析モデルに複合語が登録されている場合，１次解に長い単位である複合語が表わ. 3.3. れ，２次解以降に短い単位である複合語を構成する単語が表われる．短い単位の中には，固有表現を抽出す. サポートベクトルマシンを用いたチャンキング. チャンキングにはサポートベクトルマシンを基にし. yamcha [6] を利用した．以下にサポー. る際に有用な接辞が含まれており，チャンカーにより. たチャンカー. 豊かな情報を素性として与えることができる．本稿の. トベクトルマシンを用いたチャンキングについて述べ. 実験では３次解までを用いることにした．. る．詳細は文献. 3.2. [10] を参照のこと．. 文字単位に分割. 入力文を文字単位に分割する．各文字を通過する各形態素の内で，文頭からのコスト和が小さい順に３つまでの品詞情報をその文字に付与する．品詞情報とともに，各形態素における，当該文字の位置について，. SE に基づいたタグを付与する．図 2 に整形後のテキストの例を示す．. チャンクタグ集合小泉首相が９月に訪朝. EOS. 図. 2:. 名詞-固有名詞-人名-姓-B 名詞-固有名詞-人名-姓-E 名詞-一般-B 名詞-一般-E 助詞-格助詞-一般-S 名詞-副詞可能-B 名詞-副詞可能-E 助詞-格助詞-一般-S 名詞-サ変接続-B 名詞-サ変接続-E. 接頭詞-名詞接続-S 名詞-固有名詞-地域-一般-E 名詞-一般-S 名詞-接尾-一般-S. *. 名詞-数-S 名詞-接尾-助数詞-S 助詞-副詞化-S. * *. 名詞-一般-S 名詞-固有名詞-一般-E 名詞-接尾-助数詞-S. * * *. 正例. 正例のサポートベクトル. 負例. 負例のサポートベクトル. 4: サポートベクトルマシンサポートベクトルマシンは，n 次元素性ベクトル x と正・負の２値ラベル y の２つ組 (x ; y ) で表現される l 個の訓練事例 (0 < t l) に対して，正・負のラベルを正しく分離するような超平面 w x + b （但し w; x 2 R ）を求める二値線形分類器 [2] である．図 4 図. 名詞-一般-S. * * *. t. t. 冗長形態素解析結果を付与した文字単位分割後. のテキスト. n. −51−. t. t.

(4) 位置. 文字小泉首相が. 2 i 1 i i+1 i+2 i. 字種. 品詞情報（１次解）名詞固有名詞人名姓名詞固有名詞人名姓名詞一般名詞一般助詞格助詞一般. OTHER OTHER OTHER OTHER HIRAG. -. -. -. -. -. -B -E. 品詞情報（２次解）接頭詞名詞接続名詞固有名詞地域一般名詞一般名詞接尾一般. - -B - -E. -. -S. 図. 3:. -. -S. - - -E -S - - -S * -. 品詞情報（３次解）名詞一般名詞固有名詞一般名詞接尾助数詞. 固有表現タグ. -. -S B-PERSON - -E I-PERSON - -S O * *. 導入する素性. において破線は求める分離超平面に平行で等距離にあ. p. る超平面でこの間の距離をマージンと呼ぶ．サポート. p. p. (x) = (x21 ; 2x1 x2 ; 2x1 ; 2x2 ; x22 ; 1); x = (x1 ; x2 ):. ベクトルマシンは，正・負例を正しく分類する数多くの超平面の中から，マージンが最大となるような分離超平面を求めるアルゴリズムである．マージンの最大化は. jjwjj の最小化と同値であり，これは式 (1) を式. サポートベクトルマシンは正例・負例を分類する二. (2) の制約の基で最大化する双対問題と等価であるこ. 値分類器であり，チャンキング抽出規則を学習するた. とが知られている．. めに３つのクラスに分類する多値分類に拡張する．代. X 1 X y y K(x ; x ); 2 X y = 0; 0 ; l. l. i. i. =1. i. j. i. j. i. (1). j. i;j. l. i. i. (2). i. =1. i. K (a; b) = (a) (b):. (3). (1) の K (x ; x ) を Kernel 関数と呼び，式 (3) で示す．２つのベクトル a; b 2 R を関数 (x) ここで式. i. One v.s. Rest 法と Pair Wise 法がある．One v.s. Rest 法は，あるクラスかそれ以外表的な手法として. j. n. かという二値分類器をクラスの数だけ用意する手法である．これに対し，Pair. Wise 法は k 個のクラスから. 任意の２つのクラスに関する二値分類器を. k. C2. 個構. 築する手法である．チャンキングは. 3.2 節で示した素性をサポートベク. トルマシンに与え，その出力クラスを基に文頭もしくは文末から一方向に決定的に行われる．図. 3 に前後２. で写像した空間での内積で表す．最終的に未知の事例. 文字文脈，字種，文字および冗長形態素解析結果３次. x に対する正・負例の分類は，超平面からの位置（式. 解までの品詞を用いた場合に利用される素性を示す．. (4) ）によって決定される．. X y K(x ; x) + b). する．. l. i. i. i. =1. (4). i. 本手法では. O を推定. するために，実線の内部にあるものを素性として利用. f (x) = sgn(w x b). = sgn(. この例では，位置 i における固有表現タグ. n 次の多項式関数を Kernel 関数として n 個までの素性の組み合わせ. 利用した．これにより. を考慮した学習が計算量を大きく変化させることなく可能になる．2 次の多項式関数の場合の. Kernel 関数. を以下に示す．. 4. 評価実験. 4.1. データ. CRL (通信総合研究所) 固有表現データを使用した．CRL 固有表現データは，毎日新聞９５年度版 1,174 記事，約 11,000 文に対して IREX で定義実験には. された固有表現がタグ付けされている．このデータ中. K (a; b) = (a b + 1)2 = (a1 b1 + a2 b2 + 1)2 = a21 b21 + 2a1 a2 b1 b2 + 2a1b1 + 2a2b2 + a22 b22 + 1 = (a) (b):. の固有表現の総数は. 19,262 個であった．評価は CRL. 固有表現データを５等分に分割し，訓練４，テスト１の比率で交差検定を行い，それらの. F 値 (

(5) = 1) の. 平均を精度比較に利用する．尚，本実験の有効数字は３ケタであるが，先行研究の多くが４ケタ目まで出しているので，本論文も４ケタ目まで表示する．実験で. −52−.

(6) は，ことわりがない限り，モデル作成時間が速い. Wise 法を用いる．. Pair. 4.3. 冗長解析結果の深さの違いによる精度の比較. 以下の実験において解析に利用するチャンクタグは，予備実験で最も精度が良かった. IOB2 モデルに固. 次に素性として利用する冗長解析結果の深さを変化. 定した．. させた場合の精度比較を行う．この実験では，素性として利用する文脈を左２文字右２文字に，利用する素 4.2. 文脈長の違いによる精度の比較. 性を品詞，文字，字種，前固有表現タグの４種類に固定して行った．表. まず，文脈長の違いによる精度比較を行う．表. 3 に文脈長を変化させた際の実験結果を示す．精. 5 に結果を示す．. 順方向解析の場合には，冗長解析結果を素性として. 度は８つのタグ全ての解析精度 (F 値) による．チャン. 加えれば加える程精度が悪くなるという現象が見られ. キングの方向が順方向（左→右）の場合と逆方向（左. た．逆方向解析の場合には冗長解析結果を３次解まで. ←右）の場合を比べると逆方向の方が精度が高いと言. 素性として加えたものが最も精度が良かった．. える．全体の精度に関して，順方向の場合は素性として加える文脈長を伸ばせば精度も伸びていくのに対し，逆方向の場合は左２文字右２文字見る場合が一番精度 4.4. が良い．. 素性の違いによる精度の比較. 各固有表現タグ毎に見ていくと，固有表現によって精度が最も良くするために必要な文脈長が異なっていることがわかる．\MONEY" と. \PERCENT" に関. しては左２文字右１文字という，より短い文脈長で精度が最高であり，\ORGANIZATION" に関しては左. ３文字右３文字という，より長い文脈長が必要である. ことがわかる．\MONEY" と. \PERCENT" につい. ては，一文字のみの接尾辞（「円」「割」）が固有表. 必要な素性について検討する．表. 6 に文脈を左右２. 文字に固定した上で素性を変化させた結果を示す．導入した素性は「文字」「字種」「品詞」「固有表現タグ」の４種類で，これら全てを用いたもの，「文字」を用いなかったもの，「字種」を用いなかったもの，「品詞細分類」を用いなかったものについて，各固有表現の精度および全体の精度を示す．. 現を決定するために重要な鍵となっているためより短い文脈で推定できているのであろうと考える．逆に. \ORGANIZATION" はより長い接尾辞（「会社」「研. 一般に「文字」の情報を除くと精度が急激にさがってしまう．これは品詞表現だけでは粗いために各固有. 究所」）が固有表現を決定するために重要な鍵となっ. 表現を開始位置または終了位置を捕捉するだけの情報. ていることが予測される．. が得られないことが考えられる．表. これらの各固有表現間の精度が文字長と関連するかどうか調べるために各固有表現の平均文字長を表. 4に. 7 に各固有表現中. で利用されている字種の割合を示す．「字種」の情報はカタカナ語を多く含む固有表現である. \ARTIFACT". 示す．特に必要な文脈長と平均文字長との間には関連. \LOCATION" \PERSON" などで有効であるが，数. 性が見られないように思われる．. 量表現などにおいては逆に精度を下げる要因になって. 表. 4: 各固有表現の平均文字長. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. 平均文字長. 5.87 3.17 3.53 5.08 4.36 3.03 3.53 3.41 3.80. いることがわかった．これは漢数字などを数字として認定していないことによるものと考えられる．「品詞細分類」を除くと精度がさがった．これは各固有表現を決定するために接尾辞等の細分類が有効であることによると考えられる．また，本実験では導入しなかったが，予備実験で活用の情報を入れると精度が若干さがった．これは一般に固有表現は活用語を含まないためであると考えられる．. −53−.

(7) 表文脈長解析方向. 3:. 文脈長の違いによる精度の比較 (%). 左１右１順逆. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME. 43.29 85.68 82.30 46.49 70.09 68.96 87.52 89.35 79.44. 全体. 56.93 90.84 87.86 95.36 77.65 96.00 89.02 88.85 85.92. 左１右２順逆. 48.01 90.78 85.21 58.81 75.97 86.00 89.27 83.60. 90.56. 57.32 90.57 88.17 95.36 78.05 95.71 89.16 88.38 86.10. 左２右１順逆. 48.21 86.06 82.62 51.84 70.05 74.41 87.99 89.63 80.22. 左２右２順逆. 61.26 93.47 89.46 81.46 96.40 88.28 88.25. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 90.51 84.20. 96.46. 91.08. 左３右３順逆. 61.61 94.22 89.49. 95.75 81.25 90.86 88.18. 96.55. 88.34. 52.48 92.53 87.39 76.23 77.77 88.25 89.87 85.61. 90.56. 59.02 93.85 89.08 95.85 95.44 90.76 89.38 88.22. 81.87. 冗長解析結果は３次解まで利用，素性（品詞，文字，字種，前固有表現タグ）．関数は２次の多項式関数，法．文脈長は文字数．. Kernel. 表冗長解析解析方向. 5:. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. Pair Wise. 冗長解析結果の深さの違いによる精度の比較 (%) １次解のみ順逆. 55.42 90.81 86.08 64.70 76.69 87.34 90.03 89.73 84.67. 61.10 93.79 89.16 96.78. ２次解まで順逆. 52.10 91.31 85.75 65.85 76.32 88.09 90.73 89.47 88.02 90.02 88.20 84.43. 81.46 97.11. ３次解まで順逆. 60.37 50.63 91.40 85.64 96.76 65.76 81.16 75.48 96.42 88.02 90.62 89.46 88.65 90.51 88.30 84.20. 61.61. 94.22 95.75 81.25 96.55 88.18. 94.34 89.49. 89.49. 90.86 88.34. ４次解まで順逆. 51.15 91.35 85.16 66.61 75.83 86.22 89.32 84.09. 61.42 94.01 89.33 81.26 96.48 90.74 88.10 88.24. 96.89. 90.81. 左２文字右２文字文脈，素性（品詞，文字，字種，前固有表現タグ）．関数は２次の多項式関数．法．. Kernel. 4.5. 多項式 Kernel 関数の次数の違いによる精度の比較. 適用する多項式 Kernel 関数の次数 d を. 1 から 4 に. て. 8 に結果を示す．全体としては，次数 2 で精度が最高なために，2 つの素性の組要であるかを調査した．表. み合わせを見ることが重要であることがわかる．しか. し，\MONEY". \TIME" の数値表現に関しては，問題が簡単であるため次数 1 で最高の精度が得られた．. 4.6. Pair Wise. 法と. One v.s. Rest. One v.s. Rest の方が良い結果が得られた．. 表. 変化させ，素性の組合せを考慮した学習がどれだけ重. 法の. 比較. Pair Wise 法に基づいて実験を Pair Wise 法の方が One v.s. Rest 法より計算時間が短いことによる．Pair Wise 法で最高の精度が出た素性の組み合わせで，One v.s. Rest でも精度評価を行った．表 9 に結果を示す．全体とし前節までは基本的に. 行ってきた．これは. −54−. Pair Wise. 9: Pair Wise 法と One v.s. Rest 法の比較 (%) Pair Wise One v.s. Rest 解析方向. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. 順. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 84.20. 90.51. 逆. 61.61 94.22. 89.49 95.75 81.25 90.86 88.18 88.34. 96.55. 順. 53.15 91.64 86.19 67.44 76.26 87.91 89.78 90.06 84.75. 逆. 61.59 94.06. 89.62 96.21 81.50. 96.01 89.45. 91.05 88.49. 左２文字右２文字文脈，冗長解析結果は３次解まで利用．素性（品詞，文字，字種，前固有表現タグ）．関数は２次の多項式関数．. Kernel.

(8) 表素性解析方向. 6:. 素性の違いによる精度の比較 (%). 全て. 順. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 90.51 84.20. 全体. −文字. 逆 61.61 94.22 90.49. 95.75 81.25 96.55 88.18. 90.86 88.34. 順. −字種. 逆. 30.06 77.73 77.46 54.90 61.78 72.78 84.81 84.28 73.69. 33.30 82.42 80.89 89.10 64.39 83.92 85.95 83.35 77.55. 順. 51.07 91.66 85.64 65.30 75.76 87.83 88.90 84.23. 90.63. 逆. −品詞細分類順逆. 61.06 51.10 58.78 90.29 93.06 89.56 79.03 84.28 64.56 94.10 71.47 76.81 85.71 93.86 89.74 81.44 85.33 88.37 88.89 87.84 88.19 79.44 84.38. 94.22 96.02 81.49 96.75. 左２文字右２文字文脈，冗長解析結果は３次解まで利用．関数は２次の多項式関数．法．. Kernel. 7: ZSPACE ARTIFACT 0.0 DATE 0.0 0.0 LOCATION MONEY 0.0 0.0 ORGANIZATION PERCENT 0.0 0.0 PERSON TIME 0.0 表. 4.7. Pair Wise. 各固有表現中の字種の割合 (%) 字種. ZDIGIT ZLLET ZULET HIRAG KATAK OTHER 2.8 0.1 3.2 9.3 33.4 50.9 5.1 0.0 0.0 1.4 1.3 92.0 0.1 0.0 0.1 0.4 44.6 54.6 10.6 0.0 0.0 0.1 13.2 75.9 0.0 0.0 3.8 1.8 23.5 70.7 10.8 0.0 0.0 2.0 6.9 80.1 0.0 0.0 0.0 1.1 40.4 58.2 5.8 0.0 0.0 0.1 0.0 93.9. 5 まとめと今後の課題. 考察. 一番良いモデル1で，88.49%(F 値) の精度が得られ. た．表 10 に先行研究との比較を示す．現在のところ報告されている最高精度を達成していると言えるだろう．先行研究では，前後２形態素の品詞情報が有効であるとされてきた．本研究は，冗長解析した上で前後２文字の情報を取ることで，先行研究を上回る精度を達成できることが確認された．. 本手法はまとめあげ手法に文献 [10] と全く同じもの. 本稿では日本語固有表現抽出タスクに対し，冗長的な形態素解析結果の利用する手法を提案し，その有効性を示した．形態素解析の３次解までを利用し，形態素解析器の性能を十分に引き出すことにより，高い精度を得ることができた．また，文字単位にまとめ上げを行うことにより，わかち書きの問題も解決することができた．冗長的な形態素解析は，自然言語処理における他の. を採用しているが，この文献では，わかち書きの問題. 85.1% である. タスクにも利用可能であると考える．特に学習モデル. ことを報告している．この値と今回の評価実験と比較. の改善による精度向上が飽和しているようなタスクに. すると，我々の提案手法がわかち書きの問題を解決し. ついて，２次解，３次解といった多くの素性を与える. ている以上の大幅な精度改善を達成していることがわ. ことにより，精度向上が達成できるだろう．. が起きないような環境での評価実験で. かる．. Pair Wise 法では，有用な素性の組み合わせを各固 Rest 謝辞. 有表現タグ毎に換えることができない．One v.s.. では，各固有表現タグ毎に取り得る素性を換えられる. ため，各固有表現タグ毎に最適化した素性選択を行うことにより，より良い精度が達成できると考える． 1 左２文字右２文字文脈，冗長解析結果は３次解まで利用，素性. Kernel 関数は２次の多項. （品詞，文字，字種，前固有表現タグ），式関数，法）. One v.s. Rest. 有用な議論をしていただいた北陸先端科学技術大学院大学の山田寛康氏と. yamcha を公開している奈良. 先端科学技術大学院大学の工藤拓氏に感謝の意を表します．. −55−.

(9) 表. 8:. 多項式. 素性解析方向. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. Kernel 関数の次数の違いによる精度の比較 (%) １次. 順. 48.03 90.40 85.20 63.03 74.96 85.98 87.69 83.21. 91.40. ２次. 逆. 58.94 92.84 87.06 77.55 96.48 89.53 88.56 86.28. 96.59. 順. ３次. 逆. 順. 逆. 順. ４次逆. 50.63 49.68 58.19 46.15 52.83 91.40 91.58 93.23 90.87 92.07 85.64 85.35 88.57 84.69 87.38 65.76 95.75 62.99 95.20 58.83 93.06 75.48 74.96 80.01 73.93 78.44 88.02 85.15 93.38 80.08 90.23 89.46 88.87 89.87 88.02 88.35 90.51 88.18 89.47 87.54 89.16 84.80 84.20 83.83 87.27 82.88 85.76 61.61 94.22 89.49 81.25 96.55 90.86 88.34. 左２文字右２文字文脈，冗長解析結果は３次解まで利用．素性（品詞，文字，字種，前固有表現タグ）．法．. Pair Wise. 表. CRL 公開 2000 [4] 2000 [7] 2002 [10] 2001 [8] 2002 [5] 2002 [3]. 内元颯々野山田竹元宇津呂磯崎本手法. データ. 83.7% 86.77% 88.49%. 10:. 先行研究との比較. IREX 学習モデル GENERAL 80.17% ME 82.8% ME SVM 83.86% 辞書＋規則 84.07% ME 決定リスト＋スタッキング 85.77% SVM with sigmoid curve SVM. わかち書きの問題への対処書き換え規則の導入学習データにあるものは分割複合語分割辞書未知語コストを下げる文字単位にチャンキング. 情報処理学会研究会報告 (自然言語処理研究会),. 参考文献. No. 2000-NL-139-1, pp. 1{8, 2000. [1] IREX 実行委員会（編）. IREX ワークショップ [8] 竹元義美, 福島俊一, 山田洋志. 辞書およびパター予稿集, 1999. ンマッチルールの増強と品質強化に基づく日本 [2] V.N. Vapnik. Statistical Learning Theory. A 語固有表現抽出. 情報処理学会論文誌, Vol. 42, Wiley-Interscience Publication, 1998. No. 6, pp. 1580{1591, 2001. [3] 磯崎秀樹, 賀沢秀人. SVM に基づく固有表現抽 [9] 松本裕治, 北内啓, 平野善隆, 松田寛, 高岡一馬, 出の高速化. 情報処理学会研究会報告 (自然言語浅原正幸. 形態素解析システム『茶筌』 version 処理研究会), No. 2002-NL-149-1, pp. 1{8, 2002. 2.2.9 使用説明書. 奈良先端科学技術大学院大学, 2002. [4] 内元清貴, 馬青, 村田真樹, 小作浩美, 内山将夫, 井佐原均. 最大エントロピーモデルと書き換え規 [10] 山田寛康, 工藤拓, 松本裕治. Support Vector Ma則に基づく固有表現抽出. 自然言語処理, Vol. 7, chine を用いた日本語固有表現抽出. 情報処理学 No. 2, pp. 63{90, 2000. 会論文誌, Vol. 43, No. 1, pp. 44{53, 2002. [5] 宇津呂武仁, 颯々野学, 内元清貴. 正誤判別規則学習を用いた複数の日本語固有表現抽出システム. の出力の混合. 自然言語処理,. Vol. 9, No. 1, pp.. 65{100, 2002. [6] 工藤拓, 松本裕治. Support Vector Machine を用いた Chunk 同定. 自然言語処理, Vol. 9, No. 5, pp. 3{23, 2002. [7] 颯々野学, 宇津呂武仁. 統計的日本語固有表現抽出における固有表現まとめ上げ手法とその評価.. −56−.

(10)