• 検索結果がありません。

日本語固有表現抽出における冗長的な形態素解析の利用

N/A
N/A
Protected

Academic year: 2021

シェア "日本語固有表現抽出における冗長的な形態素解析の利用"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)自 然 言 語 処 理 153−7 (2003. 1. 20). 日本語固有表現抽出における冗長的な形態素解析の利用 浅原 正幸. 松本 裕治. 奈良先端科学技術大学院大学 情報科学研究科. fmasayu-a,[email protected] 一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素 解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出するこ とは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力 文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解まで の品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャ ンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より. 豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表 現データを用いて評価実験 (交差検定. 5-fold) を行った結果,F 値約 88% という高精度の結果が得られた.. キーワード : 日本語固有表現抽出,サポートベクトルマシン,形態素解析,冗長解析,チャンキング. Japanese Named Entity Extraction with Redundant Morphological Analysis. Masayuki Asahara. Yuji Matsumoto. Graduate School of Infomation Science, Nara Institute of Science and Technology fmasayu-a,[email protected] Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the e ectiveness of the method. Keywords : Named Entity Extraction, Support Vector Machines, Morphological Analysis, Redundant Analysis, Chunking. 1 はじめに. 解析などにも影響を及ぼすために,重要な問題の1つ. Message Understanding Conference (MUC-7) や 日本語における Information Retrieval and Extraction Exercise (IREX) などで共. である.また,英語における. 固有表現抽出は,地名・人名・組織名などの固有名詞 や日時・時間・通貨などの数値表現をテキスト中から 切り出し分類する技術である.情報抽出や質問応答シ. 通のデータセットが公開されて,多くの研究者が様々. ステムなどの基礎技術のみならず,形態素解析や構文. −49−.

(2) なモデルを提案し ,この問題に取り組んできた. 一般的に固有表現抽出は,形態素解析をまず行い,. 表. 前後2単語程度の品詞情報など を用いることにより, 形態素解析結果の語の単位を基にしてまとめあげると いう作業が行われる.しかし ,この手法のままでは, 形態素解析結果より短い単位の固有表現を抽出するこ と困難である.例えば「小泉首相が9月に訪朝」とい う文を. ChaSen を用いて形態素解析を行うと「小泉/. 首相/が /9月/に/訪朝」のように分割される.人名で ある「小泉」および日時である「9月」は,このわか. ち書き単位から抽出が可能であるが,国名をあらわす 「朝」 (=北朝鮮・朝鮮民主主義人民共和国の略称)は 形態素解析のわかち書き単位より小さいために抽出が 不可能である.本稿では,このような固有表現抽出に おける語のわかち書きの単位の問題にも対処する. このわかち書きの問題に対し,先行研究は様々な前 処理的な対処方法を導入している.内元ら. [4] は,こ. のわかち書きの問題に対して,書き換え規則を導入し, わかち書きをしなおす手法を取っている.山田ら. [10]. は,学習データ中に出現したものについては,分割し. た単位で抽出している.磯崎ら [3] は形態素解析器の 未知語生起コストを下げることにより,未知語を出現. しやすくし,よりわかち書きを細かくするようにして 対処している.これらの前処理的な対処方法に対して, 我々はより直接的な対処方法を提案する.提案手法で はテキストを文字単位に分割し,文字単位でチャンキ. 1: IREX で定義されてある固有表現の種類と例 固有表現の種類 例 ARTIFACT 固有物名 ノーベル化学賞 DATE 日付表現 五月五日 LOCATION 地名 日本,韓国 MONEY 金額表現 2000万ドル ORGANIZATION 組織名 社会党 PERCENT 割合表現 二○%,三割 PERSON 人名 村山 TIME 時間表現 午前五時. の単語列が固有表現か否かを識別するチャンク同定問 題と見なすことができ,チャンク同定問題では1つ以 上の要素列からなるチャンクを導出するために,トー クン列に. IOB1, IOB2, IOE1, IOE2 および SE と呼ば. れる5種類のチャンクタグ集合を付与することによっ て行う手法が提案されている.トークンの単位として は形態素解析で切り出された単語を用いる場合が多い が,我々はこれを文字単位で用いる. 図. 1 に文字単位でタグ 付けした「 小泉首相は日朝. 間における…」の文中の固有表現の例を示す.この文. (PERSON), 「 日」 「 朝」:地名 (LOCATION) が固有表現であるが,図中では IOB1, IOB2, IOE1, IOE2 および SE のチャンクタグ集合に. 中では「 小泉」:人名. 基づいた固有表現タグを付与している.尚,ここで固 有表現タグとは \I-PERSON" のように固有表現名と. チャンクタグを \-"( ハイフン )で結んだもののこと を言う.. ングを行う.各文字により豊かな品詞情報を与えるた めに,冗長的な形態素解析を導入し,n次解までの品 詞情報をチャンカーの素性として利用する.チャンキ. [10] が採用している Support Vector Machine に基づくチャンカー yamcha [6] を利用し ,. 3. ングには山田ら. 既存の手法を上回る解析精度を達成した. 以下,次章では. IREX 日本語固有表現抽出タスク. について述べる.3章では,今回提案する手法の詳細. 提案手法 本章では提案手法について述べる.提案手法は以下. の3ステップによる.. 1. 2.. 文字単位に分割し,各文字が属する形態素の情報 と,その形態素中における文字の位置情報を付与. について説明する.4章で,抽出実験と考察を報告し, 最後にまとめと今後の課題について述べる.. 冗長的に形態素解析を行う. する. 3.. 文字に付与された情報を手がかりに,文字単位に まとめあげを行う. 2. IREX 日本語固有表現抽出タス. 以下,各ステップについて説明する.. ク. IREX 日本語固有表現抽出タスク [1] では,表 1 に. 3.1. 示す8種類の固有表現を定義し,それぞれの固有表現 は重ならないとしている.固有表現抽出は,入力文中. 冗長的な形態素解析. まず,冗長的な形態素解析について説明する.本 手法では形態素解析器として. −50−. ChaSen [9] を用いる..

(3) IOB1 IOB2 IOE1 IOE2 SE. 小. I-PERSON B-PERSON I-PERSON I-PERSON B-PERSON. 泉. I-PERSON I-PERSON I-PERSON E-PERSON E-PERSON 図. ChaSen. は -v -w [コスト 幅]. 首. O O O O O. 相. O O O O O. は. O O O O O. 日. 朝. I-LOCATION B-LOCATION E-LOCATION E-LOCATION S-LOCATION. B-LOCATION B-LOCATION I-LOCATION E-LOCATION S-LOCATION. 間. …. O O O O O. 1: 固有表現タグの例. のオプ ションをつ. これらの品詞情報の他に,字種,文字などを手がか. けることにより,冗長解析出力を行うことができる. りとしてチャンキングを行う.ここで字種は表. ChaSen はコスト最小法を用いた形態素解析器であり,. コストはマルコフモデルに基づいてコーパスから推定 表. された対数尤度を用いている.上記オプションを用い ることにより,最適解がもたらすコストから指定され. 2:. 字種の分類. 字種タグ. ZSPACE ZDIGIT ZLLET ZULET HIRAG KATAK OTHER. たコスト幅以内にある可能な2次解,3次解を出力す ることができる.本手法で利用するコスト幅は,最小 確率値に割り振られるコスト値である. 2 に示. す7種類を導入した.. 4000 を用いる.. 冗長的な形態素解析結果を用いる狙いについて述べ る.第一に,形態素解析において1次解で誤った場合. 説明 空白 アラビア数字 英字小文字 英字大文字 ひらがな カタカナ その他. でも2次解以降で正解となる場合があり,冗長解析結 果を使うことによって,より頑健な解析を行うことが できる.第二に,形態素解析モデルに複合語が登録さ れている場合,1次解に長い単位である複合語が表わ. 3.3. れ,2次解以降に短い単位である複合語を構成する単 語が表われる.短い単位の中には,固有表現を抽出す. サポート ベクト ルマシンを用いたチャ ンキング. チャンキングにはサポートベクトルマシンを基にし. yamcha [6] を利用した.以下にサポー. る際に有用な接辞が含まれており,チャンカーにより. たチャンカー. 豊かな情報を素性として与えることができる.本稿の. トベクトルマシンを用いたチャンキングについて述べ. 実験では3次解までを用いることにした.. る.詳細は文献. 3.2. [10] を参照のこと.. 文字単位に分割. 入力文を文字単位に分割する.各文字を通過する各 形態素の内で,文頭からのコスト和が小さい順に3つ までの品詞情報をその文字に付与する.品詞情報とと もに,各形態素における,当該文字の位置について,. SE に基づいたタグを付与する.図 2 に整形後のテキストの例を示す.. チャンクタグ集合 小 泉 首 相 が 9 月 に 訪 朝. EOS. 図. 2:. 名詞-固有名詞-人名-姓-B 名詞-固有名詞-人名-姓-E 名詞-一般-B 名詞-一般-E 助詞-格助詞-一般-S 名詞-副詞可能-B 名詞-副詞可能-E 助詞-格助詞-一般-S 名詞-サ変接続-B 名詞-サ変接続-E. 接頭詞-名詞接続-S 名詞-固有名詞-地域-一般-E 名詞-一般-S 名詞-接尾-一般-S. *. 名詞-数-S 名詞-接尾-助数詞-S 助詞-副詞化-S. * *. 名詞-一般-S 名詞-固有名詞-一般-E 名詞-接尾-助数詞-S. * * *. 正例. 正例のサポートベクトル. 負例. 負例のサポートベクトル. 4: サポートベクトルマシン サポートベクトルマシンは,n 次元素性ベクトル x と正・負の2値ラベル y の2つ組 (x ; y ) で表現され る l 個の訓練事例 (0 < t  l) に対して,正・負のラ ベルを正し く分離するような超平面 w  x + b ( 但し w; x 2 R )を求める二値線形分類器 [2] である.図 4 図. 名詞-一般-S. * * *. t. t. 冗長形態素解析結果を付与した文字単位分割後. のテキスト. n. −51−. t. t.

(4) 位置. 文字 小 泉 首 相 が. 2 i 1 i i+1 i+2 i. 字種. 品詞情報(1次解) 名詞 固有名詞 人名 姓 名詞 固有名詞 人名 姓 名詞 一般 名詞 一般 助詞 格助詞 一般. OTHER OTHER OTHER OTHER HIRAG. -. -. -. -. -. -B -E. 品詞情報( 2次解) 接頭詞 名詞接続 名詞 固有名詞 地域 一般 名詞 一般 名詞 接尾 一般. - -B - -E. -. -S. 図. 3:. -. -S. - - -E -S - - -S * -. 品詞情報( 3次解) 名詞 一般 名詞 固有名詞 一般 名詞 接尾 助数詞. 固有表現タグ. -. -S B-PERSON - -E I-PERSON - -S O * *. 導入する素性. において破線は求める分離超平面に平行で等距離にあ. p. る超平面でこの間の距離をマージンと呼ぶ.サポート. p. p. (x) = (x21 ; 2x1 x2 ; 2x1 ; 2x2 ; x22 ; 1); x = (x1 ; x2 ):. ベクトルマシンは,正・負例を正しく分類する数多く の超平面の中から,マージンが最大となるような分離 超平面を求めるアルゴ リズムである.マージンの最大 化は. jjwjj の最小化と同値であり,これは式 (1) を 式. サポートベクトルマシンは正例・負例を分類する二. (2) の制約の基で最大化する双対問題と等価であるこ. 値分類器であり,チャンキング抽出規則を学習するた. とが知られている.. めに3つのクラスに分類する多値分類に拡張する.代. X 1 X y y K(x ; x ); 2 X y = 0; 0  ; l. l. i. i. =1. i. j. i. j. i. (1). j. i;j. l. i. i. (2). i. =1. i. K (a; b) = (a)  (b):. (3). (1) の K (x ; x ) を Kernel 関数と呼び , 式 (3) で示す.2つのベクトル a; b 2 R を関数 (x) ここで式. i. One v.s. Rest 法と Pair Wise 法 がある.One v.s. Rest 法は,あるクラスかそれ以外 表的な手法として. j. n. かという二値分類器をクラスの数だけ用意する手法で ある.これに対し,Pair. Wise 法は k 個のクラスから. 任意の2つのクラスに関する二値分類器を. k. C2. 個構. 築する手法である. チャンキングは. 3.2 節で示した素性をサポートベク. トルマシンに与え,その出力クラスを基に文頭もしく は文末から一方向に決定的に行われる.図. 3 に前後2. で写像した空間での内積で表す.最終的に未知の事例. 文字文脈,字種,文字および冗長形態素解析結果3次. x に対する正・負例の分類は,超平面からの位置( 式. 解までの品詞を用いた場合に利用される素性を示す.. (4) )によって決定される.. X y K(x ; x) + b). する.. l. i. i. i. =1. (4). i. 本手法では. O を推定. するために,実線の内部にあるものを素性として利用. f (x) = sgn(w  x b). = sgn(. この例では,位置 i における固有表現タグ. n 次の多項式関数を Kernel 関数として n 個までの素性の組み合わせ. 利用した.これにより. を考慮した学習が計算量を大きく変化させることなく 可能になる.2 次の多項式関数の場合の. Kernel 関数. を以下に示す.. 4. 評価実験. 4.1. データ. CRL (通信総合研究所) 固有表現データを 使用した.CRL 固有表現データは,毎日新聞95年 度版 1,174 記事,約 11,000 文に対して IREX で定義 実験には. された固有表現がタグ付けされている.このデータ中. K (a; b) = (a  b + 1)2 = (a1 b1 + a2 b2 + 1)2 = a21 b21 + 2a1 a2 b1 b2 + 2a1b1 + 2a2b2 + a22 b22 + 1 = (a)  (b):. の固有表現の総数は. 19,262 個であった.評価は CRL. 固有表現データを5等分に分割し,訓練4,テスト1 の比率で交差検定を行い,それらの. F 値 (

(5) = 1) の. 平均を精度比較に利用する.尚,本実験の有効数字は 3ケタであるが,先行研究の多くが4ケタ目まで出し ているので,本論文も4ケタ目まで表示する.実験で. −52−.

(6) は,ことわりがない限り,モデル作成時間が速い. Wise 法を用いる.. Pair. 4.3. 冗長解析結果の深さの違いによる精度 の比較. 以下の実験において解析に利用するチャン クタグ は,予備実験で最も精度が良かった. IOB2 モデルに固. 次に素性として利用する冗長解析結果の深さを変化. 定した.. させた場合の精度比較を行う.この実験では,素性と して利用する文脈を左2文字右2文字に,利用する素 4.2. 文脈長の違いによる精度の比較. 性を品詞,文字,字種,前固有表現タグの4種類に固 定して行った.表. まず,文脈長の違いによる精度比較を行う. 表. 3 に文脈長を変化させた際の実験結果を示す.精. 5 に結果を示す.. 順方向解析の場合には,冗長解析結果を素性として. 度は8つのタグ全ての解析精度 (F 値) による.チャン. 加えれば加える程精度が悪くなるという現象が見られ. キングの方向が順方向( 左→右)の場合と逆方向( 左. た.逆方向解析の場合には冗長解析結果を3次解まで. ←右)の場合を比べると逆方向の方が精度が高いと言. 素性として加えたものが最も精度が良かった.. える.全体の精度に関して,順方向の場合は素性とし て加える文脈長を伸ばせば精度も伸びていくのに対し, 逆方向の場合は左2文字右2文字見る場合が一番精度 4.4. が良い.. 素性の違いによる精度の比較. 各固有表現タグ毎に見ていくと,固有表現によって 精度が最も良くするために必要な文脈長が異なってい ることがわかる.\MONEY" と. \PERCENT" に関. しては左2文字右1文字という,より短い文脈長で精 度が最高であり,\ORGANIZATION" に関しては左. 3文字右3文字という,より長い文脈長が必要である. ことがわかる.\MONEY" と. \PERCENT" につい. ては,一文字のみの接尾辞(「 円」 「 割」)が固有表. 必要な素性について検討する.表. 6 に文脈を左右2. 文字に固定した上で素性を変化させた結果を示す.導 入した素性は「文字」 「字種」 「品詞」 「固有表現タグ 」 の4種類で,これら全てを用いたもの, 「 文字」を用い なかったもの, 「 字種」を用いなかったもの, 「 品詞細分 類」を用いなかったものについて,各固有表現の精度 および全体の精度を示す.. 現を決定するために重要な鍵となっているためより短 い文脈で推定できているのであろうと考える.逆に. \ORGANIZATION" はより長い接尾辞(「会社」「研. 一般に「文字」の情報を除くと精度が急激にさがっ てしまう.これは品詞表現だけでは粗いために各固有. 究所」)が固有表現を決定するために重要な鍵となっ. 表現を開始位置または終了位置を捕捉するだけの情報. ていることが予測される.. が得られないことが考えられる.表. これらの各固有表現間の精度が文字長と関連するか ど うか調べるために各固有表現の平均文字長を表. 4に. 7 に各固有表現中. で利用されている字種の割合を示す. 「 字種」の情報は カタカナ語を多く含む固有表現である. \ARTIFACT". 示す.特に必要な文脈長と平均文字長との間には関連. \LOCATION" \PERSON" などで有効であるが,数. 性が見られないように思われる.. 量表現などにおいては逆に精度を下げる要因になって. 表. 4: 各固有表現の平均文字長. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. 平均文字長. 5.87 3.17 3.53 5.08 4.36 3.03 3.53 3.41 3.80. いることがわかった.これは漢数字などを数字として 認定していないことによるものと考えられる. 「 品詞細 分類」を除くと精度がさがった.これは各固有表現を 決定するために接尾辞等の細分類が有効であることに よると考えられる. また,本実験では導入しなかったが,予備実験で活 用の情報を入れると精度が若干さがった.これは一般 に固有表現は活用語を含まないためであると考えら れる.. −53−.

(7) 表 文脈長 解析方向. 3:. 文脈長の違いによる精度の比較 (%). 左1右1 順 逆. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME. 43.29 85.68 82.30 46.49 70.09 68.96 87.52 89.35 79.44. 全体. 56.93 90.84 87.86 95.36 77.65 96.00 89.02 88.85 85.92. 左1右2 順 逆. 48.01 90.78 85.21 58.81 75.97 86.00 89.27 83.60. 90.56. 57.32 90.57 88.17 95.36 78.05 95.71 89.16 88.38 86.10. 左2右1 順 逆. 48.21 86.06 82.62 51.84 70.05 74.41 87.99 89.63 80.22. 左2右2 順 逆. 61.26 93.47 89.46 81.46 96.40 88.28 88.25. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 90.51 84.20. 96.46. 91.08. 左3右3 順 逆. 61.61 94.22 89.49. 95.75 81.25 90.86 88.18. 96.55. 88.34. 52.48 92.53 87.39 76.23 77.77 88.25 89.87 85.61. 90.56. 59.02 93.85 89.08 95.85 95.44 90.76 89.38 88.22. 81.87. 冗長解析結果は3次解まで利用,素性(品詞,文字,字種,前固有表現タグ ). 関数は2次の多項式関数, 法.文脈長は文字数.. Kernel. 表 冗長解析 解析方向. 5:. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. Pair Wise. 冗長解析結果の深さの違いによる精度の比較 (%) 1次解のみ 順 逆. 55.42 90.81 86.08 64.70 76.69 87.34 90.03 89.73 84.67. 61.10 93.79 89.16 96.78. 2次解まで 順 逆. 52.10 91.31 85.75 65.85 76.32 88.09 90.73 89.47 88.02 90.02 88.20 84.43. 81.46 97.11. 3次解まで 順 逆. 60.37 50.63 91.40 85.64 96.76 65.76 81.16 75.48 96.42 88.02 90.62 89.46 88.65 90.51 88.30 84.20. 61.61. 94.22 95.75 81.25 96.55 88.18. 94.34 89.49. 89.49. 90.86 88.34. 4次解まで 順 逆. 51.15 91.35 85.16 66.61 75.83 86.22 89.32 84.09. 61.42 94.01 89.33 81.26 96.48 90.74 88.10 88.24. 96.89. 90.81. 左2文字右2文字文脈,素性(品詞,文字,字種,前固有表現タグ ). 関数は2次の多項式関数. 法.. Kernel. 4.5. 多項式 Kernel 関数の次数の違いによ る精度の比較. 適用する多項式 Kernel 関数の次数 d を. 1 から 4 に. て. 8 に結果を示す.全体とし ては,次数 2 で精度が最高なために,2 つの素性の組 要であるかを調査した.表. み合わせを見ることが重要であることがわかる.しか. し ,\MONEY". \TIME" の数値表現に関しては,問 題が簡単であるため次数 1 で最高の精度が得られた.. 4.6. Pair Wise. 法と. One v.s. Rest. One v.s. Rest の方が良い結果が得られた.. 表. 変化させ,素性の組合せを考慮した学習がどれだけ重. 法の. 比較. Pair Wise 法に基づいて実験を Pair Wise 法の方が One v.s. Rest 法より計算時間が短いことによる.Pair Wise 法で最 高の精度が出た素性の組み合わせで,One v.s. Rest でも精度評価を行った.表 9 に結果を示す.全体とし 前節までは基本的に. 行ってきた.これは. −54−. Pair Wise. 9: Pair Wise 法と One v.s. Rest 法の比較 (%) Pair Wise One v.s. Rest 解析方向. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. 順. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 84.20. 90.51. 逆. 61.61 94.22. 89.49 95.75 81.25 90.86 88.18 88.34. 96.55. 順. 53.15 91.64 86.19 67.44 76.26 87.91 89.78 90.06 84.75. 逆. 61.59 94.06. 89.62 96.21 81.50. 96.01 89.45. 91.05 88.49. 左2文字右2文字文脈,冗長解析結果は3次解まで利用. 素性(品詞,文字,字種,前固有表現タグ ). 関数は2次の多項式関数.. Kernel.

(8) 表 素性 解析方向. 6:. 素性の違いによる精度の比較 (%). 全て. 順. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME. 50.63 91.40 85.64 65.76 75.48 88.02 89.46 90.51 84.20. 全体. −文字. 逆 61.61 94.22 90.49. 95.75 81.25 96.55 88.18. 90.86 88.34. 順. −字種. 逆. 30.06 77.73 77.46 54.90 61.78 72.78 84.81 84.28 73.69. 33.30 82.42 80.89 89.10 64.39 83.92 85.95 83.35 77.55. 順. 51.07 91.66 85.64 65.30 75.76 87.83 88.90 84.23. 90.63. 逆. −品詞細分類 順 逆. 61.06 51.10 58.78 90.29 93.06 89.56 79.03 84.28 64.56 94.10 71.47 76.81 85.71 93.86 89.74 81.44 85.33 88.37 88.89 87.84 88.19 79.44 84.38. 94.22 96.02 81.49 96.75. 左2文字右2文字文脈,冗長解析結果は3次解まで利用. 関数は2次の多項式関数. 法.. Kernel. 7: ZSPACE ARTIFACT 0.0 DATE 0.0 0.0 LOCATION MONEY 0.0 0.0 ORGANIZATION PERCENT 0.0 0.0 PERSON TIME 0.0 表. 4.7. Pair Wise. 各固有表現中の字種の割合 (%) 字種. ZDIGIT ZLLET ZULET HIRAG KATAK OTHER 2.8 0.1 3.2 9.3 33.4 50.9 5.1 0.0 0.0 1.4 1.3 92.0 0.1 0.0 0.1 0.4 44.6 54.6 10.6 0.0 0.0 0.1 13.2 75.9 0.0 0.0 3.8 1.8 23.5 70.7 10.8 0.0 0.0 2.0 6.9 80.1 0.0 0.0 0.0 1.1 40.4 58.2 5.8 0.0 0.0 0.1 0.0 93.9. 5 まとめと今後の課題. 考察. 一番良いモデル1で,88.49%(F 値) の精度が得られ. た.表 10 に先行研究との比較を示す.現在のところ報 告されている最高精度を達成していると言えるだろう. 先行研究では,前後2形態素の品詞情報が有効であ るとされてきた.本研究は,冗長解析した上で前後2 文字の情報を取ることで,先行研究を上回る精度を達 成できることが確認された.. 本手法はまとめあげ手法に文献 [10] と全く同じもの. 本稿では日本語固有表現抽出タスクに対し,冗長的 な形態素解析結果の利用する手法を提案し,その有効 性を示した.形態素解析の3次解までを利用し,形態 素解析器の性能を十分に引き出すことにより,高い精 度を得ることができた.また,文字単位にまとめ上げ を行うことにより,わかち書きの問題も解決すること ができた. 冗長的な形態素解析は,自然言語処理における他の. を採用しているが,この文献では,わかち書きの問題. 85.1% である. タスクにも利用可能であると考える.特に学習モデル. ことを報告している.この値と今回の評価実験と比較. の改善による精度向上が飽和しているようなタスクに. すると,我々の提案手法がわかち書きの問題を解決し. ついて,2次解,3次解といった多くの素性を与える. ている以上の大幅な精度改善を達成していることがわ. ことにより,精度向上が達成できるだろう.. が起きないような環境での評価実験で. かる.. Pair Wise 法では,有用な素性の組み合わせを各固 Rest 謝辞. 有表現タグ毎に換えることができない.One v.s.. では,各固有表現タグ毎に取り得る素性を換えられる. ため,各固有表現タグ毎に最適化した素性選択を行う ことにより,より良い精度が達成できると考える. 1 左2文字右2文字文脈,冗長解析結果は3次解まで利用,素性. Kernel 関数は2次の多項. (品詞,文字,字種,前固有表現タグ ), 式関数, 法). One v.s. Rest. 有用な議論をしていただいた北陸先端科学技術大学 院大学の山田寛康氏と. yamcha を公開している奈良. 先端科学技術大学院大学の工藤拓氏に感謝の意を表し ます.. −55−.

(9) 表. 8:. 多項式. 素性 解析方向. ARTIFACT DATE LOCATION MONEY ORGANIZATION PERCENT PERSON TIME 全体. Kernel 関数の次数の違いによる精度の比較 (%) 1次. 順. 48.03 90.40 85.20 63.03 74.96 85.98 87.69 83.21. 91.40. 2次. 逆. 58.94 92.84 87.06 77.55 96.48 89.53 88.56 86.28. 96.59. 順. 3次. 逆. 順. 逆. 順. 4次 逆. 50.63 49.68 58.19 46.15 52.83 91.40 91.58 93.23 90.87 92.07 85.64 85.35 88.57 84.69 87.38 65.76 95.75 62.99 95.20 58.83 93.06 75.48 74.96 80.01 73.93 78.44 88.02 85.15 93.38 80.08 90.23 89.46 88.87 89.87 88.02 88.35 90.51 88.18 89.47 87.54 89.16 84.80 84.20 83.83 87.27 82.88 85.76 61.61 94.22 89.49 81.25 96.55 90.86 88.34. 左2文字右2文字文脈,冗長解析結果は3次解まで利用. 素性( 品詞,文字,字種,前固有表現タグ ). 法.. Pair Wise. 表. CRL 公開 2000 [4] 2000 [7] 2002 [10] 2001 [8] 2002 [5] 2002 [3]. 内元 颯々野 山田 竹元 宇津呂 磯崎 本手法. データ. 83.7% 86.77% 88.49%. 10:. 先行研究との比較. IREX 学習モデル GENERAL 80.17% ME 82.8% ME SVM 83.86% 辞書+規則 84.07% ME 決定リスト+スタッキング 85.77% SVM with sigmoid curve SVM. わかち書きの問題への対処 書き換え規則の導入 学習データにあるものは分割 複合語分割辞書 未知語コストを下げる 文字単位にチャンキング. 情報処理学会研究会報告 (自然言語処理研究会),. 参考文献. No. 2000-NL-139-1, pp. 1{8, 2000. [1] IREX 実行委員会( 編). IREX ワークショップ [8] 竹元義美, 福島俊一, 山田洋志. 辞書およびパター 予稿集, 1999. ンマッチルールの増強と品質強化に基づく日本 [2] V.N. Vapnik. Statistical Learning Theory. A 語固有表現抽出. 情報処理学会論文誌, Vol. 42, Wiley-Interscience Publication, 1998. No. 6, pp. 1580{1591, 2001. [3] 磯崎秀樹, 賀沢秀人. SVM に基づく固有表現抽 [9] 松本裕治, 北内啓, 平野善隆, 松田寛, 高岡一馬, 出の高速化. 情報処理学会研究会報告 (自然言語 浅原正幸. 形態素解析システム『茶筌』 version 処理研究会), No. 2002-NL-149-1, pp. 1{8, 2002. 2.2.9 使用説明書. 奈良先端科学技術大学院大学, 2002. [4] 内元清貴, 馬青, 村田真樹, 小作浩美, 内山将夫, 井佐原均. 最大エントロピーモデルと書き換え規 [10] 山田寛康, 工藤拓, 松本裕治. Support Vector Ma則に基づく固有表現抽出. 自然言語処理, Vol. 7, chine を用いた日本語固有表現抽出. 情報処理学 No. 2, pp. 63{90, 2000. 会論文誌, Vol. 43, No. 1, pp. 44{53, 2002. [5] 宇津呂武仁, 颯々野学, 内元清貴. 正誤判別規則 学習を用いた複数の日本語固有表現抽出システム. の出力の混合. 自然言語処理,. Vol. 9, No. 1, pp.. 65{100, 2002. [6] 工藤拓, 松本裕治. Support Vector Machine を用 いた Chunk 同定. 自然言語処理, Vol. 9, No. 5, pp. 3{23, 2002. [7] 颯々野学, 宇津呂武仁. 統計的日本語固有表現抽 出における固有表現まとめ上げ 手法とその評価.. −56−.

(10)

図 1: 固有表現タグの例 ChaSen は -v -w [ コスト 幅 ] のオプ ションをつ けることにより,冗長解析出力を行うことができる. ChaSen はコスト最小法を用いた形態素解析器であり, コストはマルコフモデルに基づいてコーパスから推定 された対数尤度を用いている.上記オプションを用い ることにより,最適解がもたらすコストから指定され たコスト幅以内にある可能な2次解,3次解を出力す ることができる.本手法で利用するコスト幅は,最小 確率値に割り振られるコスト値である 4000 を用いる.
表 3: 文脈長の違いによる精度の比較 (%) 文脈長 左1右1 左1右2 左2右1 左2右2 左3右3 解析方向 順 逆 順 逆 順 逆 順 逆 順 逆 ARTIF ACT 43.29 56.93 48.01 57.32 48.21 61.26 50.63 61.61 52.48 59.02 DA TE 85.68 90.84 90.78 90.57 86.06 93.47 91.40 94.22 92.53 93.85 LOCA TION 82.30 87.86 85.21 88.17 82.62 89
表 7: 各固有表現中の字種の割合 (%)
表 8: 多項式 Kernel 関数の次数の違いによる精度の比較 (%) 素性 1次 2次 3次 4次 解析方向 順 逆 順 逆 順 逆 順 逆 ARTIFACT 48.03 58.94 50.63 61.61 49.68 58.19 46.15 52.83 DA TE 90.40 92.84 91.40 94.22 91.58 93.23 90.87 92.07 LOCATION 85.20 87.06 85.64 89.49 85.35 88.57 84.69 87.38 MONEY 63.03 96.

参照

関連したドキュメント

本表に例示のない適用用途に建設汚泥処理土を使用する場合は、本表に例示された適用用途の中で類似するものを準用する。

2月使用分 前年の 12 月1日~12 月 10 日に抽選予約 ⇒ 前年の 12 月 11 日に結果発表 3月使用分 当該年の1月1日~1 月 10 日に抽選予約 ⇒ 当該年の1月 11 日に結果発表

現在、東日本高速道路㈱北海道支社管内における標準 の表層用アスファルトコンクリート舗装(以下:

 地表を「地球の表層部」といった広い意味で はなく、陸域における固体地球と水圏・気圏の

氏名 生年月日 本籍 学位の種類 学位記番号 学位授与の日付

 中国では漢方の流布とは別に,古くから各地域でそれぞれ固有の生薬を開発し利用してきた.なかでも現在の四川

のとおりである。 図表 2-1-26 悪臭防止法に基づく地域指定状況図       (26 年3月 31 日現在). 第 2

 その後、徐々に「均等範囲 (range of equivalents) 」という表現をクレーム解釈の 基準として使用する判例が現れるようになり