2009 年度夏学期大学院輪講資料 2010 年 4 月 30 日ウェブテキスト分析における固有表現の曖昧性解消 Word sense disambiguation of named entities for Web text analysis 情報理工学系研究科電子情報学専攻 Abstract

(1)

1 2009 年度夏学期大学院輪講資料 2010 年 4 月 30 日

ウェブテキスト分析における固有表現の曖昧性解消

Word sense disambiguation of named entities for Web text analysis

情報理工学系研究科電子情報学専攻喜連川・豊田研究室修士課程

2 年村本英明

Abstract

Sense ambiguity of polysemous named entities is a critical problem of text analysis. Generally, sense dis-ambiguation is formalized as the classification problem classifying each appearance of ambiguous word into the predefined categories. Most methods are based on su-pervised machine learning techniques using huge amount of manually labeled data. So, these methods aren’t flexible for category change, because preparation of a huge amount of manually labeled data is needed whenever category design changes.

We investigate the framework which can disambi-guate named entities without manually labeled data, and evaluate it. We mention the experimental result, and problems of our framework for our future work.

1. はじめに今日，ブログやtwitter1_{等のソーシャルメディアを通じ} て，多くのテキスト情報がウェブに発せられている．総務省の調べによると１カ月に約４千万のブログ記事が日本だけでポストされたことが分かっている[1]．こうしたソーシャルメディアを通じて発せられるテキスト情報は，人々の意見や考えを含んでいる．そのため，ウェブのテキスト分析は，社会動向を知るために有用である．例えば，Fig. 1 は，”Windows7”という単語を含むフィードの件数を週次で図示したものである．この図から，2009 年10 月頃に”Windows7”という単語を含むフィードの件数が急増していることが分かる．これは，”Windows7”の発売日の前後で，人々の”Windows7”に対する関心が急に高まっていることの現れである．この例は，ウェブのテキスト情報は，人々の関心を知る手掛かりになることを示している．

1 _{Twitter, http://twitter.com/}

Fig. 1 Number of feeds that contain “Windows7” また，Fig. 2 は，”tiger”という単語を含むフィードの件数を図示したグラフである．この図からはオペレーティングシステムの”tiger”に関する，人々の関心は知ることができない．これは，”tiger”が多義語(トラとしての”tiger”や人名の”Tiger”)であり，それぞれの語義で用いられた”tiger” という単語を区別せずに，フィード件数を集計したことが原因である．

Fig. 2 Number of feeds that contains “tiger” “tiger”のような多義語が持つ言葉の意味の曖昧性のことを，語義の曖昧性と呼ぶ．上の例からも分かるように，多義語はウェブのテキスト分析の結果に悪影響を及ぼす．そのため，語義の曖昧性を扱う研究が，数多くなされてきた．語義の曖昧性を扱った研究として，語義の曖昧性解消 (word sense disambiguation, WSD)[2]や，固有表現抽出 (named entity recognition, NER)[3][4]が挙げられる．これらは，新聞記事を対象とした古典的な枞組みであるため，製品名や映画や音楽を始めとする作品名等の新語が絶えず出現するウェブテキストの分析には適さない．そこで，我々はウェブテキストの分析に適した語義の曖昧性の解消のための新しい枞組みの提案を目標として研究を行う．本報告会では，そのための予備実験を行ったので，その結果を報告する．

(2)

2

本論文の構成は以下の通りである．まず２章で先行研究，及びその問題点について述べる．次に３章で我々の研究の目的及びアプローチについて説明する．そして４章で予備実験の方法，及びその結果について述べ，５章で今後の課題について述べ，６章で本稿のまとめを述べる． 2. 先行研究固有表現の語義の曖昧性を扱った研究としては，語義の曖昧性解消(word sense disambiguation, WSD)と，固有表現抽出(named entity recognition, NER)が挙げられる．まず，2.1 で語義を扱うために必要となる基本的な考え方について説明し，2.2 で WSD について，2.3 で NER について説明する． 2.1. 語義の扱い方語義の扱い方として，辞書・シソーラスを用いる手法と，分布類似度を用いる手法がある．それらについてそれぞれ説明する． 2.1.1. 辞書・シソーラスを用いた手法語句の意味を扱う方法の一つとして，辞書やシソーラスを用いる方法があげられる．ここでは，広く用いられているWordNet[5]を例に説明する． WordNet とは，synset と呼ばれる語義が，各単語について振られているシソーラスのようなものである．

単語”plant”についての WordNet での記載は Table 1 のようになっている．”plant”については，4 つの語義が定義されている．また，”tiger”については Table 2 のようになる．”tiger”については 2 つの語義が定義されているが，人名や製品名という語義の定義は記載されていない．このことから分かるように，WordNet にはすべての語義が網羅的に記載されているわけではない．これは，辞書やシソーラスといった言語資源が人手で作成されていることによる限界の一例である．こうした不完全性に対処するために，シソーラスの語義をコーパスを用いて自動的に拡張する取り組みである word sense induction(WSI)という研究がなされている [6][7]．

Table 1 Definitions for plant in WordNet synset-id Definition

00017222-n a living organism lacking the power of locomotion

05906080-n something planted secretly for dis-covery by another

03956922-n buildings for carrying on industrial labor

10438470-n an actor situated in the audience whose acting is rehearsed but seems spontaneous to the audience

Table 2 Definition for tiger in WordNet synset-id Definition

02129604-n large feline of forests in most of Asia having a tawny coat with black stripes; endangered

10710632-n a fierce or audacious person

2.1.2. 分布類似度による手法上で示したように，人手で作成された辞書やシソーラスには，網羅できる語義の数に限界がある．そのため，自動的に語義を扱える手法として分布類似度が考案されてきた．分布類似度とは，語句の意味の類似度を，コーパスを用いて自動で計算する手法のことである．分布類似度は，「似た意味の語句は似た文脈で出現する」という分布仮説[8]に基づいて計算される語句の類似度である．例えば，次のような英文を考える．

(1)・A bottle of tezguino is on the table. ・Everyone likes tezguino.

・Tezguino makes you drunk.

・We make tezguino out of corn.

(2)・I drank two bottles of Heineken , and got drunk. ・A bottle of Heineken is in the refrigerator.

(1)の例文から，tezguino の単語の意味を我々はアルコール飲料の一種だと，文脈から推測することができる．これは，文脈と語句の意味が密接に関係していることを表している．また，(1)と(2)の tezguino と Heineken の近傍の文脈を比較すると文脈が類似していることが分かる．このよ

(3)

3

うに，「似た意味を持つ語句は似た文脈で出現する」ことが(1)，(2)の例から見てとれる．分布類似度計算において，文脈は近傍にある単語を特徴量とするベクトルで表現される．例えば，tezguino と Heineken の 2 つの単語をベクトルで表現すると次のようになる．なお，各値は各近傍の単語の出現頻度を表している．

Table 3 Example of feature vectors Feature … bottle like drink … Tezguino … 1 1 2 … Heineken … 2 0 1 … 各語句がベクトル表記されると容易に類似度を計算することができる．分布類似度計算において用いられる代表的な類似度としてコサイン関数があげられる．コサイン関数は，以下で定義される．なお，v1, v2とは，語句をベクトル表現したベクトルのことである． cos v1, v2 = _𝑣𝑣1∙𝑣2 1 𝑣2 このようにして，各語句間の類似度を計算することができる． 2.2. 語義の曖昧性解消

語義の曖昧性解消（word sense disambiguation, WSD）とは，対象単語をWordNet 等で，あらかじめ定義された語義に割り振る問題である[2]．例えば，”plant”については，文章中に出現する，各”plant”に対して，Table 1 の４つの synset の中から，１つを選び，割り当てる．そのため，”tiger”の例のように，WordNet に記載されていない，語義は扱うことができない．そのため，WSI と WSD を組み合わせた取り組みである，WSID(word sense induction and discrimination)という研究がなされているが[9]，分類する語義の粒度が細かいため，十分な精度が得られないという問題点が指摘されている[10]．

2.3. 固有表現認識 2.3.1. 固有表現認識の概要

固有表現認識(named entity recognition, 以下 NER)とはテキスト中から人名，組織名，地名等の固有表現の認識を行う処理で，情報抽出等に用いられる．日本語のNER の

研究では，一般にIREX ワークショップ[4]の定義を用いることが多い．IREX では固有表現を，ARTIFACT, DATE, LOCATION, MONEY, ORGANIZATION, PERCENT, PERSON, TIME の 8 つのカテゴリで定義している．Table 4 に８つのカテゴリとその例を説明する。

Table 4 Categories of named entity recognition

カテゴリ例 PERSON 田中，木村庄之助 LOCATION 太平洋，東京都 ORGANIZATION 松下電器，自民党 ARTIFACT PL 法案，カローラ DATE 21 世紀，昨年春 TIME 午前7 時，正午 MONEY 500 億円，100 ドル PERCENT 20％，3 割 NER の枞組みを用いることによって，例えば，次の２つの例文中の “ホンダ”は，それぞれ，ORGANIZATION とPERSON のカテゴリが割り振られるため，多義性を解消することができる． (3)・ホンダが F1 から撤退した．・先日，ホンダさんと食事をした． NER においては，人手で作成した訓練データを用いた機会学習による手法が用いられるのが一般的である．代表的には機会学習アルゴリズムの conditional random field[11]を用いて，ラベル付きデータを用いて学習する手法が用いられる[3][12]． 2.3.2. 固有表現抽出の課題 NER は，Table 4 の８つのカテゴリに固有表現を分類するため，次の例のような問題点が生じる． (4)・ニュートンの先月号の特集は面白かった．・ニュートンは１７世紀から１８世紀にかけて活躍したイギリスの物理学者である．上の１つめの例は，人名の「ニュートン」，2 つめの例は，雑誌名の「ニュートン」を示しているが．こうしたカテゴリはNER のカテゴリには存在しない．そのため，NER のカテゴリでは，製品名や，雑誌や映画等の作品名が絶えず出現し，ウェブテキストに含まれる単語の曖昧性解消に用

(4)

4

いるのには，カテゴリ数が少ないと言える．こうしたNER のカテゴリが持つ問題点を解決するために，関根らは拡張固有表現[13]を提案している．拡張固有表現では，２００種類以上のカテゴリに固有表現を分類している．拡張固有表現は，NER の持つカテゴリの少なさによる問題点を解消しているが，分類対象となるカテゴリ数が増えたことにより，NER と比較して，ラベル付きデータの準備に人手がかかることや，分類器の精度が低下することが報告されている[14]． 3. 研究の目的と提案手法 3.1. 研究の目的上で述べたように，NER は，カテゴリがウェブのテキスト分析には適さないという問題点がある．そのため，我々は，ウェブテキストの分析に適したカテゴリの設計を行う．加えて，人手でラベル付けした訓練データが不要な手法の提案を目標にして研究を行う．これは，カテゴリの設計は，アプリケーションに依存することが多いため，カテゴリの設計が変わる度に，訓練データのラベリングを人手で行うことは不可能であるためである． 3.2. 提案手法 3.2.1. 概要上で説明したように，NER ではウェブテキストの解析には十分ではない．そこで，不足しているカテゴリを拡張する．カテゴリの拡張は関根の拡張固有表現を参考にして行う．カテゴリセット毎に，訓練データを人手で作成することは困難である．そのため，人手で作成した訓練データによらない手法を提案することを目的とする．そこで，我々はPERSON や LOCATION といった単語の下位語集合を辞書等の言語資源を用いて抽出し，その下位語集合と対象とする単語との類似度を用いて，曖昧性を解消する手法を提案する．我々の手法は次の４つのステップからなる． ① カテゴリの設計アプリケーション等に応じてカテゴリを設計する．例えば，本報告会の実験においては，関根の拡張表現を参考に NER のカテゴリを修正し，１１個のカテゴリを準備した． ② 各カテゴリの下位語集合の準備辞書やシソーラス等の言語資源から，名詞の下位語集合を抽出することができる．得られた下位語集合と①で定義したカテゴリとの対応関係のルールを記述することで，各カテゴリの下位語集合を準備することができる．本稿では，岩波国語辞典[15]を用いて下位語集合を作成する手法について述べる． ③ 候補カテゴリの選択各カテゴリの下位語集合の各単語と，対象とする単語のウェブのコーパス上での分布類似度を計算し，類似度の高いカテゴリを候補カテゴリとして抽出する．これは，分類対象となるカテゴリ数の増加に伴い，各出現に対して，一度で，分類を行うのは困難なので[14]，まず，対象となるカテゴリを絞り込むことで精度の向上を試みたいという理由からである．例えば，”tiger”の場合は，PRODUCT， PERSON，LIVING_THING といったカテゴリが候補として，選ばれることが期待される． ④ 各出現を該当するカテゴリへ分類各文に出現する各単語の語義が，③で選択された候補カテゴリの中から一つ選ばれる．例えば，”tiger”という単語はPRODUCT，PERSON，LIVING_THING というカテゴリの中から，一つが選択され，それに分類される．なお，本報告会の段階では，手法の詳細については，検討中である．本報告会では，①～③の手法についての検討を行ったので，以下，①～③の各ステップの詳細について説明する． 3.2.2. カテゴリの設計方法分析する対象に応じてカテゴリの設計を行う．我々が本報告会までに行った，カテゴリの設計を例に，説明をする．

我々は，Fig. 1 や Fig. 2 の”Windows7”や”tiger”の例で示したように，固有名の曖昧性解消を研究の目的としている．そのため，NER が対象としている時間の表記等のカテゴリは，削除して考えることとする．NER のカテゴリから，数値表現等のカテゴリを削除すると，PERSON， ARTIFACT，LOCATION の３つのカテゴリしか残らない．

(5)

5

これは，ウェブのテキスト分析の多義性解消を目的とした場合に，少なすぎる．そこで関根の拡張固有表現を参考にし，カテゴリの拡張を行った．我々は，以下の１１のカテゴリを準備した．これは，我々の研究は，製品や作品に対する評判や関心を知るという目的が反映された設計になっている．

LOCATION, PERSON, ARTIFACT, FOOD, LIV-ING_THING, ART_AND_PRINTIINGS, CLOTH-ING, DISEASE, VEHICLE, PRODUCT, EVENT ただし，このカテゴリは本報告会での予備実験のために用意した暫定的なものである． 3.2.3. 下位語集合の作成方法下位語集合の作成には，辞書を用いて行う．まず，上位下位関係にある単語を辞書から自動で抽出する手法について説明し，次に，得られた上位下位関係を用いて，辞書の見出し語とPERSON 等のカテゴリの対応関係を記述することで，NER のラベル付き訓練データを作成する場合と比較して，ごくわずかな労力でカテゴリの下位語集合が作成できることを示す． 3.2.3.1. 上位下位関係の抽出上位下位の関係にある単語の組み合わせは国語辞典の定義文から抽出することができる．定義文の一例として，表に，岩波国語辞典の見出し語とその定義文のをしめす． Table 5 Definition sentences of the dictionary

例見出し語定義文得られる上位語 1 教師学業を教える人．人 2 公務員国または地方公共団体の職務を担当する者．者 3 遊園地遊覧・娯楽などのための設備をした，公園風の土地．土地 4 公園公衆のために設けられた庭園や遊園地．遊園地 5 シューマイ中華料理の一種．中華料理 1~4 の例から，定義文の文末に位置する名詞が，見出し語の上位語になっていること分かる．ただし，5 の例のように，「一種」で定義文は終わる場合など，例外的な場合も存在する．また，5 の例から，「の一種」の前の「中華料理」が「シューマイ」の上位語になっていることが分かる．この例から分かるように，「の一種」の前に位置する名詞は，見出し語の上位語を表している．同様のパターンとして，「の一つ」や，「の一網」や「の一類」が挙げられる．上で述べた２つのパターンによって得られる上位下位関係は，単語をノード，上位下位の関係を枝と考えると木構造をなしている．岩波国語辞典から得られる木構造の一例を．Fig. 3 に示す．

Fig. 3 Tree structure of the dictionary

Fig. 3 から分かるように，ある単語をルートとする木構造から，その単語の下位語集合を抽出することができる．例えば，Fig. 3 の例では，「人」の下位語集合は，{「教師」，「友達」，「幼馴染」，「旧友」，「選手」，} となる． 3.2.3.2. 人手によるカテゴリと上位語の対応付け上記により得られた，見出し語とその下位語集合を用いて．カテゴリの下位語集合を作成する手法について説明する．各々のカテゴリに，国語辞典から得られた見出し語を割り当てるという作業を行う．例として，我々が準備した 11 のカテゴリに対して行った全対応関係を示す．

人

教師

友達

幼馴染

旧友

選手

…

者

公務員

…

(6)

6

Table 6 Example of mapping rule Category 見出し語 PERSON 人,者,子供,女性,男,女 LOCATION 場所,部屋,土地,国,山 FACILITY 店,施設,建物 FOOD 食品,食べ物,料理 LIVINGTHING 木,鳥,動物,昆虫,魚,生物,犬,花, 植物 ART_AND_PRINTTIN G 書物,本,作品,詩,絵,歌,文書,曲 CLOTHING 衣服 DISEASE 病気,症状 VEHICLE 車 ORGANIZATION 人々,機関,集団,会 PRODUCT_OTHER 道具,品,装置,機械,容器,楽器 EVENT 現象この表から分かるように，我々の手法において，人手が必要となる作業は，わずか４９個の国語辞典の見出し語と，カテゴリの対応関係を人手で記述するだけである．これは， NER のラベル付き訓練データを準備する場合と比較して，極わずかな作業であることに注意されたい． 3.2.4. 候補カテゴリの選択分布類似度を用いて，候補カテゴリの選択を行う．対象とする固有表現と，各カテゴリとの類似度の定義について述べる．対象とする固有表現と，各カテゴリ間の類似度は，カテゴリの下位語集合に含まれる分布類似度との平均で定義される．対象とする固有表現を w，カテゴリCi(i = 1,2,…,n)の下位語集合をSi= {hi1, hi2, … , hin}とすると，カテゴリCiと，対象とする固有表現w との類似度は，分布類似度を計算する関数distributionalSimilarity とすると，次のように定義できる． similarity w, Ci = 1 m distributionalSimilarity(w, hik) m k=1 上式で得られた類似度が，閾値以上のカテゴリを選択する． 4. 予備実験 4.1. 予備実験の目的我々の提案手法は，上で説明したように，①～④の4 つのステップからなる．本報告会では，④を除く，①～③についての評価実験を行った． ①～③のステップを行い，選択された候補カテゴリの妥当性の評価を行うことで，提案手法の有効性，及び，問題点を確認することを目的として予備実験を行った． 4.2. 実験方法提案手法の，①～③の各ステップについて，実験の設定について簡単に説明する．「①カテゴリの設計方法」については，3.2.2，「②下位語集合の準備」については，3.2.3 の例の通り行った．また，「③候補カテゴリ」の選択方法について，分布類似度を用いる．分布類似度を計算する際に使用するコーパスには，我々の研究で蓄えているブログアーカイブを用いた．その中から，2006 年にポストされたブログ記事約３００万記事を用いて行った．分布類似度計算においては，係り受け先にある「格助詞＋動詞」を特徴量として扱った．なお係り受け解析には，Mecab[16]を用いた． 4.3. 予備実験の結果 “ニュートン”，“タイガー”，“オリンピック”の３つの多義語に対して，１１個のカテゴリの各下位語集合との分布類似度を計算した結果を示す．

Fig. 4 Similarity between “ニュートン” and each cate-gories

(7)

7

Fig. 5 Similarity between “タイガー” and each category

Fig. 6 Similarity between “オリンピック” and each cat-egory “ ニュートン ” の結果については， ART_AND_PRINTING，PERSON の２つのカテゴリの類似度が上位となっている．これは，我々の手法で正しくカテゴリの選択ができている例である． “ タイガー ” の結果については，PERSON ， ART_AND_PRINTING ， PRODUCT_OTHER ， LIVINGTHING との類似度が上位となっている．タイガーは前述の通り，人名，製品名，動物の３つの語義を持っている．そのため，ART_AND_PRINTING が上位となっているのは，選択が正しく行われていないといえる．これは，“タイガー”とART_AND_PRINTING が，「タイガーを見る」と「映画を見る」のように，同じ動詞に係ることが多いことが原因だと考えられる．これは，分布類似度の計算に用いる特徴量を増やすことで改善できると考えられる． “オリンピック”の結果については，LOCATION， ART_AND_PRINTING との類似度が高くなっている．これは，スーパーの“オリンピック”が「オリンピックに行く。」や「オリンピックで待ち合わせをする。」等，場所として用いられることが多いことが原因だと考えられる．また，スポーツの大会の“オリンピック”については，テレビ番組等と同等の文脈で出現することが多いため， ART_AND_PRINTING との類似度が高くなったと考えられる．今回，定義した１１個のカテゴリには，店名や，催し物の名前といったカテゴリは準備しなかったが，こうしたカテゴリを準備する必要があるかどうかは，今後検討が必要だといえる． 5. 今後の課題予備実験の結果で，我々の提案手法では，わずかなルールを準備するだけで，人手でラベル付けした大量の訓練データを用いずとも，語義カテゴリの候補を選択することができることを確認できた．一方で今後の課題としては，カテゴリ設計の更なる検討，下位語集合準備において他の言語資源を用いることの検討，候補カテゴリ選択時の分布類似度計算の高度化，定量的評価方法の検討の４点が挙げられる．カテゴリ設計の更なる検討については，予備実験の“オリンピック”の例から分かる必要であるといえる．拡張固有表現等の既存のシソーラスを参考にしながら，カテゴリの設計を改善していきたい．下位語集合の準備において，店名や催し物の名前は岩波国語辞典からは得ることができなかった．そのため， Wikipedia2_{等の他の言語資源から，下位語集合の準備を行} うことも検討していきたい．カテゴリ選択においては，“タイガー”の例で見られたように，分布類似度計算時における特徴量の不十分さが原因と考えられる誤判断が生じた．今後は，係り受け関係にある格助詞と動詞に加えて，対象単語の周辺の名詞を特徴量に加えることを検討していきたい．最後に，今回の報告では定量的な評価を行うことができなかった．今後，ベンチマークとなるデータセットを我々で作成し，定量的な評価を行いたいと考えている． 6. まとめ固有表現の曖昧性解消のための既存研究を調査し，ウェ

2_{http://ja.wikipedia.org/}

(8)

8

ブのテキスト分析に応用するには，語義カテゴリの不適切さ，及び，ラベル付きデータ作成のコストという２つの問題点があることを指摘した．それらの問題点を改善する手法として，カテゴリ設計の修正，及び，大量のラベル付きデータが不要な手法の提案を行った．提案手法の評価実験を行い，我々の提案手法が，大筋，うまく機能することを確認した．一方で，カテゴリの設計の更なる検討の必要性，分布類似度計算手法の改善の必要性があることが分かった．これらは，今後検討すべき課題である．また，今回は提案手法の①～③までの評価実験しか行わなかったが，今後は④の評価実験を進めることで，更なる手法の高度化に努めたい． 7. 参考文献 [1] 総務省情報通信政策研究所, "ブログの実態に関する調査研究～ブログコンテンツ量の推計とブログの開設要因等の分析～," 2008.

[2] George Miller, Claudia Leocock, Randee Tengi, and Ross Bunker, "A semantic concordance ," In Proceedings of the ARPA Workshop on Human Language Technology, 1993.

[3] Dekang Lin and Xiaoyun Wu, "Phrase Clustering for Discriminative Learing," 2009.

[4] IREX Committee, "Proceedings of IREX Workshop," 1999.

[5] Christiance Fellbaum, "WordNet, an electronix lexical database," Cambridge, MA: The MIT Oress, 1998.

[6] Pantel Pattrick and Lin Dekang, "Discovering word senses from text," In Proceedings of ACM SIGMOD Conference on Knowledge Discovery and Data Mining, 2002.

[7] Bordag Stefan, "Word Sense Induction : Triplet-Based Clustering and Aytomatic Evaluation," In Proceedings of EACL-06, 2006. [8] J.R.Firth, "Studies in Linguistic Analysis," Oxford,

1957.

[9] Agirre Eneko and Soroa Aitor, "Semeval-2007 Task 02: Evaluating Word Sense Induction and Discrimination Systems," In Proceedings of the 4th International Workshop on Semantioc Evaluations, 2007.

[10] Izuquierdo Ruben, Suarez Armando, and Rigau German, "An Empirical Study on Class-based Word Sense Disambiguation," Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, 2009. [11] John Lafferty, Andrew McCallum, and Fernando

Pereira, "Comditiomal Random Field: Probabilistic Models for Segmenting and Labeling Sequence Data," 2001.

[12] Junichi Kazama and Torisawa Kentaro, "Inducing Gazetteers for Named Entity Recognition by Large-scale Clustering of Dependency Relations," ACL-08, 2008.

[13] Satoshi Sekine, Kiyoshi Sato, and Chikashi Nobata, "Extended Named Entity Hierarch," 3rd international conference on Language resournce and evaluation(LREC-2002), 2002. [14] 新納宏幸 and 関根聡, "拡張固有表現タガーの作成とその問題点の考察," 言語処理学会第 12 回年次大会, 2006. [15] 西尾実, 岩淵悦太郎, and 水谷静夫, "岩波国語辞典第六版," 岩波書店, 2001.

[16] Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto, "Applying Conditional Random Fields to Japanese Morphological Analysis," Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004.