粒度の大きい処理単位としての単語レベルの表層情報

5.1.1 地名コーパス

本章で用いる地名コーパスを表 5.1に示す．表 5.1 の 11エリア中，台湾およびチリ表 5.1: 本章で用いる地名コーパス

エリア地名数単語数文字数中国 10,000 15,975 98,773 台湾 10,000 22,518 122,630 タイ 10,000 28,974 131,128 日本 10,000 16,960 102,311 ギリシャ 10,000 14,612 109,818 フィンランド 10,000 11,050 97,447 フランス 10,000 19,820 121,945 スペイン 10,000 22,797 135,947 チリ 10,000 22,450 139,561 ドイツ 10,000 13,206 109,615 アメリカ 10,000 25,622 165,509

は類似エリアの混在への影響を確認するために用いるもので，本章の基本的な実験対象エリアは台湾，チリを除いた9 エリアとする．

5.1.2 単語レベルの表層情報

第 4章では，地名の所属エリア推定処理の処理単位として，文字のみを利用した．本節では，文字よりも粒度の大きな処理単位としての単語の持つ特徴を検討する．

地名の TF-IDF 情報

地名コーパスに出現する単語の特徴を，TF-IDF モデルの概念にしたがって検討す

る．TF-IDF モデルとは，文書の特徴を示す重要語の推定に使われるモデルで，ある

単語の各文書内での出現頻度(term frequency: TF) と，この単語が出現する文書の数

(document frequency: DF)とから，一般的な頻出語と各文書を特徴付ける頻出語とを

区別するものである．基本的に，DF が低くある文書でのみ TF が高い単語はその文書の特徴を現す重要語と考えられるため，TF-IDF モデルでは TF と IDF (inversed

document frequency)とを基に各単語の評価値の算出を行う．ここではエリアの特徴を

示す単語の抽出を考え，TF としては単語の各エリア内での出現頻度，DFとしては単語が出現するエリアの数を用いる．

例として，Mt. Fuji Sanという地名の所属エリア推定を行うと仮定する．Fuji という単語が日本の地名コーパスにのみ出現し，他の地名コーパスに出現することがなければ，この地名は日本の地名である可能性が強いと考えることができる．逆に，すべての地名コーパスに含まれる単語は，エリアの特徴を示す可能性は低くなる．図 5.1 の

Yama

San

Mt.

日本アメリカ

中国フィンランド

図 5.1: 地名コーパスに出現する構成単語の例

例のようにすべての地名コーパスにMt. が含まれる場合，Mt. という単語を含むことは，Mt. Fuji Sanがアメリカの地名であることの証拠とはならない．これは Mt. の存在はMt. Fuji San がフィンランドの地名であることの証拠ともフィンランドの地名でないことの証拠ともならないことと同じである．このように，DFの高い単語は地名の

所属エリア推定では影響を小さく抑えるべきである．それに対して，図 5.1 のように Yama が日本のコーパスにしか現れないような場合，推定対象となる地名が Mt. Fuji Yamaのように Yamaを含むことは，所属エリアを日本と推定する根拠となり得る．また図 5.1 の San のように，一部のエリアでは出現するがすべてのエリアで出現するわけではない単語は，エリア毎にTF，DF それぞれを考慮して，適切に処理する必要がある．

表 5.2 に地名コーパス全体で出現する単語の例を示す．‘DF’カラムの数字は，単語が出現したエリアの数を表す．例えば，‘DF’ の 9 は 9 エリアすべてで出現した単語を意味し，CANAL がすべての地名コーパスで出現したことを示す．表5.2 が示すよう

表 5.2: 実験対象エリア群で DF 値の高い単語

DF 出現文書数の多い単語

9 CANAL

8 RIVER POINT

7 I BAY ISLAND LAKE LA DE SAN

6 A E O STATION PASS SOUTH CAPE CHANNEL NORTH TO WEST EN

に，高い DF 値を持つ単語のほとんどが英単語である．これは，英語の地名データから地名コーパスを作成したためであり (3.3.2節)，Biwako Canalのように地名の中に英単語が含まれる例が見られることから，基データの性質を反映した自然な結果といえる．DF値は各エリアで出現したか否かを示すのみで，これらの単語の出現頻度の分布はエリア毎の地名コーパスで違いがある．表 5.2 中，DE や LA は 7 エリアで出現しているが，これらが 3% を超える頻度で出現しているのはフランスとスペインの地名コーパスのみであった．これらの単語は，高い DF 値を持つが，各エリアでの TF 値からフランスやスペインのエリア特有の単語として捉えることができる．

表 5.3 に各エリアでの頻出単語の上位 5 個を示す．なお，類似したエリア間の比較のため，表 5.3 には台湾とチリを含める．表 5.3 では，頻出単語のエリア間の重複はほとんどなく，頻出単語はほぼエリア固有の単語と考えられる．このように，地名に含まれる単語の TF と DFの情報は，所属エリア推定に貢献する可能性がある．またその中で，DE とLA が同じように頻出するフランスとスペイン等，同じ単語が頻出するエリアには強い相関関係が示されることが予測される．

地名の構成単語の出現頻度

地名は，固有表現としての性質から，地名の特定が可能になるよう，山や町等に相当する地名特有の語以外の構成単語の出現頻度は低いことが予想される．図 5.2 に，

5.1.1節の 9エリアの地名を構成する単語のうち頻度の少ないものが占める割合(ratio)

を示す．図 5.2 の凡例の 1 はそれぞれの地名コーパスの中に1 回のみ出現した単語の割合を，4+ は各地名コーパス中の出現頻度が4回以上の単語の割合を表す．TOTAL は，

表 5.3: 地名コーパス中での頻出単語

エリア頻出単語

中国 SHAN HSIEN HO CHEN XIAN

台湾 SHAN CIAO QIAO LI HSI

タイ BAN KHLONG HUAI KHAO NONG

日本 YAMA MURA SAKI GAWA SHIMA

ギリシャ AKRA ORMOS NISIS CAPE REMA

フィンランド ISO STORA SODRA STOR NORRA

フランス DE LA LE SAINT LES

スペイン DE LA DEL ARROYO RIO

チリ CERRO DE QUEBRADA ESTERO PUNTA

ドイツ BERG BACH BAHNHOF SEE WALD

アメリカ CREEK CHURCH CEMETERY SCHOOL LAKE

0 20 40 60 80 100

CH TH JP GR FI FR ES DE US TOTAL

ratio (%)

1 2 3 4+

図 5.2: 出現頻度毎の単語の割合

9個の地名コーパス全体の中での出現頻度を示している．すなわち，TOTAL の 1 は，9 個の地名コーパス全体の中で 1 回のみ出現した単語の割合を示す．

図 5.2 を見ると，地名コーパスに出現する単語のうち，30% 以上は出現頻度が1 で

ある．4.1.2 節で述べたとおり，多くの地名は3 単語以下で構成されているため，1 個

の未知語が致命的な結果をもたらす可能性があり，単語レベルの情報を用いた処理はリスクが高い．このようなデータスパースネスの問題が，単語レベルの表層情報の利用の課題である．

地名の構成単語の出現頻度には，エリア毎に大きな偏りが見られる．例えばフィンランドでは 80% 以上の単語が出現頻度 1 なのに対して，タイでは出現頻度 4 以上の単語が80% を超えている．エリア間の差異が大きいため，全体の値は平均程度の意味しか持たず，所属エリア推定での頻出単語の有効性はエリアによって大きく異なるものと推測できる．

ドキュメント内固有表現の属性推定に関する研究 (ページ 53-57)