• 検索結果がありません。

粒度の大きい処理単位としての単語レベルの表層情報

ドキュメント内 固有表現の属性推定に関する研究 (ページ 53-57)

5.1.1 地名コーパス

本章で用いる地名コーパスを表 5.1に示す.表 5.1 の 11エリア中,台湾およびチリ 表 5.1: 本章で用いる地名コーパス

エリア 地名数 単語数 文字数 中国 10,000 15,975 98,773 台湾 10,000 22,518 122,630 タイ 10,000 28,974 131,128 日本 10,000 16,960 102,311 ギリシャ 10,000 14,612 109,818 フィンランド 10,000 11,050 97,447 フランス 10,000 19,820 121,945 スペイン 10,000 22,797 135,947 チリ 10,000 22,450 139,561 ドイツ 10,000 13,206 109,615 アメリカ 10,000 25,622 165,509

は類似エリアの混在への影響を確認するために用いるもので,本章の基本的な実験対 象エリアは台湾,チリを除いた9 エリアとする.

5.1.2 単語レベルの表層情報

第 4章では,地名の所属エリア推定処理の処理単位として,文字のみを利用した.本 節では,文字よりも粒度の大きな処理単位としての単語の持つ特徴を検討する.

地名の TF-IDF 情報

地名コーパスに出現する単語の特徴を,TF-IDF モデルの概念にしたがって検討す

る.TF-IDF モデルとは,文書の特徴を示す重要語の推定に使われるモデルで,ある

単語の各文書内での出現頻度(term frequency: TF) と,この単語が出現する文書の数

(document frequency: DF)とから,一般的な頻出語と各文書を特徴付ける頻出語とを

区別するものである.基本的に,DF が低くある文書でのみ TF が高い単語はその文 書の特徴を現す重要語と考えられるため,TF-IDF モデルでは TF と IDF (inversed

document frequency)とを基に各単語の評価値の算出を行う.ここではエリアの特徴を

示す単語の抽出を考え,TF としては単語の各エリア内での出現頻度,DFとしては単 語が出現するエリアの数を用いる.

例として,Mt. Fuji Sanという地名の所属エリア推定を行うと仮定する.Fuji という 単語が日本の地名コーパスにのみ出現し,他の地名コーパスに出現することがなけれ ば,この地名は日本の地名である可能性が強いと考えることができる.逆に,すべて の地名コーパスに含まれる単語は,エリアの特徴を示す可能性は低くなる.図 5.1 の

Yama

San

Mt.

日本 アメリカ

中国 フィンランド

図 5.1: 地名コーパスに出現する構成単語の例

例のようにすべての地名コーパスにMt. が含まれる場合,Mt. という単語を含むこと は,Mt. Fuji Sanがアメリカの地名であることの証拠とはならない.これは Mt. の存 在はMt. Fuji San がフィンランドの地名であることの証拠ともフィンランドの地名で ないことの証拠ともならないことと同じである.このように,DFの高い単語は地名の

所属エリア推定では影響を小さく抑えるべきである.それに対して,図 5.1 のように Yama が日本のコーパスにしか現れないような場合,推定対象となる地名が Mt. Fuji Yamaのように Yamaを含むことは,所属エリアを日本と推定する根拠となり得る.ま た図 5.1 の San のように,一部のエリアでは出現するがすべてのエリアで出現するわ けではない単語は,エリア毎にTF,DF それぞれを考慮して,適切に処理する必要が ある.

表 5.2 に地名コーパス全体で出現する単語の例を示す.‘DF’カラムの数字は,単語 が出現したエリアの数を表す.例えば,‘DF’ の 9 は 9 エリアすべてで出現した単語 を意味し,CANAL がすべての地名コーパスで出現したことを示す.表5.2 が示すよう

表 5.2: 実験対象エリア群で DF 値の高い単語

DF 出現文書数の多い単語

9 CANAL

8 RIVER POINT

7 I BAY ISLAND LAKE LA DE SAN

6 A E O STATION PASS SOUTH CAPE CHANNEL NORTH TO WEST EN

に,高い DF 値を持つ単語のほとんどが英単語である.これは,英語の地名データか ら地名コーパスを作成したためであり (3.3.2節),Biwako Canalのように地名の中に英 単語が含まれる例が見られることから,基データの性質を反映した自然な結果といえ る.DF値は各エリアで出現したか否かを示すのみで,これらの単語の出現頻度の分布 はエリア毎の地名コーパスで違いがある.表 5.2 中,DE や LA は 7 エリアで出現し ているが,これらが 3% を超える頻度で出現しているのはフランスとスペインの地名 コーパスのみであった.これらの単語は,高い DF 値を持つが,各エリアでの TF 値 からフランスやスペインのエリア特有の単語として捉えることができる.

表 5.3 に各エリアでの頻出単語の上位 5 個を示す.なお,類似したエリア間の比較 のため,表 5.3 には台湾とチリを含める.表 5.3 では,頻出単語のエリア間の重複は ほとんどなく,頻出単語はほぼエリア固有の単語と考えられる.このように,地名に 含まれる単語の TF と DFの情報は,所属エリア推定に貢献する可能性がある.また その中で,DE とLA が同じように頻出するフランスとスペイン等,同じ単語が頻出す るエリアには強い相関関係が示されることが予測される.

地名の構成単語の出現頻度

地名は,固有表現としての性質から,地名の特定が可能になるよう,山や町等に相 当する地名特有の語以外の構成単語の出現頻度は低いことが予想される.図 5.2 に,

5.1.1節の 9エリアの地名を構成する単語のうち頻度の少ないものが占める割合(ratio)

を示す.図 5.2 の凡例の 1 はそれぞれの地名コーパスの中に1 回のみ出現した単語の 割合を,4+ は各地名コーパス中の出現頻度が4回以上の単語の割合を表す.TOTAL は,

表 5.3: 地名コーパス中での頻出単語

エリア 頻出単語

中国 SHAN HSIEN HO CHEN XIAN

台湾 SHAN CIAO QIAO LI HSI

タイ BAN KHLONG HUAI KHAO NONG

日本 YAMA MURA SAKI GAWA SHIMA

ギリシャ AKRA ORMOS NISIS CAPE REMA

フィンランド ISO STORA SODRA STOR NORRA

フランス DE LA LE SAINT LES

スペイン DE LA DEL ARROYO RIO

チリ CERRO DE QUEBRADA ESTERO PUNTA

ドイツ BERG BACH BAHNHOF SEE WALD

アメリカ CREEK CHURCH CEMETERY SCHOOL LAKE

0 20 40 60 80 100

CH TH JP GR FI FR ES DE US TOTAL

ratio (%)

1 2 3 4+

図 5.2: 出現頻度毎の単語の割合

9個の地名コーパス全体の中での出現頻度を示している.すなわち,TOTAL の 1 は,9 個の地名コーパス全体の中で 1 回のみ出現した単語の割合を示す.

図 5.2 を見ると,地名コーパスに出現する単語のうち,30% 以上は出現頻度が1 で

ある.4.1.2 節で述べたとおり,多くの地名は3 単語以下で構成されているため,1 個

の未知語が致命的な結果をもたらす可能性があり,単語レベルの情報を用いた処理は リスクが高い.このようなデータスパースネスの問題が,単語レベルの表層情報の利 用の課題である.

地名の構成単語の出現頻度には,エリア毎に大きな偏りが見られる.例えばフィン ランドでは 80% 以上の単語が出現頻度 1 なのに対して,タイでは出現頻度 4 以上の 単語が80% を超えている.エリア間の差異が大きいため,全体の値は平均程度の意味 しか持たず,所属エリア推定での頻出単語の有効性はエリアによって大きく異なるも のと推測できる.

ドキュメント内 固有表現の属性推定に関する研究 (ページ 53-57)