• 検索結果がありません。

サクラエディタで waganeko_utf8_unidic.mecab を開き、 waganeko_sjis_ipadic.mecab と内容 を比較せよ。

4.6 語彙頻度表の作成

MeCab

の出力結果を

Excel

で開きピボットテーブルを使用すると、語彙頻度表や品詞、活用型、活用形一

覧などを簡単に作成することができる。

練習

7 waganeko_utf8_unidic.mecab

をタブ区切りテキストに変換し、

Excel

で表示せよ。

練習

8

ピボットテーブルレポートを用いて語彙頻度表を作成せよ。

練習

9

ピボットテーブルレポートを用いて品詞一覧、活用型一覧、活用形一覧を作成せよ。

5 言語分析のためのツール 5.1 NINJAL-LWP

5.1.1

基礎的な用語

NINJAL-LWP BCCWJ

の検索のために国語研*8

Lago

言語研究所が共同開発したオンライン検索システム。

コーパス開発センターで公開している

BCCWJ

の形態論情報が

UniDic

準拠なのに対して、

NLB

NLT

のデータは

MeCab + IPADIC

で形態素解析されている。。語を指定して別の語との共起関係などを 調べることができる。

BCCWJ

(NLB)

の他に筑波ウェブコーパス版

(NLT)

が公開されている。

筑波ウェブコーパス

(TWC)

筑波大

(

留学生センター

)

が開発した

11

億語規模のウェブコーパス。

ウェブコーパス ウェブから収集したテキストで構築されたコーパス。均衡性は無いが、容易に大規模なコー パスを構築することができる

(BCCWJ

1

億語規模なのに対し、筑波ウェブコーパスは約

11

億語、国 語研で開発中のウェブコーパス

(

超大規模コーパス

)

100

億語規模である

)

頻度

Frequency

。コーパス中に生起する回数。

MI

相互情報量

(Mutual information)

。言語表現の共起関係を分析するためによく用いられる統計値の

1

つ。

LD LogDice

。ダイス値

(

言語表現の共起関係を分析するためによく用いられる統計値の

1

)

の対数を取っ

たもの。

5.1.2

ダイス係数

集合

X

Y

の共通要素数

| XY |

を各集合の要素数の平均

 

 | X | + | Y |

2

 



で割ったもの、すなわち

 

 2 × | XY |

| X | + | Y |

 



NINJAL-LWP

LogDice

SketchEngine

準拠とされており、以下の式で計算される。

logDice = 14 + log

2

2 × | XY |

| X | + | Y |

「猫がいる」というコロケーションを例に考えることにすると

• | XY | = 1 , 213 (

「猫がいる」の頻度

)

*8BCCWJが国語研のコーパス開発センターで構築されたものであるのに対して、NINJAL-LWPは国語研の言語対照研究系とLago 研究所で開発されたものである。国語研ウェブサイトの「データベース・データ集」にNLBへのリンクがある一方でコーパス開 発センターの「ツール」にNLBが掲載されていないのはこのためだと思われる。コーパス開発センターで公開しているBCCWJ のデータがUniDicで形態素解析されているのに対して、NLBNLTのデータはMeCab+IPADICで形態素解析されている。

• | X | = 6 , 007 (

「猫が」の頻度

)

• | Y | = 31 , 037 (

「いる」の頻度

)

• Dice =

 

 2 × 1 , 213

| 6 , 007 | + | 31 , 037 |

 

 = 0 . 065

• logDice = 14 + log

2

 

 2 × 1 , 213

| 6 , 007 | + | 846 , 371 |

 

 = 14 + log

2

0 . 065 = 14 + ( − 3 . 93) = 10 . 07

Dice

2

つの表現が常に共起する場合に

1

、まったく共起しない場合に

0

となる。

logDice

2

つの表現が 常に共起する場合に

14

であり、共起頻度が少なくなるほど数値が小さくなる。

Dice 1 0.5 0.25 0.125 0.0625 . . . logDice 14 13 12 11 10 . . .

5.1.3

自己相互情報量 簡単に言うと

 



共起頻度の実測値共起頻度の期待値

 



を対数化

( = log

2

)

したもの。

NINJAL-LWP

MI

SketchEngine

準拠 とされており、以下の式で計算される。

MI = log

2

f

AB

× N f

A

× f

B

「猫がいる」を例に説明する。

f

Aは「猫が」、

f

Bは「いる」、

f

ABは「猫がいる」の頻度を表す。

N

にどのよ うな値を用いているか不明だが、コーパスの総語数

11

億を仮定しておく。

f

A

= 6 , 007 f

B

= 31 , 037 f

AB

= 1 , 213 N = 11

「猫が」「いる」「猫がいる」の

N

に対する生起確率はそれぞれ以下の通りである。

p

A

= f

A

N p

B

= f

B

N p

AB

= f

AB

N

「猫が」と「いる」がまったく独立に生起すると仮定した場合、両者が共起する

(

すなわち「猫がいる」が生 起する

)

確率と頻度の期待値は以下の通りである。

p

eAB

= p

A

× p

B

= f

A

× f

B

N

2

f

ABe

= N × p

eAB

= f

A

× f

B

N

従って、「猫がいる」の頻度の実測値と期待値との比は次のようになり、この表現が期待値の

7

千倍程度多 く生起していることが分かる。

f

AB

f

ABe

= f

AB

× N

f

A

× f

B

関連したドキュメント