4.6 語彙頻度表の作成
MeCab
の出力結果をExcel
で開きピボットテーブルを使用すると、語彙頻度表や品詞、活用型、活用形一覧などを簡単に作成することができる。
練習
7 waganeko_utf8_unidic.mecab
をタブ区切りテキストに変換し、Excel
で表示せよ。練習
8
ピボットテーブルレポートを用いて語彙頻度表を作成せよ。練習
9
ピボットテーブルレポートを用いて品詞一覧、活用型一覧、活用形一覧を作成せよ。5 言語分析のためのツール 5.1 NINJAL-LWP
5.1.1
基礎的な用語NINJAL-LWP BCCWJ
の検索のために国語研*8とLago
言語研究所が共同開発したオンライン検索システム。コーパス開発センターで公開している
BCCWJ
の形態論情報がUniDic
準拠なのに対して、NLB
やNLT
のデータはMeCab + IPADIC
で形態素解析されている。。語を指定して別の語との共起関係などを 調べることができる。BCCWJ
版(NLB)
の他に筑波ウェブコーパス版(NLT)
が公開されている。筑波ウェブコーパス
(TWC)
筑波大(
留学生センター)
が開発した11
億語規模のウェブコーパス。ウェブコーパス ウェブから収集したテキストで構築されたコーパス。均衡性は無いが、容易に大規模なコー パスを構築することができる
(BCCWJ
が1
億語規模なのに対し、筑波ウェブコーパスは約11
億語、国 語研で開発中のウェブコーパス(
超大規模コーパス)
は100
億語規模である)
。頻度
Frequency
。コーパス中に生起する回数。MI
相互情報量(Mutual information)
。言語表現の共起関係を分析するためによく用いられる統計値の1
つ。LD LogDice
。ダイス値(
言語表現の共起関係を分析するためによく用いられる統計値の1
つ)
の対数を取ったもの。
5.1.2
ダイス係数集合
X
とY
の共通要素数| X ∩ Y |
を各集合の要素数の平均
| X | + | Y |
2
で割ったもの、すなわち
2 × | X ∩ Y |
| X | + | Y |
。NINJAL-LWP
のLogDice
はSketchEngine
準拠とされており、以下の式で計算される。logDice = 14 + log
22 × | X ∩ Y |
| X | + | Y |
「猫がいる」というコロケーションを例に考えることにすると
• | X ∩ Y | = 1 , 213 (
「猫がいる」の頻度)
*8BCCWJが国語研のコーパス開発センターで構築されたものであるのに対して、NINJAL-LWPは国語研の言語対照研究系とLago 研究所で開発されたものである。国語研ウェブサイトの「データベース・データ集」にNLBへのリンクがある一方でコーパス開 発センターの「ツール」にNLBが掲載されていないのはこのためだと思われる。コーパス開発センターで公開しているBCCWJ のデータがUniDicで形態素解析されているのに対して、NLBやNLTのデータはMeCab+IPADICで形態素解析されている。
• | X | = 6 , 007 (
「猫が」の頻度)
• | Y | = 31 , 037 (
「いる」の頻度)
• Dice =
2 × 1 , 213
| 6 , 007 | + | 31 , 037 |
= 0 . 065
• logDice = 14 + log
2
2 × 1 , 213
| 6 , 007 | + | 846 , 371 |
= 14 + log
20 . 065 = 14 + ( − 3 . 93) = 10 . 07
Dice
は2
つの表現が常に共起する場合に1
、まったく共起しない場合に0
となる。logDice
は2
つの表現が 常に共起する場合に14
であり、共起頻度が少なくなるほど数値が小さくなる。Dice 1 0.5 0.25 0.125 0.0625 . . . logDice 14 13 12 11 10 . . .
5.1.3
自己相互情報量 簡単に言うと
共起頻度の実測値共起頻度の期待値
を対数化( = log
2)
したもの。NINJAL-LWP
のMI
はSketchEngine
準拠 とされており、以下の式で計算される。MI = log
2f
AB× N f
A× f
B「猫がいる」を例に説明する。
f
Aは「猫が」、f
Bは「いる」、f
ABは「猫がいる」の頻度を表す。N
にどのよ うな値を用いているか不明だが、コーパスの総語数11
億を仮定しておく。f
A= 6 , 007 f
B= 31 , 037 f
AB= 1 , 213 N = 11
億「猫が」「いる」「猫がいる」の
N
に対する生起確率はそれぞれ以下の通りである。p
A= f
AN p
B= f
BN p
AB= f
ABN
「猫が」と「いる」がまったく独立に生起すると仮定した場合、両者が共起する
(
すなわち「猫がいる」が生 起する)
確率と頻度の期待値は以下の通りである。p
eAB= p
A× p
B= f
A× f
BN
2f
ABe= N × p
eAB= f
A× f
BN
従って、「猫がいる」の頻度の実測値と期待値との比は次のようになり、この表現が期待値の