• 検索結果がありません。

重複数の分析と考察

4.3. RNC-M と自作 100 万語コーパスにおける高頻度語の重複数

4.3.2. 重複数の分析と考察

同様の分析を100万語規模のコーパスを用いて行った場合,どの頻度域まで安定した重複数が 確認されるのであろうか.ここでは,前出のKilgarriff (1996)の手法を用いて,9,200万語のRNC-M

と100万語版RNC-MであるC_1〜C_5における高頻度語の重複数を計測する.分析結果は以下

の通りである.

表35. RNC-MとC_1における対応する高頻度域の重複数

順位

C_1 1-500 501-

1,000 1,001-

1,500 1,501-

2,000 2,001-

2,500 2,501-

3,000 over 3,000

RNC-M

1-500 423 58 9 2 1 2 5

501-1,000 70 286 94 24 8 3 15

1,001-1,500 4 117 201 94 35 15 34

1,501-2,000 2 27 119 156 81 44 71

2,001-2,500 0 5 45 116 118 72 144

2,501-3,000 0 2 17 47 107 89 238

over 3,000 1 5 15 61 150 275

RNC-Mのトップ500語のうち,423語が対応するC_1のトップ500位に,次の500語 (501〜1,000 位)の中には58語が含まれている.また,RNC-Mの501〜1,000位の500語のうち,286語が対応

するC_1の501〜1,000位の中に含まれている.1〜500位と501〜1,000位は最上位の高頻度域で

あるが,BNCのhalf-1とhalf-2と比べると,本章のRNC-MとC_1の分析結果は重複数の点で大 きく劣っていることがわかる.

表36. Kilgarriff (1996)と本章の分析における対応する高頻度域の重複数

高頻度域 1-500 501- 1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

half-1とhalf-2 482 440 400 356 314 303

RNC-MとC_1 423 286 201 156 118 89

表は,対応する頻度域にて重複数が500に近いほど語彙的な類似度が高いことを示しているが,1

〜500位,501位〜1,000位と順位を下る毎にその数値は減少していく.ただ,その重複数の減少

度はRNC-MとC_1の方が,half-1とhalf-2よりも遥かに急である.つまり,この数値は,頻度域

を1〜500位,501〜1,000位,1,001〜1,500位と下っていくにつれて,RNC-MとC_1における語

彙的な類似度も下がっていることを示している.

次に,高頻度3,000語を対象にRNC-Mには含まれてはいるが,もう一方のC_1には含まれて いない「範囲外語」(over 3,000の語)に関して言及する.Kilgarriff (1996)の分析では,half-2の高

頻度語の大半は,half-1 に含まれており,全体として範囲外語の累計数は少ない.だが,本章の RNC-MとC_1の間には範囲外語の数が多く,その累計数はKilgarriff (1996)におけるhalf-1とhalf-2 のそれよりもはるかに多い.

表37. Kilgarriff (1996)と本章における各高頻度域の範囲外語の数(括弧内は累計)

高頻度域 1-500 501- 1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

half-1とhalf-2 0(0) 0(0) 3(3) 4(7) 16(23) 107(130)

RNC-MとC_1 5(5) 15(20) 34(54) 71(125) 144(269) 238(507)

RNC-Mの高頻度1〜1,500位の範囲であれば,そのほとんどがC_1の高頻度3,000語内に含まれ

ているが(範囲外語:5+15+34 =54語),1,501位以降は範囲外語の数値が急激に増えていく.

同様の分析をRNC-MとC_2〜C_4に対して行った.すると,重複数に関して RNC-MとC_1 の場合とほぼ同様の分析結果が得られた.

表38. RNC-MとC_2における対応する高頻度域の重複数

順位

C_2 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 421 61 11 0 1 1 5

501-1,000 70 279 93 30 13 1 14

1,001-1,500 8 124 188 89 38 19 34

1,501-2,000 1 23 125 139 78 44 90

2,001-2,500 0 4 40 111 120 71 154

2,501-3,000 0 3 23 65 103 76 230

over 3,000 0 6 20 66 147 288

表39. RNC-MとC_3における対応する高頻度域の重複数

順位

C_3 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 415 61 11 1 1 2 9

501-1,000 77 276 87 25 13 4 18

1,001-1,500 6 130 201 72 43 18 30

1,501-2,000 2 23 121 154 81 42 77

2,001-2,500 0 3 50 122 108 62 155

2,501-3,000 0 3 15 56 104 91 231

over 3,000 0 4 15 70 150 281

表40. RNC-MとC_4における対応する高頻度域の重複数

順位

C_4 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 420 63 8 0 1 1 7

501-1,000 73 270 101 26 8 4 18

1,001-1,500 4 125 185 91 43 17 35

1,501-2,000 2 30 125 148 80 39 76

2,001-2,500 1 5 41 102 118 76 157

2,501-3,000 0 4 17 64 92 76 247

over 3,000 0 3 23 69 158 287

表41. RNC-MとC_5における対応する高頻度域の重複数

順位

C_5 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 404 72 9 2 1 2 10

501-1,000 85 257 93 35 10 2 18

1,001-1,500 8 120 167 79 51 25 50

1,501-2,000 1 30 120 131 86 34 98

2,001-2,500 1 10 59 115 89 62 164

2,501-3,000 0 0 25 61 86 88 240

over 3,000 1 11 27 77 177 287

また,範囲外語の累計数に関してもRNC-MとC_1の場合と同様の結果が得られた.すなわち,

RNC-Mの高頻度1〜1,500位の1,500語は,C_2〜C_4の高頻度3,000語内に安定して含まれてい

る.逆に,1,500位を超えると.C_2〜C_4には含まれていない範囲外語が急激に増えていく.

表42. RNC-MとC_2〜C_5における各高頻度域の範囲外語の数(括弧内は累計)

1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000 RNC-MとC_2 5(5) 14(19) 34(53) 90(143) 154(297) 230(527) RNC-MとC_3 9(9) 18(27) 30(57) 77(134) 155(289) 231(520) RNC-MとC_4 7(7) 18(25) 35(60) 76(136) 157(293) 247(540) RNC-MとC_5 10(10) 18(28) 50(78) 98(176) 164(340) 240(580)

ここまでに確認された累計数と重複数の傾向は,RNC-M と C_1〜C_5 のすべての分析に共通し ている(なお,ここでは,「RNC-Mの高頻度語がC_1〜C_5において」といったように,RNC-M を基準に重複数と範囲外語の数値を計算したが,逆に,C_1〜C_5 を基準に表のデータを分析し ても結果はほぼ同じである).

次に,C_2とRNC-Mにおける範囲外語の数をグラフ化すると,1,500位以降に範囲外語の累計 数が急増する様が見て取れる.

グラフ2. C_2に含まれていないRNC-Mの高頻度語(範囲外語)の累計数

RNC-Mの高頻度1位から1,500位の1,500語は,53語を除いてC_2の高頻度3,000語内に含まれ ている.分析範囲を2,000位まで広げると,範囲外語の数は2倍以上の143にまで増加する.そ れ以降の順位に下ると,範囲外語の累計数は,2,500位までで297,3,000位までで527となる.

ここまでの分析から,RNC-Mの高頻度1位〜1,500位までの1,500語は,自作100万語コーパ スにおいても安定して高頻度に生起している傾向が窺える.一方,1,501〜2,000 位から,範囲外

語の数がC_1〜C_5に共通して急激に増え始める.

なお,Kilgarriff (1996)の分析では,5,000万語から成る2つのサブコーパスを比較しているが,

表34が示す通り,各高頻度域において両者の重複数は高い.これは,コーパス規模の大きさが関 係していると推測される.つまり,コーパスの総語数が増えるほど上位にくる語の生起頻度(も しくは語彙)は安定していき,その結果,2つのコーパス間の重複数は高くなるのである.実際,

C_1からC_5を1つに統合した500万語のコーパス(C_ALL)を作成し,同様の分析を行うと,

0 100 200 300 400 500 600

■RNC-Mの高頻度3,000語の 範囲外語(C_2を例に)

[累計数]

1〜500: 5 1〜1,000: 19 1〜1,500: 53 1〜2,000: 143 1〜2,500: 297 1〜3,000: 527

RNC-MとC_ALLにおける対応する各頻度域の重複数は増加する.

表43. RNC-Mと500万語のC_ALLにおける対応する高頻度域の重複数

順位

C_ALL 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 430 58 5 0 1 1 5

501-1,000 65 300 98 24 5 1 7

1,001-1,500 3 115 209 90 39 21 23

1,501-2,000 2 18 130 167 78 35 70

2,001-2,500 0 2 30 121 148 74 125

2,501-3,000 0 2 14 51 108 100 225

Over 3,000 0 5 14 47 121 268

RNC-Mの1〜500位の500語のうち,430語が対応するC_ALLの頻度域に含まれている.それ以

降も300, 209, 167, 148, 100といった具合に,RNC-M とC_ALLの間では,RNC-MとC_1〜C_5 のどれよりも高い重複数が記録されている.

また,重複数の増加に伴い,範囲外語の数は減少している.

表44. RNC-MとC_Allにおける各高頻度域の範囲外語の数(括弧内は累計)

1-500 501- 1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000 RNC-MとC_ALL 5(5) 7(12) 23(35) 70(105) 125(230) 225(455)

この傾向は,コーパスの総語数が5000万,1億,10億と増えていくにつれて顕著になっていくと 予想される.この分析結果は,コーパス間の高頻度語の重複数が安定するには,より大きなコー パス規模が求められる,ということを示している.言い換えると,コーパス規模は高頻度語の選 定に大きな影響を与えるのである.