4.3. RNC-M と自作 100 万語コーパスにおける高頻度語の重複数
4.3.2. 重複数の分析と考察
同様の分析を100万語規模のコーパスを用いて行った場合,どの頻度域まで安定した重複数が 確認されるのであろうか.ここでは,前出のKilgarriff (1996)の手法を用いて,9,200万語のRNC-M
と100万語版RNC-MであるC_1〜C_5における高頻度語の重複数を計測する.分析結果は以下
の通りである.
表35. RNC-MとC_1における対応する高頻度域の重複数
順位
C_1 1-500 501-
1,000 1,001-
1,500 1,501-
2,000 2,001-
2,500 2,501-
3,000 over 3,000
RNC-M
1-500 423 58 9 2 1 2 5
501-1,000 70 286 94 24 8 3 15
1,001-1,500 4 117 201 94 35 15 34
1,501-2,000 2 27 119 156 81 44 71
2,001-2,500 0 5 45 116 118 72 144
2,501-3,000 0 2 17 47 107 89 238
over 3,000 1 5 15 61 150 275
RNC-Mのトップ500語のうち,423語が対応するC_1のトップ500位に,次の500語 (501〜1,000 位)の中には58語が含まれている.また,RNC-Mの501〜1,000位の500語のうち,286語が対応
するC_1の501〜1,000位の中に含まれている.1〜500位と501〜1,000位は最上位の高頻度域で
あるが,BNCのhalf-1とhalf-2と比べると,本章のRNC-MとC_1の分析結果は重複数の点で大 きく劣っていることがわかる.
表36. Kilgarriff (1996)と本章の分析における対応する高頻度域の重複数
高頻度域 1-500 501- 1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
half-1とhalf-2 482 440 400 356 314 303
RNC-MとC_1 423 286 201 156 118 89
表は,対応する頻度域にて重複数が500に近いほど語彙的な類似度が高いことを示しているが,1
〜500位,501位〜1,000位と順位を下る毎にその数値は減少していく.ただ,その重複数の減少
度はRNC-MとC_1の方が,half-1とhalf-2よりも遥かに急である.つまり,この数値は,頻度域
を1〜500位,501〜1,000位,1,001〜1,500位と下っていくにつれて,RNC-MとC_1における語
彙的な類似度も下がっていることを示している.
次に,高頻度3,000語を対象にRNC-Mには含まれてはいるが,もう一方のC_1には含まれて いない「範囲外語」(over 3,000の語)に関して言及する.Kilgarriff (1996)の分析では,half-2の高
頻度語の大半は,half-1 に含まれており,全体として範囲外語の累計数は少ない.だが,本章の RNC-MとC_1の間には範囲外語の数が多く,その累計数はKilgarriff (1996)におけるhalf-1とhalf-2 のそれよりもはるかに多い.
表37. Kilgarriff (1996)と本章における各高頻度域の範囲外語の数(括弧内は累計)
高頻度域 1-500 501- 1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
half-1とhalf-2 0(0) 0(0) 3(3) 4(7) 16(23) 107(130)
RNC-MとC_1 5(5) 15(20) 34(54) 71(125) 144(269) 238(507)
RNC-Mの高頻度1〜1,500位の範囲であれば,そのほとんどがC_1の高頻度3,000語内に含まれ
ているが(範囲外語:5+15+34 =54語),1,501位以降は範囲外語の数値が急激に増えていく.
同様の分析をRNC-MとC_2〜C_4に対して行った.すると,重複数に関して RNC-MとC_1 の場合とほぼ同様の分析結果が得られた.
表38. RNC-MとC_2における対応する高頻度域の重複数
順位
C_2 1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
over 3,000
RNC-M
1-500 421 61 11 0 1 1 5
501-1,000 70 279 93 30 13 1 14
1,001-1,500 8 124 188 89 38 19 34
1,501-2,000 1 23 125 139 78 44 90
2,001-2,500 0 4 40 111 120 71 154
2,501-3,000 0 3 23 65 103 76 230
over 3,000 0 6 20 66 147 288
表39. RNC-MとC_3における対応する高頻度域の重複数
順位
C_3 1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
over 3,000
RNC-M
1-500 415 61 11 1 1 2 9
501-1,000 77 276 87 25 13 4 18
1,001-1,500 6 130 201 72 43 18 30
1,501-2,000 2 23 121 154 81 42 77
2,001-2,500 0 3 50 122 108 62 155
2,501-3,000 0 3 15 56 104 91 231
over 3,000 0 4 15 70 150 281
表40. RNC-MとC_4における対応する高頻度域の重複数
順位
C_4 1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
over 3,000
RNC-M
1-500 420 63 8 0 1 1 7
501-1,000 73 270 101 26 8 4 18
1,001-1,500 4 125 185 91 43 17 35
1,501-2,000 2 30 125 148 80 39 76
2,001-2,500 1 5 41 102 118 76 157
2,501-3,000 0 4 17 64 92 76 247
over 3,000 0 3 23 69 158 287
表41. RNC-MとC_5における対応する高頻度域の重複数
順位
C_5 1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
over 3,000
RNC-M
1-500 404 72 9 2 1 2 10
501-1,000 85 257 93 35 10 2 18
1,001-1,500 8 120 167 79 51 25 50
1,501-2,000 1 30 120 131 86 34 98
2,001-2,500 1 10 59 115 89 62 164
2,501-3,000 0 0 25 61 86 88 240
over 3,000 1 11 27 77 177 287
また,範囲外語の累計数に関してもRNC-MとC_1の場合と同様の結果が得られた.すなわち,
RNC-Mの高頻度1〜1,500位の1,500語は,C_2〜C_4の高頻度3,000語内に安定して含まれてい
る.逆に,1,500位を超えると.C_2〜C_4には含まれていない範囲外語が急激に増えていく.
表42. RNC-MとC_2〜C_5における各高頻度域の範囲外語の数(括弧内は累計)
1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000 RNC-MとC_2 5(5) 14(19) 34(53) 90(143) 154(297) 230(527) RNC-MとC_3 9(9) 18(27) 30(57) 77(134) 155(289) 231(520) RNC-MとC_4 7(7) 18(25) 35(60) 76(136) 157(293) 247(540) RNC-MとC_5 10(10) 18(28) 50(78) 98(176) 164(340) 240(580)
ここまでに確認された累計数と重複数の傾向は,RNC-M と C_1〜C_5 のすべての分析に共通し ている(なお,ここでは,「RNC-Mの高頻度語がC_1〜C_5において」といったように,RNC-M を基準に重複数と範囲外語の数値を計算したが,逆に,C_1〜C_5 を基準に表のデータを分析し ても結果はほぼ同じである).
次に,C_2とRNC-Mにおける範囲外語の数をグラフ化すると,1,500位以降に範囲外語の累計 数が急増する様が見て取れる.
グラフ2. C_2に含まれていないRNC-Mの高頻度語(範囲外語)の累計数
RNC-Mの高頻度1位から1,500位の1,500語は,53語を除いてC_2の高頻度3,000語内に含まれ ている.分析範囲を2,000位まで広げると,範囲外語の数は2倍以上の143にまで増加する.そ れ以降の順位に下ると,範囲外語の累計数は,2,500位までで297,3,000位までで527となる.
ここまでの分析から,RNC-Mの高頻度1位〜1,500位までの1,500語は,自作100万語コーパ スにおいても安定して高頻度に生起している傾向が窺える.一方,1,501〜2,000 位から,範囲外
語の数がC_1〜C_5に共通して急激に増え始める.
なお,Kilgarriff (1996)の分析では,5,000万語から成る2つのサブコーパスを比較しているが,
表34が示す通り,各高頻度域において両者の重複数は高い.これは,コーパス規模の大きさが関 係していると推測される.つまり,コーパスの総語数が増えるほど上位にくる語の生起頻度(も しくは語彙)は安定していき,その結果,2つのコーパス間の重複数は高くなるのである.実際,
C_1からC_5を1つに統合した500万語のコーパス(C_ALL)を作成し,同様の分析を行うと,
0 100 200 300 400 500 600
■RNC-Mの高頻度3,000語の 範囲外語(C_2を例に)
[累計数]
1〜500: 5 1〜1,000: 19 1〜1,500: 53 1〜2,000: 143 1〜2,500: 297 1〜3,000: 527
RNC-MとC_ALLにおける対応する各頻度域の重複数は増加する.
表43. RNC-Mと500万語のC_ALLにおける対応する高頻度域の重複数
順位
C_ALL 1-500 501-
1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000
over 3,000
RNC-M
1-500 430 58 5 0 1 1 5
501-1,000 65 300 98 24 5 1 7
1,001-1,500 3 115 209 90 39 21 23
1,501-2,000 2 18 130 167 78 35 70
2,001-2,500 0 2 30 121 148 74 125
2,501-3,000 0 2 14 51 108 100 225
Over 3,000 0 5 14 47 121 268
RNC-Mの1〜500位の500語のうち,430語が対応するC_ALLの頻度域に含まれている.それ以
降も300, 209, 167, 148, 100といった具合に,RNC-M とC_ALLの間では,RNC-MとC_1〜C_5 のどれよりも高い重複数が記録されている.
また,重複数の増加に伴い,範囲外語の数は減少している.
表44. RNC-MとC_Allにおける各高頻度域の範囲外語の数(括弧内は累計)
1-500 501- 1,000
1,001- 1,500
1,501- 2,000
2,001- 2,500
2,501- 3,000 RNC-MとC_ALL 5(5) 7(12) 23(35) 70(105) 125(230) 225(455)
この傾向は,コーパスの総語数が5000万,1億,10億と増えていくにつれて顕著になっていくと 予想される.この分析結果は,コーパス間の高頻度語の重複数が安定するには,より大きなコー パス規模が求められる,ということを示している.言い換えると,コーパス規模は高頻度語の選 定に大きな影響を与えるのである.