表 8 各コーパスのトークン数とタイプ数の平均
次にトークンについて、t検定を用いて学習者グループと母語話者グループの各頻度層 の割合を比較する。比較の結果、学習者は
K1
内容語が占める比率が有意に高く (t =2.95, p <.001)、Off-list
の比率は有意に低かった (t =-5.87, p <.001)。しかし、その他の頻度層の
比率では学習者と母語話者の間に有意差は見られなかった(表9
参照)。これは、学習者が 母語話者よりも高頻度語を多用し、母語話者が学習者よりも低頻度語を使用しているとい うことをある程度示す結果となったが、頻度1000
語から3000
語レベルにおいて有意差 が見られないということより、疑問の残る結果となった。表 9 トークンの頻度層ごとの比率の記述統計
頻度層 グループ 人数 平均値(%) 標準偏差
t
自由度 有意確率K1
機能語学習者
39 57.84 1.22
-.65 62.37 .52
母語話者
39 58.08 2.02
K1
内容語学習者
39 33.30 1.26
2.95 69.55 .00
母語話者
39 32.29 1.72
K2
学習者
39 4.54 .72
1.12 76 .27
母語話者
39 4.35 .76
K3
学習者
39 1.11 .32
1.47 76 .15
母語話者
39 1.00 .35
Off-list
学習者
39 3.21 .59
-5.87 63.24 .00
母語話者
39 4.28 .96
学習者コーパスと母語話者コーパスのタイプの各頻度層の比率に関する記述統計は以下 の通りになった(表
10)。
K1
機能語K1
内容語K2 K3 OFF 合計
学習者
トークン
401.13 231.10 31.18 7.74 22.28 693.44
タイプ56.44 130.56 22.64 5.92 17.08 232.64
母語話者
トークン
733.90 402.69 52.72 12.41 54.23 1 255.95
タイプ72.92 200.23 35.79 9.56 40.21 358.72
表 10 タイプの頻度層ごとの比率の記述統計
頻度層 グループ 人数 平均値(%) 標準偏差
t
自由度 有意確率K1
機能語学習者
39 24.47 2.08
6.29 76 .00
母語話者
39 20.94 2.81
K1
内容語学習者
39 55.99 2.28
.42 76 .68
母語話者
39 55.77 2.26
K2
学習者
39 9.75 1.41
-.41 76 .69
母語話者
39 9.88 1.32
K3
学習者
39 2.53 .77
-.56 76 .58
母語話者
39 2.63 .76
Off-list
学習者
39 7.27 1.39
-7.47 58.27 .00
母語話者
39 10.79 2.59
その結果、K1 機能語の比率に関して、学習者が母語話者よりもその割合が有意に高く
( t =6.39, p <.001)、 Off-list
の比率は母語話者よりも学習者の方が有意に低かった(t =-7.47,
p <.001)。しかし、トークンの頻度別の比率で見られた K1
内容語の有意差はここでは見られず、またトークンに引き続き
K2、K3
についても有意差が見られなかった。ここまでタイプとトークンの頻度別の比率について有意差の検証を行ってきたが、有意 差が存在したのは、以下の
4
点についてである:1) K1
内容語のトークンの比率2) K1
機能語のタイプの比率3) Off-list
のトークンの比率4) Off-list
のタイプの比率このうち、1)と
2)については、学習者の比率が有意に高く、3)と 4)については母語話者
の比率が有意に高かった。したがって、高頻度語であるK1
が占める割合が学習者の方が 高く、頻度3000
位以上の単語であるOff-list
が占める割合が母語話者の方が高いという 結果になり、リサーチクエスチョン1)
である「母語話者は学習者よりも低頻度語の語彙の豊 かさの指標が高いか」という点について、肯定的な説明ができる。しかし、トークン、タイプとも頻度
1000
位から3000
位までの比率について、学習者と母語話者 の有意差がいっさい見られなかったことから、実際にグループの差を十分に説明できるとは考え にくい。なぜなら、フランス語学習歴が約1
年である本被験者と母語話者との間に、中頻度語で あるK2
や低頻度語であるK3
について、有意差が出ないとは考えにくいからである。そこで、各 頻度層におけるギロー値を算出して学習者と母語話者との比較を行う。学習者コーパスと母語話者コーパスのギロー値の記述統計は以下のようになった(表
11)。
表 11 ギロー値記述統計
頻度層 グループ 人数 平均値 標準偏差
t
自由度 有意確率K1
機能語学習者
39 2.84 .24
.71 76 .48
母語話者
39 2.80 .29
K1
内容語学習者
39 8.59 .67
-8.59 76 .00
母語話者
39 10.06 .84
K2
学習者
39 4.05 .47
-5.85 63.33 .00
母語話者
39 4.89 .76
K3
学習者
39 2.10 .43
-5.28 76 .00
母語話者
39 2.70 .56
Off-list
学習者
39 3.60 .64
-8.19 58.58 .00
母語話者
39 5.36 1.18
その結果、K1 機能語には
2
グループ間で有意差が見られなかったが、その他K1
内容 語、K2、K3、Off-list について学習者が母語話者よりも有意に指標が低いことが明らかに なった。したがって、ギロー値を用いた測定法がもっとも直感を反映した結果を表してい るといえる。K1
機能語については、機能語という性質からギロー値の値が下がったと考 えられる。つまり、機能語はいわゆる閉じられたクラスであり、数が限定されている。し かし文を生成するには機能語は必要不可欠であるため、発話をすればするだけ機能語のト ークン数は上がるが、タイプ数は限定している。このような背景がこの結果をもたらした ものだと考えられる。5.1.2. 相関関係
語彙の豊かさの指標間の関係を見るため、ギロー値と頻度層を変数としてピアソンの積率相関 係数を求める。まず、学習者コーパスにおける結果は、表
12
の通りである。表 12 学習者コーパスの各指標の相関行列
K1
機能語K1
内容語K2 K3 Off-list
K1
機能語1
K1
内容語.01 1
K2 -.11 .37 1
K3 -.38 .31 .11 1
Off-list .34 .46 .34 .48 1
学習者コーパスで相関関係が確認されたのは
K1
内容語とOff-list
の間と、K3
とOff-list
の間だけであった。したがって、Off-list
のギロー値が高い学習者は、頻度1000
位以 内に含まれる内容語と、2000
位から3000
位のギロー値の値も高い。しかし、他の頻度層のギロー値については、相関関係が見られなかった。母語話者の頻度層間の相関行列は 以下のようになった。
表 13 母語話者コーパスの各指標の相関行
K1
機能語K1
内容語K2 K3 Off-list
K1
機能語1
K1
内容語-.39 1
K2 -.63 .63 1
K3 -.26 .48 .49 1
Off-list -.68 .64 .77 .64 1
母語話者コーパスでは、K1機能語が他の頻度層に対して負の相関を示していることが 分かる。特に
K1
機能語とK2
そしてOff-list
の間で中程度の負の相関が見られた。これよ り、K1機能語のギロー値の値が低ければ低いほど、他の頻度層のギロー値の値が高くな ることを示している。一方、
K1
機能語以外の頻度層については、K2
とOff-list
の間には高い正の相関が見られ、
K1
内容語、K2
、K3
、Off-list
については、それぞれ中程度の正の相関が見られた。これは、これら
1
つのギロー値が高ければ高いほど、その他のギロー値も高いというこ とを意味している。したがって、K1
機能語のギロー値のみが異なる性質を持つ指標であり、その他の指標は均質性が高いと考えられる 。K1 機能語のギロー値が低く、その他の頻度層 のギロー値が高いかどうかで、ある程度の学習者の言語能力を予測することは可能であろ う。
5.1.3. 主成分分析
主成分分析を行い、語彙の豊かさの総合指数を求め、
5
つの成分を抽出した (表14)。
表 14 主成分分析結果
成分 固有値合計 寄与率
%
累積%
第
1
主成分3.27 65.48 65.48
第
2
主成分.84 16.89 82.37
第
3
主成分.47 9.34 91.71
第
4
主成分.25 4.98 96.69
第
5
主成分.17 3.32 100.000
主成分分析では通常、固有値が
1.0
以上の主成分を解釈する。今回の分析では、固有値が1.0
以上のものが第1主成分のみであるため、第1主成分のみを分析対象とする。続いて主成分負荷量に注目する。これは、頻度層と第
1
主成分との相関を示している。第1
主 成分では、K1 機能語が負の値を示すのに対して、その他の頻度層に関しては、Off-list>K2>K1内容語>K3 の順で高い正の値を返していることが分かる
(表 15)。このことより、K1
機能語の第1 主成分における特異性が追認できた。表 15 主成分負荷量
第
1
主成分K1
機能語-.51
K1
内容語.86
K2 .87
K3 .81
Off-list .93
次に、学習者と母語話者の第
1
主成分得点をまとめたものが表16
である。なお、学習 者の第1
主成分得点の平均は-0.66であり、 母語話者の平均は0.66
であった。つまり、第
1
主成分得点は、学習者よりも母語話者の方が高いことが分かる。第
1
主成分得点を図にしたものが以下である (図12)。図からも見て分かる通り、例外
はあるものの総じて母語話者グループが上位に位置しているのに対して、学習者グループ が下位を占めていることが分かる。表 16 主成分得点
第1主成分得点 順位 学習者 母語話者
1 0.44 2.58
2 0.43 1.96
3 0.42 1.94
4 0.10 1.90
5 -0.00 1.86
6 -0.11 1.64
7 -0.21 1.56
8 -0.27 1.46
9 -0.43 1.43
10 -0.44 1.32
11 -0.46 1.32
12 -0.47 1.22
13 -0.48 1.20
14 -0.50 1.19
15 -0.50 1.18
16 -0.54 1.15
17 -0.57 1.02
18 -0.59 0.86
19 -0.59 0.77
20 -0.75 0.73
21 -0.76 0.65
22 -0.79 0.63
23 -0.81 0.45
24 -0.90 0.44
25 -0.92 0.35
26 -0.93 0.19
27 -0.94 0.18
28 -0.99 0.16
29 -1.00 0.05
30 -1.02 -0.00
31 -1.02 -0.10
32 -1.06 -0.24
33 -1.12 -0.35
34 -1.14 -0.41
35 -1.15 -0.63
36 -1.37 -0.71
37 -1.40 -0.78
38 -1.45 -1.15
39 -1.61 -1.16
図 12 第
1
主成分得点以上の結果を総合すると、いくつかの外れ値が見られるものの「語彙密度」、「語彙の 洗練性」、「語彙の多様性」の3つの観点をもとにした語彙の豊かさの総合指標は、学習 者の言語能力を予測するのに有効であると結論づけることができる。
5.2. 自由会話コーパス
5.2.1. 記述統計量
学習者コーパスのトークン総数は
30560
語で、タイプ総数は2042
語であった。また、母語話者コーパスのトークン総数は
61545
語で、タイプ総数は4458
語であった。各頻 度層のトークン数とタイプ数は以下のようになった(表17)。
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
学習者
母語話者
学習者平均
母語話者平均
表 17 学習者コーパスと母語話者コーパスのトークン数とタイプ数
K1
機能語K1
内容語K2 K3 OFF 合計
学習者
トークン
18896 9135 1003 251 1275 30560
タイプ
146 1036 194 104 431 2042
母語話者
トークン
37447 17826 1926 588 3758 61545
タイプ
187 1807 751 289 1428 4458
母語話者コーパスは学習者コーパスの
2.01
倍の大きさである。各コーパスの各頻度層 のタイプ数とトークン数の平均は以下のようになった(表18)。
表 18 各コーパスのトークン数とタイプ数の平均
K1
機能語K1
内容語K2 K3 OFF 合計
学習者
トークン
497.26 240.39 26.39 6.61 33.55 804.21
タイプ
61.87 100.00 16.47 4.95 17.42 200.71
母語話者
トークン
1872.35 891.30 96.30 29.40 187.90 3077.25
タイプ104.85 305.70 65.65 21.70 100.45 598.35
次に、トークンについて母語話者と学習者の各頻度層の比率を比較した。t 検定を行っ たところ、表
19
のような結果となった。表 19 トークンの頻度層ごとの比率の記述統計
頻度層 グループ 人数 平均値(%) 標準偏差
t
自由度 有意確率K1
機能語学習者
38 62.39 4.22
2.20 55.30 .03
母語話者
20 60.61 1.94
K1
内容語学習者
38 29.82 3.91
.73 55.70 .47
母語話者
20 29.27 1.88
K2
学習者
38 3.19 1.05
.23 56 .81
母語話者
20 3.12 .85
K3
学習者
38 .90 1.03
-.10 56 .92
母語話者
20 .93 .41
Off-list
学習者
38 3.69 1.93
-4.28 56 .00
母語話者
20 6.07 2.17
学習者コーパスと母語話者コーパスの間に有意差が見られたのは、