第四章 研究方法
4.5.1. 使用語彙研究の分析方法
上記のとおり、タスクに基づくコーパスも自由会話コーパスも、一貫した分析方法を用 いる。語彙の豊かさの分析、特徴語分析、コロケーション分析、
N-gram
分析の方法につ いて、順に説明する。4.5.1.1.
語彙の豊かさの分析
学習者と母語話者との比較と学習者間の比較を行うにあたり、 内容語と機能語が関係する「語 彙密度」、頻度が関係する「語彙の洗練性」、そしてタイプとトークンが関係する「語彙の多様性」
の3つの観点を変数に使用する。
「語彙密度」と「語彙の洗練性」に関しては、高頻度内容語、高頻度機能語、中頻度語、低頻度 語、リスト外単語の
5
つの変数を採用した。頻度層はそれぞれVocabProfil
に依拠しており、高頻 度内容語はVocabProfil
のK1 (上位 1000
語) に含まれる内容語、高頻度機能語はK1
に含まれ る機能語、中頻度語はK2 (1001~2000
位)、低頻度語はK3 (2001~3000
位)、リスト外単語はOff-list (VocabProfil
に含まれない単語)に相当する。なお、ためらい語であるHESIT、固有名詞
である
NP、外国語起源の単語である FW、間投詞である INT
は、VocabProfilではOff-list
に分類されることが多く、本研究の趣旨と異なる結果が予想されるため、語彙の豊かさの分析にはこれ らの語を除くこととする。
これらの頻度層における「語彙の多様性」を算出するため、ギロー値を採用した。以下の方法で 各インフォーマントの変数を算出した。
高頻度内容語ギロー値=高頻度内容語タイプ数/√高頻度内容語トークン数 高頻度機能語ギロー値=高頻度機能語タイプ数/√高頻度機能語トークン数
K2
ギロー値=K2
タイプ数/√ トークン数K3
ギロー値=K3タイプ数/√ トークン数Off-list
ギロー値=Off-list
タイプ数/√ – トークン数分析にはまず、各頻度層におけるトークン数、タイプ数、比率、ギロー値について記述統計を行 う。 比率とギロー値については、学習者グループと母語話者グループの有意差を調べるため、t 検定を行う。次に、それぞれのコーパスについて、ギロー値と頻度層を変数にとり、相関係数の比 較を行う。さらに、主成分分析という多変量解析を利用して語彙の豊かさの総合指標を求める。そ して、主成分得点をもとにして被験者間の順位づけを行い、学習者と母語話者の比較と、学習者 間の比較を行う。
4.5.1.2.
特徴語の分析
特徴語の分析は、語彙の豊かさの分析の質的研究の側面を持つ。まず、WordSmith
(ver. 6.0)
の
Keyword List
の機能を用いて、学習者の過剰使用語と過少使用語を算出し、これを特徴語とする。これらの特徴語を明らかにすることで、学習者コーパスに見られる使用語彙の特徴をより詳 細に分析することが可能となる。なお統計手法として、対数尤度比カイ二乗統計量(log-likelihood
ratio
またはG
2とも呼ばれる)を選択し、これをKeyness
の値とする。対数尤度比は、実測値と期待値の差に注目するものである。 特徴語を算出の際には、母語話者コーパスを参照コーパスと 位置づける。正の値を示したものを過剰使用語とし、負の値を示したものを過少使用語と する。閾値の設定については、分析時に説明する。
次に、過剰使用語と過少使用語について俯瞰するため、特徴語について学習者コーパスと母 語話者コーパスの実測値や
Keyness
をまとめる。また、学習者コーパスと母語話者コーパスの 規模が異なるため、10
万語あたりの頻度に調整したものも示すこととする。さらに、以上で得られたリストを、『語彙の豊かさ』 の分析で使用した
VocabProfil
の頻度層と 当てはめる。このことによって、過剰使用語と過少使用語がどの頻度層で現れるのかを視覚化す ることができる。また、 『語彙の豊かさ』では明らかにできなかった質的な側面が明らかにできると 考える。最後に、VocabProfil の頻度層ごとにどのような品詞が含まれているのかを分析する。このことに よって、過剰使用語や過少使用語といった特徴語の傾向を異なる視点から把握することができる と期待できる。
4.5.1.3.
コロケーション分析
コロケーション分析では、『Word Units 研究』であらかじめ明らかになった特徴語に ついて、それらの共起語を分析する。つまり、学習者の過剰使用語と過少使用語を含む
MWUs
について、母語話者の使用とどのように使用コンテクストが異なるのかを分析す る。過剰使用語や過少使用語に結びつきの強い語やMWUs
は何かについて分析を行う。また、コロケーション分析では連続した語のみに限定せず、非連続的なコロケーションに ついても興味の対象とする。
まず、全ての特徴語について、
WordSmith tools
のconcordance
機能を使用し、学習者 コーパスと母語話者コーパスのそれぞれに対して特徴語の前後3
語についてリスト化し、特徴語の共起語について比較を行う。このことによって、特徴語を中心とした最大
7
語 連鎖までを観察することが可能となる。その際、調整頻度10
万語あたり20
語以上生起 したものを分析対象とする。タスクに基づく分析については、どのようなタスクのもとで以上の
MWUs
が現れるの かを観察する。自由会話コーパスについては、学習者と母語話者間だけでなく、学習者間 のレベル別での特徴があるのかについても分析する。4.5.1.4.
N-gram
分析N-gram
分析では、連続的なMWUs
をWordSmith tools
を使用して機械的・自動的に抽出する。まず、学習者は繰り返し使用される
MWUs
を持っているのかどうかを調べるため、
N-grams
のトークンとタイプについて10
万N-grams
あたりの調整頻度に直し、母語話者コーパスと比較する。なお、調整頻度は次のように計算を行うこととする:
1)
学習者コーパスにおけるN-gram
の総数をWordSmith
で求める:2)
母語話者コーパスにおけるN-gram
の総数をWordSmith
で求める:3) 10
万N-grams
あたりの調整頻度を求めるため、各コーパスのそれぞれのN-grams
の生起頻度を総数で割って
10
万を掛ける 。2
つのコーパスの比較にあたって、調整頻度の閾値を100
、50
以上100
未満、20
以上50
未満、20
未満と設定し、各頻度層に含まれるN-grams
数の割合を比較する。次に、頻度最上位の
N-grams
の比較を行うため、各コーパスの10
位までの調整頻度を 比較する。さらに、質的な分析を行うため、
WordSmith
を利用して特徴的N-grams
抽出する。そして
VocabProfil
の頻度情報を基に、特徴的N-gram
を構成する語の頻度層を分析する。次に、これらの特徴的
N-grams
と特徴語の関係について分析する。最後に、抽出された特徴的
N-grams
を目録化し、特徴的N-grams
の傾向を探る。2-gram から5-gram
までに重複する特徴的
N-gram
が出てきた場合は、語連鎖数が高いものを基に語連鎖数が低いも のを下位分類する。次章より、学習者の話し言葉に置ける使用語彙の特徴を、コーパスに基づいて分析を行 う。