使用語彙研究の分析方法

第四章研究方法

４.５.１. 使用語彙研究の分析方法

上記のとおり、タスクに基づくコーパスも自由会話コーパスも、一貫した分析方法を用いる。語彙の豊かさの分析、特徴語分析、コロケーション分析、

N-gram

分析の方法について、順に説明する。

４.５.１.１.

語彙の豊かさの分析

学習者と母語話者との比較と学習者間の比較を行うにあたり、内容語と機能語が関係する「語彙密度」、頻度が関係する「語彙の洗練性」、そしてタイプとトークンが関係する「語彙の多様性」

の３つの観点を変数に使用する。

「語彙密度」と「語彙の洗練性」に関しては、高頻度内容語、高頻度機能語、中頻度語、低頻度語、リスト外単語の

5

つの変数を採用した。頻度層はそれぞれ

VocabProfil

に依拠しており、高頻度内容語は

VocabProfil

の

K1 (上位 1000

語) に含まれる内容語、高頻度機能語は

K1

に含まれる機能語、中頻度語は

K2 (1001～2000

位)、低頻度語は

K3 (2001～3000

位)、リスト外単語は

Off-list (VocabProfil

に含まれない単語)に相当する。なお、ためらい語である

HESIT、固有名詞

である

NP、外国語起源の単語である FW、間投詞である INT

は、VocabProfilでは

Off-list

に分

類されることが多く、本研究の趣旨と異なる結果が予想されるため、語彙の豊かさの分析にはこれらの語を除くこととする。

これらの頻度層における「語彙の多様性」を算出するため、ギロー値を採用した。以下の方法で各インフォーマントの変数を算出した。

高頻度内容語ギロー値＝高頻度内容語タイプ数／√高頻度内容語トークン数高頻度機能語ギロー値＝高頻度機能語タイプ数／√高頻度機能語トークン数

K2

ギロー値＝

K2

タイプ数／√ トークン数

K3

ギロー値＝K3タイプ数／√ トークン数

Off-list

ギロー値＝

Off-list

タイプ数／√ – トークン数

分析にはまず、各頻度層におけるトークン数、タイプ数、比率、ギロー値について記述統計を行う。比率とギロー値については、学習者グループと母語話者グループの有意差を調べるため、t 検定を行う。次に、それぞれのコーパスについて、ギロー値と頻度層を変数にとり、相関係数の比較を行う。さらに、主成分分析という多変量解析を利用して語彙の豊かさの総合指標を求める。そして、主成分得点をもとにして被験者間の順位づけを行い、学習者と母語話者の比較と、学習者間の比較を行う。

４.５.１.２.

特徴語の分析

特徴語の分析は、語彙の豊かさの分析の質的研究の側面を持つ。まず、WordSmith

(ver. 6.0)

の

Keyword List

の機能を用いて、学習者の過剰使用語と過少使用語を算出し、これを特徴語と

する。これらの特徴語を明らかにすることで、学習者コーパスに見られる使用語彙の特徴をより詳細に分析することが可能となる。なお統計手法として、対数尤度比カイ二乗統計量(log-likelihood

ratio

または

G

²とも呼ばれる)を選択し、これを

Keyness

の値とする。対数尤度比は、実測値と期待

値の差に注目するものである。特徴語を算出の際には、母語話者コーパスを参照コーパスと位置づける。正の値を示したものを過剰使用語とし、負の値を示したものを過少使用語とする。閾値の設定については、分析時に説明する。

次に、過剰使用語と過少使用語について俯瞰するため、特徴語について学習者コーパスと母語話者コーパスの実測値や

Keyness

をまとめる。また、学習者コーパスと母語話者コーパスの規模が異なるため、

10

万語あたりの頻度に調整したものも示すこととする。

さらに、以上で得られたリストを、『語彙の豊かさ』の分析で使用した

VocabProfil

の頻度層と当てはめる。このことによって、過剰使用語と過少使用語がどの頻度層で現れるのかを視覚化することができる。また、『語彙の豊かさ』では明らかにできなかった質的な側面が明らかにできると考える。

最後に、VocabProfil の頻度層ごとにどのような品詞が含まれているのかを分析する。このことによって、過剰使用語や過少使用語といった特徴語の傾向を異なる視点から把握することができると期待できる。

４.５.１.３.

コロケーション分析

コロケーション分析では、『Word Units 研究』であらかじめ明らかになった特徴語について、それらの共起語を分析する。つまり、学習者の過剰使用語と過少使用語を含む

MWUs

について、母語話者の使用とどのように使用コンテクストが異なるのかを分析する。過剰使用語や過少使用語に結びつきの強い語や

MWUs

は何かについて分析を行う。

また、コロケーション分析では連続した語のみに限定せず、非連続的なコロケーションについても興味の対象とする。

まず、全ての特徴語について、

WordSmith tools

の

concordance

機能を使用し、学習者コーパスと母語話者コーパスのそれぞれに対して特徴語の前後

3

語についてリスト化し、

特徴語の共起語について比較を行う。このことによって、特徴語を中心とした最大

7

語連鎖までを観察することが可能となる。その際、調整頻度

10

万語あたり

20

語以上生起したものを分析対象とする。

タスクに基づく分析については、どのようなタスクのもとで以上の

MWUs

が現れるのかを観察する。自由会話コーパスについては、学習者と母語話者間だけでなく、学習者間のレベル別での特徴があるのかについても分析する。

４.５.１.４.

N-gram

分析

N-gram

分析では、連続的な

MWUs

を

WordSmith tools

を使用して機械的・自動的に抽

出する。まず、学習者は繰り返し使用される

MWUs

を持っているのかどうかを調べるた

め、

N-grams

のトークンとタイプについて

10

万

N-grams

あたりの調整頻度に直し、母語

話者コーパスと比較する。なお、調整頻度は次のように計算を行うこととする：

1)

学習者コーパスにおける

N-gram

の総数を

WordSmith

で求める：

2)

母語話者コーパスにおける

N-gram

の総数を

WordSmith

で求める：

3) 10

万

N-grams

あたりの調整頻度を求めるため、各コーパスのそれぞれの

N-grams

の生起頻度を総数で割って

10

万を掛ける。

2

つのコーパスの比較にあたって、調整頻度の閾値を

100

、

50

以上

100

未満、

20

以上

50

未満、

20

未満と設定し、各頻度層に含まれる

N-grams

数の割合を比較する。

次に、頻度最上位の

N-grams

の比較を行うため、各コーパスの

10

位までの調整頻度を比較する。

さらに、質的な分析を行うため、

WordSmith

を利用して特徴的

N-grams

抽出する。そ

して

VocabProfil

の頻度情報を基に、特徴的

N-gram

を構成する語の頻度層を分析する。

次に、これらの特徴的

N-grams

と特徴語の関係について分析する。最後に、抽出された

特徴的

N-grams

を目録化し、特徴的

N-grams

の傾向を探る。2-gram から

5-gram

までに

重複する特徴的

N-gram

が出てきた場合は、語連鎖数が高いものを基に語連鎖数が低いものを下位分類する。

次章より、学習者の話し言葉に置ける使用語彙の特徴を、コーパスに基づいて分析を行う。

ドキュメント内 Doctoral Thesis (Tokyo University of Foreign Studies) (ページ 115-118)

第四章 研究方法

４.５.１. 使用語彙研究の分析方法

N-gram

語彙の豊かさの分析

5

VocabProfil

VocabProfil

K1 (上位 1000

K1

K2 (1001～2000

K3 (2001～3000

Off-list (VocabProfil

HESIT、固有名詞

NP、外国語起源の単語である FW、間投詞である INT

Off-list

K2

K2

K3

Off-list

Off-list

特徴語の分析

(ver. 6.0)

Keyword List

ratio

G

Keyness

Keyness

10

VocabProfil

コロケーション分析

MWUs

MWUs

WordSmith tools

concordance

3

7

10

20

MWUs

N-gram

N-gram

MWUs

WordSmith tools

MWUs

N-grams

10

N-grams

1)

N-gram

WordSmith

2)

N-gram

WordSmith

3) 10

N-grams

N-grams

10

2

100

50

100

20

50

20

N-grams

N-grams

10

WordSmith

N-grams

VocabProfil

N-gram

N-grams

N-grams

N-grams

5-gram

N-gram

第四章研究方法