• 検索結果がありません。

RNC-MとC_ALLにおける対応する各頻度域の重複数は増加する.

表43. RNC-Mと500万語のC_ALLにおける対応する高頻度域の重複数

順位

C_ALL 1-500 501-

1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000

over 3,000

RNC-M

1-500 430 58 5 0 1 1 5

501-1,000 65 300 98 24 5 1 7

1,001-1,500 3 115 209 90 39 21 23

1,501-2,000 2 18 130 167 78 35 70

2,001-2,500 0 2 30 121 148 74 125

2,501-3,000 0 2 14 51 108 100 225

Over 3,000 0 5 14 47 121 268

RNC-Mの1〜500位の500語のうち,430語が対応するC_ALLの頻度域に含まれている.それ以

降も300, 209, 167, 148, 100といった具合に,RNC-M とC_ALLの間では,RNC-MとC_1〜C_5 のどれよりも高い重複数が記録されている.

また,重複数の増加に伴い,範囲外語の数は減少している.

表44. RNC-MとC_Allにおける各高頻度域の範囲外語の数(括弧内は累計)

1-500 501- 1,000

1,001- 1,500

1,501- 2,000

2,001- 2,500

2,501- 3,000 RNC-MとC_ALL 5(5) 7(12) 23(35) 70(105) 125(230) 225(455)

この傾向は,コーパスの総語数が5000万,1億,10億と増えていくにつれて顕著になっていくと 予想される.この分析結果は,コーパス間の高頻度語の重複数が安定するには,より大きなコー パス規模が求められる,ということを示している.言い換えると,コーパス規模は高頻度語の選 定に大きな影響を与えるのである.

に対し,自作コーパスのそれは100万語である.Kilgarriff (1996)の分析が示すように,コーパス を構成するテキストのジャンル比率が同じで,かつ,規模が大きいと,2 つのコーパス間におい て高頻度語の重複数は高くなる(4.3.1. / 表34参照).一方,本章はテキストのジャンル比率が同 じではあるが,規模が異なるコーパスを比較した.総語数 9,200万語のRNC-M は信頼性の高い 頻度データを安定して提示するが,この分析の目的は C_1〜C_5 がどこまで比較対象である

RNC-Mと語彙的な類似度を有しているのかを確認することにあった.

比較の結果,RNC-MとC_1〜C_5における高頻度語の重複数は上位1,500語までは安定してい るということがわかった(4.3.2. / 表35,表38〜表41参照).具体的には,RNC-Mの高頻度1位

〜1,500位の1,500語は,そのほとんどがC_1〜C_5の高頻度3,000位の中に含まれている.だが,

それ以降になると範囲外語の数が急激に増えていく.したがって,本章の分析から,ロシア語の 100万語のコーパスを用いて高頻度語を抽出する場合,高頻度順に1,500語までは安定した結果が 得られる,ということがわかった.

本章の研究設問(30)に答えると,100万語規模のコーパスからは,高頻度1,500語までしか安定 した頻度データは得られない.そのため,100万語のコーパスから抽出した高頻度5,000語までの 頻度データの信頼性は低いと言える.

4.4.2. 本稿5章〜7章で用いるコーパスの選定

4.3.の分析結果を受けて,後述の5章〜7章で用いるロシア語のコーパスについて検討する.本

章の冒頭で述べたように,後述の分析は高頻度5,000語を対象としている.そのため,100万語コ ーパスが提示する頻度情報ではこの分析には対応しきれない.より大きな総語数を有するコーパ スが求められる.したがって,Штейнфельд (1963),Засорина (ред.) (1977),Лённгрен (1993),Brown (1996)が提示する頻度情報は,本稿の分析に用いることはできない.

コーパス規模の観点のみから判断すると,選択肢としては書き言葉均衡コーパスであるRNC-M (Ляшевская, Шаров 2009)か,書き言葉に類似の特徴を示す Sharoff et al. 2013 (2013)の Internet

Corpus,そして圧倒的な総語数を誇るruTenTen11のどれかを選ばなければいけない,ということ

になる.Sharoff et al. (2013)のInternet CorpusとruTenTen11はテキストをwebから自動で収集して いるため,テキストジャンルの比率などの情報が不明であり,現代ロシア語を代表しているとは 言えない.また,これらのコーパスは内部構 が不透明であるため再現性がなく,4 章のような 比較研究が実施できない.くわえて,これらのコーパスに含まれるテキストは,日本語環境にい る日本人ロシア語学習者が触れる一般的なロシア語を反映しているとも言いづらい.

このような理由や今後の発展研究を見据えて,後述の分析には RNC-M (Ляшевская, Шаров

2009)の頻度データを採用する. McCarthy, Carter (2001)が述べているように,あらゆる研究に適用 可能なコーパスサイズを決めることは不可能であるが,本章の結果から,高頻度 5,000語の分析 には総語数が9,200万語で,かつ,内部構 が明らかで,書き言葉の現代ロシア語を代表するよ うに設計されたRNC-Mが最適であると考える.

5章. 派生接辞学習による語彙力増加の数量的確認

2章では,語を数える際の4つの単位(トークン,タイプ,レマ,WF)に言及し,テキストが どのように計量されるのかを確認した.続く3章において,主にコーパス規模とテキストサンプ リングの観点から,これまでに作成されたロシア語コーパスとそれに基づく頻度辞書に言及した.

4 章では,それらの中からどのコーパス(もしくは頻度辞書)が本稿の分析に適しているのかを 議論した.結果,本稿が対象とする高頻度5,000語の分析には100 万語規模のコーパスでは不十 分であり,テキストジャンルのバランスと規模の点で優れる RNC-M の頻度データ (Ляшевская,

Шаров 2009)を用いるという結論に至った.ここまでの前提を踏まえ,5章から7章にかけて本稿

全体の研究設問の分析・考察を行う.

5章から 7章に共通する分析の目的は,派生接辞を用いたロシア語の効率的な語彙学習法の検 討である.まず,5章では(31)の研究設問に取り組む.

(31) 5章の研究設問

a. 派生接辞の学習は語彙力増加に効果的か否かを言語学的に確認する.

b. 効果的であるとすれば,派生接辞の知識は語彙力増加にどの程度寄与するのかを数量的に 確認する.

以下の手順でこの研究設問にアプローチする:5.1.において,まず研究設問a.とb.の前提となる派 生接辞学習の必要性を確認する.具体的には,RNC-Mなどの高頻度語やTORFLの語彙リストに よるテキストカバー率が低いことを示し,ロシア語学習者の大半が語彙力不足の問題を抱えてい る状況を把握する(分析の結果,ロシア語の高頻度語によるテキストカバー率は,英語のそれよ りも大幅に低いことがわかった).そして,続く5.2.では,ロシア語のテキストカバー率の低さの 理由を言語学的に考察する(研究設問a.).本章では,このカバー率の差は英露の概念・語彙素の 増やし方の違いに起因すると考えた.英語は新しく語を形成するのではなく,既存の語を用いた 語連続という分析的な形で概念・語彙素を増やし得る(go in「入る」, go out「出る」).ロシア語 は,同様のことを実現するのに派生という統合的な手段を用いる(ходить/hodit'「進む」+ в-/v-, вы-/vy- входить/vhodit'「入る」,выходить/vyhodit'「出る」).そのため,概念・語彙素の形成 に伴って,ロシア語における派生語の数は増えていく.ロシア語のこの言語的特徴は,派生接辞 の学習が語彙力増加に役立つことを示唆している.そこで,5.3.では,派生接辞の知識が実際にど れだけ語彙力を伸ばし得るのかを数量的に確認する.その方法としてレマ単位の頻度データ

(Ляшевская, Шаров 2009)をWF単位で数え直し,どの程度カバー率が上昇するのかを確かめる(研 究設問b.).仮に,WF単位で語を捉えて大幅にカバー率が上昇すれば,それはロシア語の派生接 辞の学習が,語彙力増加に有効であることを意味する.最後に,5.4.にて5章の総括を行う.