5.3. 分析:派生接辞学習による語彙力の増加
5.3.1. 頻度データのワードファミリー化
2.3.4.で言及したが,WFという単位は応用言語学の分野で用いられる.WFの概念は,「一度,
元となる語(base word),もしくは派生語を覚えれば,そのword familyの他の構成員を理解する 労力は少なくて済む,または,まったく労力を要さない」(Bauer, Nation 1993: 253)という考えに根 ざしている.例えば,Nation (2004)はBNCの頻度データから高頻度のWFリストを作成し,これ が様々な分野で高いテキストカバー率を実現することを確認している.また,学習者の習熟度・
語彙サイズと派生接辞の知識には相関があることを示す研究もある (cf. Schmitt, Meara 1997;
Mochizuki, Aizawa 2000).Nation (2001: 47)によると,「word familyは心理学的に実在的なものであ
164 例えば,本源形зима/zima「冬」には,зимний/zimnij「冬の」, зимовать/zimovat'「冬眠する」, зимовка/zimovka
「越冬」, озимье/ozim'e「冬麦」などの派生語がある (Янко-Триницкая 2001: 242).
165 ただ,これらの教材にはいくつかの問題があり,少なくとも日本語環境にいる日本人ロシア語学習者に は不向きであると考える.詳細は6章にて言及する.
り,語を知るということについて論じる場合,実際にはword familyを知ることについて論じなけ ればならない,という考えを支持する研究成果も存在する」(cf. Nagy et al. 1989).そのため,英語 の語彙学習に際してWFへの言及は必要であろう.派生の豊かなロシア語教育においてはなおさ らであり,その語彙学習にWFという概念を導入する価値は高いと考えられる.
ここでは,RNC-MとRNC-Sの頻度データを対象としたWF化を行う166.なお,両コーパスの 頻度データ (Ляшевская, Шаров 2009)はレマ単位で数えられている.具体的なWF化の作業は,以 下の3つの手順を通して行う.
(52) WF化の手順
a. RNC-MとRNC-Sにおけるそれぞれの高頻度5,000語(レマ単位)を,Тихонов (1985)167の 記述に基づいて,本源形とその派生語群が1つに集約されたWF単位にまとめ直す.
・本源形 начать「(完了体)始める」
・派生語群 начинать「(不完了体)始める」,начаться「(完了体)始まる」 ,
начинаться「(不完了体)始まる」, начало「始まり」,начальный「初めの」, сначала「最初」
→ «начать»のWF
b. 本源形と派生語群の生起頻度を合計する.
начать – 444, начинать– 309, начаться – 108, начинаться – 129, начало – 131, начальный – 16, сначала – 336
→ «начать»のWFの生起頻度:1,473
c. a.とb.の手順を踏んだWF単位の頻度データを元に,特定語数によるテキストカバー率の
上昇度合いを確認する.
まず,a.の段階では,Тихонов (1985)の語形成辞典の記述に基づいて,高頻度5,000語内に含まれ る本源形と同一語根の派生語群を1つに集約する.例えば,RNC-Sの高頻度5,000語内には,本 源形начать/načat'「(完了体)始める」と,その派生語начинать/načinat'「(不完了体)始める」, начаться/načat'sâ「(完了体)始まる」, начинаться/načinat'sâ「(不完了体)始まる」, начало/načalo
「始まり」, начальный/načal'nyj「初めの」, сначала/snačala「最初」が含まれるが,a.の段階では
166 4章の考察結果から,5章〜7章の分析には規模とテキストジャンルのバランスの点で優れるRNC-Mの 頻度データ (Ляшевская, Шаров 2009)を採用するという結論に至った.また,規模は小さいが(約76万 語),参考として話し言葉コーパスであるRNC-Sの頻度データ (Ляшевская, Шаров 2009)に対しても,
同様の分析を行う.その狙いは書き言葉と話し言葉において派生語(派生接辞)の使用に違いがあるの かどうかを確認することにある.
167 Козырев, Черняк (2016: 118)が述べているように,「語形成辞典の中で, <...> 2巻から成るА.Н. Тихонов のロシア語語形成辞典が中心的である」ため,本章ではТихонов (1985)の記述に沿ってWF化を行う.
これらを1つとして捉える.なお,a.の分析対象数はコーパスにおける高頻度5,000語168に限定し ている.本章のWF化は,派生接辞による語彙力増加の効果を数量的に確認することを目的とし ている.WF 化した際のカバー率の上昇度を応用言語学の観点から議論・考察するには,実際に 頻繁に生起している語のみを分析対象とする必要がある.仮に分析対象数を高頻度10,000語まで 広げ,生起頻度の低い語までWF化に含めてしまうと,分析結果の数値が過度に高くなってしま う可能性があり,かつ,1WFの中に含まれる派生語の数も増えてしまう.これでは学習者が出会 う機会のほぼない語まで覚える対象として扱うこととなる.そのため,恣意的ではあるが,分析 対象数は高頻度5,000語に限定した.理由は以下の通りである:1) 英語の高頻度2,000語はテキ
ストの約80%をカバーするのに対し,RNC-Mの高頻度語はその数値に達するのに約5,000語を要
する(表45参照).2) 高頻度5,000語以降の各1,000語によるカバー率は極端に低くなる.
なお,Тихонов (1985)に記載のない語に関しては,WF化せずにレマ単位のままにしてある.こ
の作業をRNC-MとRNC-S の各5,000語に対して行った.結果,RNC-MとRNC-Sにおけるレマ
単位の高頻度5,000語は,WF化によってそれぞれ2,472語と2,622語に減少した.
次のb.では,a.の分析で1つにまとめられた本源形と派生語群の頻度を合計し,WF単位での頻
度リストを作成した.前述のRNC-Sの«начать/načat'»のWFを例にとれば,それぞれの生起頻度 を合わせるとipm換算で1,437となる.この作業をWF化によって得られたRNC-Mの2,472語と RNC-Sの2,622語に対して実施した.
最後に,c.の段階では,レマ単位で計算された頻度データ (Ляшевская, Шаров 2009)とWF化さ れた頻度データを比較し,特定語数によるテキストカバー率がどれだけ異なるのかを確認する.
以下がその結果である.
表50. RNC-MとRNC-Sにおけるレマ単位とWF単位の高頻度語によるテキストカバー率169
語数 RNC-M (書き言葉コーパス) RNC-S (話し言葉コーパス)
レマ WF レマ WF
500語 53.0% 63.3% (=レマ単位の1,212語) 69.4% 76.2% (=レマ単位の1,132語) 1,000語 60.9% 72.1% (=レマ単位の2,533語) 75.3% 81.4% (=レマ単位の2,364語) 1,500語 65.9% 76.1% (=レマ単位の3,627語) 78.3% 83.5% (=レマ単位の3,400語) 2,000語 69.4% 78.2% (=レマ単位の4,397語) 80.3% 84.6% (=レマ単位の4,206語) 2,500語 72.0% 79.3% (=レマ単位の4,927語) 81.7% 85.3% (=レマ単位の4,801語)
168 RNC-MとRNC-Sにおける分析対象数は,正確にはそれぞれ4,927語である.Ляшевская, Шаров (2009)
はRNC-Sの高頻度語を4,927位までしか提示していないため,RNC-Mの分析対象数もこれに合わせた.
169 RNC-MはWF化した際に2,472語まで数が減少した.そのため,表内の2,500語による79.3%という
テキストカバー率は,実際には2,472語によるものである.
表の結果からわかるように,WF化によってテキストカバー率は大幅に上昇することがわかった.
次節でこの結果を詳細に分析・考察する.