頻度データのワードファミリー化 - 分析：派生接辞学習による語彙力の増加 - 派生接辞を用いたロシア語の効率的な語彙学習法の検討

5.3. 分析：派生接辞学習による語彙力の増加

5.3.1. 頻度データのワードファミリー化

2.3.4.で言及したが，WFという単位は応用言語学の分野で用いられる．WFの概念は，「一度，

元となる語（base word），もしくは派生語を覚えれば，そのword familyの他の構成員を理解する労力は少なくて済む，または，まったく労力を要さない」(Bauer, Nation 1993: 253)という考えに根ざしている．例えば，Nation (2004)はBNCの頻度データから高頻度のWFリストを作成し，これが様々な分野で高いテキストカバー率を実現することを確認している．また，学習者の習熟度・

語彙サイズと派生接辞の知識には相関があることを示す研究もある (cf. Schmitt, Meara 1997;

Mochizuki, Aizawa 2000)．Nation (2001: 47)によると，「word familyは心理学的に実在的なものであ

164 例えば，本源形зима/zima「冬」には，зимний/zimnij「冬の」, зимовать/zimovat'「冬眠する」, зимовка/zimovka

「越冬」, озимье/ozim'e「冬麦」などの派生語がある (Янко-Триницкая 2001: 242)．

165 ただ，これらの教材にはいくつかの問題があり，少なくとも日本語環境にいる日本人ロシア語学習者には不向きであると考える．詳細は6章にて言及する．

り，語を知るということについて論じる場合，実際にはword familyを知ることについて論じなければならない，という考えを支持する研究成果も存在する」(cf. Nagy et al. 1989)．そのため，英語の語彙学習に際してWFへの言及は必要であろう．派生の豊かなロシア語教育においてはなおさらであり，その語彙学習にWFという概念を導入する価値は高いと考えられる．

ここでは，RNC-MとRNC-Sの頻度データを対象としたWF化を行う¹⁶⁶．なお，両コーパスの頻度データ (Ляшевская, Шаров 2009)はレマ単位で数えられている．具体的なWF化の作業は，以下の3つの手順を通して行う．

(52) WF化の手順

a. RNC-MとRNC-Sにおけるそれぞれの高頻度5,000語（レマ単位）を，Тихонов (1985)¹⁶⁷の記述に基づいて，本源形とその派生語群が1つに集約されたWF単位にまとめ直す．

・本源形 начать「（完了体）始める」

・派生語群 начинать「（不完了体）始める」，начаться「（完了体）始まる」 ,

начинаться「（不完了体）始まる」, начало「始まり」，начальный「初めの」, сначала「最初」

→ «начать»のWF

b. 本源形と派生語群の生起頻度を合計する．

начать – 444, начинать– 309, начаться – 108, начинаться – 129, начало – 131, начальный – 16, сначала – 336

→ «начать»のWFの生起頻度：1,473

c. a.とb.の手順を踏んだWF単位の頻度データを元に，特定語数によるテキストカバー率の

上昇度合いを確認する．

まず，a.の段階では，Тихонов (1985)の語形成辞典の記述に基づいて，高頻度5,000語内に含まれる本源形と同一語根の派生語群を1つに集約する．例えば，RNC-Sの高頻度5,000語内には，本源形начать/načat'「（完了体）始める」と，その派生語начинать/načinat'「（不完了体）始める」， начаться/načat'sâ「（完了体）始まる」, начинаться/načinat'sâ「（不完了体）始まる」, начало/načalo

「始まり」, начальный/načal'nyj「初めの」, сначала/snačala「最初」が含まれるが，a.の段階では

166 4章の考察結果から，5章〜7章の分析には規模とテキストジャンルのバランスの点で優れるRNC-Mの頻度データ (Ляшевская, Шаров 2009)を採用するという結論に至った．また，規模は小さいが（約76万語），参考として話し言葉コーパスであるRNC-Sの頻度データ (Ляшевская, Шаров 2009)に対しても，

同様の分析を行う．その狙いは書き言葉と話し言葉において派生語（派生接辞）の使用に違いがあるのかどうかを確認することにある．

167 Козырев, Черняк (2016: 118)が述べているように，「語形成辞典の中で， <...> 2巻から成るА.Н. Тихонов のロシア語語形成辞典が中心的である」ため，本章ではТихонов (1985)の記述に沿ってWF化を行う．

これらを1つとして捉える．なお，a.の分析対象数はコーパスにおける高頻度5,000語¹⁶⁸に限定している．本章のWF化は，派生接辞による語彙力増加の効果を数量的に確認することを目的としている．WF 化した際のカバー率の上昇度を応用言語学の観点から議論・考察するには，実際に頻繁に生起している語のみを分析対象とする必要がある．仮に分析対象数を高頻度10,000語まで広げ，生起頻度の低い語までWF化に含めてしまうと，分析結果の数値が過度に高くなってしまう可能性があり，かつ，1WFの中に含まれる派生語の数も増えてしまう．これでは学習者が出会う機会のほぼない語まで覚える対象として扱うこととなる．そのため，恣意的ではあるが，分析対象数は高頻度5,000語に限定した．理由は以下の通りである：1) 英語の高頻度2,000語はテキ

ストの約80%をカバーするのに対し，RNC-Mの高頻度語はその数値に達するのに約5,000語を要

する（表45参照）．2) 高頻度5,000語以降の各1,000語によるカバー率は極端に低くなる．

なお，Тихонов (1985)に記載のない語に関しては，WF化せずにレマ単位のままにしてある．こ

の作業をRNC-MとRNC-S の各5,000語に対して行った．結果，RNC-MとRNC-Sにおけるレマ

単位の高頻度5,000語は，WF化によってそれぞれ2,472語と2,622語に減少した．

次のb.では，a.の分析で1つにまとめられた本源形と派生語群の頻度を合計し，WF単位での頻

度リストを作成した．前述のRNC-Sの«начать/načat'»のWFを例にとれば，それぞれの生起頻度を合わせるとipm換算で1,437となる．この作業をWF化によって得られたRNC-Mの2,472語と RNC-Sの2,622語に対して実施した．

最後に，c.の段階では，レマ単位で計算された頻度データ (Ляшевская, Шаров 2009)とWF化された頻度データを比較し，特定語数によるテキストカバー率がどれだけ異なるのかを確認する．

以下がその結果である．

表50. RNC-MとRNC-Sにおけるレマ単位とWF単位の高頻度語によるテキストカバー率¹⁶⁹

語数 RNC-M (書き言葉コーパス) RNC-S (話し言葉コーパス)

レマ WF レマ WF

500語 53.0% 63.3% (=レマ単位の1,212語) 69.4% 76.2% ⁽⁼^{レマ単位の}^1,132^語⁾ 1,000語 60.9% 72.1% (=レマ単位の2,533語) 75.3% 81.4% ⁽⁼^{レマ単位の}^2,364^語⁾ 1,500語 65.9% 76.1% (=レマ単位の3,627語) 78.3% 83.5% ^{(=レマ単位の}^3,400^語) 2,000語 69.4% 78.2% (=レマ単位の4,397語) 80.3% 84.6% ^{(=レマ単位の}^4,206^語) 2,500語 72.0% 79.3% (=レマ単位の4,927語) 81.7% 85.3% ^{(=レマ単位の}^4,801^語)

168 RNC-MとRNC-Sにおける分析対象数は，正確にはそれぞれ4,927語である．Ляшевская, Шаров (2009)

はRNC-Sの高頻度語を4,927位までしか提示していないため，RNC-Mの分析対象数もこれに合わせた．

169 RNC-MはWF化した際に2,472語まで数が減少した．そのため，表内の2,500語による79.3%という

テキストカバー率は，実際には2,472語によるものである．

表の結果からわかるように，WF化によってテキストカバー率は大幅に上昇することがわかった．

次節でこの結果を詳細に分析・考察する．

ドキュメント内派生接辞を用いたロシア語の効率的な語彙学習法の検討 (ページ 135-138)