自作 100 万語コーパスの概要 - 派生接辞を用いたロシア語の効率的な語彙学習法の検討

(30)の確認方法として，本章ではRNC-Mと同じテキストのサンプリング比率で構成された100

万語コーパスを5つ作成し，これらと RNC-Mにおける語彙の重複数を確認する（詳細は 4.3.で後述する）．本章は比較対象としてRNC-Mを採用するが，その理由は，RNC-Mは規模が大きく信頼性の高い頻度情報を提供し，かつ，その内部構が判明していて再現可能な唯一の現代ロシア語の書き言葉均衡コーパスだからである（他の均衡コーパスには，規模が小さい，または内部構が不明瞭であるという問題がある）．また，RNC-Mのデータは頻度辞書 (Ляшевская, Шаров

2009)にまとめられているだけでなく，web上でも一般に公開されている．

グラフ1は，自作100語コーパスの内部構のイメージを表している．

9,200万語のRNC-Mの内部構を100万語規模で再現

グラフ1. 自作100万語コーパスの内部構のイメージ

グラフが示すように，RNC-Mを構成するテキストのサンプリング比率を，5つの自作コーパスにおいて100万語規模で再現する．これらのコーパスに含まれるテキストは，約39%が「芸術文学」，

約42%が「社会・政治評論」，約17%が「芸術文学以外の文献」，約1%が「口頭会話」といった

ジャンルから成る．つまり，5つの自作コーパスは100万語規模のRNC-Mであると言える．

4.2.1.以降でRNC-Mの内部構に触れながら，100万語コーパスの作成について言及する¹³¹．

4.2.1. 自作100万語コーパスにおけるテキストのサンプリング比率

ロシア語を対象とした言語学の研究において，統計学を用いた量的な分析手法はよく見受けられる．だが，その適用が「妥当性を有するのは，得られたデータから内容のある（質的な）結果が導ける場合のみである．<...> なぜなら，なんらかの現象の単なる計算からは何も明らかにはならないからである」(Зиндер, Строева 1968: 121)．量的な分析結果は質的に解釈されなければなら

131 なお，本章はより規模の大きい現行RNC-Mではなく，RNC-Mを自作コーパスの比較対象に採用したが，理由は以下の通りである：現行RNC-Mは，一定の間隔で総語数を増やし続けているためその内部構は変化している．そのため，現行RNC-M はweb上で内部構の比率を公開してはいるものの，

そのデータは今のバージョン（検索に使用できる現行RNC-M）のデータと一致しない（アクセス日 2018 年2月9日）．また，現行 RNC-M はレマ単位の頻度データを一般に公開しておらず，その頻度辞書も出ていない．そのため，本章はRNC-Mを自作コーパスの比較対象に用いている．

0 10,000,000 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 70,000,000 80,000,000 90,000,000

RNC-M (9,200万語)

0 200,000 400,000 600,000 800,000 1,000,000

芸術文学社会・政治評論芸術文学以外の文献

口頭会話その他

ず，「理論的な解釈の欠如はその分析から意味を奪って」(Москвин 2015: 82) しまう．したがって，

単にテキストを100万語集めたコーパスとRNC-Mを比較しても，得られた結果にそれほど意味はない．通常，代表性のあるコーパスの設計に際しては，実証的な調査や理論的な分析がコーパスのデザインや実際のテキスト収集に先立たなければならないが (cf Biber 1993a: 255-256)，本章の自作100万語コーパスは，Ляшевская, Шаров (2009)が提示しているRNC-Mの内部構を模して作成される．したがって，RNC-Mと自作100万語コーパスとの比較から得られる分析結果は，

質的に解釈が可能である．

RNC-Mのジャンル毎の総語数（3.3.5.参照）とテキスト数を約100 万語サイズに縮小すると，

以下のような数値が得られる．

表31. 自作100万語コーパスの内部構（計画案）

テキストのジャンル比率総語数テキスト数 1. 芸術文学 39.04% 390,400×5 24×5 2. 社会・政治評論 42.21% 422,100×5 274×5

芸術文学以外の文献 17.16% 171,600×5 75×5

– 教育・学術 11.30% 113,000×5 40×5

– 公式・業務文書 1.62% 16,200×5 11×5

– 電子媒体でのやりとり 1.49% 14,900×5 1×5

– 教会・神学 1.44% 14,400×5 5×5

– 広告 0.57% 5,700×5 12×5

– 実生活 0.48% 4,800×5 4×5

– 製技術 0.26% 2,600×5 1×5

4. パブリックではない口頭会話 0.88% 8,800×5 10×5 5. その他（調整用） 0.71% 7,100×5 1×5

合計 100% 1,000,000×5 383×5

表31が示すジャンル毎の総語数とテキスト数に基づいて，5つのコーパスを作成する．

なお，RNC-M では上記のジャンルよりも細かな区分が設定されている．例えば，芸術文学というジャンルの元には「一般的な散文」，「歴史小説」，「冒険小説」といった区分がある．さらに，

それらは「長編，中編，短編小説」，「詩」，「物語」，「寓話」などに分かれる．残りのジャンルの下位区分には，「記事」，「インタビュー」，「スピーチ」，「報告書」，「教科書」といった多様な項目が存在する¹³²．

ただ，RNC-Mの頻度辞書 (Ляшевская, Шаров 2009)やRNC-Mの内部構成に関する論文 (Савчук

2005)からは下位区分の比率までは読み取ることができない．そこで，本章ではまず現行 RNC-M

132 詳細は以下のサイトを参照されたい：URL: http://www.ruscorpora.ru/corpora-parameter.html

のアノテーション情報から下位区分の比率を概算した¹³³．そして，自作100万語コーパスにおけるジャンル別の下位区分の比率を現行RNC-Mのそれに近づけるようにテキストを収集した．例えば，「社会・政治評論」のジャンルは，「記事」のテキストが全体の半数を占め，「小記事」，「モノグラフ」などに属するテキストが次に続く¹³⁴．

4.2.2. 自作100万語コーパスにおけるテキストの収集法

5つの自作100万語コーパスを構成するテキストは，1) webからの抽出，2) OCRによる読み取り，そして3) 自らの打ち込みによってデータ（txtファイル）化された．収集に際しては，主に

1)の手法を用いた．なお，テキストの抽出元は，可能な限りRNC-Mや現行RNC-Mと同じリソー

スや類似のリソースを採用した¹³⁵．

まず，サンプリング比率の約4割を占める「芸術文学」に関しては，Lib.Ruというサイト（2.2.

参照）から条件に合うテキストを収集した（2,000年以降に書かれた作品を中心に収集）．そして，

同様に全体の約4割を構成する「社会・政治評論」のテキストは，現行RNC-Mのアノテーション情報を参考にして，なるべくそこで採用されている雑誌やその電子版，類似のwebリソースから収集した．「芸術文学以外の文献」は，1テキストのサイズが小さいため条件に合うテキストを主にwebでその都度探した．口頭会話のテキストは，費用的な問題などで研究に耐え得る量を集めることが困難であったため，現行 RNC-Mに含まれる口頭会話のテキストを自作コーパスに採用した¹³⁶．

収集するテキストの性質について以下の2点に留意した： 1) RNC-Mはテキストの一部を切り取るのではなく，最初から最後まで，つまり，テキストは丸ごと抽出するという方針をとっている (Савчук 2005: 68-70)．これは，語彙は文章の位置によって使われる項目が異なっており，前半，

中盤，後半といった一部だけを切り取ると，コーパスが提示する生起頻度の情報が実際のそれと乖離する可能性を考慮しての措置であろう．この点に関して本章はRNC-Mの方針に従う．ただ，

133 下位区分の比率を計算した際のコーパス規模は265,401,717語であり，現行のバージョンよりも古い（アクセス日：2017/12/12）．

134 芸術文学以外のジャンルには，「経済」，「政治」，「科学」，「技術」などのさらに細かいテキストのテーマ (тематика текста)という区分も存在する（例：社会・政治評論 → 記事 → 経済）．だが，多くのテキストが複数のテーマを有しており，自作コーパスにおいて現行RNC-Mの比率を再現することは不可能である．そこで，本章ではなるべくテーマが偏らないように配慮してテキストを収集した．

135 著者が過去（2016年10月から2017年10月）に所属したロシア科学アカデミー V.V. ヴィノグラードフ名称ロシア語研究所には，RNC-Mの頻度辞書の著者であるО.Н. Ляшевскаяと，RNC-Mを構成するテキストの収集に従事したС.О. Савчукが在籍している．研究を進めるにあたって，両者にテキストを収集したリソースに関する質問をし，その情報を得ている．

136 5万語分の口語会話のテキストの使用許可を，RNCの権利元であるロシア科学アカデミー V.V. ヴィノグラードフ名称ロシア語研究所へ申請した．著者個人として同研究所と契約書を交わし，商業的な理由で当データを使用しないという条件で許可を得ている．

例外として総語数の多いテキストは節や章の単位で抽出した．2) Ляшевская, Шаров (2009)の

RNC-M を構成するテキストの作成年は1950年から2007年までと幅が広い．ただし，本章のコ

ーパスは100万語と総語数はけして大きくはない．かつ，古いテキストの収集は難しい．そのため，自作100万語コーパスは21世紀以降のテキストで大半が構成されるように設計した（なお，

9割以上のテキストが2015年，2016年に作成されたものである）．

4.2.3. 自作100万語コーパスにおける総語数の数え方

前述の基準でテキストを収集し，総語数100万のコーパスを5つ作成した．完成した自作コーパスの総語数はSketch Engineで計測したが，比較対象であるRNC-Mと語を数える際の基準がいくつかの点で異なる．そのため，コーパスの総語数やレマ化された頻度リストを比較する場合，

RNC-MとSketch Engineの計量の基準はどちらかに統一しなければならない．

総語数を数えるにあたってRNC-MとSketch Engineの間に違いがある場合，基本的に前者の基準を優先する：1) RNC-M においてアラビア数字は，コンマやピリオドと異なり，語としてカウントされている．一方，Sketch Engineはこれらを語として扱っていない．そこで，本章ではRNC-M の基準に合わせてアラビア数字を語として扱い，総語数や語の頻度を計算した（4.2.4.では，自作コーパスにおける高頻度語のテキストカバー率に言及するが，その際の分析はアラビア数字もカバー率の計算に含んでいる）．ただし，RNC-Mの頻度辞書のリストからはアラビア数字は削除されているので，この点も本章はRNC-Mの基準に揃えている．2) RNC-Mにおいてрис./risやтел./tel.

といった省略された形態は，元のрисунок/risok「イラスト」とтелефон/telefon「電話」として頻 度がカウントされているが，Sketch Engineではその処理は行われずにそのままとなっている．そ

こで，Григорьева (ред.) (2012)の基準に合わせて，このような省略形は自作100万語コーパス内で

元の形に戻してある．また，Григорьева (ред.) (2012)に記載がないものの，広く用いられている省略形にも同様の措置を施した．3) ハイフンでつながれた複合語は，RNC-MではЗализняк (1977) の記載に従ってそのまま1 語とするか，2語としてカウントするかを決めている（記載されていれば1語として，記載が無ければ2語として処理）．Sketch Engineではすべての複合語をそのまま1語として扱っているため，本章では手作業で一つひとつ複合語を確認していった（確認の範囲は，分析対象の高頻度5,000語内の複合語に限っている．ただ，複合語自体がそれほど多くないので，後述の分析に大きな影響はない）．

なお，RNC-MとSketch Engine共にinternetやmailといったラテン文字で書かれた語を総語数に含んでいる．ただ，アラビア数字と同様に，このような語はЛяшевская, Шаров (2009)の頻度リストからは除外されている．ラテン文字で書かれた語は自作コーパスにおいても総語数に含める

ドキュメント内派生接辞を用いたロシア語の効率的な語彙学習法の検討 (ページ 101-108)