(30)の確認方法として,本章ではRNC-Mと同じテキストのサンプリング比率で構成された100
万語コーパスを5つ作成し,これらと RNC-Mにおける語彙の重複数を確認する(詳細は 4.3.で 後述する).本章は比較対象としてRNC-Mを採用するが,その理由は,RNC-Mは規模が大きく 信頼性の高い頻度情報を提供し,かつ,その内部構 が判明していて再現可能な唯一の現代ロシ ア語の書き言葉均衡コーパスだからである(他の均衡コーパスには,規模が小さい,または内部 構 が不明瞭であるという問題がある).また,RNC-Mのデータは頻度辞書 (Ляшевская, Шаров
2009)にまとめられているだけでなく,web上でも一般に公開されている.
グラフ1は,自作100語コーパスの内部構 のイメージを表している.
9,200万語のRNC-Mの内部構 を100万語規模で再現
グラフ1. 自作100万語コーパスの内部構 のイメージ
グラフが示すように,RNC-Mを構成するテキストのサンプリング比率を,5つの自作コーパスに おいて100万語規模で再現する.これらのコーパスに含まれるテキストは,約39%が「芸術文学」,
約42%が「社会・政治評論」,約17%が「芸術文学以外の文献」,約1%が「口頭会話」といった
ジャンルから成る.つまり,5つの自作コーパスは100万語規模のRNC-Mであると言える.
4.2.1.以降でRNC-Mの内部構 に触れながら,100万語コーパスの作成について言及する131.
4.2.1. 自作100万語コーパスにおけるテキストのサンプリング比率
ロシア語を対象とした言語学の研究において,統計学を用いた量的な分析手法はよく見受けら れる.だが,その適用が「妥当性を有するのは,得られたデータから内容のある(質的な)結果 が導ける場合のみである.<...> なぜなら,なんらかの現象の単なる計算からは何も明らかにはな らないからである」(Зиндер, Строева 1968: 121).量的な分析結果は質的に解釈されなければなら
131 なお,本章はより規模の大きい現行RNC-Mではなく,RNC-Mを自作コーパスの比較対象に採用した が,理由は以下の通りである:現行RNC-Mは,一定の間隔で総語数を増やし続けているためその内部 構 は変化している.そのため,現行RNC-M はweb上で内部構 の比率を公開してはいるものの,
そのデータは今のバージョン(検索に使用できる現行RNC-M)のデータと一致しない(アクセス日 2018 年2月9日).また,現行 RNC-M はレマ単位の頻度データを一般に公開しておらず,その頻度辞書も出 ていない.そのため,本章はRNC-Mを自作コーパスの比較対象に用いている.
0 10,000,000 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 70,000,000 80,000,000 90,000,000
RNC-M (9,200万語)
0 200,000 400,000 600,000 800,000 1,000,000
芸術文学 社会・政治評論 芸術文学以外の文献
口頭会話 その他
ず,「理論的な解釈の欠如はその分析から意味を奪って」(Москвин 2015: 82) しまう.したがって,
単にテキストを100万語集めたコーパスとRNC-Mを比較しても,得られた結果にそれほど意味 はない.通常,代表性のあるコーパスの設計に際しては,実証的な調査や理論的な分析がコーパ スのデザインや実際のテキスト収集に先立たなければならないが (cf Biber 1993a: 255-256),本章 の自作100万語コーパスは,Ляшевская, Шаров (2009)が提示しているRNC-Mの内部構 を模し て作成される.したがって,RNC-Mと自作100万語コーパスとの比較から得られる分析結果は,
質的に解釈が可能である.
RNC-Mのジャンル毎の総語数(3.3.5.参照)とテキスト数を約100 万語サイズに縮小すると,
以下のような数値が得られる.
表31. 自作100万語コーパスの内部構 (計画案)
テキストのジャンル 比率 総語数 テキスト数 1. 芸術文学 39.04% 390,400×5 24×5 2. 社会・政治評論 42.21% 422,100×5 274×5
3.
芸術文学以外の文献 17.16% 171,600×5 75×5
– 教育・学術 11.30% 113,000×5 40×5
– 公式・業務文書 1.62% 16,200×5 11×5
– 電子媒体でのやりとり 1.49% 14,900×5 1×5
– 教会・神学 1.44% 14,400×5 5×5
– 広告 0.57% 5,700×5 12×5
– 実生活 0.48% 4,800×5 4×5
– 製 技術 0.26% 2,600×5 1×5
4. パブリックではない口頭会話 0.88% 8,800×5 10×5 5. その他(調整用) 0.71% 7,100×5 1×5
合計 100% 1,000,000×5 383×5
表31が示すジャンル毎の総語数とテキスト数に基づいて,5つのコーパスを作成する.
なお,RNC-M では上記のジャンルよりも細かな区分が設定されている.例えば,芸術文学と いうジャンルの元には「一般的な散文」,「歴史小説」,「冒険小説」といった区分がある.さらに,
それらは「長編,中編,短編小説」,「詩」,「物語」,「寓話」などに分かれる.残りのジャンルの 下位区分には,「記事」,「インタビュー」,「スピーチ」,「報告書」,「教科書」といった多様な項目 が存在する132.
ただ,RNC-Mの頻度辞書 (Ляшевская, Шаров 2009)やRNC-Mの内部構成に関する論文 (Савчук
2005)からは下位区分の比率までは読み取ることができない.そこで,本章ではまず現行 RNC-M
132 詳細は以下のサイトを参照されたい:URL: http://www.ruscorpora.ru/corpora-parameter.html
のアノテーション情報から下位区分の比率を概算した133.そして,自作100万語コーパスにおけ るジャンル別の下位区分の比率を現行RNC-Mのそれに近づけるようにテキストを収集した.例 えば,「社会・政治評論」のジャンルは,「記事」のテキストが全体の半数を占め,「小記事」,「モ ノグラフ」などに属するテキストが次に続く134.
4.2.2. 自作100万語コーパスにおけるテキストの収集法
5つの自作100万語コーパスを構成するテキストは,1) webからの抽出,2) OCRによる読み取 り,そして3) 自らの打ち込みによってデータ(txtファイル)化された.収集に際しては,主に
1)の手法を用いた.なお,テキストの抽出元は,可能な限りRNC-Mや現行RNC-Mと同じリソー
スや類似のリソースを採用した135.
まず,サンプリング比率の約4割を占める「芸術文学」に関しては,Lib.Ruというサイト(2.2.
参照)から条件に合うテキストを収集した(2,000年以降に書かれた作品を中心に収集).そして,
同様に全体の約4割を構成する「社会・政治評論」のテキストは,現行RNC-Mのアノテーショ ン情報を参考にして,なるべくそこで採用されている雑誌やその電子版,類似のwebリソースか ら収集した.「芸術文学以外の文献」は,1テキストのサイズが小さいため条件に合うテキストを 主にwebでその都度探した.口頭会話のテキストは,費用的な問題などで研究に耐え得る量を集 めることが困難であったため,現行 RNC-Mに含まれる口頭会話のテキストを自作コーパスに採 用した136.
収集するテキストの性質について以下の2点に留意した: 1) RNC-Mはテキストの一部を切り 取るのではなく,最初から最後まで,つまり,テキストは丸ごと抽出するという方針をとってい る (Савчук 2005: 68-70).これは,語彙は文章の位置によって使われる項目が異なっており,前半,
中盤,後半といった一部だけを切り取ると,コーパスが提示する生起頻度の情報が実際のそれと 乖離する可能性を考慮しての措置であろう.この点に関して本章はRNC-Mの方針に従う.ただ,
133 下位区分の比率を計算した際のコーパス規模は265,401,717語であり,現行のバージョンよりも古い(ア クセス日:2017/12/12).
134 芸術文学以外のジャンルには,「経済」,「政治」,「科学」,「技術」などのさらに細かいテキストのテー マ (тематика текста)という区分も存在する(例:社会・政治評論 → 記事 → 経済).だが,多くのテ キストが複数のテーマを有しており,自作コーパスにおいて現行RNC-Mの比率を再現することは不可 能である.そこで,本章ではなるべくテーマが偏らないように配慮してテキストを収集した.
135 著者が過去(2016年10月から2017年10月)に所属したロシア科学アカデミー V.V. ヴィノグラード フ名称ロシア語研究所には,RNC-Mの頻度辞書の著者であるО.Н. Ляшевскаяと,RNC-Mを構成する テキストの収集に従事したС.О. Савчукが在籍している.研究を進めるにあたって,両者にテキストを 収集したリソースに関する質問をし,その情報を得ている.
136 5万語分の口語会話のテキストの使用許可を,RNCの権利元であるロシア科学アカデミー V.V. ヴィノ グラードフ名称ロシア語研究所へ申請した.著者個人として同研究所と契約書を交わし,商業的な理由 で当データを使用しないという条件で許可を得ている.
例外として総語数の多いテキストは節や章の単位で抽出した.2) Ляшевская, Шаров (2009)の
RNC-M を構成するテキストの作成年は1950年から2007年までと幅が広い.ただし,本章のコ
ーパスは100万語と総語数はけして大きくはない.かつ,古いテキストの収集は難しい.そのた め,自作100万語コーパスは21世紀以降のテキストで大半が構成されるように設計した(なお,
9割以上のテキストが2015年,2016年に作成されたものである).
4.2.3. 自作100万語コーパスにおける総語数の数え方
前述の基準でテキストを収集し,総語数100万のコーパスを5つ作成した.完成した自作コー パスの総語数はSketch Engineで計測したが,比較対象であるRNC-Mと語を数える際の基準がい くつかの点で異なる.そのため,コーパスの総語数やレマ化された頻度リストを比較する場合,
RNC-MとSketch Engineの計量の基準はどちらかに統一しなければならない.
総語数を数えるにあたってRNC-MとSketch Engineの間に違いがある場合,基本的に前者の基 準を優先する:1) RNC-M においてアラビア数字は,コンマやピリオドと異なり,語としてカウ ントされている.一方,Sketch Engineはこれらを語として扱っていない.そこで,本章ではRNC-M の基準に合わせてアラビア数字を語として扱い,総語数や語の頻度を計算した(4.2.4.では,自作 コーパスにおける高頻度語のテキストカバー率に言及するが,その際の分析はアラビア数字もカ バー率の計算に含んでいる).ただし,RNC-Mの頻度辞書のリストからはアラビア数字は削除さ れているので,この点も本章はRNC-Mの基準に揃えている.2) RNC-Mにおいてрис./risやтел./tel.
といった省略された形態は,元のрисунок/risok「イラスト」とтелефон/telefon「電話」として頻 度がカウントされているが,Sketch Engineではその処理は行われずにそのままとなっている.そ
こで,Григорьева (ред.) (2012)の基準に合わせて,このような省略形は自作100万語コーパス内で
元の形に戻してある.また,Григорьева (ред.) (2012)に記載がないものの,広く用いられている省 略形にも同様の措置を施した.3) ハイフンでつながれた複合語は,RNC-MではЗализняк (1977) の記載に従ってそのまま1 語とするか,2語としてカウントするかを決めている(記載されてい れば1語として,記載が無ければ2語として処理).Sketch Engineではすべての複合語をそのま ま1語として扱っているため,本章では手作業で一つひとつ複合語を確認していった(確認の範 囲は,分析対象の高頻度5,000語内の複合語に限っている.ただ,複合語自体がそれほど多くな いので,後述の分析に大きな影響はない).
なお,RNC-MとSketch Engine共にinternetやmailといったラテン文字で書かれた語を総語数 に含んでいる.ただ,アラビア数字と同様に,このような語はЛяшевская, Шаров (2009)の頻度リ ストからは除外されている.ラテン文字で書かれた語は自作コーパスにおいても総語数に含める