3.3. ロシア語コーパスと頻度辞書
3.3.5. Ляшевская, Шаров (2009)
Ляшевская, Шаров (2009)115はRNC(RNC-M, RNC-Sなど)に基づく頻度辞書である.ここでは,
まず RNC の概要について言及する:近年では,コーパスをオンラインのデータベース形式で公
113 Brown (1996)では,lexemeという用語が実質レマと同じ概念で使用されている.
114 だが,実際にテキストカバー率を計測する分析を行ったかどうかに関する記述はない.あらゆるテキス トにおいて,特定のロシア語の語彙がこれだけ高いカバー率を実現できるかは疑問である.さらに,5 章における高頻度語によるカバー率の分析結果から,この主張の信憑性は低いと推測される.
115 3.3.5.におけるRNCの概要は,主にПлунгян (2008), Ляшевская, Шаров (2009: V-XXII)の記述を参照した.
開する研究者が増えており,その場合,コーパスと検索機能は表裏一体である (投野 2015b: 13).
RNC116は検索機能を有する大規模コーパスである.RNC の作成は,2001 年に始まったロシア科 学アカデミー V.V. ヴィノグラードフ名称ロシア語研究所の巨大プロジェクトに端を発する.
Nationalという語を冠したコーパスを作成するにあたって,このプロジェクトは英語のBNCを参
考にし,規模が巨大で,かつ様々なジャンルのテキストを含んだコーパスの完成を目指した (cf.
Плунгян 2005; Ляшевская, Шаров 2009).そして,RNCは2004年4月末に公開された.
RNCは高度な言語研究に耐え得る検索機能を備えている.まず,タイプやレマ単位での検索は もちろん,2 語以上からなる語連続の検索も可能である.その際,語と語の距離(検索対象であ る語Aと語Bが,何語離れた状態で共起しているか)も指定できる.また,正規表現(検索条件 を絞り込むための特別な表記コード)を使うことで,さらに細かな検索も可能である.例えば,
任意の文字列を表す「*」を用いてсдела*(сделать/sdelat'「する」の語幹)とすると,сдела/sdela と「何らかの文字」を含む語が検索できる(сделать/sdelat'の語形:сделал/sdelal, сделаю/sdelaû, сделав/sdelavなど).
さらに,RNCでは「文法特性」,「意味特性」,「テキストの追加パラメーター」,「語形成」とい った項目で検索に細かな制限を設けることができる.文法特性には,品詞,性,格,法,時制,
体などの特性が用意されている.例えば,сделать/sdelat'「する」に対して過去形(прошедшее время)
の制限をかけると,сделать/sdelat'の過去形だけが検索結果として表示される.「意味特性」では,
語彙素の意味的な特徴を検索条件として追加できる.例えば,レマの検索ワードを*йти/jtiとし,
「移動」という特徴を追加すると,УЙТИ/UJTI「去る」, ПРОЙТИ/PROJTI「通る」, ВЫЙТИ/VYJTI
「出る」の各語形がヒットする.「テキストの追加パラメーター」では,コンマの前後や文の最初
/最後など,特定の位置において分析対象の語を検索できる.例えば,может/моžetは,「できる」
を意味するмочь/moc'の3人称単数現在の場合と,「かもしれない」という挿入語の場合がその語 形からは想定されるが,「コンマの前」という条件を追加すれば,基本的に挿入語の例が検索でき る.「語形成」では,[接頭辞],[接尾辞]などの条件が検索に追加できる.例えば,「文法特性」で 動詞の完了体を,「語形成」で[接頭辞],[про]を検索条件に追加すると,接頭辞про-/pro-の付いた 完了体動詞がヒットする.他にも,コロケーションの検索・頻度の調査をすることも可能である.
なお,RNCの検索結果はexcel形式などで出力が可能ではあるが,全てではなく一部の結果しか 保存できない.
一般公開から13年が経過した2017年4月現在,RNCは多種多様なコーパスを提供している.
116 RNCのURLは以下の通りである:http://www.ruscorpora.ru/index.html
表26. RNCにおける各部門の総語数(アクセス日:2017/4/12)
コーパスの部門(種類) 総語数
1. メインコーパス = 現行RNC-M(Основной корпус) 283,431,966語 2. 統語コーパス(Синтаксический корпус) 1,031,675語 3. 新聞コーパス(Газетный корпус) 228,521,421語 4. 英露パラレルコーパス(Параллельный корпус) 72,533,975語 5. 教育コーパス(Обучающий корпус) 664,751語 6. 方言コーパス(Диалектный корпус) 285,281語 7. 詩コーパス(Поэтический корпус) 10,967,173語 8. 話し言葉コーパス(Устный корпус) 12,113,491語 9. アクセントコーパス(Акцентологический корпус) 31,733,748語 10. マルチメディアコーパス(Мультимедийный корпус) 4,751,153語 11. マルチメディア・パラレルコーパス
(Мультимедийный параллельный корпус) 124,104語 12. 古ロシア語コーパス(Древнерусский корпус) 504,382語
RNCを代表する現行RNC-Mは最も総語数が多く,テキストジャンルの比率を考慮して構築され た書き言葉均衡コーパス(現代ロシア語を志向)であるが,Ляшевская, Шаров (2009)の頻度辞書 は,このコーパスに基づいて作成された.ただ,この頻度辞書が編まれたのは2009年であり,そ の時点でのRNC-Mの総語数は約9,200万語であった.つまり,Ляшевская, Шаров (2009)は,総
語数9,200万語の書き言葉均衡コーパスに基づく頻度辞書である117.
一方で,2009年(RNC-M)と 2017年(現行RNC-M)では総語数が大きく異なることからわ かるように,RNCはモニターコーパス的な側面を有しており,一定のサンプリング比率を保ちな がら,コーパス規模を拡大し続けている(コーパス規模の拡大は,表内のすべてのコーパスに当 てはまる).Ляшевская, Шаров (2009)が編纂された際のRNC-Mは総語数が9,200万語であったの
で,現行RNC-Mは当時の約3倍のコーパス規模(約2億8,300万語)を有している.ただ,RNC-M
と現行RNC-Mは規模こそ違えど,ほぼ同じサンプリング比率で構築されている.したがって,
RNCは,COCAと同様に,コーパスを構成するテキストジャンルの比率を一定に保ちながら,総 語数を増やし続けるという均衡コーパスとモニターコーパスの両性質を併せ持っている(3.2.1.).
なお,Ляшевская, Шаров (2009)の頻度辞書の総語数9,200万語とは,句読点などを抜かして数 えたものであり,それらを語として換算した場合は約1億1,500万語となる.通常,ピリオドや コンマは語として扱わないが,本稿もこれに従う118.
117 RNC-Mの総語数は2009年次と2017年次では大きく異なる.2章で言及したが,本稿では,Ляшевская,
Шаров (2009)の元となった9,200万語のRNC-Mを「RNC-M」とし,総語数の増えた今現在のRNC-M
を「現行RNC-M」とする.なお,Ляшевская, Шаров (2009)の頻度辞書には,後述の分析に用いるRNC-S
(話し言葉コーパス)の頻度データも含まれている.
118 本稿でも句読点無しの9,200万語をRNC-Mの総語数として扱い,他のコーパスに言及する際もこの数え
⚫ コーパス規模とテキストサンプリング
高頻度語のデータの信頼性を保証する要素はコーパスの質と量である.RNC-M は現代ロシア 語を代表し,提示する頻度データに信頼性が伴うように設計されたが,コーパス規模とテキスト サンプリングに関して,Ляшевская, Шаров (2009: VI)は以下のように述べている:「語の生起頻度 に関してより信頼性の高い情報を提供するには,コーパスは規模が大きく,データの包括性にお いて代表的,つまり,ある一定の比率で様々なジャンルや文体のテキストを含んでいなければな らない.この点においてロシア語ナショナルコーパスは,British National Corpus<…>などのナシ ョナル・コーパスのよい見本に比肩する」.
まず規模に関して言うと,Ляшевская, Шаров (2009)の頻度辞書が基づくRNC-Mは,前述の通
り9,200万語から成る.RNC-Mはロシア語の均衡コーパスとしては他に類を見ないほど規模が大
きい.モニターコーパスであれば RNC-Mより総語数の多いコーパスは存在するが,均衡コーパ スに限って言うと,RNC-M の次に規模が大きく,新しいテキストで構成される Uppsala Corpus ですら総語数が100万語にとどまる.
RNC-Mを構成するテキストのサンプリング比率は以下の通りである.
表27. RNC-Mにおけるテキストのサンプリング比率119
テキストの機能領域(ジャンル) 比率 総語数 テキスト数 1. 芸術文学 39.04% 35,150,521 2,418 2. 社会・政治評論 42.21% 39,739,644 27,390
3.
芸術文学以外の文献 16.96%
15,478,151
7,495
— 教育・学術(教育的・学術的に人気のある論文
や書籍, 教科書, 講義等) — 11.30% — 3,994
— 公的・業務文書(法律, 法令, 声明等) — 1.62% — 1,075
— 電子媒体でのやりとり(メール等) — 1.49% — 133
— 教会・神学 — 1.44% — 488
— 広告 — 0.57% — 1,232
— 実生活(手紙, 日記等) — 0.48% — 439
— 製 技術(解説書, 仕様書等) — 0.26% — 134 4. パブリックではない口頭会話 0.88% 758,407 1,005
5. その他 0.90% 827,580 61
合計 100% 91,954,303 38,369
「現代ロシア語の断面」を再現することを念頭に置き,RNC-M では上記のサンプンリング比率 を採用した120:RNC-Mでは,1.「芸術文学」の比重が4割と非常に大きい.これは,標準ロシア
方を念頭に置いている.
119 表27は, Ляшевская, Шаров (2009: VI)を著者が日本語に訳し,一部加工を加えたものである. なお,「芸 術文学以外の文献」の比率の合計は16.96%にならないが(実際は17.16%),表では原文のままとした.
120 これ以降,各ジャンル(原文では機能領域)の概要や定義に言及するが,主にその内容はСавчук (2005),
語の完成にロシア文学作品が大きく影響を与えたため,RNC-M は,他言語よりもこの分野のテ キストを多く含んでいる121.このジャンルは,一般的な散文,歴史散文,推理小説,冒険小説,
子供向け小説,幻想小説などに細分化される.続く2.「社会・政治評論」のジャンルのテキスト には,政治,経済,芸術,学問,道徳について書かれたテキストが含まれる(インターネットの ニュース記事など).3.「芸術文学以外の文献」にはいくつか下位区分が存在する:まず,「教育・
学術」には学術・学術教授法に関するテキストが含まれる.「公的・業務文書」は法律, 法令, 声 明などに関するテキストが含まれる.「電子媒体でのやりとり」は,メールのやり取り,チャット,
掲示板から抽出されたテキストで構成される.「教会・神学」は,世界の宗教の叙述,個人の宗教 的な生活(祈り,宗教的な儀式,懺悔,説教など)に関するテキストで構成される.「広告」のジ ャンルは,宣伝されている商品やサービスの利点を伝える,またはその購入を促すテキストなど で構成される.「実生活」は,公的な場面にいない人間(親族,友達,職場の同僚など)間で行わ れる日常的で,きがねのない,公的ではない交流のテキストが含まれる.この領域のテキストは 口語の形式であることが多いが,書き言葉のものもあり得る(個人的なメールのやり取り,日記,
メモ,あいさつなど).最後の「パブリックではない口頭会話」は,バスの中や自宅など,公的で はない場所で交わされた会話のテキストで構成されている.
⚫ 語彙リスト
Ляшевская, Шаров (2009)は高頻度20,000語(レマ換算)の頻度リストを,頻度順・アルファベ
ット順に記載している.他にも,品詞毎の頻度リスト,タイプ単位の頻度リストが備わっている.
このЛяшевская, Шаров (2009)の頻度データを本稿は後述の分析で使用する.そのため,ここでは
RNCにおけるレマ化の規則について詳細に言及する.
まず,Ляшевская, Шаров (2009)における語彙の形態的分類はЗализняк (1977)の記述に基づいて おり,大半の語は一般的なレマ化の規則によって処理される(2.1.3.参照).ただ,その中には例 外的なレマ化の規則がいくつか存在する.以下で,レマ化に関わる特筆すべき事項(①体,②特 定の語形,③複数の語から成る単位,④その他)について触れるが,その内容は主にЛяшевская,
Шаров (2009: XIII-XV)の記述や著者が自ら現行RNC-Mの検索機能を用いて確認した事項に則し
ている.
その論文の著者であるС.О. Савчукへのインタビュー,そしてRNCのwebページの解説に基づく.
121 ロシア語は1830年代前後に発表したА.С. Пушкинの散文作品によって理想的な言文一致を果たし,そ の段階で全国民的な標準語のモデルを獲得した (佐藤 2012: 261).そのため,広義には現代ロシア語と
はПушкин以降のロシア語を指す (中澤 1998: 379).その後においてもПушкинの文学作品のロシア語
への影響は大きく,現代ロシア語を代表するサンプリング比率を検討した際,文学作品の比率が多く設 定された.なお,Ляшевская, Шаров (2009)には,Brown Corpusの構成のように,当時の出版状況を考慮 してジャンルの詳しい比率を決めた,といった説明はない.