3.3. ロシア語コーパスと頻度辞書
3.3.7. Sketch Engine と ruTenTen11
Sketch Engineは,コーパスの分析に必要な機能を提供してくれる.当初,Sketch Engineは英語
コーパスのために企画・作成されたが,現在では様々な言語に対応している.
例えば,Sketch Engineは,英語のenTenTen11や日本語のjpTenTen11に加えて,これまで小規 模なコーパスしか存在しなかった言語の巨大モニターコーパスも備えている.スラヴ語に関して 言えば,現在までにロシア語,ウクライナ語,チェコ語,ポーランド語,ブルガリア語などのTenTen
126 このカバー率の数値は間違いであると思われる.Sharoff et al. (2013)には,同封のCDにexcel形式で頻 度データが入っているが,それによると,高頻度2,000語は66.04%,5,000語は73.76%しかテキストを カバーしないという結果が得られた.これはRNC-Mの高頻度語によるカバー率よりも低い数値である
(表2参照).
なお,通常,話し言葉コーパスでは少ない語数で高いカバー率が実現されることを考慮すると,Sharoff et al. (2013)のInternet Corpusは,書き言葉コーパスにより近いと言える.
シリーズが作成され,オンラインで検索可能な状態で公開されている127.どのスラヴ語のTenTen シリーズも総語数は1億を超えている.また,TenTenシリーズ以外にも,コーパス言語学の研究 史において重要な役割を果たしたBNCやBrown Corpus,そして各言語の様々なコーパスがオン ライン上に検索可能な状態で存在している.Sketch Engineの登場が言語研究や教材研究にもたら した寄与は大きい.
Sketch Engineは,RNCと類似の検索機能にくわえて発展的なコーパス分析ツールを提供してお
り,かつ,その分析結果のデータをexcel やtxt ファイルで保存する機能も備えている.例えば,
Word listという機能では,Sketch Engine上にあるコーパスを対象とし,タイプ,レマなどの単位
での頻度分析が可能であり,その結果をリストとして出力できる.
図4. ruTenTen11におけるWord list機能の出力結果例(語の単位:レマ)
さらに,分析結果の出力に際して正規表現を使えば,より細かな設定で頻度リストをつくること
127 ロシア語のruTenTen11は約145億5,400万(14,553,856,113)語から成るが,他のスラヴ語のTenTenシ リーズの総語数は,以下の通りである(2017年9月4日現在):
a. ウクライナ語:2,194,447,594語 b. チェコ語: 4,175,089,441語 c. ポーランド語: 7,715,835,214語 d. スロバキア語: 715,707,053語 e. ブルガリア語:705,156,683語
ができる.例えば,2.3.2.1.における名詞の格毎(単数・複数の主格から前置格までの12格)の頻 度情報は,Word list機能において正規表現を用いることで得られたものである.
ある語がテキスト内でどのような語と共起しているのかを分析してくれる Word Sketch も,
Sketch Engineが提供する有益な機能の1つである.例えば,пройти/projti「通過する,過ぎる,
行われる,経る」という動詞が,ruTenTen11においてどのような語と共起しているのかを調べる と,以下のような結果が得られる.
図5. ruTenTen11におけるWord Sketch機能の出力結果例(пройтиを例に)
図5からは,例えば,動詞пройти/projtiがどのような主語と共起しているのかといった情報が得
られる.図からは,пройти/projtiはсоревнование/sorevnovanie「競技,大会」,конференция/konferenciâ
「会議」,церемония/ceremoniâ「セレモニー」といった名詞(主語)と共起する頻度が極めて高い
ことがわかる(この場合,пройти/projtiは「過ぎる,行われる」の意味で生起している).また,
前置詞を分析対象とすると,この動詞は мимо/mimo「側を,脇を」,через/čerez「通り抜けて」, сквозь/skvoz'「貫いて」と頻繁に共起することが確認できる.
Thesaurus とSketch Differenceは,shared triple(共有3元)に基づいて統語的に似た振る舞いを する語を抽出する (cf. スルダノヴィチ, 仁科 2008).例えば,名詞преподаватель/prepodavatel'
「講師」をruTenTen11においてThesaurusの分析にかけると,以下のような語群が浮かび上がる.
図6. ruTenTen11におけるThesaurus機能(преподавательを例に)
Thesaurusの機能は,類似度の高さを示すスコアだけでなく,その結果を視覚的に図として提示す
る.преподаватель/prepodavatel'と類似度の高い語としてпедагог/pedagog「教育者」учитель/učitel'
「教師」などの名詞が挙げられる.Sketch Difference機能では,語と語の振る舞いの共通点や差異 を調査するといった発展的な分析が可能となる (cf. スルダノヴィチ, 仁科 2008: 6).
ただ,言語研究におけるSketch Engineの最大の利点は,自作のコーパスをweb上にアップロー ドし,かつ,そのコーパスに対してここまでに言及した分析機能を活用できる点にある(4 章に て自作の100万語コーパスを対象とした分析を行うが,その際,Sketch Engineを用いている). この機能により,より多くの研究者がコーパス言語学的なアプローチを取れるようになった.
⚫ コーパス規模とテキストサンプリング
ruTenTen11は,約145億5,400万語から成るモニターコーパスである.TenTenシリーズのコー
パスは,web をコーパスとして用いる Web as Corpus (cf. Kilgarriff, Grefenstette 2003; McEnery, Hardie 2012)の進化した形であると言える (石川 2012: 18).TenTenシリーズプロジェクトは,100 億語以上の規模(10の10乗)をもつコーパスを作成するという目標を掲げていたが,ruTenTen11 はすでにその語数を優に超えている.
圧倒的な総語数を誇るruTenTen11であるが,コーパスを構成するテキストのサンプリング比率 は不透明である.ruTenTen11のテキストは,SpiderLingというプログラムによって集められたが,
これはweb上を自動で巡回してwebページを収集するものである.どのようなジャンル比率でテ キストを収集するかを考慮していては,これほど巨大なコーパスは構築できない.テキストのサ ンプリング比率にこだわらずに,web を介して自動でテキストを収集するからこそ,145 億とい った規模のコーパスが構築できたのである.
⚫ 語彙リスト
Sketch Engineは,ruTenTen11に基づく頻度リスト(語彙リスト)を公開していない.ただ,前
出のWord list機能を用いれば自ら頻度リストを作成できるが,ruTenTen11を分析対象とした場合,
高頻度 1,000語までのリストしか入手できないという制限が設けられている(追加料金を支払え
ば拡張可能である.なお,自作のコーパスが分析対象であれば,Word listの機能で完全な頻度リ ストを作成できる).
Sketch Engineのレマ化は,基本的にはこれまで触れてきたコーパスのそれとほぼ同じ基準を採
用している.ただ,別の統語的機能を獲得した特定語形の扱いが他と若干異なる:может/možet
「かもしれない」, кажется/kažetsâ「らしい」といった語形は,RNC-Mなどでは1つの項目とし て扱われていたが,Sketch Engineのレマ化に際しては元のмочь/moč', казаться/kazat'sâにまとめ られて頻度がカウントされている.名詞化した同形異義語の русский/russkij「ロシア人」と元の
русский/russkij「ロシアの」は,検索をする上では別々に分けて頻度を調べられるが,Word listで
は両者は1つに集約されている.