• 検索結果がありません。

⚫ コーパス規模とテキストサンプリング

ruTenTen11は,約145億5,400万語から成るモニターコーパスである.TenTenシリーズのコー

パスは,web をコーパスとして用いる Web as Corpus (cf. Kilgarriff, Grefenstette 2003; McEnery, Hardie 2012)の進化した形であると言える (石川 2012: 18).TenTenシリーズプロジェクトは,100 億語以上の規模(10の10乗)をもつコーパスを作成するという目標を掲げていたが,ruTenTen11 はすでにその語数を優に超えている.

圧倒的な総語数を誇るruTenTen11であるが,コーパスを構成するテキストのサンプリング比率 は不透明である.ruTenTen11のテキストは,SpiderLingというプログラムによって集められたが,

これはweb上を自動で巡回してwebページを収集するものである.どのようなジャンル比率でテ キストを収集するかを考慮していては,これほど巨大なコーパスは構築できない.テキストのサ ンプリング比率にこだわらずに,web を介して自動でテキストを収集するからこそ,145 億とい った規模のコーパスが構築できたのである.

⚫ 語彙リスト

Sketch Engineは,ruTenTen11に基づく頻度リスト(語彙リスト)を公開していない.ただ,前

出のWord list機能を用いれば自ら頻度リストを作成できるが,ruTenTen11を分析対象とした場合,

高頻度 1,000語までのリストしか入手できないという制限が設けられている(追加料金を支払え

ば拡張可能である.なお,自作のコーパスが分析対象であれば,Word listの機能で完全な頻度リ ストを作成できる).

Sketch Engineのレマ化は,基本的にはこれまで触れてきたコーパスのそれとほぼ同じ基準を採

用している.ただ,別の統語的機能を獲得した特定語形の扱いが他と若干異なる:может/možet

「かもしれない」, кажется/kažetsâ「らしい」といった語形は,RNC-Mなどでは1つの項目とし て扱われていたが,Sketch Engineのレマ化に際しては元のмочь/moč', казаться/kazat'sâにまとめ られて頻度がカウントされている.名詞化した同形異義語の русский/russkij「ロシア人」と元の

русский/russkij「ロシアの」は,検索をする上では別々に分けて頻度を調べられるが,Word list

は両者は1つに集約されている.

コーパスは,現代ロシア語の断面を反映させようとして作られた書き言葉均衡コーパスである.

一方,ruTenTen11 は,絶えず規模の拡大を図っているモニターコーパスである.Brown (1996)の 頻度辞書は,コーパスが提示する頻度情報だけでなく人の主観的判断に基づいた修正が施された 学習用語彙リストであると言える.同様に,Sharoff et al. (2013)も語彙学習用の頻度辞書を目指し て作成されたが,コーパスを構成するテキストの分類精度は7割程度であった(そのため,Internet

Corpusが,自らが設定した,外国人学習者が触れるロシア語を代表しているかどうかの判断は難

しい).以下に,3.3.で扱ったコーパスと頻度辞書の一覧を挙げる.

表29. 主要ロシア語コーパス・頻度辞書の一覧

コーパス 規模 コーパスの特徴

1. Штейнфельд (1963)のコーパス 40万語 均衡コーパス(現代ロシア語を代表)

2. Засорина (ред.) (1977)のコーパス 100万語 均衡コーパス(現代ロシア語を代表)

3. Лённгрен (1993)のUppsala Corpus 100万語 均衡コーパス(現代ロシア語を代表)

4. Brown (1996)のコーパス 100万語

均衡コーパス / 主観による修正

(語彙学習用に作成 / Засорина (ред.) (1977)のデータを流用)

5. Ляшевская, Шаров (2009)のRNC-M 9,200万語 均衡コーパス(現代ロシア語を代表)

ただし,現行RNC-Mは拡大している.

6. Sharoff et al. (2013)のInternet Corpus 1億5,000万語

webページで構成されたコーパス

(語彙学習用に作成 / 学習者が触れ るロシア語を代表するように設計)

7. ruTenTen11 145億5,400万語 モニターコーパス

上記の通り,Штейнфельд (1963),Засорина (ред.) (1977),Лённгрен (1993),Ляшевская, Шаров (2009) のコーパスは現代ロシア語の書き言葉を代表するように設計された.だが,同じ現代ロシア語を 志向していても,採用されたテキストのサンプリング比率はそれぞれ異なるため,結果として得 られる頻度情報は異なると推測される.Brown (1996)とSharoff et al. (2013)はともに語彙学習に活 用するために作られ,後者は口語に近い個人的なやりとりを多く含んでいるとされる.

分析の手始めに,これらのコーパスは互いにどの程度近いのかをクラスター分析(cluster

analysis)で確認する(頻度データの欠如しているBrown (1996)と規模の小さすぎるШтейнфельд

(1963)を除き,表26で言及したRNCの話し言葉コーパス(以下,現行RNC-S)を加えた合計7

つのコーパスを分析対象とする).クラスター分析とは「当初の分類基準が何もないときに,主に 量的変数を用いて何らかの対象を幾つかの塊,グループに分類する探索的分析方法である」(小田

2007: 148).ここでは,7つのコーパスに共通して高頻度に生起する50の内容語の頻度を量的変

数とし,分類される対象を各コーパスとした.石川他(編) (2010: 184)が述べているように,「一般

RNC-M

Internet Corpus

現行RNC-M

Uppsala Corpus

Засоринаのコーパス

ruTenTen11

現行RNC-S

に,基本語頻度はコーパス種別を問わず安定しているとされるが,様々な研究でも示されている ように,無作為に選んだ上位50語や100語であっても,多くの場合,かなり高いテキストの弁別 力を持つ」.つまり,これらの語数をもってしてテキスト(コーパス)の分類は可能であると思わ れる.クラスター分析の結果は以下の通りである.

図7. ロシア語コーパスを対象としたクラスター分析(SPSS: 最遠隣法,相関係数128

Ляшевская, Шаров (2009)のRNC-M,Sharoff et al. (2013)のInternet Corpus,そして現行RNC-Mが 早い段階でクラスターを形成している.また,Лённгрен (1993)のUppsala CorpusやЗасорина (ред.)

(1977)のコーパスも上記 3 つのコーパスと近い距離にあり,比較的早い段階でクラスターを形成

する.RNC-M,現行RNC-M, Uppsala Corpus, Засорина (ред.) (1977)のコーパスは現代ロシア語を 代表するよう設計された書き言葉均衡コーパスであるため,これらの間に高い類似性が確認され るのは妥当と言えよう.その中でもЗасорина (ред.) (1977)のコーパスが他のコーパスと遠い位置 にあるのは,テキストのサンプリング比率に偏りがあったためであると推測される.

Sharoff et al. (2013)は,自身のInternet Corpusは個人的なやりとりを多く含んでおり,RNC-Mな どの伝統的なコーパスより学習に向いていると述べているが (Sharoff et al. 2013: 5),クラスター

128 高頻度語をケースとした,変数のクラスター化が目的であるため,小田 (2007),水本 (2007),水本, (2009), 石川他() (2010)を参考として,ここでは相関係数を使用した.

分析では逆の結果が得られた.すなわち,Internet CorpusはRNC-Mや現行RNC-Mと非常に距離 が近く,かつ,話し言葉コーパスである現行RNC-Sからはかなり遠くに位置する.このように,

必ずしもコーパスの作成者の意図が語彙の頻度に反映されているとは限らないことがわかる.

逆に,巨大モニターコーパスruTenTen11は書き言葉均衡コーパスとはかなり異なる性質を示し ており,これらとクラスターを組む段階がかなり遅い.コーパスの規模が大きくなる過程で次第 に偏りが自己解消され,母集団がおのずと均衡的に再現されるという指摘があるが (cf. 石川 2012: 40; マケナリー, ハーディー 2014: 9-10),ロシア語のruTenTen11と他の書き言葉均衡コーパ スを比較した場合,ruTenTen11において均衡性が実現されているとは言えないようである.

4章.コーパス規模が高頻度語の選定に与える影響

– 100万語コーパスと高頻度語の関係を例に –

3 章ではロシア語コーパスとそれに基づいた頻度辞書について言及した.代表的なロシア語の 頻度辞書としてШтейнфельд (1963),Засорина (ред.) (1977),Лённгрен (1993),Brown (1996),

Ляшевская, Шаров (2009),Sharoff et al. (2013)が挙げられる.また,web 経由で使用できる

ruTenTen11といったコーパスからもタイプやレマ単位の頻度リストを作成することが可能である.

表30.(再掲)主要ロシア語コーパス・頻度辞書の一覧

コーパス 規模 コーパスの特徴

1. Штейнфельд (1963)のコーパス 40万語 均衡コーパス(現代ロシア語を代表)

2. Засорина (ред.) (1977)のコーパス 100万語 均衡コーパス(現代ロシア語を代表)

3. Лённгрен (1993)のUppsala Corpus 100万語 均衡コーパス(現代ロシア語を代表)

4. Brown (1996)のコーパス 100万語

均衡コーパス / 主観による修正

(語彙学習用に作成 / Засорина (ред.) (1977)のデータを流用)

5. Ляшевская, Шаров (2009)のRNC-M 9,200万語 均衡コーパス(現代ロシア語を代表)

ただし,現行RNC-Mは拡大している.

6. Sharoff et al. (2013)のInternet Corpus 1億5,000万語

webページで構成されたコーパス

(語彙学習用に作成 / 学習者が触れ るロシア語を代表するように設計)

7. ruTenTen11 145億5,400万語 モニターコーパス

この中から,本稿5章〜7 章の分析に適したコーパス,もしくは頻度辞書を選ばなければならな い.本稿のようなコーパス検証型の研究において,言語調査のリソースとなるコーパスの選択は 極めて重要である.本稿は,コーパスが提示する高頻度語リストの頻度データに基づいて効率的 なロシア語の語彙学習法を検討するが,投野 (2015b: 9)が述べているように,「語彙表の研究で最 も重要なのは,語彙統計をどのようなコーパスに基づいて求めるのか,という語彙表の基準とな ったコーパスの『中身』の議論である」.つまり,研究者は,当該のコーパスが自らの研究目的に 合致した構 をしているのか,そして,そのコーパスは信頼性の高い頻度情報を提供してくれる のか,といった問題を吟味しなくてはならないのである.

日本語環境にいる日本人ロシア語学習者を対象として効率的な語彙学習法を検討する際,その 分析リソースとしては,標準的な現代ロシア語を代表する書き言葉コーパスが最適であると考え る.日本人学習者が読むテキストの大半は標準的な現代ロシア語で書かれており,彼らは授業で

新聞や小説などの書き言葉のテキストに触れる機会が多い.

この観点からすると,モニターコーパスである ruTenTen11 は選択肢から除外できよう.3.4.に おけるクラスター分析は,ruTenTen11は現代ロシア語を志向して作られた書き言葉均衡コーパス とは生起頻度の点でかなり異なる,という結果を示している.くわえて,ruTenTen11はその内部 構 がはっきりしないため,どのようなテキストが,どのような比率で含まれているのかがわか らず,外国語学習を念頭においた頻度分析の研究に適しているかどうかが判断しづらい.

Sharoff et al. (2013)のInternet Corpusは現代ロシア語を志向して作成されたわけではないが,3.4.

の分析においてRNC-M,現行RNC-M, Uppsala Corpus, Засорина (ред.) (1977)のコーパスと早い段 階でクラスターを形成しており,書き言葉均衡コーパスと類似の特徴を示している.ただし,

Internet Corpusは自動で収集したwebページのテキストで構成されており,ruTenTen11と同様に,

内部構 が不明瞭であり,一般的な現代ロシア語を反映しているかどうかが判断できない(Sharoff et al. (2013)は,自動収集の結果得られたテキストのサンプリング比率を公開しているが,その情 報の信頼度は低い.詳細は3.3.6.参照されたい).

すると,本稿の分析に適しているのは Штейнфельд (1963), Засорина (ред.) (1977), Лённгрен (1993), Ляшевская, Шаров (2009)のコーパスのどれかということになるが,この中のどれが現代ロ シア語の諸相をうまく反映しているのであろうか.代表性はテキストのサンプリング比率と関係 するが (cf. Biber 1993a; 石川 2012; McEnery, Hardie 2012),Biber (1993a: 243)は,代表性のあるコ ーパスを作成するには,規模よりも「むしろ,ターゲットとなる母集団の綿密な定義とサンプリ ング方法の決定の方が優先順位の高い検討事項である」と述べている.

ただし,前章でも言及したように,現代ロシア語を完全に代表する均衡コーパスの実現は不可 能である (cf. Clear 1992; Váradi 2001; Teubert, Čermáková 2007).表30が示すように,現代ロシア 語を代表するように作られたコーパスはいくつか存在するが,それぞれが自らの基準で現代ロシ ア語の母集団を想定して代表性を担保しようと試みている.だが,McEnery, Hardie (2012: 10)が述 べているように,「コーパスの作成者は均衡性,代表性,比較可能性の実現を志向するが,それが 達成されることはほとんどなく,できたとしても,いくらかである.現実的には,均衡性と代表 性は程度の問題」なのである.

そのため,本稿の分析に用いるコーパスを選定する上で,テキストのサンプリング比率以外の 客観的な根拠が求められる.その際,サンプリング比率と並んで重要な検討事項となるのはコー パスの総語数である.そこで,4 章では規模の観点から,本稿の分析に適したコーパスの選定を 試みる.より具体的に言うと,100 万語規模のコーパスからはどの程度の数の高頻度語が安定し て抽出できるのかを確認する.