テキストサンプリング - コーパスの構築 - 派生接辞を用いたロシア語の効率的な語彙学習法の検討

3.2. コーパスの構築

3.2.2. テキストサンプリング

3.2.1.1.で言及した通り，均衡コーパスの構築にあたっては分析対象の言語の代表性を担保することが重要である．では，どのようにすれば言語の諸相をうまく反映した代表性のあるコーパスを構築できるのであろうか．代表的な均衡コーパスとして英語のBrown CorpusやBNCが挙げられる．前者は現代のアメリカ英語の書き言葉を，後者は現代のイギリス英語をそれぞれ母集団として想定している (石川2012: 37)．

Brown Corpus¹⁰⁰では，その設計に際して母集団をいくつかの下位区分に層化し，それらのサイ

ズ比率に合わせてサンプルを収集している (石川 2008: 9-10)．具体的には，このコーパスは，1961 年に米国で出版された書籍や文献から合計100万語のテキストを収集して作られたものであるが，

バランスを保つために15のジャンルを代表する各2,000語のテキストを500個集めてコーパスは完成された (石川 2008: 10-11)．

98 Bank of Englishは，John Sinclairの監修の元でイギリスの辞書出版社が構築したコーパスであり，総語

数は6億4,500万語を超えている (石川 2012: 49)．

99 このコーパスは，Mark Daviesの主導で構築されたアメリカ英語の巨大コーパスで，webからspoken, fiction, magazines, newspaper, academic journalsといった5種のジャンルのデータを収集し，1年ごとに 2,000万語ずつ総語数を増やしている (中條 2015: 25)．2017年12月の時点で，総語数は約5億6,000 万である（参考URL: https://corpus.byu.edu/coca/）．

100 以下で言及するBrown CorpusとBNCの概要に関しては主に齋藤他(編) (1998)と石川 (2008)を参考にしている．

表20. Brown Corpusの構成 (石川 2008: 11)¹⁰¹

大分類中分類小分類テキスト数推定語数

ノンフィクション

メディア

新聞記事 44 88,000 新聞社説 27 54,000 新聞書評等 17 34,000

一般

宗教関係 17 34,000 技術・娯楽関係 36 72,000 一般・実用 48 96,000 書簡集・伝記・回想記 75 150,000 学術雑（政府文書等） 30 60,000

学術 80 160,000

フィクション小説

一般小説 29 58,000 推理小説 24 48,000

SF小説 6 12,000

冒険小説 29 58,000 恋愛小説 29 58,000 ユーモア小説 9 18,000

このように設計されたBrown Corpusの総語数は100万語であり，現在の基準ではこれは小規模であるとされる．だが，各種の言語資料が偏りなく収集されていて言語の諸相がバランスよく反映されているため代表性が担保されていると考えられており，Brown Corpusは今なお信頼できる言語資料として使われている (石川 2008: 9-13)．この画期的なコーパスデザインは後続のコーパスのモデルとなった (齋藤他(編) 1998: 6)．

BNCは約1億語から成るイギリス英語のコーパスで，全体の90%が書き言葉，残りの10%が話し言葉のテキストで構成されている (齋藤他(編) 1998: 24)．Brown Corpus以来の標本の代表性の考え方に基づき，BNCは領域（ジャンル），媒体，時代の3点で構が統制されている (石川 2008:

22-25)．ここでは，8,974万語から成る書き言葉の部について考察する．BNCに含まれるテキスト

の領域は過去20年の出版状況から判断して，文芸作品と情報伝達文という2つに大別されたが，

その比率は語数で19:81，サンプル（テキスト）数で15:85となっている (石川 2008: 22)．テキストをサンプリングした媒体の割合は，書籍60%，新聞・雑誌類30%，その他10%という内訳である．過度に硬い文章が集まったり，くだけた文章に偏ったりしないようにこの比率が採用された

(石川 2008 : 23)．そして，BNCは共時コーパスを意識してつくられたため，テキストは主に1978

年から1993年の間に書かれたものが集められた (石川 2008: 23)．

101 表は，石川 (2008: 11)の記述に著者が推定語数の欄を加えて，一部加工を施したものである．

表21. BNCにおける書き言葉の部の構成 (齋藤他(編) 1998: 24)¹⁰²

領域：語数 / テキスト数媒体: 語数 / テキスト数時代: 語数 / テキスト数文芸作品: 1,967万/ 625

情報伝達文

— 自然科学: 375万/ 144

— 応用化学: 737万/ 364

— 社会科学: 1,329万/ 510

— 世界情勢: 1,651万/ 453

— 商業: 712万/ 284

— 芸術: 725万/ 259

— 信仰・思想: 305万/ 146

— 娯楽: 999万/ 374

— 未分類: 174万/ 50

本 — 5,257万/ 1,488 定期刊行物（新聞など）

— 2,790万/ 1,167

雑多な印刷物（パンフレットなど）

— 394万/ 181

雑多な非刊行物（日記など）

— 360万/ 245

話す目的で書かれたテキスト

（スピーチなど）

— 137万/ 49 未分類 — 36万/ 79

1960年〜74年

— 204万/ 53 1975年〜93年

— 8,008万/ 2,596 未分類

— 762万/ 560

合計: 約8,974万

表からは，出典に偏りが生じないように領域と媒体の比率を考慮してテキストをサンプリングしている方針が窺える．Brown Corpusと同様に，BNCも今なお信頼できるデータとして言語研究に用いられている．

このように，均衡コーパスでは設定された基準に沿って，各ジャンルのテキストを一定量サンプリングすることで代表性の担保を目指しているわけであるが，そもそも均衡コーパス型データ収集法が掲げる代表性の実現に対して批判的な立場をとる研究者もいる．例えば，表 20 が示す

Brown Corpusの層化法（ジャンルの区分，数など）は現代アメリカ英語の書き言葉を本当に反映

しているのか疑問である，また，集めるテキストの母集団がそもそもはっきりせずに漠然としている，という指摘がある (Clear 1992; Teubert, Čermáková 2007: 59-65)．確かに，他の研究者が同じく現代アメリカ英語の書き言葉均衡コーパスを作成しようとしたら，異なる層化比率を採用する可能性は高い¹⁰³．

研究者は「不定」の母集団を「代表」する標本を検討しなければならないという矛盾に直面するため，前述のように母集団を層化して標本を一定の量で抽出するのであるが (石川 2012: 24)，

その層化に対して作為性があったのではという疑問は否定できない (石川 2012: 24)．

結局，「コーパスの作成者は均衡性，代表性，比較可能性の実現を志向するが，それが達成されることはほとんどなく，できたとしても，いくらかである．現実的には，均衡性と代表性は程度の問題なのである」(McEnery, Hardie 2012: 10)．とはいえ，Leech (2007: 143-144)が述べているように，代表性には一定の段階性があることを踏まえつつ，その実現を放棄するのではなく，現実的

102 齋藤他(編) (1998: 24)の表を著者が日本語に訳し，かつ，表記の一部を加工した．

103 後述の3.3.では，現代ロシア語の再現を目標として作成されたコーパスにいくつか言及するが，これら

はそれぞれが異なる層化比率を採用している．

に達成可能な段階を目指すべきであろう．

ドキュメント内派生接辞を用いたロシア語の効率的な語彙学習法の検討 (ページ 67-70)