• 検索結果がありません。

テキストサンプリング

3.2. コーパスの構築

3.2.2. テキストサンプリング

3.2.1.1.で言及した通り,均衡コーパスの構築にあたっては分析対象の言語の代表性を担保する ことが重要である.では,どのようにすれば言語の諸相をうまく反映した代表性のあるコーパス を構築できるのであろうか.代表的な均衡コーパスとして英語のBrown CorpusやBNCが挙げら れる.前者は現代のアメリカ英語の書き言葉を,後者は現代のイギリス英語をそれぞれ母集団と して想定している (石川2012: 37).

Brown Corpus100では,その設計に際して母集団をいくつかの下位区分に層化し,それらのサイ

ズ比率に合わせてサンプルを収集している (石川 2008: 9-10).具体的には,このコーパスは,1961 年に米国で出版された書籍や文献から合計100万語のテキストを収集して作られたものであるが,

バランスを保つために15のジャンルを代表する各2,000語のテキストを500個集めてコーパスは 完成された (石川 2008: 10-11).

98 Bank of Englishは,John Sinclairの監修の元でイギリスの辞書出版社が構築したコーパスであり,総語

数は64,500万語を超えている (石川 2012: 49)

99 このコーパスは,Mark Daviesの主導で構築されたアメリカ英語の巨大コーパスで,webからspoken, fiction, magazines, newspaper, academic journalsといった5種のジャンルのデータを収集し,1年ごとに 2,000万語ずつ総語数を増やしている (中條 2015: 25).201712月の時点で,総語数は約56,000 万である(参考URL: https://corpus.byu.edu/coca/

100 以下で言及するBrown CorpusBNCの概要に関しては主に齋藤他(編) (1998)と石川 (2008)を参考にし ている.

表20. Brown Corpusの構成 (石川 2008: 11)101

大分類 中分類 小分類 テキスト数 推定語数

ノンフィクション

メディア

新聞記事 44 88,000 新聞社説 27 54,000 新聞書評等 17 34,000

一般

宗教関係 17 34,000 技術・娯楽関係 36 72,000 一般・実用 48 96,000 書簡集・伝記・回想記 75 150,000 学術 雑(政府文書等) 30 60,000

学術 80 160,000

フィクション 小説

一般小説 29 58,000 推理小説 24 48,000

SF小説 6 12,000

冒険小説 29 58,000 恋愛小説 29 58,000 ユーモア小説 9 18,000

このように設計されたBrown Corpusの総語数は100万語であり,現在の基準ではこれは小規模で あるとされる.だが,各種の言語資料が偏りなく収集されていて言語の諸相がバランスよく反映 されているため代表性が担保されていると考えられており,Brown Corpusは今なお信頼できる言 語資料として使われている (石川 2008: 9-13).この画期的なコーパスデザインは後続のコーパス のモデルとなった (齋藤他(編) 1998: 6).

BNCは約1億語から成るイギリス英語のコーパスで,全体の90%が書き言葉,残りの10%が話 し言葉のテキストで構成されている (齋藤他(編) 1998: 24).Brown Corpus以来の標本の代表性の 考え方に基づき,BNCは領域(ジャンル),媒体,時代の3点で構 が統制されている (石川 2008:

22-25).ここでは,8,974万語から成る書き言葉の部について考察する.BNCに含まれるテキスト

の領域は過去20年の出版状況から判断して,文芸作品と情報伝達文という2つに大別されたが,

その比率は語数で19:81,サンプル(テキスト)数で15:85となっている (石川 2008: 22).テキス トをサンプリングした媒体の割合は,書籍60%,新聞・雑誌類30%,その他10%という内訳であ る.過度に硬い文章が集まったり,くだけた文章に偏ったりしないようにこの比率が採用された

(石川 2008 : 23).そして,BNCは共時コーパスを意識してつくられたため,テキストは主に1978

年から1993年の間に書かれたものが集められた (石川 2008: 23).

101 表は,石川 (2008: 11)の記述に著者が推定語数の欄を加えて,一部加工を施したものである.

表21. BNCにおける書き言葉の部の構成 (齋藤他(編) 1998: 24)102

領域:語数 / テキスト数 媒体: 語数 / テキスト数 時代: 語数 / テキスト数 文芸作品: 1,967万/ 625

情報伝達文

— 自然科学: 375万/ 144

— 応用化学: 737万/ 364

— 社会科学: 1,329万/ 510

— 世界情勢: 1,651万/ 453

— 商業: 712万/ 284

— 芸術: 725万/ 259

— 信仰・思想: 305万/ 146

— 娯楽: 999万/ 374

— 未分類: 174万/ 50

本 — 5,257万/ 1,488 定期刊行物(新聞など)

— 2,790万/ 1,167

雑多な印刷物(パンフレットなど)

— 394万/ 181

雑多な非刊行物(日記など)

— 360万/ 245

話す目的で書かれたテキスト

(スピーチなど)

— 137万/ 49 未分類 — 36万/ 79

1960年〜74年

— 204万/ 53 1975年〜93年

— 8,008万/ 2,596 未分類

— 762万/ 560

合計: 約8,974万

表からは,出典に偏りが生じないように領域と媒体の比率を考慮してテキストをサンプリングし ている方針が窺える.Brown Corpusと同様に,BNCも今なお信頼できるデータとして言語研究に 用いられている.

このように,均衡コーパスでは設定された基準に沿って,各ジャンルのテキストを一定量サン プリングすることで代表性の担保を目指しているわけであるが,そもそも均衡コーパス型データ 収集法が掲げる代表性の実現に対して批判的な立場をとる研究者もいる.例えば,表 20 が示す

Brown Corpusの層化法(ジャンルの区分,数など)は現代アメリカ英語の書き言葉を本当に反映

しているのか疑問である,また,集めるテキストの母集団がそもそもはっきりせずに漠然として いる,という指摘がある (Clear 1992; Teubert, Čermáková 2007: 59-65).確かに,他の研究者が同じ く現代アメリカ英語の書き言葉均衡コーパスを作成しようとしたら,異なる層化比率を採用する 可能性は高い103

研究者は「不定」の母集団を「代表」する標本を検討しなければならないという矛盾に直面す るため,前述のように母集団を層化して標本を一定の量で抽出するのであるが (石川 2012: 24),

その層化に対して作為性があったのではという疑問は否定できない (石川 2012: 24).

結局,「コーパスの作成者は均衡性,代表性,比較可能性の実現を志向するが,それが達成され ることはほとんどなく,できたとしても,いくらかである.現実的には,均衡性と代表性は程度 の問題なのである」(McEnery, Hardie 2012: 10).とはいえ,Leech (2007: 143-144)が述べているよう に,代表性には一定の段階性があることを踏まえつつ,その実現を放棄するのではなく,現実的

102 齋藤他() (1998: 24)の表を著者が日本語に訳し,かつ,表記の一部を加工した.

103 後述の3.3.では,現代ロシア語の再現を目標として作成されたコーパスにいくつか言及するが,これら

はそれぞれが異なる層化比率を採用している.

に達成可能な段階を目指すべきであろう.