第 3 章 各メディアにおけるサンプリングの手順と結果 23
3.14 特定目的 SC「国会会議録」
概要
• 特定目的SC「国会会議録」は,1976年から2005年までの30年間における国会での「国
会会議録」を対象として,そこからランダムにサンプルを抽出したものである。
• サンプリングの結果,取得したのは,159サンプルである。
対象データの定義
• Web上の「国会会議録検索システム」(http://kokkai.ndl.go.jp/)で公開されてい るデータのうち,第77回国会から第163回国会までに開かれた32,986会議の会議録デー タを国立国会図書館より受領し,これらを特定目的SC「国会会議録」の対象データと した。
• 対象データのうち,「両院協議会」で開かれた61会議,発言部分の文字数が1,000文字以
下の6,401会議,第77回国会のうち1975年に開催された33会議は除外した。
層別方法
• 上記で定義した対象データを,以下の3つの基準により,合計48層に層別した。
開催院(2層):「衆議院」「参議院」による,2分類。
開催時期(6層):会議の開催された年である1976年から2005年までを5年刻み にした,6分類。
第1期:1976〜1980年,第2期:1981〜1985年,
第3期:1986〜1990年,第4期:1991〜1995年,
第5期:1996〜2000年,第6期:2001〜2005年
会議種別(4層):「常任委員会」「特別委員会」「本会議」「その他」による,4分類。
常任委員会:会議名末尾に「委員会」が付くもの。ただし,末尾が「特 別委員会」「小委員会」のものは除く。
特別委員会:会議名末尾に「特別委員会」が付くもの。
本会議:会議名が「本会議」であるもの。
その他:上記以外のすべての会議。「小委員会」「分科会」「調査会」「公 聴会」「審査会」「互選会」「打合会」など。
3.14. 特定目的SC「国会会議録」 49
サンプリング方法
• 全体で約500万語分のサンプルを取得するために,159の会議を取得することを計画し た。1サンプルは,1会議に含まれる発言部分のみで構成することにした。
• 48の各層に含まれる発言文字数を集計し,159サンプルに比例割当して,各層から取得 するサンプル数を算出した。各層に含まれる会議から必要数をランダムに取得し,全体 で159サンプルを取得した。
• 取得した159サンプルについて,開催院・会議種別ごとのサンプル数と構成比率を図3.18 に示す。
® ijww |
® ñ¬³w
|
®
$ά³w
|
® 1ww |
ó®
ijww |
ó®
ñ¬³w
|
ó®
$ά³w
|
ó®
1ww |
図3.18: 取得したサンプルの構成比率(特定目的SC「国会会議録」,開催院・会議種別)
第 II 部
書誌情報の設計と実装
53
第 4 章 BCCWJ の書誌情報
4.1 均衡コーパスにおける書誌情報の役割
一般に,均衡コーパスとは,さまざまなメディアやジャンルから抽出されたサンプルの集合 体と見なすことができる。ある均衡コーパスがどのようなメディアやジャンルのサンプルを含 むかは,そのコーパスがどのような設計に基づいているかに依存するが,どのような設計で あっても,そこに含まれている各サンプルの出自が明示されていることが望ましい。均衡コー パスを検索した結果を分析したり解釈したりする際,その結果が幅広いメディアを通して一般 的に観察される現象なのか,あるいは(例えば)「雑誌」に特有な現象なのか,といった違い を捉えるためには,各サンプルの出自を表わす「書誌情報」が必要不可欠である。
BCCWJの構築過程においては,サンプリングの作業と並行して,各サンプルの出自を示す
「書誌情報データベース」を整備してきた。BCCWJの利用者は,この書誌情報データを参照 することにより,BCCWJを構成するすべてのサンプルの出自と属性を知ることができる。
厳密な手順で取得された大量のサンプルを,その書誌情報と関連づけて利用することによ り,コーパスの分析結果が現代日本語書き言葉のどの位相に位置づけられるものであるかを明 確にすることができるわけである。このような利点は,例えばWebをコーパスとして用いる 方法論では得ることのできないものであり,均衡コーパスとしてのBCCWJが持つ意義を最 大限に特徴づけるものであると言える。