Progress Report of the Year 2007: ‘Japanese Language Education’ Group
平成 19 年度研究進捗状況報告:言語政策班
言語政策に役立つ,コーパスを用いた語彙表・漢字表等の作成と活用
田中 牧郎 (班 長:国立国語研究所研究開発部門)† 相澤 正夫 (分担者:国立国語研究所研究開発部門)
棚橋 尚子 (分担者:奈良教育大学教育学部)
野村 敏夫 (分担者:桜美林大学リベラルアーツ学群)
近藤明日子(協力者:国立国語研究所研究開発部門)
鈴木 一史 (協力者:東京大学教育学部付属中等教育学校)
Progress Report of the Year 2007: ‘Language Policy’ Group TANAKA Makiro (National Institute for Japanese Language)
AIZAWA Masao (National Institute for Japanese Language)
TANAHASHI Hisako(Nara University of Education)
NOMURA Toshio (J.F.Oberlin University)
KONDO Asuko (National Institute for Japanese Language)
SUZUKI Kazufumi (Tokyo University Secondary Education School)
1.言語政策班の研究計画
国語施策と国語教育に役立つ語彙表と漢字表をコーパスに基づいて作成し,それらを活用する 方法を開発することを目的としている。まず,班で共有するデータベースとして,次の二つを作 成している。
・教科書コーパス
・コーパスに基づいた語彙表・漢字表
これらのデータベースを活用して取り組む研究について,次の六つの小課題を設定している。
・分野特徴語彙の抽出 ・難解用語の抽出と言い換え
・常用漢字表・人名用漢字等の在り方に関する調査研究
・文章作成における語彙選択指導
・概念体系構築のための語彙指導
・国語力向上のための漢字指導
共有データベースとしての語彙表・漢字表を通してコーパスを活用することで,国語施策・国 語教育の分野の問題を改善し,新しい方法を開発するのに役立つ基礎資料を提供することを目指 している。コーパスの中では,学校教育で用いられている語彙や漢字を把握する資料として教科 書を重視し,班独自に教科書コーパスの構築を進めている。
2.共有データベースの作成状況 2.1 教科書コーパス
2005年度に使用された,小中高等学校の全教科の教科書のうち,各学年,各教科でよく使われ た一種を対象として,「教科書コーパス」を作成している。2007年度は,著作権処理作業と入力・
タグ付け作業を重点的に進めた。順調に進めば,約500万語の全文コーパス「教科書コーパス」
は,2008年度末ごろほぼ完成し,本格的に活用できるようになる見込みである。完成した段階で,
希望があれば他班にも使っていただけるようにしたいと考えているが,一般公開は予定していな い。現在,中学校分を先行して完成させるべく,作業を優先して進めているところである。本ワ ークショップでは,中学校分の試作版を用いて,近藤(2008)という発表を行う予定である。ま た,「教科書コーパス」から約200万語分をランダムサンプリングして,「現代日本語書き言葉均 衡コーパス」の非母集団サブコーパスの一角にミニコーパスとして組み入れる予定で,この部分 は一般公開を予定している。
2.2 コーパスに基づいた語彙表・漢字表
(1)語彙表・漢字表の2つのタイプ
コーパスに基づいた語彙表・漢字表は,様々なものを作成して研究に活用していきたいが,大 まかに言って,二つのタイプを想定している。第1のタイプは,コーパスに含まれる語彙・漢字 の実態を把握した表である。例えば,国立国語研究所が語彙調査の報告として提供してきたよう なタイプである。第2のタイプは,コーパスを国語施策や国語教育に利用する目的に即して,語 彙・漢字を集めて並べた表である。例えば,専門用語集,学習基本語彙,常用漢字表などにつな がるタイプである。言語政策班では,第2のタイプの語彙表・漢字表の作成を意識した研究を行 っていくが,その前提として,第1のタイプの語彙表・漢字表を作成する作業が,不可欠である。
データ班から公開された,各種のミニコーパスについて,電子化辞書班から公開されたUnidic の短単位で解析したデータをもとに,語彙頻度表を作成し,共有データベースの原初的なものと して活用している。語彙頻度表に,一定の方針で手を加えていくことで,個々の目的に応じた,
第2のタイプにつながる語彙表・漢字表の作成に展開する作業に着手した。
(2)レベル別語彙表と分野別語彙表
まず語彙表については,2007年度は,データ班から領域内公開された白書コーパスと書籍コー パスの語彙頻度に基づいた語彙のレベル分けを試みた。このうち,白書コーパスによるレベル分 けについては,9月の全体会の言語政策班進捗状況報告で紹介した(田中ほか 2007)。また,書 籍コーパスに基づく語彙のレベル分けについては,今回のワークショップでデモンストレーショ ンを行う予定である(田中・近藤・平山 2008)。このような語彙頻度に基づくレベル分けの結果 を,頻度(コーパス)以外に基づいて語彙のレベル分けを行った先行研究と比較すると,同様の 結果が得られる面と,異なる結果が得られる面とがあるが,異同の背景を研究していくことは,
コーパスに基づく語彙表作成の意義と問題点を明らかにすることにつながっていこう。
レベル別語彙表は,国語施策において,用語や表記の標準を定めていく作業の基礎となるもの であるし,国語教育において,学習基本語彙の設定や,効果的な語彙指導を行うための語彙教材 の作成などに役立つものである。今後これを活用して,3.2,3.4,3.5に述べる各個別課題におい て,第2のタイプの語彙表作成を展開していく予定である。
レベル別語彙表のほかに,共有できる基本的な語彙表として,分野別語彙表を考えているが,
これについては,3.1に記す個別課題の中で行っている研究と連動して進めている。
(3)漢字総合頻度表
漢字表については,まず第1のタイプの漢字表として,「漢字総合頻度表」を構築する研究を進 めている。漢字総合頻度表とは,コーパス中に出現した漢字について,コーパスでの出現頻度や,
その漢字がどのような音訓で,どのような語又は語の構成要素の表記に,何回使われているかと いう情報を一覧できるようにしたものである。2007年度は,漢字総合頻度表の作成を自動化する ためのデータ整備と漢字総合頻度表の自動作成の試行を行った。
データ整備の概要は以下のとおりである。①常用漢字や国語研究所が過去に行った漢字調査に
出現した漢字などに対して,常用漢字・人名用漢字等の漢字の種類や音訓などを付与した漢字デ ータベースを構築した。②単位データベース(UniDic)の書字形のうち漢字を含むものに書字形 構成漢字情報を追加した。例えば,書字形「食べ物」の下には「食」「物」という二つの漢字を書 字形構成漢字情報として登録する。③書字形構成漢字情報と漢字データベースの音訓との関連付 けを行った。例えば,「食べ物」の書字形構成漢字情報「食」には漢字データベースに登録した「食」
の訓「たべる」を,同じく「物」には訓「もの」を関係付ける。この関連付けは自動で行った後 に,人手によるチェックを行った。以上の作業を経て,漢字データベースと短単位解析済みのコ ーパスとが短単位データベースを介して関連付けられ,漢字総合頻度表に必要な情報をコーパス から自動的に取得できる環境が整った。
漢字総合頻度表の自動作成の試行については,①コーパスから取得した頻度情報等を見やすい 表形式に整えるためのエクセルマクロも作成した上で,②白書コアデータ(約20万語),白書デ ータ全体の固定長(約120万語)を対象に行った。今後は,白書のほか,本領域のコーパスBCCWJ のデータ作成に合わせて新聞・書籍などを対象とした漢字総合頻度表を作成し,各媒体における 漢字使用の実態を把握するとともに,媒体間の漢字使用の共通点・相違点なども明らかにしてい く予定である。そうした作業を通して,3.3,3.6に記す個別課題に役立てられる,第2のタイプ の漢字表作成に展開していく予定である。
3.個別の研究課題
3.1 分野特徴語彙の抽出(主担当:近藤)
(1)目的と基本的な考え方
ある分野において特徴的な語彙を抽出する方法と,抽出された語彙の活用方法や語彙の性質に ついて研究することが,本研究の目的である。
ある分野における特徴的な語彙を抽出するためには,その分野での語彙の量的データを用意す るだけでなく,対照させるための,より一般的な分野での語彙の量的データを用意することが必 要となる。本研究では,現在,本領域で開発の進められているコーパスBCCWJや形態素解析辞 書を利用して,語彙の量的データを作成し,分野特徴語彙を抽出する。また,抽出された分野特 徴語彙を利用して,国語施策や国語教育にも役立つ,実用的な語彙表の作成を目指す。さらに,
分野特徴語彙から,その分野の語彙の質的側面の考察にも取り組む予定である。
(2)現在までの進捗状況
2007 年度は,英語学で分野特徴語の抽出にしばしば用いられる対数尤度比(log-likelihood ratio)を指標として,一般分野のコーパスに対して特定分野に有意に高頻度な語彙の抽出を試行 した。この指標を用いた語彙表作成の実践として,①医療分野の難解語・重要語の抽出,②教科 書を用いた教科別特徴語の抽出を試みた。このうち①は,個別課題3.2の中に組み込んで実施し た。
②については,次のような背景で実施している。学校教育において,国語科のみならず各教科 において表現力の指導の重要性が唱えられる昨今,その指導法研究の基礎的資料として,各教科 における特徴語彙を提示することが重要と考えられる。そこで,言語政策班において作成中の教 科書コーパスを利用し,中学校教科書の教科別特徴語を抽出し,その分析を行った。その成果は,
本ワークショップにおいて近藤(2008)として発表する予定である。
(3)次年度以降の研究課題
今後も,適切な特定分野と一般分野を選定し,新たな特徴語彙の抽出を行う予定である。その 際,一般分野の語彙データ作成には,BCCWJ の利用を予定している。また,抽出した分野特徴