• 検索結果がありません。

Development of a Vocabulary List

ドキュメント内 corpus.indd (ページ 192-200)

BCCWJ を利用した日本語教育語彙リスト作成の試み

橋本直幸(日本語教育班協力者:首都大学東京オープンユニバーシティ)

試験」の問題作成の基準となるもので、1994 年に公開、2002 年に改訂が行われている。

試験は「文字・語彙」「聴解」「読解・文法」から成り、4級から1級までの4レベルに分 かれている。『出題基準』では「文字」「語彙」「文法」についてリストを挙げて示しており、

「語彙」については、1級レベルに必要な語彙の目安としての10000 語のうち、8009 語を 掲載している。語彙の選定にあたっては、3、4 級は既存の日本語教科書11 種を、 1、2 級 は各種語彙調査をリソースとしている。

その他、『分類語彙表』から専門家判定により教育用基本語彙 6000 語を選定した国立国 語研究所『日本語教育のための基本語彙調査』(1986年)や、専門教育出版による『品詞別・

A~Dレベル別 1万語語彙分類集』(1991年、改訂1998年)などがある。

3.目指す語彙リストのかたち 3.1 「話題」の重要性

第2節で紹介した『出題基準』は、基本的には試験作題者のために作られたものである。

レベル別にはなっているが、各レベル内は五十音順に語が配列されており、教材作成やシ ラバス作成には利用しにくい。では、教材作成やシラバス作成にも利用可能な語彙リスト とはどのようなものだろうか。言語教育(学習)の目標が、「学習者が必要とする言語活動 に必要な言語形式を教える(学習する)こと」であると考えると、各学習者が話したい内 容、読みたい内容がどのような言語形式に支えられているのかが明らかになっている必要 がある。そのためには、それぞれの「話題」を支える語が語彙リスト上でグルーピングさ れ、それぞれの話題で「まとまった話」ができるようになっていると非常に便利である。

近年、言語教育の分野において注目されている「ヨーロッパ共通参照枠(CEFR: Common European Framework of Reference for Languages)」や、全米外国語教育協会(ACTFL)の言語 運用能力基準などにおいても、「話題」は能力評価の重要な指標とされており、「自分のこ と」「身近な話題」から「抽象的な話題」「専門的な話題」へとレベルが上がるにつれて、

扱える話題が広がっていくと考えられている。つまり、能力向上のためには、扱える「話 題」を増やしていくことが重要であり、その助けとなる語彙リストが必要であると言える。

3.2 「話題別分類語彙表」の試み

橋本(2008b)では、前節の考え方に基づき、「日本語教育版分類語彙表」と題して、話 題分類に沿った語彙リストの作成を試みた。具体的には、次ページ表1に挙げたように、

16の「分野」と、その下に100の「テーマ」を独自に設定し、『出題基準』に掲載されてい

る約8,000語を筆者の主観でそれぞれのテーマに分類したものである。表1が設定した話題、

表2が分類の例である。

「日本語教育版分類語彙表」という名前は、国立国語研究所の『分類語彙表』に倣った ものであるが、語の分類にあたって『分類語彙表』の分類枠、分類番号をそのまま採用し たわけではない。『分類語彙表』(元版)の「まえがき」には次のような記述がある(pp.6-7)。

一つの項目に収めたのは同義類義の語の群であって、自由連想による語群ではない ことである。(中略)たとえば<ビール>については、飲酒行動に関連して、≪酒・ス タウト・ウイスキー・飲む・酔う・一杯・あわ・ジョッキ・コップ・ほろにが・ホッ プ・赤ら顔・ビヤホール≫等々が連想されるであろう。(中略)連想語群をとらえるこ

表1 話題一覧(橋本(2008b))

1.文化

1.1 文化一般 1.2 食 1.3 酒 1.4 ファッション 1.5 旅行 1.6 スポーツ 1.7 建築 1.8 言葉 1.9 文芸・出版 1.10 季節・行事 2. 人生・生活

2.1 町 2.2 ふるさと 2.3 交通 2.4 日常生活 2.5 家電・機械 2.6 家事 2.7 パーティー 2.8 引越し 2.9 各種手続き 2.10 恋愛 2.11 結婚 2.12 育児 2.13 思い出 2.14 夢・目標

2.15 悩み 2.16 死 3. 人間関係

3.1 家族 3.2 友達 3.3 性格 3.4 相手への感情 3.5 容姿 3.6 人づきあい 3.7 喧嘩・トラブル 3.8 マナー・習慣 4. 教育・学問

4.1 学校(小中高)

4.2 学校(大学)

4.3 成績 4.4 習い事

4.5 試験 4.6 調査・研究 5. 芸術・趣味

5.1 音楽 5.2 絵画 5.3 工芸 5.4 写真 5.5 映画・演劇

5.6 芸道 5.7 芸術一般 5.8 趣味一般 5.9 コレクション 5.10 日曜大工 5.11 手芸 5.12 ギャンブル 5.13 遊び・ゲーム 6. 宗教・祭り

6.1 宗教 6.2 祭り 7. メディア

7.1 メディア 7.2 芸能界 8. 通信・コンピューター

8.1 通信 8.2 コンピューター 9. 経済・消費

9.1 買い物・家計 9.2 労働 9.3 就職活動 9.4 ビジネス 9.5 株

9.6 経済・財政・金融 9.7 国際経済・金融 9.8 税

10. 産業 10.1 工業一般 10.2 自動車産業 10.3 重工業 10.4 軽工業・機械工業 10.5 建設・土木 10.6 エネルギー 10.7 農林業 10.8 水産業 11. 社会

11.1 事件・事故 11.2 差別 11.3 少子高齢化 11.4 社会保障・福祉 12. 政治

12.1 政治 12.2 法律 12.3 社会運動 12.4 選挙 12.5 外交 12.6 戦争

12.7 会議 13. ヒト・生き物

13.1 人体 13.2 医療 13.3 美容・健康 13.4 動物 13.5 植物 14. 自然

14.1 気象 14.2 自然・地勢 14.3 災害 14.4 環境問題 14.5 宇宙 15. サイエンス

15.1 算数・数学 15.2 サイエンス 15.3 テクノロジー 16. 歴史

16.1 歴史 抽象的関係を表す語

表2 『日本語能力試験出題基準』をもとにした日本語教育版分類語彙表

テーマ 細目 4級 3級 2級 1級

文化一般 文化 風俗、慣習、慣行、風習

食事

昼御飯、朝御飯、

晩御飯、夕飯

お昼、ランチ、昼食 昼飯

お弁当 飲食

飲む、食べる、吸う 召 し 上 が る 、 食 事 する、

食う、噛む、かじる、含む、

しゃぶる、味わう、吐く、か

なめる、飲み込む、噛み切

食欲

お代わり 食欲

すく 飢える、

ぺこぺこ、空腹

ジャンル 西洋

和~、~風

洋風、和風 洋~

料理名

料理、主食、 おかず、汁、実、

カレー、パン、御飯 サラダ、サンドイッ チ、ジャム、ステー キ、ハンバーグ

うどん、スープ、そば、刺

ライス、粥、梅干

とも語彙論上の大切な仕事であると思われるが、ここでは、<ビール>をただ≪酒・

ウイスキー・スタウト≫とグループをなすものとして扱い、≪飲む≫や≪ビヤホール

≫との関係を断ったのである。

「話題」で分類する場合は、『分類語彙表』では扱われなかった≪酒・スタウト・ウイス キー・飲む・酔う・一杯・あわ・ジョッキ・コップ・ほろにが・ホップ・赤ら顔・ビヤホ ール≫を同じグループとして扱うことが望ましい。

橋本(2008b)は、8000語を直感で分類したものであるが、次節以降では、大規模コーパ スを用いた場合の話題別語彙リストの作成方法について提案する。

4.コーパスを利用した話題別語彙リスト作成の方法 4.1 話題分類のための二方法

コーパスを利用した話題別語彙リストの作成方法として、以下の二通りの方法を考える ことができる。なお、ここでは作成する日本語教育語彙リストの収録総語数を仮に 20,000 語1として議論を行う。

A:トップダウン式

大規模コーパスから出現頻度上位20,000 語を日本語教育語彙リストの外枠とし、その1 語1語について、それぞれの語がどの話題で多く使用されるかを判断し、分類する。第3 節で紹介した橋本(2008b)は、この方法によるものである。

B:ボトムアップ式

コーパスのサンプル自体をまず話題別に分けておき、その話題ごとの特徴語を何らかの 方法で抽出する。各話題の特徴語がすべて抽出されたところで、収録総語数20,000語に入 らないものを削除する。また、20,000 語のうち、どの話題にも特徴語として抽出されない 語は、話題別語彙とは別に収録する。これをすべての話題で行い、最後に組み合わせる。

BCCWJの書籍サンプルには、それぞれに「NDC分類記号(以下、NDC)」が付されてい

るので、表1の話題とNDCを対応させれば、ボトムアップ式に話題別語彙リストを作るこ とができる。以下では、この方法でBCCWJを用い、話題別語彙リスト作成を試みる。

4.2 話題特徴語の抽出

ボトムアップ式に話題別語彙リストを作成する場合、サンプルを話題で分類したのち、

それぞれの話題の特徴語を出さなければいけない。本発表では、話題特徴語の抽出方法と して、対数尤度比(log-likelihood ratio、LLR値)を用いる。特徴度を出す統計指標はいくつ か提案、検討されているが(内山他2004)、対数尤度比は、テクストサイズが小さくても妥 当な値を示すとされており、『JACET8000』の特徴語抽出や、コンコーダンスソフトWordSmith などのキーワード抽出に使用されている。本特定領域研究においても、近藤(2008)で教 科別特徴語抽出の際に使用されている。LLR値は以下の分割表と計算式で求められる。

対象 コーパス

参照 コーパス

単語W a b a+b 単語W以外 c d c+d a+c b+d a+b+c+d (=n)

a、b、c、dは語の出現度数 5. 語彙表の試作

5.1 話題特徴語の抽出 ―話題「旅行」を例に

ここでは、表1で提案した話題一覧の中から「旅行」という話題を例にとり、4.1 のB で

1 日本語教育用の語彙リストの収録総語数を何語にするかは別途考える必要がある。本発表で仮定する総

語数20,000語は、本特定領域の研究成果である田中(2008)の“一般語彙リスト”の考え方に従えば、

カバー率96.60%である。日本語教育用語彙としては、一般的に上級10,000語とされており、それに比べ

ると20,000語という数は多いが、超上級学習者までも含めた多様な学習者に対応できるよう語彙リスト

はできるだけ大きいものにしておく必要があると考えている。

LLR = 2(alog(a)+blog(b)+clog(c)+dlog(d) -(a+b)log(a+b)-(a+c)log(a+c) -(b+d)log(b+d)-(c+d)log(c+d) +(a+b+c+d)log(a+b+c+d))

示した方法により、話題特徴語を抽出する。手順は以下の通りである。

(1)サンプル群の選定 ―話題「旅行」とNDC との対応-

「旅行」という話題に対応するNDCは【290 地理・歴史・気候】の中の【290.2 史跡・

名勝.景観】【290.6 紀行】と、【689 観光事業】であると考えられる。ただし、BCCWJ には、第3次区分までしか示されていない(小数点以下はない)ので、実際は、【290 地理・

歴史・気候】の方は、書名を見て「旅行」に関係すると考えられるものを対象とすること になる。「旅行」に該当するサンプルは、32サンプルであった。

(2)語彙頻度表の作成

語の対数尤度比を出すには、対象となるコーパスにおける度数と、それと比較するため の参照コーパスにおける度数が必要となる。本発表では、対象コーパスを「旅行」のサン プル、参照コーパスを全書籍サンプルのうちの「旅行」以外のものとし、それぞれのコー パスで出現する度数を求め、語彙表を作成する。ここでは、UniDic-1.3.9(MeCab 版)を用 い、形態素解析を行い、語彙頻度表を作成した。なお、今回の語彙リストは収録語を実質 語に限定するので、語彙頻度表から機能語(助詞、助動詞)および記号類を除外した。そ の結果、「旅行」の延べ語数は55088語であった。

(3)対数尤度比の算出

(2)で作成した頻度表をもとに対数尤度比を算出する。

(4)サンプル数1の削除

NDCは書籍そのものにつけられた記号である。従って、BCCWJのサンプリング箇所によ っては、必ずしもNDCと内容が一致しない場合もある。よってその対処法として、たとえ LLRの値が高くても一つのサンプルにしか出てこないものは削除する。

(5)全書籍サンプルの上位 20,000 位に入らないものを削除

(4)の語彙リストのうち、全書籍サンプルにおける頻度順位が上位20,000位に入らない ものを削除する2

以上の手続きを経て「旅行」という話題における特徴語を抽出した結果が表3である(紙 幅の都合でLLR値上位100語のみを掲載)。上位に「陛下」「修道」「神父」「国王」など、

一見すると旅行とはあまり関係ない語3が入ってはいるが、おおむね「旅行」に関する語が 抽出されていることがわかる。

5.2 意味分類別語彙表の作成

前節で抽出した話題特徴語をさらに意味分類別に分けたものが表4である。こうするこ とによって、さらに教育現場で使いやすいものとなる。また、以下のようなメリットも考 えられる。

(1)未収録語が明らかになる

例えば、表4の「宿泊場所」を見ると、「ホテル」「宿」が挙がっている。しかし、実際

2 全書籍サンプルの頻度順位が20,000位の語の度数が63回なので、それより少ないものを削除する。

3 これらの語はいずれも『17・18 世紀大旅行記叢書』『大航海時代叢書』において使用されているもので、

削除対象にはならなかったものである。

ドキュメント内 corpus.indd (ページ 192-200)

Outline

関連したドキュメント