• 検索結果がありません。

頻度による漢字の選択と順位

ドキュメント内 博 士 論 文 (ページ 87-90)

第二章  中上級学習者のための漢字および漢字語彙学習資料の開発 ・・・・・・・・・・・・ 80

第一節  頻度および親密度の高い漢字の選定

1.1.  頻度による漢字の選択と順位

  覚えることによって後で役に立つ漢字とはどのようなものであるかを考えたときに,ま

ず思いつくものが頻度である。多くの人に共通に有用な漢字を選ぶためには,人が多く用

いている漢字を選ぶことが基本であろうと考えられる。そこで本研究ではまず使用頻度の

高い漢字を選択することとした。 

漢字の頻度を調査した主要なものに,国立国語研究所の調査『現代雑誌九十種の用語用 字第2分冊』(1963),『現代新聞の漢字』(1976),『現代雑誌の漢字調査』(2002)がある。

『現代雑誌九十種の用語用字第2分冊』は 1956 年の一年分の 90 種の雑誌の用語・用字調 査の漢字表で,漢字が頻度順に 1 位から 1965 位まで(同順位の複数の漢字を含む)並べられ ている。さらに, 「用字別漢字表」として頻度順に並んだ個々の漢字について,それらの漢 字を含む単語が頻度のデータと共に示されている。この資料は詳細で単語としても十分な 量ではあるが,1956 年という古いものであることから,参考としたが本研究の資料として は用いなかった。 『現代新聞の漢字』は 1966 年の一年分の三種の新聞(朝日・毎日・読売)

の漢字と語彙の調査である。漢字の順位は 1 位から 1983 位まで並べられている。この資料 も前資料と同様に単語が頻度のデータと共に示された「用語例表」があるが,この「用語例 表」の漢字は五十音順に並べられている。この資料も信頼性は高いが古いものとなってしま った。この調査結果をもとにして作られた日本語教育のための漢字教材に豊田(1981)の『よ く使われる新聞の漢字と熟語』がある。この教材は頻度の高い漢字について,その漢字を 含む頻度の高い熟語と熟語の意味と使用例を音訓別に五十音順に示した教材である。 

『現代雑誌の漢字調査』は 1994 年の一年分の雑誌 70 誌の漢字の調査である。全雑誌の 総合の頻度は 1 位から 3586 位まで(同順位の複数の漢字を含む)示されている。この調査に は語彙の資料はない。次に主要語彙調査の漢字頻度上位 20 字の比較を示す。 

 

       

順位 現代雑誌九十種の用語用字 現代新聞の漢字 現代雑誌の漢字調査

1 一 日 日

2 人 一 人

3 二 十 大

4 大 二 一

5 日 大 年

6 出 人 本

7 三 三 円

8 十 会 中

9 子 国 分

10 中 年 時

11 年 中 上

12 上 本 月

13 本 東 出

14 方 五 子

15 見 時 生

16 手 四 間

17 分 出 合

18 生 上 手

19 五 円 自

20 前 同 用  

本研究では頻度の資料として,上記の国立国語研究所の三つの調査ではなく『NTT デー タベースシリーズ日本語の語彙特性』(以下『日本語の語彙特性』)第 7 巻(2000)の朝日新 聞 14 年分(1985〜1998)の文字の頻度のデータを用いた。このデータを基礎資料として用い た理由は,新聞 14 年分という大量のデータであり,それが電子化され利用しやすいもので あったからである。雑誌のデータの方が新聞のものより文字の偏りが少ないことが予想さ れるが,それでも雑誌には現れにくい漢字もあると考えられる。そこで,雑誌の漢字のデ ータは使わず,偏りの調整のために,漢字の心理的ななじみの度合である親密度のデータ を加えることとした。親密度のデータについては後述する。 

次にこのデータの頻度順による漢字の上位 100 字を示す。 

 

<頻度順位> <漢字>

1 日 26 合 51 子 76 化

2 国 27 生 52 米 77 選

3 会 28 三 53 定 78 理

4 人 29 地 54 高 79 全

5 大 30 間 55 手 80 目

6 年 31 民 56 円 81 外

7 一 32 部 57 相 82 度

8 本 33 党 58 立 83 決

9 中 34 前 59 連 84 当

10 長 35 議 60 田 85 法

11 出 36 後 61 力 86 九

12 事 37 見 62 代 87 下

13 十 38 東 63 今 88 四

14 社 39 員 64 明 89 万

15 者 40 的 65 回 90 調

16 二 41 市 66 開 91 約

17 月 42 方 67 問 92 表

18 自 43 対 68 関 93 経

19 時 44 発 69 五 94 現

20 政 45 場 70 主 95 山

21 上 46 学 71 京 96 公

22 行 47 入 72 動 97 用

23 同 48 金 73 実 98 務

24 分 49 新 74 通 99 機

25 業 50 内 75 体 100 取  

 

『日本語の語彙特性』第 7 巻の 6,847 の文字の頻度のデータには, 「記事中頻度」と「文

中頻度」の情報が,それぞれ一年ごととその合計で示されている。 「記事中頻度」は「記事

データより,記事番号,日付,出版社(本社,支社),および記事種類等の付加情報を除外し記

事本文のみを抽出した」(『日本語の語彙特性』第 7 巻①解説)データから得られた文字の

頻度である。 「文中頻度」は記事本文のデータから文末が句点で終わる文を抽出した「形態

素解析用データセット」から得られた文字頻度である。本研究ではそのうちの「記事中頻 度(全体)」を頻度のデータとして使った。これは 14 年分の記事に出現するすべての文字の 頻度である。この文字のうち漢字を取り出した。漢字の総数は 6,355 字である。 

この 100 位までの漢字だけ見ても,政治経済等の時事関係のものが多いことがうかがえ る。このことから,頻度の資料として新聞を用いたことで新聞に多く使われる漢字と新聞 には出にくい漢字とのバランスで実社会全体の頻度とのずれが予想される。そこで,この 資料に親密度のデータを加えた。以下に親密度の資料について述べる。 

 

ドキュメント内 博 士 論 文 (ページ 87-90)