もし小学生が『現代日本語書き言葉均衡コーパス』
並みに漢字を使ったら
著者 今田 水穂
雑誌名 言語資源活用ワークショップ発表論文集
巻 1
ページ 20‑29
発行年 2017
URL http://doi.org/10.15084/00001454
もし小学生が『現代日本語書き言葉均衡コーパス』並みに漢字を 使ったら
今田 水穂(文部科学省)
What If Elementary School Students Use the Chinese Characters As Much As BCCWJ?
Mizuho Imada (Ministry of Education, Culture, Sports, Science and Technology)
要旨
『児童・生徒作文コーパス』と『現代日本語書き言葉均衡コーパス』(BCCWJ)を用いて、児
童がBCCWJと同等の水準で漢字を使用した場合に、各漢字の頻度がどの程度になるかを推
定し、その結果をワードクラウドを用いて可視化した。また、その結果を用いて、学年ごとの 推定頻度の比較、BCCWJにおける漢字頻度との比較、教科書コーパスについて同様に漢字頻 度を推定したものとの比較を行い、推定頻度と学年の相関、児童作文に固有の高頻度漢字、小 学校配当外の高頻度漢字、小学校配当の低頻度漢字を調べた。
1. はじめに
児童の使用する語彙は、大人の使用する語彙とは異なる。そこで、児童の書いた作文を調査 することで、児童の書き言葉の産出における漢字の需要を評価することを考える。しかし児童 は基本的に学習済みの漢字しか使わず、特に低学年の場合はほとんど仮名だけで作文を書くの で、単に語彙を調べただけでは、潜在的な漢字の需要を評価することができない。そこで、そ れらの語が大人と同等の頻度で漢字書きされた場合に、そこに含まれる漢字がどの程度の頻度 になるかを試算する。
ぼく 僕
ぼく 僕
ぼく 僕
作文コーパス
×
BCCWJ 推計
図1 もし小学生がBCCWJ並みに漢字を使ったら
この推計結果を用いて、児童の言語産出における漢字需要を可視化し(3節)、学齢による漢 字需要の推移(4.1節)、児童作文に固有の高頻度漢字(4.2節)、小学校配当外の高頻度漢字およ び配当内の低頻度漢字(4.3節)について考察する。
2. 方法
『 児 童・生 徒 作 文 コ ー パ ス 』1(作 文 コ ー パ ス) と 、『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ
ス』2(BCCWJ)の2つのコーパスを使用する。作文コーパスは小学校・中学校の児童・生徒に
特定のテーマの作文課題を課し、その作文を収集・電子化したコーパスである。本調査では、
2014年度に実施した「夢」「頑張ったこと」の2つの作文課題について、それぞれ小学校1〜6 年生の各2クラス、延べ24クラス分の作文資料に対して人手修正済みの形態論情報を付与し たデータ3を使用した。
表1 作文コーパスのサンプル数と短単位数
学年 夢 頑張ったこと 合計
サンプル数 短単位数 サンプル数 短単位数 サンプル数 短単位数
1 69 7196 69 10745 138 17941
2 65 11045 68 14108 133 25153
3 69 17741 69 18635 138 36376
4 78 26038 79 27481 157 53519
5 77 25265 77 29924 154 55189
6 78 26779 78 26200 156 52979
合計 436 114064 440 127093 876 241157
BCCWJは国立国語研究所が開発した1億語規模の書き言葉コーパスで、13レジスタ約17 万サンプルの書き言葉資料によって構成される。このうち6レジスタ1980サンプル約9万短 単位のデータがコアデータとして設定されており、この範囲のデータ全体について形態論情報 の人手修正が施されている。本研究ではBCCWJコアデータのうち、他のレジスタと比べて 漢字使用頻度が高い4新聞・白書を除いた4レジスタ(書籍・雑誌・ブログ・知恵袋)のデータ を使用した。以下、単にコアデータというときは、この4レジスタを指す。
表2 BCCWJコアデータのサンプル数と短単位数
レジスタ サンプル数 短単位数
書籍 83 234794
雑誌 86 241179
ブログ 471 117888
知恵袋 938 110645
合計 1578 704506
1宮城・今田(2015a)
2Maekawa et al. (2014)
3今田水穂(2017)
4宮城・今田(2015b)
調査は以下の手順で行った。まず、BCCWJを使用して語別の漢字頻度表を作成した。次に 作文データを使用して児童の学年別の語彙頻度表を作成した。この2つの数値を掛け合わせ ることによって、児童がBCCWJ並みの頻度で漢字を使用した場合の漢字頻度表を作成した。
この数値を以下では推定漢字頻度と呼ぶことにする。文書aの漢字使用頻度が文書b並みに なった時の文字cの推定頻度をec,a,b とすると、ec,a,bは次の式で計算できる。
ec,a,b =∑
w
fw,a×gc,w,b
fw,b
fx,yは文書yにおける語xの頻度、gx,y,z は文書z、語yにおける文字xの頻度である。文書 aの漢字使用頻度が文書b並みになった時の文字cの100万字あたりの推定頻度をppm(ec,a,b) とすると、次の式で計算できる。
ppm(ec,a,b) = 10∑6×ec,a,b xex,a,b
3. 結果
学年別の100万字あたり推定漢字頻度を、漢字の配当学年ごとに集計した結果を以下に示す。
表3 100万字あたりの推定漢字頻度
学年 漢字分類 1年生 2年生 3年生 4年生 5年生 6年生 1年配当漢字 47640 47322 47611 44966 46965 47311 2年配当漢字 54573 57076 55670 58573 62459 63279 3年配当漢字 38851 38364 38959 39734 42949 44269 4年配当漢字 20867 17879 19931 22090 21998 23609 5年配当漢字 18623 11463 11746 12535 14474 16431 6年配当漢字 13262 13635 12116 12098 10397 13102 配当外常用漢字 22749 18668 19216 18355 18406 18103 常用外漢字 2363 1874 1687 1530 1417 1189 合計 218926 206281 206934 209882 219065 227293
全体としては100万字あたり20〜23万字が漢字であり、1年生は例外的に漢字頻度が高い が、2〜6年生については学年が上がるにつれて漸進的に漢字の頻度が上がることが確認でき る。漢字頻度をBCCWJ並みに調整してもこのような学年差が見られるのは、品詞や語種な ど語彙構成の変化を反映しているものと考える。なお、BCCWJコアデータの漢字頻度は100 万字あたり約27万字である。
個別の漢字の頻度を、ワードクラウドによって可視化したグラフを図2に示す。学年は低学 年、中学年、高学年の3段階にわけ、頻度は各段階の平均を求めた。文字サイズは、頻度の平 方根に比例する(従って、文字の面積と頻度が比例する)。
0100,000200,000
1・2年生
私 夢
人
張 僕
手 来 頑
楽
日
将
一 会
大 見
生
思 習 者
年 気
選
学
上 本
作 練
時
出
医
強 行 家
歌
好
事
番
今 食 後
中 位 運
言 屋 勝
分
先 自
校 子
回
最 嬉
全 勉
音 動
母 間 曜
目 飛
物 皆
書
入 何
持
病転前 合 優
金 教
昨
対
二 初
曲
算 体
記 点
録
遊
当 色
十 表
変
部
早 発
父
歯 世
声 理
次
味
緒
界
助 投
国 魚
水 白 客
違
科
小 泳
決 弾
良
薬
車 宙 宇
心 陸 面
難
級 察
毎 試
喜
絵
個 警
緊
方
格
外 元
達
走 魔
笑
語
仕
終
帰
負
話 友
絶
乗
新
百 育
他
団
由
欲
月
族
週 美
力 描
三 場
夜 続
直
顔
名
士
数 果
空 戦
下
花
工 買
凄
風
足 土 長
取
少 切 組
治
兄 度
恐
読 秒
験
応 怖
化 竜
指 疲
聞
球 成
画
英 得
室
意
開
野
半 歩
供
援
休
妹
釣
活 感
有 師
知
近
抜
代 掃
考 然
御
立 広
剤 盤
去 麗
司
女 伝
院
犬 綺
賞
残
怒
菓
研
究 博
引
社
塾 王
料
電 調
骨
速
悪
園 官
明 始
四
貰
向 虹
弟
虫 守 無
操
高 誰
寝 歳
頭 特
題 結
木 除 片
飯
五 働
杯 泊
赤
付
実
信
員
口 寿
型
詞
通 服
火可
未
挙
同 逃
青 板
苦 観
重 技
内 迷
満
呂
島
落
交 予
主
洗
七 蹴
止 以
山 田 宿
念 演
器
公 道 具
返
訳 謳
暮 鮮
角
夕
横
躍
揮
的
集
争 捕
3・4年生
思
人 私
夢 僕
一 生 張
手 来
日 大 見 頑
年 気
今
目 者
時 楽 分
医
行 自 将
習 事
作 言
会
出 本
強
上
番 家
先 学
中 好 練
合
子
選
勉 最
持
理
物
何
歌
入 前 後
体
間
病仕
月 由
回
校
心 初
母
試 描
小 画
次 助
音 力
世 達
決 表
書 少 薬
話 良
食
皆
変
父 勝
二 運
全 発
友
国 毎
終 果
記 動
聞 師
考絵
士
嬉
教 位
球
部 結
屋 笑 飛
当
立 題
伝
優
転 成
曲
元
顔 界
点 乗
味
向
語
対 難
名 級 命
同 歯
知 客 取
直 使
十 方
三 打
宿
度
験
野
色 読
代
歳
戦
所
犬
緒
覚
声
曜
外 他
始
科
苦
数
供 緊 漫
金 新
走
算
字 切
車 吹
違
演
多 育
奏
釣
山 様
仲
実
格
買 標
負
花 場 高 魚
通
頃
宙 宇
意
早 美 死
絶 映
増
喜
役
白 星
女 感
土 夜
四 長
特 機
懸
治
園 付 続
不 録
信
服 院
水 下 泳
組
工 面
足 起
昨
電
凄
調 故
風 真
遊 無
弾
開 個
化 以
安
海
技
鳥
休 地 歩
念 剤
明
着
指
英
台 努
店 憧
欲
寝
県 嫌
引 種
忘 竜
朝
君 族
近
計 秒
火
社
保
空 類
護
活 夫 恐
洗
議 受
待 想
怪
石 賞
容
内 素
期
有
葉
係 働
階
刀 救
週
木 消
町 去
悪 然
御
看
建 的
敗 必
鍛
相 品 揮
毛
帰 丈
健
文 守 確
飯
公 怖
陸 抜
室 困
投
落
道
夏 重
形
正 残
願
幼
主
途
単 功
敵
五 普
現 介
紹
慣 応
未
員配
両 挙
百 昔 身 魔
料
洋 富
我
止 雪
可
逃
解
口 疲
5・6年生
思
私
生 人
夢
大 年 僕
学 来
日
習
今
手 自 者
一 行 分
医 張
目 事
会 時
見 頑
強
本 出
言 将
練
中 勉
楽 間
校
気
最
力 何 先
作
家 上 好
合
選
理 書
考 部
薬
入 前
全
小 仕
子 持
国 後
科 番話
少
母回 外
動
毎 語 師
物 勝
近 由
決
十 変
助
方 心
音 高 歌
父
試 初
体
努 優
続
社 食
達 向
命
知
教
二 難
月 実
当 感 世 苦
切 使
意 面
場 果
長 聞
次 奏
剤
数
立 始
界
業 覚
多 画
英
活
点 標 成
取
野
嬉
良
飛 験
度
結
色
三 読
通 受
終
早 必 違
病
対 題
葉 指
級
格
発 無
不
他 球 士
記 友 戦
曲 官
味
表
笑 乗
皆
声 位
演 頃
泳
身 付
育
主
員 術
県
直
同
走 吹
伝
屋
所
現
要
機
地 怖
役 残
下 起
特 祖
以
族
金 救
応
神
名 打
休 顔
過
問
患
想 働
進 得
山 素
治
職
念
歳
内
足 着
然
道 護
園 負 調
白 幼
賞
重
菓
歩
算 技
代
組 的 緒
昨
絵 段
新 悪
返
弾
運
字 相
車 絶 増
懸
衛
遊 検
親 法
四 院
文
昔 建
百 解
単
開 転
真
買
計
服
供
失
忘
落
陸
積
雪
工 経
守 化
像
投 期
遅
朝 困
水 関
死
口
敗
沢
両
五 緊
故 稚
弱 宿
有
帰
在
療
保 嫌
識
料
集 凄
夏
描
交
用 憧
空 疲
安
引 越
花 怒
授
器
公監 督
属 団
築
角
連
看
速 夫
様
悔
援
喜
店 録
週 品
謝
北 頭 議
幸 願
明 美
未
誰 普
歯 繰
備
赤
揮 挑
精
振
急
配 客 漢
女 送 飲
信 映
周 簡
確
第
係 準
欲
正
1年配当漢字2年配当漢字3年配当漢字4年配当漢字 5年配当漢字6年配当漢字常用漢字常用外漢字
図2 ワードクラウド
4. 考察
4.1 学年による差異
学年と推定漢字頻度の関係を調べるために、個々の漢字についてサンプルごとの推定漢字頻 度を計算し、作文テーマ別に学年との相関係数を調べた。相関係数が正の値であれば学年が上 がるにつれて漢字の使用頻度が上昇し、負の値であれば下降すると考えられる。図3は、横軸 を推定漢字頻度(全サンプル平均)、縦軸を相関係数として、各漢字を散布図で可視化したもの である。頻度が500以上、相関係数の絶対値が0.1以上の漢字のみ表示する。
運
屋 何 会
皆
楽
間 気
後 見 考
行 今
最
仕
思 事
持
時
自
手 習
勝
将 小
食 選 前
転
分
夢 目
由
来 理
力
練
位 運 果
歌
会 学
楽
頑 嬉
曲 結
月
合 今
算
思 試
事 出 初 少
上
生
走
大
弾 中
動 張
年
飛 部
僕 本
毎
目
陸 力
録
夢 頑張ったこと
500 1000 2000 4000 500 1000 2000 4000
-0.2 0.0 0.2 0.4
頻度 (100万字あたり, 全サンプル平均)
相関係数
配当学年 1年 2年 3年 4年 5年 6年 常用 常用外
図3 作文コーパスにおける推定漢字頻度および学年との相関係数
作文テーマによって違うが、「思、分、自、年、事、力、今、生、考」などの漢字について0.2 以上の弱い正の相関が認められる。また、「張、頑、夢、皆、運、上、動、将、位、来」などの漢 字について−0.2以下の弱い負の相関が認められる。この結果は「思う」「考える」「自分」な どの抽象的かつ一般的な語彙が学年が上がるにつれて増加するのに対して、「夢」「将来」「頑 張る」「運動」など作文テーマと関連する特徴語が相対的に減少することを示唆する。減少の 理由として、児童の使用語彙の変化や、1サンプルあたりの語数の増加(使用頻度の変化が小 さい語は、相対的に単位語数あたり頻度が減少する)などが考えられる。
4.2 児童作文固有の高頻度漢字
児童作文に固有の高頻度漢字を確認するために、BCCWJコアデータにおける100万語あ たり漢字頻度との比較を行った。作文における推定頻度をx、コアデータにおける頻度をyと し、座標(x,y)の原点からの距離√
x2+y2をd、x軸からの角度arctan(y/x)×2/πをaと
して、dを横軸、aを縦軸にプロットしたものを図4に示す5。角度が1(= 90◦)に近いほどコ アデータにおける頻度が、0(= 0◦)に近いほど作文における頻度が高く、0.5では同数である。
医
一 何 家
会 回
学 楽
間
頑 気
強
見 言
後
校 好
行 合
国
最 今 作
子
思 私 事
持
自 時
者
手 習
出 女
将 上 場
人
先 生
選 体 前
大 中
張 的
動
日 入
年 番
部
物 分
勉
方
僕 本
夢 目
来 理
0.00 練 0.25 0.50 0.75
1000 2000 4000
距離
角度
配当学年 1年 2年 3年 4年 5年 6年 常用
図4 作文コーパスとBCCWJコアデータの漢字頻度
図4の下方にある漢字が作文コーパスに固有の高頻度漢字と考えられるが、個々の漢字が どのような要因で児童作文において高頻度で生起するかについては、それぞれ検討を要する。
「夢」「頑」「張」などは、作文テーマに固有の高頻度漢字と考えられる。「将」「来」や、医者の
「医」、選手の「選」なども、作文テーマに関連した高頻度漢字である可能性がある。「私」「僕」
などの1人称代名詞や、「思」「楽」「好」などの思考・感情語彙に含まれる漢字は、作文テー マというより生活作文などの文種に固有の高頻度漢字である可能性がある。また、「私」より
「僕」の方が図の下方に位置しているのは、著者の属性(小学生であること)の影響による可能 性がある。「学」「校」「勉」「強」「練」「習」なども著者の属性に固有の高頻度漢字であろうが、
このうち「勉」「強」「練」「習」などは作文テーマの影響を受けている可能性もある。これらの 要因について検証するための十分な対照資料が無いため、ここでは可能性を示唆するのみに留 める。
4.3 漢字の配当学年と頻度
作文は児童の言語活動の1つのレジスタに過ぎず、児童の漢字需要を評価するためには他の レジスタも合わせて検討する必要がある。現状、児童の言語活動を広範に調査できる均衡コー パスは存在しないが、ここでは作文コーパスの他にBCCWJ教科書サブコーパスを使用する ことにする。このコーパスはBCCWJの非コアデータに含まれるサブコーパスで、小学校か
5これはxを横軸、yを縦軸とする散布図について、原点を中心とする弧と両軸に囲まれた扇型の範囲を方形に変 換したものに相当する。
ら高校までの検定教科書から412サンプル、約93万形態素のデータが収録されている。ここ では、小、中学校の161サンプル、約36万形態素のみを比較対象とする(以下、この範囲の コーパスを教科書コーパスと呼ぶ)。高校教科書の漢字については、中学校までに学習する漢 字で対応可能であり、必ずしも小学校段階で学習する必要がないため比較対象から除外した。
小、中学校の教科書では、未履修の漢字は学習上の配慮から仮名書きに開いて表記すること が多い。そのため、教科書コーパスについても作文コーパスと同様の方法でBCCWJ並みの 漢字頻度にした場合の100万字あたりの推定漢字頻度を計算した。作文コーパスと教科書コー パスにおける各漢字の推定頻度を用いて、小学校配当外であるが高頻度の漢字、および小学校 配当であるが低頻度の漢字を調べる。
まず、高頻度の小学校配当漢字を確認する。図5は、作文コーパスと教科書コーパスに含ま れる配当外漢字について、d≥200のものを図4と同様の方法により距離と角度で表現したも のである。角度が1に近いほど、教科書コーパスにおける頻度が高い。
違 岡
皆 環
含
緊 頑 込
頃
歳 剤
緒 振
吹
弾
描 怖
縫
僕 溶
離
嬉 0.00
0.25 0.50 0.75 1.00
200 500 1000 2000
距離
角度
配当学年 常用 常用外
図5 作文と教科書における高頻度の配当外漢字
d≥1000の範囲にほとんど漢字がないことから、漢字頻度をBCCWJ並みに調整しても、
小学生の作文や小〜中学校の教科書に高頻度で生起しうる配当外漢字は少ないことが分かる。
非常に頻度が高い漢字としては「僕」「頑」があるが、作文コーパスのみ高頻度で、教科書コー パスでは低頻度である。「頑」は作文テーマの影響で頻度が高くなっているものと考えるが、
「僕」は本調査資料に限らず児童の書き言葉では多用される可能性があり、小学6年配当の
「私」と合わせて学習時期を検討する余地のある漢字と言える。また、やや頻度は下がるが、作 文コーパス、教科書コーパスの両方で頻度が高い「違」「頃」などについても、小学校で学習し たとしても不自然ではないと考える。
次に、低頻度の小学校配当漢字を確認する。図6は、作文コーパスと教科書コーパスに含ま
れる小学校配当漢字について、d <20のものを表示したものである。図には含まれていない が、作文コーパス、教科書コーパスのいずれも頻度0だった配当漢字として、小学5年配当の
「俵」、小学6年配当の「絹」「蚕」がある。
貝
竹 汽
弓
矢
里 荷
帳
訓
航
札
祝 巣
孫
兆 腸
停 票
脈
永
桜 刊
久
句 潔 券
鉱
講
妻 賛
舎
績 舌
銭
損 貸
墓
預
株 郷
勤 誤
后
孝
紅 鋼
穀
磁
就 熟
純
仁 誠
忠 庁
賃 肺 拝
俳
批 奮
陛
郵
臨 朗
0.00 0.25 0.50 0.75 1.00
2 5 10 20
距離
角度
配当学年 1年 2年 3年 4年 5年 6年
図6 作文と教科書における低頻度の配当漢字
図中の漢字の頻度は100万字中20字以下であり、非常に頻度の低い漢字と言うことができ るが、教育漢字の需要は必ずしも使用頻度のみで評価できるものではない。例えば俳句の「俳」
「句」、音訓の「訓」、熟語の「熟」、批評の「批」などは国語の学習において必要になる漢字で あり、頻度が低いからといって重要度が低いとは断定できない。また、小学1年配当の「竹」、
小学2年配当の「矢」「里」なども頻度は低いが他の漢字の構成要素となる字であり、早い段 階で教えることは一定の合理性がある。一方で、小学2年配当の「汽」や、前述の「俵」「絹」
「蚕」などのように、必ずしもこの段階で学習する必要があるかどうか、検討の余地のある漢 字も見られる。
5. まとめ
『児童・生徒作文コーパス』と『現代日本語書き言葉均衡コーパス』の2つの言語資源を利用 して、児童が大人と同等の使用頻度で漢字を使用した場合の推定漢字頻度を試算し、その結果 の可視化と、学年差、レジスタ差、漢字の配当学年と推定頻度の関係などについて検討した。
本研究で得られた知見を以下に列挙する。
• 学年差について、児童作文における推定漢字頻度は100万字あたり20〜23万字ほどで、
BCCWJコアデータにおける27万字よりも少なく、学年が上がるにつれて増加する傾
向がある。個別の漢字を見ると、「思」「考」など学年が上がると推定頻度が増加する漢 字がある一方で、「夢」「頑」「張」など作文テーマに直結する漢字は相対的に推定頻度が
低下する。
• レジスタ差について、BCCWJと比べて児童作文に固有の高頻度漢字の中には、作文 テーマ、文種、著者の属性など様々な要因の影響を受けていると考えられるものが混在 している。
• 配当学年と推定頻度の関係について、「僕」「違」「頃」など配当外漢字の中にも作文や教 科書において高頻度で使われうる漢字がある一方で、「汽」「俵」「絹」「蚕」など配当漢 字の中にも非常に頻度の低い漢字がある。
BCCWJを利用して教育漢字や常用漢字の分析をした研究としては、これまで棚橋(2013)、
丹保 (2014, 2016)、河内 (2015)などがある。特に丹保 (2014, 2016)はBCCWJにおける高 頻度漢字、低頻度漢字について配当表漢字としての妥当性を検討しており、本研究と目的、方 法の重なる点が多い。
先行研究に対する本研究の新規性は、児童作文という児童の産出言語を資料として使用した こと、またその分析手法を提案したことである。資料について、児童作文は既存の他の資料 にはない特徴を持つ。例えば丹保 (2016)がBCCWJにおける高頻度漢字として挙げている
「彼」は、本研究で使用したBCCWJコアデータにおいても100万字あたり682字ほどで配当 外漢字としては最も頻度が高いが、作文コーパスでは20字、教科書コーパスでは75字ほどと 低頻度である。作文や教科書以外のレジスタも調べる必要があるが、単に大人の文章で頻出す るというだけであれば小学校までに学習する必然性はなく、中学校までに学習する常用漢字に 含まれていれば十分である。一方、「僕」はコアデータでは212字、教科書では119字ほどの 頻度だが、作文コーパスでは3096字と突出して高い。大人の文章や学習教材だけを調査対象 としてしまうと、このような児童の生活に固有の漢字需要を見落とす恐れがある。
また分析手法について、児童作文を対象とした漢字需要調査は、児童の漢字使用状況が既存 の教育カリキュラムの影響を受ける(未履修の漢字は生起しない)という難しさがある。習得 後はほぼ漢字表記されるような漢語や専門語彙であれば、語彙を調べることで漢字の需要もほ ぼ特定することができるが、例えば「あいつ」などの語は大人の文章でも「彼奴」と書くこと は稀であり、単に全ての語彙を漢字表記に置き換えることで漢字の需要を数値化することはで きない。この問題に対して、本発表はBCCWJにおける漢字頻度を用いて潜在的な漢字需要 を推定するという手法を提案した。この手法により、児童の漢字需要を評価するために一定の 成果を示せたものと考える。
学習漢字の妥当性が頻度だけでなる様々な観点から複合的に評価すべきものであることは、
先行研究の全てに共通する見解である。丹保 (2016)も、BCCWJにおける頻度のみならず 様々な観点から検討を行い、「彼」は高頻度漢字ではあるが用法が限られているため、配当表 漢字にはふさわしくないと結論している。しかしながら、漢字の使用頻度や潜在的な需要も、
その漢字の重要度を評価するための主要な指標の一つであることは疑いない。本研究で利用し た作文資料は特定のテーマに沿って書かれたものであるため、児童の書き言葉の全体に対する 代表性という観点からは問題の残る部分もあるが、学習漢字の評価を考える上で従来なかった 新たな観点を提案するものとして、今後の研究における参考の一つとなることを期待する。
謝 辞
本研究はJSPS科研費 JP16H00011の助成を受けたものです。本研究で利用した言語資源 のうち、『現代日本語書き言葉均衡コーパス』は国立国語研究所が開発した言語資源です。『児 童・生徒作文コーパス』の本文は科研費基盤(B)「言語研究の実践的応用に関するリサーチユ ニット」(代表: 矢澤真人)、形態論情報の一部は漢検研究助成「作文コーパスを資料に児童・
生徒の漢字使用・選択傾向と発達の実態を明らかにする」(代表: 宮城信)による成果物です。
データの利用を許諾いただいた各位に感謝します。
文 献
宮城信・今田水穂(2015a).「『児童・生徒作文コーパス』の設計」 第7回コーパス日本語学 ワークショップ予稿集, pp. 223–232.
Kikuo Maekawa, Makoto Yamazaki, Toshinobu Ogiso, Takehiko Maruyama, Hideki Ogura, Wakako Kashino, Hanae Koiso, Masaya Yamaguchi, Makiro Tanaka, and Yasuharu Den (2014). “Balanced Corpus of Contemporary Written Japanese.” Language Resources and Evaluation, 48, pp. 345–371.
今田水穂 (2017).『『児童・生徒作文コーパス』形態論・係り受け情報データ』, (バージョン 1.3) (2017年2月作成).
宮城信・今田水穂(2015b).「『児童・生徒作文コーパス』を用いた漢字使用能力の推定」 第 8回コーパス日本語学ワークショップ予稿集, pp. 47–56.
棚橋尚子(2013).「学年別漢字配当表に配当された漢字と習得語彙との関係」 全国大学国語
教育学会発表要旨集 125巻, pp. 307–310.
丹保健一(2014).「学年別漢字配当表の字種選定を巡って: 頻度下位の10字種を中心に」 三 重大学教育学部研究紀要, 65, pp. 73–90.
丹保健一(2016).「学年別漢字配当表の字種選定に関する基礎的研究: 使用頻度上位の非「配
当表漢字」10字種を巡って」 三重大学教育学部研究紀要, 67, pp. 33–48.
河内昭浩(2015).「国語教育のための「常用漢字表」語例の検討」 第7回コーパス日本語学
ワークショップ予稿集, pp. 113–122.
関連URL
発達段階と到達目標を考慮した学齢別漢字重要度評価法の開発
https://sites.google.com/site/kaken16H00011/
作文を支援する語彙・文法的事項に関する研究プロジェクト
https://sites.google.com/site/sakubunshienpropject/
現代日本語書き言葉均衡コーパス(BCCWJ)
http://pj.ninjal.ac.jp/corpus_center/bccwj/