Toshinobu Ogiso (Dept. Lang. Res., National Institute for Japanese Language)
1.形態素解析辞書UniDic
UniDicは本研究領域が目指す大規模書き言葉コーパスの構築に利用される形態素解析辞
書である1。国立国語研究所言語資源グループと「電子化辞書班」「データ班」が共同で作成 している。2007年4月に最初の一般公開版であるVer.1.3.0をリリースし,2007年10 月 には見出し語を増やして終止形と連体形の区別を行ったVer.1.3.5を公開した。今回紹介す る最新版では,さらに見出し語を増補したほか,新たに「語種」の情報を付与している。
また,従来のChaSenに加えて,解析器としてMeCabを使うことが可能になった。
本発表ではこの最新版のUniDicの概要を紹介するとともに,形態論情報のうち短単位2に 関連するツールを紹介する。
2.見出し語数の推移
昨年4月のVer.1.3.0以降の見出し語数の推移は表1の通りである。追加した語の多くは
BCCWJのサンプルに見られる未登録語であり,今回は主として白書と書籍のサンプルから
登録した。このほか,言語政策班作成の「教科書コーパス」等からも登録を行っている。
表 1 UniDic見出し語数の推移
語彙素 語形 書字形 発音形 Ver.1.3.0 (2007/4) 106347 110078 136276 110134 Ver.1.3.5 (2007/10) 109998 121641 141654 122288 最新版 (2008/3) 111127 123273 158011 124021
Ver.1.3.5 以降,書字形の数の伸びに比して語彙素・語形の伸びが小さいが,これは姓・
名の扱い方を変更したため,約2万の語彙素見出しが統合され,見かけ上減少したためで ある。
2.語種情報の付与
今回,新たに「語種」の情報を付与した。UniDicでは和語・漢語・外来語・混種語のほ か固有名・記号・語種不明の7種に分類している(小椋ほか2008a)。図1に示すように解 析結果に語種情報を出力することができるようになったため,これをテキストの分析に利 用することが可能になった。
1 UniDicの詳細については伝ほか(2007)参照。
2 短単位の詳細については小椋ほか(2008b)参照。
ソース 文境界 書字形 発音形 語彙素読み 語彙素 品詞 活用型 活用形 語種
chamame B 現代 ゲンダイ ゲンダイ 現代 名詞-普通名詞-副詞可能 漢
chamame I 日本 ニッポン ニッポン 日本 名詞-固有名詞-地名-国 固
chamame I 語 ゴ ゴ 語 名詞-普通名詞-一般 漢
chamame I の ノ ノ の 助詞-格助詞 和
chamame I 書き言葉 カキコトバ カキコトバ 書き言葉 名詞-普通名詞-一般 和
chamame I コーパス コーパス コーパス コーパス 名詞-普通名詞-一般 外
chamame I を オ ヲ を 助詞-格助詞 和
chamame I 作っ ツクッ ツクル 作る 動詞-一般 五段-ラ行-一般 連用形-促音便 和
chamame I て テ テ て 助詞-接続助詞 和
chamame I い イ イル 居る 動詞-非自立可能 上一段-ア行 連用形-一般 和
chamame I ます マス マス ます 助動詞 助動詞-マス 終止形-一般 和
chamame I 。 。 補助記号-句点 記号
図 1 語種情報付きの解析結果
3.MeCab版UniDic
今回,これまでの ChaSen 版に加えて MeCab 版の解析辞書を作成した。MeCab は
ChaSenよりも品詞タグ付けに適した統計学習モデルを用いていることから,全般に解析精
度が向上している。さらに,語種情報を学習素性として用いることによって解析精度が向上し た(伝ほか2008)。表2は,BCCWJの白書サンプルの解析精度を比較したものである。
表 2 MeCab版UniDicの解析精度
単位境界 品詞 語彙素 ChaSen(語種無) 99.64 98.95 98.69 MeCab(語種無) 99.86 99.26 98.93 MeCab(語種有) 99.87 99.30 99.16
3.茶まめ
「茶まめ」は UniDic を利用した解析を行うための Windows 用 GUI である。新たに
MeCabに対応し,図2に示すように解析器を切り替えて利用することが可能になった。た
だし,現在のところMeCab版では音変化処理などの後処理は行えず,出力形式は表形式テ キストのみとなっている。
図 2 MeCabに対応した「茶まめ」
3.辞書ツール・コーパス管理ツール
最後に,BCCWJの形態論情報データベースの管理に利用しているツールを紹介する3。
辞書データベース管理ツール「UniDic Explorer」
UniDic Explorer(図3)は,階層的な構造を持つUniDicの見出し語を自由に検索し,
修正が行えるようにしたツールである。このツールで管理する辞書データが解析辞書
UniDicのソースデータとなる。
見出し語はコーパス中の用例と関連づけられているため,その語がコーパスの中でどの ように用いられているのかを確認することができる。常に頻度情報が確認できるほか,ボ タンを押すことで用例を文脈付きで参照可能になっている。また,辞書に追加した見出し 語はすぐにコーパスの修正に利用することができる。
図 3 辞書データベース管理ツール「UniDic Explorer」
コーパスデータベース管理ツール「大納言」
「大納言」(図4)は,辞書と同期をとりながら,コーパス中の誤解析部分を修正するこ とが可能なプログラムである。データ班では,これを用いて BCCWJ コアデータなどの人 手修正を行っている。
「大納言」では,短単位の情報を元にしたさまざまな検索が行えるほか,短単位の境界 にとらわれない文字列による全文検索も可能になっている。そのため,コーパスを利用し た研究に利用することもできる。
3 これらのツールはコーパス構築作業に利用しているものであり,一般公開は行っていない。
図 4 コーパスデータベース管理ツール「大納言」
4.UniDicの公開予定
語種情報を付与した新しいUniDic,およびMeCab版のUniDicは,2008年4月中旬に
UniDicダウンロードサイトにて一般公開する予定である。
文献
伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵(2007)「コーパス日 本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」『日本語科学』22 号 pp.101-122.
小椋秀樹・小木曽智信・原裕・小磯花絵・冨士池優美(2008a)「形態素解析辞書UniDicへの語 種情報の実装と政府刊行白書の語種比率の分析」言語処理学会第14 回年次大会発表論文集 小椋秀樹・小磯花絵・冨士池優美・原裕(2008b)『『現代日本語書き言葉均衡コーパス』形態論
情報規程集』(国立国語研究所内部報告書LR-CCG-07-04)
伝康晴・中村純平・小木曽智信・小椋秀樹(2008)「語種情報を用いた同表記異音語の解消」言 語処理学会第14 回年次大会発表論文集
関連URL UniDicダウンロードサイト:http://download.unidic.org /
MeCab : Yet Another Part-of-Speech and Morphological Analyzer:http://mecab.sourceforge.net/
ChaSen -- 形態素解析器:http://chasen-legacy.sourceforge.jp/
均衡コーパスに基づく語彙のレベル分け
田中 牧郎 (言語政策班班長:国立国語研究所研究開発部門)† 近藤明日子 (言語政策班協力者:国立国語研究所研究開発部門)
平山 允子 (言語政策班協力者:国立国語研究所研究開発部門)
Word Frequency Levels in Balanced Corpus
TANAKA Makiro (National Institute for Japanese Language)
KONDO Asuko (National Institute for Japanese Language)
HIRAYAMA Yoshiko(National Institute for Japanese Language)
1.語彙のレベル分け
言語教育にとって,語彙をレベル分けすることは重要である。語彙のレベル分けのためには,
個々の語が現に通用している度合いを見定め,学習者にとっての重要度や難易度を判断する作業 が求められる。我々は,均衡コーパスの頻度情報を用いて通用の度合いを把握することと,その 結果を語彙教育に応用することを計画している。コーパスをこの方面に活用することが有望であ ることは,本特定領域の開始時点で,前川(2006)も言及している。
データ班から2007年11月に領域内公開された「BCCWJ領域内公開データ(2007年版)」のう ち書籍部分については(この部分を本稿では「書籍コーパス」と呼ぶ),分野が広範囲にわたって いる点で,「均衡コーパス」に準じた扱いができるのではないかと考えた。今回のデモンストレー ションでは,この「書籍コーパス」の頻度による語彙のレベル分け作業の見通しと問題点につい て報告し,議論を行いたい。
2.従来行われた語彙のレベル分け
従来,日本語コーパスがない段階で,言語教育の分野で試みられた語彙のレベル分けのうち,
代表的な成果としては,①阪本一郎による教育基本語彙(阪本1943,1958,1984),②国際交流基金 と日本国際教育協会による日本語能力試験出題基準(国際交流基金ほか 1994,2002)があげられ る。①は国語教育,②は日本語教育の立場からの試みである。それらの最新版,阪本(1984),国 際交流基金ほか(2002)によって示されたレベル分けと配属語数は,下表の通りである。
これらは,教育の場で必要とされたり,教えるのが妥当とされたりする語彙の量とレベル分け
表1 教育基本語彙(阪本1984による)
小学校 中学校
低学年 高学年
A1 2,570 B1 2,364 C1 2,444 A2 1,730 B2 1,979 C2 2,344 B3 1,600 C3 2,139 C4 2,101 小計 4,300 小計 5,943 小計 9,028 総 計 19,271
表2 日本語能力試験出題基準
(国際交流基金ほか2002による)
規定語数 掲出語数 4 級 800 728 3 級 700 681 2 級 4,500 3,626 1 級 4,000 2,974 総計 10,000 8,009
を示しているものと考えられる。今回試みるコーパスの頻度による語彙のレベル分けの結果を,
上記のような教育を目的とした語彙のレベル分けの実績と対照しつつ研究を進めることで,コー パスを語彙教育に活用するための具体的な議論につなげていきたい。
3.「書籍コーパス」の頻度によるレベル分け
まず,「書籍コーパス」を,電子化辞書班から公開されている,Unidic-chasen1.3.6 によって,
短単位で解析し,語彙頻度表を作成した。そのうち,固有名詞と付属語・記号・空白・未知語は 除外した。その結果,延べ語数約11,000,000語,異なり語数約53,000語となった。最も度数の高 いのは動詞「する」の468,934,度数1の語は5,620語あった。今回は単純に,この度数をレベル 分けの指標に用いることにし,表3のようにレベル分けを行った。
a,b,cの約19,000語は阪本(1984)の扱う語彙に,a,bの約10,000語は国際交流基金ほか(2002)
の扱う語彙に,それぞれ語数が相当する。各レベルを細分する区画においては,阪本(1984)や 国際交流基金ほか(2002)の各区画とほぼ対応する語数になるように調整した。各レベルを細分 した区画(a1,a2,・・・)に属する語数は,なるべく均等になるように調整した。
d,eは,それら先行の基本語彙の範囲の外側のレベルの語彙である。まず1万語余りのdを設 定し,その外側に2万語余りのeを設定し,それぞれの内部がなるべく均等になるように区画し た。度数が小さくなると同じ度数の語が多くなり,均等に区画することができないので,その部 分には語数の凸凹が生じている。
表3 「書籍コーパス」の度数による語彙のレベル分け
レベル 度数区間 語数 阪本 基金 レベル 度数区間 語数
a1 1892-468934 800
A1
4級 d1 26-31 2,093
a2 1087-1891 700 3級 d2 21-25 2,188
a3 613-1086 1,071
2 級
d3 17-20 2,201
a4 421-612 866
A2 d4 14-16 2,114
a5 315-420 863 d5 11-13 2,618
a 小 計 4,300 d 小 計 11,214
b1 251-314 843
B1
e1 8-10 3,357
b2 204-250 854 e2 6-7 2,974
b3 175-203 712
1 級
e3 5 1,836
b4 154-174 641
B2
e4 4 2,227
b5 135-153 690 e5 3 2,740
b6 119-134 734 e6 2 3,653
b7 105-118 761
B3 e7 1 5,620
b8 94-104 748 e 小 計 22,407
b 小 計 5,983 総 計 52,977
c1 68-93 2,359 C1 c2 51-67 2,360 C2 c3 40-50 2,217 C3 c4 32-39 2,137 C4
c 小 計 9,073