The Latest Version of “UniDic” and Related Tools

Toshinobu Ogiso (Dept. Lang. Res., National Institute for Japanese Language)

１．形態素解析辞書UniDic

UniDicは本研究領域が目指す大規模書き言葉コーパスの構築に利用される形態素解析辞

書である¹。国立国語研究所言語資源グループと「電子化辞書班」「データ班」が共同で作成している。2007年4月に最初の一般公開版であるVer.1.3.0をリリースし，2007年10 月には見出し語を増やして終止形と連体形の区別を行ったVer.1.3.5を公開した。今回紹介する最新版では，さらに見出し語を増補したほか，新たに「語種」の情報を付与している。

また，従来のChaSenに加えて，解析器としてMeCabを使うことが可能になった。

本発表ではこの最新版のUniDicの概要を紹介するとともに，形態論情報のうち短単位²に関連するツールを紹介する。

２．見出し語数の推移

昨年４月のVer.1.3.0以降の見出し語数の推移は表１の通りである。追加した語の多くは

BCCWJのサンプルに見られる未登録語であり，今回は主として白書と書籍のサンプルから

登録した。このほか，言語政策班作成の「教科書コーパス」等からも登録を行っている。

表 1 UniDic見出し語数の推移

語彙素語形書字形発音形 Ver.1.3.0 （2007/4） 106347 110078 136276 110134 Ver.1.3.5 （2007/10） 109998 121641 141654 122288 最新版（2008/3） 111127 123273 158011 124021

Ver.1.3.5 以降，書字形の数の伸びに比して語彙素・語形の伸びが小さいが，これは姓・

名の扱い方を変更したため，約２万の語彙素見出しが統合され，見かけ上減少したためである。

２．語種情報の付与

今回，新たに「語種」の情報を付与した。UniDicでは和語・漢語・外来語・混種語のほか固有名・記号・語種不明の7種に分類している（小椋ほか2008a）。図１に示すように解析結果に語種情報を出力することができるようになったため，これをテキストの分析に利用することが可能になった。

† [email protected]

1 UniDicの詳細については伝ほか（2007）参照。

2 短単位の詳細については小椋ほか（2008b）参照。

ソース文境界書字形発音形語彙素読み語彙素品詞活用型活用形語種

chamame B 現代ゲンダイゲンダイ現代名詞-普通名詞-副詞可能漢

chamame I 日本ニッポンニッポン日本名詞-固有名詞-地名-国固

chamame I 語ゴゴ語名詞-普通名詞-一般漢

chamame I のノノの助詞-格助詞和

chamame I 書き言葉カキコトバカキコトバ書き言葉名詞-普通名詞-一般和

chamame I コーパスコーパスコーパスコーパス名詞-普通名詞-一般外

chamame I をオヲを助詞-格助詞和

chamame I 作っツクッツクル作る動詞-一般五段-ラ行-一般連用形-促音便和

chamame I てテテて助詞-接続助詞和

chamame I いイイル居る動詞-非自立可能上一段-ア行連用形-一般和

chamame I ますマスマスます助動詞助動詞-マス終止形-一般和

chamame I 。。補助記号-句点記号

図 1 語種情報付きの解析結果

３．MeCab版UniDic

今回，これまでの ChaSen 版に加えて MeCab 版の解析辞書を作成した。MeCab は

ChaSenよりも品詞タグ付けに適した統計学習モデルを用いていることから，全般に解析精

度が向上している。さらに，語種情報を学習素性として用いることによって解析精度が向上した（伝ほか2008）。表２は，BCCWJの白書サンプルの解析精度を比較したものである。

表 2 MeCab版UniDicの解析精度

単位境界品詞語彙素 ChaSen（語種無） 99.64 98.95 98.69 MeCab（語種無） 99.86 99.26 98.93 MeCab（語種有） 99.87 99.30 99.16

３．茶まめ

「茶まめ」は UniDic を利用した解析を行うための Windows 用 GUI である。新たに

MeCabに対応し，図2に示すように解析器を切り替えて利用することが可能になった。た

だし，現在のところMeCab版では音変化処理などの後処理は行えず，出力形式は表形式テキストのみとなっている。

図 2 MeCabに対応した「茶まめ」

３．辞書ツール・コーパス管理ツール

最後に，BCCWJの形態論情報データベースの管理に利用しているツールを紹介する³。

辞書データベース管理ツール「UniDic Explorer」

UniDic Explorer（図３）は，階層的な構造を持つUniDicの見出し語を自由に検索し，

修正が行えるようにしたツールである。このツールで管理する辞書データが解析辞書

UniDicのソースデータとなる。

見出し語はコーパス中の用例と関連づけられているため，その語がコーパスの中でどのように用いられているのかを確認することができる。常に頻度情報が確認できるほか，ボタンを押すことで用例を文脈付きで参照可能になっている。また，辞書に追加した見出し語はすぐにコーパスの修正に利用することができる。

図 3 辞書データベース管理ツール「UniDic Explorer」

コーパスデータベース管理ツール「大納言」

「大納言」（図４）は，辞書と同期をとりながら，コーパス中の誤解析部分を修正することが可能なプログラムである。データ班では，これを用いて BCCWJ コアデータなどの人手修正を行っている。

「大納言」では，短単位の情報を元にしたさまざまな検索が行えるほか，短単位の境界にとらわれない文字列による全文検索も可能になっている。そのため，コーパスを利用した研究に利用することもできる。

3 これらのツールはコーパス構築作業に利用しているものであり，一般公開は行っていない。

図 4 コーパスデータベース管理ツール「大納言」

４．UniDicの公開予定

語種情報を付与した新しいUniDic，およびMeCab版のUniDicは，2008年4月中旬に

UniDicダウンロードサイトにて一般公開する予定である。

文献

伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵（2007）「コーパス日本語学のための言語資源：形態素解析用電子化辞書の開発とその応用」『日本語科学』22 号 pp.101-122.

小椋秀樹・小木曽智信・原裕・小磯花絵・冨士池優美（2008a）「形態素解析辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析」言語処理学会第14 回年次大会発表論文集小椋秀樹・小磯花絵・冨士池優美・原裕（2008b）『『現代日本語書き言葉均衡コーパス』形態論

情報規程集』（国立国語研究所内部報告書LR-CCG-07-04）

伝康晴・中村純平・小木曽智信・小椋秀樹（2008）「語種情報を用いた同表記異音語の解消」言語処理学会第14 回年次大会発表論文集

関連URL UniDicダウンロードサイト：http://download.unidic.org /

MeCab : Yet Another Part-of-Speech and Morphological Analyzer：http://mecab.sourceforge.net/

ChaSen -- 形態素解析器：http://chasen-legacy.sourceforge.jp/

均衡コーパスに基づく語彙のレベル分け

田中牧郎（言語政策班班長：国立国語研究所研究開発部門）^† 近藤明日子（言語政策班協力者：国立国語研究所研究開発部門）

平山允子（言語政策班協力者：国立国語研究所研究開発部門）

Word Frequency Levels in Balanced Corpus

TANAKA Makiro （National Institute for Japanese Language）

KONDO Asuko （National Institute for Japanese Language）

HIRAYAMA Yoshiko（National Institute for Japanese Language）

１．語彙のレベル分け

言語教育にとって，語彙をレベル分けすることは重要である。語彙のレベル分けのためには，

個々の語が現に通用している度合いを見定め，学習者にとっての重要度や難易度を判断する作業が求められる。我々は，均衡コーパスの頻度情報を用いて通用の度合いを把握することと，その結果を語彙教育に応用することを計画している。コーパスをこの方面に活用することが有望であることは，本特定領域の開始時点で，前川（2006）も言及している。

データ班から2007年11月に領域内公開された「BCCWJ領域内公開データ（2007年版）」のうち書籍部分については（この部分を本稿では「書籍コーパス」と呼ぶ），分野が広範囲にわたっている点で，「均衡コーパス」に準じた扱いができるのではないかと考えた。今回のデモンストレーションでは，この「書籍コーパス」の頻度による語彙のレベル分け作業の見通しと問題点について報告し，議論を行いたい。

２．従来行われた語彙のレベル分け

従来，日本語コーパスがない段階で，言語教育の分野で試みられた語彙のレベル分けのうち，

代表的な成果としては，①阪本一郎による教育基本語彙（阪本1943,1958,1984），②国際交流基金と日本国際教育協会による日本語能力試験出題基準（国際交流基金ほか 1994,2002）があげられる。①は国語教育，②は日本語教育の立場からの試みである。それらの最新版，阪本（1984），国際交流基金ほか（2002）によって示されたレベル分けと配属語数は，下表の通りである。

これらは，教育の場で必要とされたり，教えるのが妥当とされたりする語彙の量とレベル分け

† [email protected]

表1 教育基本語彙（阪本1984による）

小学校中学校

低学年高学年

A1 2,570 B1 2,364 C1 2,444 A2 1,730 B2 1,979 C2 2,344 B3 1,600 C3 2,139 C4 2,101 小計 4,300 小計 5,943 小計 9,028 総計 19,271

表２日本語能力試験出題基準

（国際交流基金ほか2002による）

規定語数掲出語数 4 級 800 728 3 級 700 681 2 級 4,500 3,626 1 級 4,000 2,974 総計 10,000 8,009

を示しているものと考えられる。今回試みるコーパスの頻度による語彙のレベル分けの結果を，

上記のような教育を目的とした語彙のレベル分けの実績と対照しつつ研究を進めることで，コーパスを語彙教育に活用するための具体的な議論につなげていきたい。

３．「書籍コーパス」の頻度によるレベル分け

まず，「書籍コーパス」を，電子化辞書班から公開されている，Unidic-chasen1.3.6 によって，

短単位で解析し，語彙頻度表を作成した。そのうち，固有名詞と付属語・記号・空白・未知語は除外した。その結果，延べ語数約11,000,000語，異なり語数約53,000語となった。最も度数の高いのは動詞「する」の468,934，度数１の語は5,620語あった。今回は単純に，この度数をレベル分けの指標に用いることにし，表３のようにレベル分けを行った。

ａ,b,cの約19,000語は阪本（1984）の扱う語彙に，ａ,ｂの約10,000語は国際交流基金ほか（2002）

の扱う語彙に，それぞれ語数が相当する。各レベルを細分する区画においては，阪本（1984）や国際交流基金ほか（2002）の各区画とほぼ対応する語数になるように調整した。各レベルを細分した区画（a1,a2,･･･）に属する語数は，なるべく均等になるように調整した。

ｄ,ｅは，それら先行の基本語彙の範囲の外側のレベルの語彙である。まず１万語余りのｄを設定し，その外側に２万語余りのｅを設定し，それぞれの内部がなるべく均等になるように区画した。度数が小さくなると同じ度数の語が多くなり，均等に区画することができないので，その部分には語数の凸凹が生じている。

表３「書籍コーパス」の度数による語彙のレベル分け

レベル度数区間語数阪本基金レベル度数区間語数

a1 1892-468934 800

４級 d1 26-31 2,093

a2 1087-1891 700 ３級 d2 21-25 2,188

a3 613-1086 1,071

2 級

d3 17-20 2,201

a4 421-612 866

A2 d4 14-16 2,114

a5 315-420 863 d5 11-13 2,618

a 小計 4,300 d 小計 11,214

b1 251-314 843

e1 8-10 3,357

b2 204-250 854 e2 6-7 2,974

b3 175-203 712

1 級

e3 5 1,836

b4 154-174 641

e4 4 2,227

b5 135-153 690 e5 3 2,740

b6 119-134 734 e6 2 3,653

b7 105-118 761

B3 e7 1 5,620

b8 94-104 748 e 小計 22,407

b 小計 5,983 総計 52,977

c1 68-93 2,359 C1 c2 51-67 2,360 C2 c3 40-50 2,217 C3 c4 32-39 2,137 C4

c 小計 9,073

ドキュメント内 corpus.indd (ページ 30-40)