• 検索結果がありません。

The Latest Version of “UniDic” and Related Tools

ドキュメント内 corpus.indd (ページ 30-40)

Toshinobu Ogiso (Dept. Lang. Res., National Institute for Japanese Language)

1.形態素解析辞書UniDic

UniDicは本研究領域が目指す大規模書き言葉コーパスの構築に利用される形態素解析辞

書である1。国立国語研究所言語資源グループと「電子化辞書班」「データ班」が共同で作成 している。2007年4月に最初の一般公開版であるVer.1.3.0をリリースし,2007年10 月 には見出し語を増やして終止形と連体形の区別を行ったVer.1.3.5を公開した。今回紹介す る最新版では,さらに見出し語を増補したほか,新たに「語種」の情報を付与している。

また,従来のChaSenに加えて,解析器としてMeCabを使うことが可能になった。

本発表ではこの最新版のUniDicの概要を紹介するとともに,形態論情報のうち短単位2に 関連するツールを紹介する。

2.見出し語数の推移

昨年4月のVer.1.3.0以降の見出し語数の推移は表1の通りである。追加した語の多くは

BCCWJのサンプルに見られる未登録語であり,今回は主として白書と書籍のサンプルから

登録した。このほか,言語政策班作成の「教科書コーパス」等からも登録を行っている。

表 1 UniDic見出し語数の推移

語彙素 語形 書字形 発音形 Ver.1.3.0 (2007/4) 106347 110078 136276 110134 Ver.1.3.5 (2007/10) 109998 121641 141654 122288 最新版 (2008/3) 111127 123273 158011 124021

Ver.1.3.5 以降,書字形の数の伸びに比して語彙素・語形の伸びが小さいが,これは姓・

名の扱い方を変更したため,約2万の語彙素見出しが統合され,見かけ上減少したためで ある。

2.語種情報の付与

今回,新たに「語種」の情報を付与した。UniDicでは和語・漢語・外来語・混種語のほ か固有名・記号・語種不明の7種に分類している(小椋ほか2008a)。図1に示すように解 析結果に語種情報を出力することができるようになったため,これをテキストの分析に利 用することが可能になった。

[email protected]

1 UniDicの詳細については伝ほか(2007)参照。

2 短単位の詳細については小椋ほか(2008b)参照。

ソース 文境界 書字形 発音形 語彙素読み 語彙素 品詞 活用型 活用形 語種

chamame B 現代 ゲンダイ ゲンダイ 現代 名詞-普通名詞-副詞可能

chamame I 日本 ニッポン ニッポン 日本 名詞-固有名詞-地名-国

chamame I 名詞-普通名詞-一般

chamame I 助詞-格助詞

chamame I 書き言葉 カキコトバ カキコトバ 書き言葉 名詞-普通名詞-一般

chamame I コーパス コーパス コーパス コーパス 名詞-普通名詞-一般

chamame I 助詞-格助詞

chamame I 作っ ツクッ ツクル 作る 動詞-一般 五段-ラ行-一般 連用形-促音便 和

chamame I 助詞-接続助詞

chamame I イル 居る 動詞-非自立可能 上一段-ア行 連用形-一般

chamame I ます マス マス ます 助動詞 助動詞-マス 終止形-一般

chamame I 補助記号-句点 記号

図 1 語種情報付きの解析結果

3.MeCab版UniDic

今回,これまでの ChaSen 版に加えて MeCab 版の解析辞書を作成した。MeCab は

ChaSenよりも品詞タグ付けに適した統計学習モデルを用いていることから,全般に解析精

度が向上している。さらに,語種情報を学習素性として用いることによって解析精度が向上し た(伝ほか2008)。表2は,BCCWJの白書サンプルの解析精度を比較したものである。

表 2 MeCab版UniDicの解析精度

単位境界 品詞 語彙素 ChaSen(語種無) 99.64 98.95 98.69 MeCab(語種無) 99.86 99.26 98.93 MeCab(語種有) 99.87 99.30 99.16

3.茶まめ

「茶まめ」は UniDic を利用した解析を行うための Windows 用 GUI である。新たに

MeCabに対応し,図2に示すように解析器を切り替えて利用することが可能になった。た

だし,現在のところMeCab版では音変化処理などの後処理は行えず,出力形式は表形式テ キストのみとなっている。

図 2 MeCabに対応した「茶まめ」

3.辞書ツール・コーパス管理ツール

最後に,BCCWJの形態論情報データベースの管理に利用しているツールを紹介する3

辞書データベース管理ツール「UniDic Explorer」

UniDic Explorer(図3)は,階層的な構造を持つUniDicの見出し語を自由に検索し,

修正が行えるようにしたツールである。このツールで管理する辞書データが解析辞書

UniDicのソースデータとなる。

見出し語はコーパス中の用例と関連づけられているため,その語がコーパスの中でどの ように用いられているのかを確認することができる。常に頻度情報が確認できるほか,ボ タンを押すことで用例を文脈付きで参照可能になっている。また,辞書に追加した見出し 語はすぐにコーパスの修正に利用することができる。

図 3 辞書データベース管理ツール「UniDic Explorer」

コーパスデータベース管理ツール「大納言」

「大納言」(図4)は,辞書と同期をとりながら,コーパス中の誤解析部分を修正するこ とが可能なプログラムである。データ班では,これを用いて BCCWJ コアデータなどの人 手修正を行っている。

「大納言」では,短単位の情報を元にしたさまざまな検索が行えるほか,短単位の境界 にとらわれない文字列による全文検索も可能になっている。そのため,コーパスを利用し た研究に利用することもできる。

3 これらのツールはコーパス構築作業に利用しているものであり,一般公開は行っていない。

図 4 コーパスデータベース管理ツール「大納言」

4.UniDicの公開予定

語種情報を付与した新しいUniDic,およびMeCab版のUniDicは,2008年4月中旬に

UniDicダウンロードサイトにて一般公開する予定である。

文献

伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵(2007)「コーパス日 本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」『日本語科学』22 号 pp.101-122.

小椋秀樹・小木曽智信・原裕・小磯花絵・冨士池優美(2008a)「形態素解析辞書UniDicへの語 種情報の実装と政府刊行白書の語種比率の分析」言語処理学会第14 回年次大会発表論文集 小椋秀樹・小磯花絵・冨士池優美・原裕(2008b)『『現代日本語書き言葉均衡コーパス』形態論

情報規程集』(国立国語研究所内部報告書LR-CCG-07-04)

伝康晴・中村純平・小木曽智信・小椋秀樹(2008)「語種情報を用いた同表記異音語の解消」言 語処理学会第14 回年次大会発表論文集

関連URL UniDicダウンロードサイト:http://download.unidic.org /

MeCab : Yet Another Part-of-Speech and Morphological Analyzer:http://mecab.sourceforge.net/

ChaSen -- 形態素解析器:http://chasen-legacy.sourceforge.jp/

均衡コーパスに基づく語彙のレベル分け  

田中 牧郎  (言語政策班班長:国立国語研究所研究開発部門) 近藤明日子  (言語政策班協力者:国立国語研究所研究開発部門)

平山 允子  (言語政策班協力者:国立国語研究所研究開発部門)

Word Frequency Levels in Balanced Corpus 

TANAKA Makiro   (National Institute for Japanese Language)

      KONDO Asuko     (National Institute for Japanese Language)

      HIRAYAMA Yoshiko(National Institute for Japanese Language)

1.語彙のレベル分け 

  言語教育にとって,語彙をレベル分けすることは重要である。語彙のレベル分けのためには,

個々の語が現に通用している度合いを見定め,学習者にとっての重要度や難易度を判断する作業 が求められる。我々は,均衡コーパスの頻度情報を用いて通用の度合いを把握することと,その 結果を語彙教育に応用することを計画している。コーパスをこの方面に活用することが有望であ ることは,本特定領域の開始時点で,前川(2006)も言及している。

データ班から2007年11月に領域内公開された「BCCWJ領域内公開データ(2007年版)」のう ち書籍部分については(この部分を本稿では「書籍コーパス」と呼ぶ),分野が広範囲にわたって いる点で,「均衡コーパス」に準じた扱いができるのではないかと考えた。今回のデモンストレー ションでは,この「書籍コーパス」の頻度による語彙のレベル分け作業の見通しと問題点につい て報告し,議論を行いたい。

2.従来行われた語彙のレベル分け 

  従来,日本語コーパスがない段階で,言語教育の分野で試みられた語彙のレベル分けのうち,

代表的な成果としては,①阪本一郎による教育基本語彙(阪本1943,1958,1984),②国際交流基金 と日本国際教育協会による日本語能力試験出題基準(国際交流基金ほか 1994,2002)があげられ る。①は国語教育,②は日本語教育の立場からの試みである。それらの最新版,阪本(1984),国 際交流基金ほか(2002)によって示されたレベル分けと配属語数は,下表の通りである。

 

これらは,教育の場で必要とされたり,教えるのが妥当とされたりする語彙の量とレベル分け

[email protected]

表1  教育基本語彙(阪本1984による)

小学校  中学校 

低学年    高学年 

A1  2,570  B1  2,364  C1  2,444 A2  1,730  B2  1,979  C2  2,344         B3  1,600  C3  2,139 C4  2,101 小計  4,300  小計 5,943  小計 9,028 総 計  19,271

表2  日本語能力試験出題基準

(国際交流基金ほか2002による)

    規定語数  掲出語数  4 級  800  728  3 級  700  681  2 級  4,500  3,626  1 級  4,000  2,974  総計 10,000  8,009 

を示しているものと考えられる。今回試みるコーパスの頻度による語彙のレベル分けの結果を,

上記のような教育を目的とした語彙のレベル分けの実績と対照しつつ研究を進めることで,コー パスを語彙教育に活用するための具体的な議論につなげていきたい。

3.「書籍コーパス」の頻度によるレベル分け 

  まず,「書籍コーパス」を,電子化辞書班から公開されている,Unidic-chasen1.3.6 によって,

短単位で解析し,語彙頻度表を作成した。そのうち,固有名詞と付属語・記号・空白・未知語は 除外した。その結果,延べ語数約11,000,000語,異なり語数約53,000語となった。最も度数の高 いのは動詞「する」の468,934,度数1の語は5,620語あった。今回は単純に,この度数をレベル 分けの指標に用いることにし,表3のようにレベル分けを行った。

a,b,cの約19,000語は阪本(1984)の扱う語彙に,a,bの約10,000語は国際交流基金ほか(2002)

の扱う語彙に,それぞれ語数が相当する。各レベルを細分する区画においては,阪本(1984)や 国際交流基金ほか(2002)の各区画とほぼ対応する語数になるように調整した。各レベルを細分 した区画(a1,a2,・・・)に属する語数は,なるべく均等になるように調整した。

d,eは,それら先行の基本語彙の範囲の外側のレベルの語彙である。まず1万語余りのdを設 定し,その外側に2万語余りのeを設定し,それぞれの内部がなるべく均等になるように区画し た。度数が小さくなると同じ度数の語が多くなり,均等に区画することができないので,その部 分には語数の凸凹が生じている。

  表3  「書籍コーパス」の度数による語彙のレベル分け

レベル  度数区間  語数  阪本 基金  レベル 度数区間  語数 

a1  1892-468934  800

A1 

4級 d1  26-31  2,093 

a2  1087-1891  700 3級 d2  21-25  2,188 

a3  613-1086  1,071

2 級 

d3  17-20  2,201 

a4  421-612  866

A2  d4  14-16  2,114 

a5  315-420  863 d5  11-13  2,618 

a 小 計  4,300    d 小 計  11,214 

b1  251-314  843

B1 

e1  8-10  3,357 

b2  204-250  854 e2  6-7  2,974 

b3  175-203  712

1 級 

e3  5  1,836 

b4  154-174  641

B2 

e4  4  2,227 

b5  135-153  690 e5  3  2,740 

b6  119-134  734 e6  2  3,653 

b7  105-118  761

B3  e7  1  5,620 

b8  94-104  748 e 小 計  22,407 

b 小 計  5,983    総  計  52,977 

c1  68-93  2,359  C1    c2  51-67  2,360  C2  c3  40-50  2,217  C3  c4  32-39  2,137  C4 

c 小 計  9,073     

ドキュメント内 corpus.indd (ページ 30-40)

関連したドキュメント