1
点予測と能動学習を用いた
効率的なコーパス構築
〜形態素解析における実証実験〜京都大学 情報学研究科
Graham NEUBIG2
3
形態素解析
● べた書きの文字列を意味のある単位に分割し、様々な 情報を付与 ● 品詞、基本形、読み、発音等を推定 ● 言語処理の中で特に高い精度が必要 農産物価格安定法を施行した 価格/名詞/価格/かかく/かかく 安定/名詞/安定/あんてい/あんてー 法/接尾辞/法/ほう/ほー を/助詞/を/を/お 施行/動詞/施行/しこう/しこー した/動詞/する/した/した4
単語分割・形態素解析の現状
● ルールベース( JUMAN 等) ● TODO ● 機械学習の系列ラベリング( ChaSen 、 MeCab 等) ● TODO5
既存の手法の問題点
● 一般分野における利用を想定
6
本研究
● 目的:単語分割や形態素解析の分野適応に必要な労力 の軽減 ● 提案手法: ● 部分的アノテーション:文全体ではなく、必要な箇 所だけをアノテーションする – 点予測を利用することで学習を実現 ● 能動学習:アノテーションがもっとも有効な箇所を 選択し、作業者に提示する ● 分野適応のためのツールをオープンソースで公開 ● 評価実験:医療分野における分野適応 ● 時間効率を評価基準とする7
言語処理の応用に必要な情報
● 多くの応用では、形態素解析のほとんどの情報が不要 ● これらの情報を利用するより、形態素解析の精度が上 がった方が結果的に良いシステム出力となる 応用 分割 品詞 読み 発音 機械翻訳 ● 質問応答 ● ● かな漢字変換 ● ● 音声認識 ● ●8
9
単語分割に必要な言語資源
〜辞書〜
● 単語の表記のみ ● 一般分野 ● 厳密な単語分割基準に沿った物は入手可● UniDic 、 IPADIC 、 JUMAN
● 適応分野
● 厳密な単語分割基準に沿っていない物(複合語を含む
10
アノテーション法:
フルアノテーション
● 従来の学習法では文全体をアノテーション ● 分割される単語の間に空白を挿入 ● 単語境界に関する2つタグ: ● 「 」=単語境界あり ● 「」 =単語境界なし 農産物価格安定法を施行 農産 物 価格 安定 法 を 施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある11
アノテーション法:
部分的アノテーション
● 文の中で重要な部分のみをアノテーション ● タグの種類を拡張 ● 「|」=単語境界あり ● 「ー」=単語境界なし ● 「 」=単語境界の有無が未知 農産物価格安定法を施行 農 産 物|価-格|安- 定 法 を 施 行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる12
13
従来の単語分割
● 従来の単語分割法は HMM や CRF など、文全体の解を求 める解析法を利用することが多い ● 文全体がアノテーションされた学習データが必要 ● Tsuboi et al. 08 は部分的アノテーションで CRF を学 習 →スパースなアノテーションでは膨大な学習時間 ● 本研究では各単語境界の有無を個別に判定する点推 定を利用14
点推定による単語分割
● 各文字間で分割を行うかどうかの2値分類問題 ● 適当な素性を決め、 SVM やロジスティック回帰などを 利用して解く ● 本研究では線形 SVM を利用 農産物価格安定法を施行 0110101110 農産 物 価格 安定 法 を 施行15
単語分割の素性
● 文字 n-gram と文字種 n-gram 素性 ● 辞書単語素性 農産物価格安定法を施行 判定点 窓幅= 2 文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 1-gram: 2-gram: 3-gram: 文字 -2/定 -1/ 法 +1/ を +2/ 施 -2/定法 -1/ 法を +1/ を施 -2/定法を -1/法を施 農産物価格安定法を施行 判定点 L1(定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 辞書単語の範囲16
京都テキスト解析ツールキット
( KyTea )
● 単語分割・読み推定の機能 ● 部分的アノテーションから学習可能 ● 点推定を利用 ● 分類器として線形 SVM やロジスティック回帰 ● LIBLINEAR で実装 ● オープンソースで公開中http://www.phontron.com/kytea
17
18
アノテーション過程の概要
● 部分的アノテーションを最大限に活かすために有用な 箇所をアノテーションする必要がある ● 以下の能動学習手順を用いて有用なタグを付与 コーパス 自動分割 信頼度付き コーパス 点選択 アノテーション すべき点 人手による アノテーション Ca (1) (2) (3) Cg Dg Da モデル19
ベースライン戦略:
フルアノテーション
● 一般分野の学習コーパス を利用して学習された 分割器で適応コーパス を分割 ● 人手でこの分割結果を訂正 + 誤り箇所を修正するだけで、量的には効率的 - 学習に有用でないところもアノテーション 農産 物価 格安 定 法 を 施行 農産 物 価格 安定 法 を 施行 Cg Ca20
提案戦略1:
点アノテーション
● 自動分割結果から信頼度の最も低い 100 点を選択 ● この点の単語境界にタグを付与 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合、インターネットや辞書で 調べる必要があり、1点に付き多くの作業時間 農 産 物? 価 格 安 定 法 を 施 行 農 産 物| 価 格 安 定 法 を 施 行21
提案戦略2:
単語アノテーション
● 自動分割結果から信頼度の最も低い 100 点を選択 ● その点だけでなくその点に隣接する(または含む)単 語全体をアノテーション + アノテーションの有効性と速度の釣り合いが取れる 農 産 物? 価 格 安 定 法 を 施 行 農 産|物|価-格| 安 定 法 を 施 行22
23
実験条件
● 医療分野への適応実験 ● 一般分野コーパス : 現代日本語書き言葉コーパ ス ( モニター公開データ、 1.29M 文字 ) ● 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) ● 適応分野コーパス : 医療分野のコーパス (20.1M 文 字 ) ● 適応分野辞書 : ライフサイエンス辞書 (95.3k 単 語 ) ● 1人の作業者が交互に各戦略を順に繰り返す(点、単 語、フル、点、単語、フル) ● 実験開始時点では作業者は初心者 ● 評価基準: から取り除いた 1000 文に対する境界精 度 Cg Ca Da Dg Ca24
実験結果:アノテーション時間
● 各戦略のアノテーション時間を検証 ● フルアノテーションは圧倒的に早い ● 点アノテーションは 1 点のアノテーションにかかる時 間は単語アノテーションより早いが、 1 タグは遅い 戦略 100 点 100 タグ フルアノテーション - 16s 点アノテーション 9m15s 9m15s 単語アノテーション 10m35s 2m15s25
実験結果:時間効率
● フルと点アノテーションはほぼ同等の精度 ● 単語アノテーションは両方を上回る 0 60 120 180 240 97.50% 98.00% 98.50% 99.00% 99.50%Accuracy vs. Annotation Time F ull (F )
P oint (P ) W ord (W )
Annotation Time (Minutes)
S eg m en ta tio n Ac cu ra cy
26
むすび
● 能動学習と点推定に基づいた分野適応法を提案した ● 3 つのアノテーション戦略を比較し、単語アノテー ションは時間効率でもっとも高い精度を実現 ● このような分野適応は他の解析タスクでも利用可能 ● 読み推定・品詞推定・固有表現抽出 ● インタフェースの改善でさらに効率の良い アノテーションが期待できる27
28
量効率
10 100 1000 10000 100000 97. 50% 98. 00% 98. 50% 99. 00% 99. 50%Accuracy vs. Annotated Tags
F ull (F ) P oint (P ) W ord (W )
Number of Tags Annotated
Se gm en ta tio n Ac cu ra cy