1. はじめに 2

(1)

1

点予測と能動学習を用いた

効率的なコーパス構築

〜形態素解析における実証実験〜

京都大学　情報学研究科

Graham NEUBIG

(2)

2

(3)

3

形態素解析

● べた書きの文字列を意味のある単位に分割し、様々な情報を付与 ● 品詞、基本形、読み、発音等を推定 ● 言語処理の中で特に高い精度が必要農産物価格安定法を施行した価格/名詞/価格/かかく/かかく安定/名詞/安定/あんてい/あんてー法/接尾辞/法/ほう/ほーを/助詞/を/を/お施行/動詞/施行/しこう/しこーした/動詞/する/した/した

(4)

4

単語分割・形態素解析の現状

● ルールベース（ JUMAN 等） ● TODO ● 機械学習の系列ラベリング（ ChaSen 、 MeCab 等） ● TODO

(5)

5

既存の手法の問題点

● 一般分野における利用を想定

(6)

6

本研究

● 目的：単語分割や形態素解析の分野適応に必要な労力の軽減 ● 提案手法： ● 部分的アノテーション：文全体ではなく、必要な箇所だけをアノテーションする – 点予測を利用することで学習を実現 ● 能動学習：アノテーションがもっとも有効な箇所を選択し、作業者に提示する ● 分野適応のためのツールをオープンソースで公開 ● 評価実験：医療分野における分野適応 ● 時間効率を評価基準とする

(7)

7

言語処理の応用に必要な情報

● 多くの応用では、形態素解析のほとんどの情報が不要 ● これらの情報を利用するより、形態素解析の精度が上がった方が結果的に良いシステム出力となる応用分割品詞読み発音機械翻訳 ● 質問応答 ● ● かな漢字変換 ● ● 音声認識 ● ●

(8)

8

(9)

9

単語分割に必要な言語資源

〜辞書〜

● 単語の表記のみ ● 一般分野 ● 厳密な単語分割基準に沿った物は入手可

● UniDic 、 IPADIC 、 JUMAN

● 適応分野

● 厳密な単語分割基準に沿っていない物（複合語を含む

(10)

10

アノテーション法：

フルアノテーション

● 従来の学習法では文全体をアノテーション ● 分割される単語の間に空白を挿入 ● 単語境界に関する２つタグ： ● 「　」＝単語境界あり ● 「」　＝単語境界なし農産物価格安定法を施行農産物価格安定法を施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある

(11)

11

アノテーション法：

部分的アノテーション

● 文の中で重要な部分のみをアノテーション ● タグの種類を拡張 ● 「｜」＝単語境界あり ● 「ー」＝単語境界なし ● 「　」＝単語境界の有無が未知農産物価格安定法を施行農産物|価-格|安- 定法を施行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる

(12)

12

(13)

13

従来の単語分割

● 従来の単語分割法は HMM や CRF など、文全体の解を求める解析法を利用することが多い ● 文全体がアノテーションされた学習データが必要 ● Tsuboi et al. 08 は部分的アノテーションで CRF を学習 →スパースなアノテーションでは膨大な学習時間 ● 本研究では各単語境界の有無を個別に判定する点推定を利用

(14)

14

点推定による単語分割

● 各文字間で分割を行うかどうかの２値分類問題 ● 適当な素性を決め、 SVM やロジスティック回帰などを利用して解く ● 本研究では線形 SVM を利用農産物価格安定法を施行０１１０１０１１１０農産物価格安定法を施行

(15)

15

単語分割の素性

● 文字 n-gram と文字種 n-gram 素性 ● 辞書単語素性農産物価格安定法を施行判定点窓幅＝ 2 文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 1-gram:　 2-gram:　 3-gram: 　文字 -2/定 -1/ 法 +1/ を +2/ 施 -2/定法 -1/ 法を　 +1/ を施 -2/定法を　 -1/法を施農産物価格安定法を施行判定点 L1(定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 辞書単語の範囲

(16)

16

京都テキスト解析ツールキット

（ KyTea ）

● 単語分割・読み推定の機能 ● 部分的アノテーションから学習可能 ● 点推定を利用 ● 分類器として線形 SVM やロジスティック回帰 ● LIBLINEAR で実装 ● オープンソースで公開中

http://www.phontron.com/kytea

(17)

17

(18)

18

アノテーション過程の概要

● 部分的アノテーションを最大限に活かすために有用な箇所をアノテーションする必要がある ● 以下の能動学習手順を用いて有用なタグを付与コーパス自動分割信頼度付きコーパス点選択アノテーションすべき点人手によるアノテーション C_a (1) (2) (3) C_g D_g D_a モデル

(19)

19

ベースライン戦略：

フルアノテーション

● 一般分野の学習コーパス　　を利用して学習された分割器で適応コーパス　　を分割 ● 人手でこの分割結果を訂正 + 誤り箇所を修正するだけで、量的には効率的 - 学習に有用でないところもアノテーション農産物価格安定法を施行農産物価格安定法を施行 C_ｇ C_a

(20)

20

提案戦略１：

点アノテーション

● 自動分割結果から信頼度の最も低い 100 点を選択 ● この点の単語境界にタグを付与 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合、インターネットや辞書で　調べる必要があり、１点に付き多くの作業時間農産物? 価格安定法を施行農産物| 価格安定法を施行

(21)

21

提案戦略２：

単語アノテーション

● 自動分割結果から信頼度の最も低い 100 点を選択 ● その点だけでなくその点に隣接する（または含む）単語全体をアノテーション + アノテーションの有効性と速度の釣り合いが取れる農産物? 価格安定法を施行農産|物|価-格| 安定法を施行

(22)

22

(23)

23

実験条件

● 医療分野への適応実験 ● 一般分野コーパス : 現代日本語書き言葉コーパス ( モニター公開データ、 1.29M 文字 ) ● 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) ● 適応分野コーパス : 医療分野のコーパス (20.1M 文字 ) ● 適応分野辞書 : ライフサイエンス辞書 (95.3k 単語 ) ● １人の作業者が交互に各戦略を順に繰り返す（点、単語、フル、点、単語、フル） ● 実験開始時点では作業者は初心者 ● 評価基準：から取り除いた 1000 文に対する境界精度 C_ｇ C_a D_a D_ｇ C_a

(24)

24

実験結果：アノテーション時間

● 各戦略のアノテーション時間を検証 ● フルアノテーションは圧倒的に早い ● 点アノテーションは 1 点のアノテーションにかかる時間は単語アノテーションより早いが、 1 タグは遅い戦略 100 点 100 タグフルアノテーション _- _16s 点アノテーション _9m15s _9m15s 単語アノテーション _10m35s _2m15s

(25)

25

実験結果：時間効率

● フルと点アノテーションはほぼ同等の精度 ● 単語アノテーションは両方を上回る 0 60 120 180 240 97.50% 98.00% 98.50% 99.00% 99.50%

Accuracy vs. Annotation Time F ull (F )

P oint (P ) W ord (W )

Annotation Time (Minutes)

S eg m en ta tio n Ac cu ra cy

(26)

26

むすび

● 能動学習と点推定に基づいた分野適応法を提案した ● 3 つのアノテーション戦略を比較し、単語アノテーションは時間効率でもっとも高い精度を実現 ● このような分野適応は他の解析タスクでも利用可能 ● 読み推定・品詞推定・固有表現抽出 ● インタフェースの改善でさらに効率の良いアノテーションが期待できる

(27)

27

(28)

28

量効率

10 100 1000 10000 100000 97. 50% 98. 00% 98. 50% 99. 00% 99. 50%

Accuracy vs. Annotated Tags

F ull (F ) P oint (P ) W ord (W )

Number of Tags Annotated

Se gm en ta tio n Ac cu ra cy

1. はじめに 2

点予測と能動学習を用いた

効率的なコーパス構築

京都大学 情報学研究科

形態素解析

単語分割・形態素解析の現状

既存の手法の問題点

本研究

言語処理の応用に必要な情報

単語分割に必要な言語資源

〜辞書〜

アノテーション法：

フルアノテーション

アノテーション法：

部分的アノテーション

従来の単語分割

点推定による単語分割

単語分割の素性

京都テキスト解析ツールキット

（ KyTea ）

http://www.phontron.com/kytea

アノテーション過程の概要

ベースライン戦略：

フルアノテーション

提案戦略１：

点アノテーション

提案戦略２：

単語アノテーション

実験条件

実験結果：アノテーション時間

実験結果：時間効率

むすび

量効率

京都大学　情報学研究科