• 検索結果がありません。

1. はじめに 2

N/A
N/A
Protected

Academic year: 2021

シェア "1. はじめに 2"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

1

点予測と能動学習を用いた

効率的なコーパス構築

〜形態素解析における実証実験〜

京都大学 情報学研究科

Graham NEUBIG

(2)

2

(3)

3

形態素解析

● べた書きの文字列を意味のある単位に分割し、様々な 情報を付与 ● 品詞、基本形、読み、発音等を推定 ● 言語処理の中で特に高い精度が必要 農産物価格安定法を施行した 価格/名詞/価格/かかく/かかく 安定/名詞/安定/あんてい/あんてー 法/接尾辞/法/ほう/ほー を/助詞/を/を/お 施行/動詞/施行/しこう/しこー した/動詞/する/した/した

(4)

4

単語分割・形態素解析の現状

● ルールベース( JUMAN 等) ● TODO ● 機械学習の系列ラベリング( ChaSen 、 MeCab 等) ● TODO

(5)

5

既存の手法の問題点

● 一般分野における利用を想定

(6)

6

本研究

● 目的:単語分割や形態素解析の分野適応に必要な労力 の軽減 ● 提案手法: ● 部分的アノテーション:文全体ではなく、必要な箇 所だけをアノテーションする – 点予測を利用することで学習を実現 ● 能動学習:アノテーションがもっとも有効な箇所を 選択し、作業者に提示する ● 分野適応のためのツールをオープンソースで公開 ● 評価実験:医療分野における分野適応 ● 時間効率を評価基準とする

(7)

7

言語処理の応用に必要な情報

● 多くの応用では、形態素解析のほとんどの情報が不要 ● これらの情報を利用するより、形態素解析の精度が上 がった方が結果的に良いシステム出力となる 応用 分割 品詞 読み 発音 機械翻訳 ● 質問応答 ● ● かな漢字変換 ● ● 音声認識 ● ●

(8)

8

(9)

9

単語分割に必要な言語資源

〜辞書〜

● 単語の表記のみ ● 一般分野 ● 厳密な単語分割基準に沿った物は入手可

● UniDic 、 IPADIC 、 JUMAN

● 適応分野

● 厳密な単語分割基準に沿っていない物(複合語を含む

(10)

10

アノテーション法:

フルアノテーション

● 従来の学習法では文全体をアノテーション ● 分割される単語の間に空白を挿入 ● 単語境界に関する2つタグ: ● 「 」=単語境界あり ● 「」 =単語境界なし 農産物価格安定法を施行 農産 物 価格 安定 法 を 施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある

(11)

11

アノテーション法:

部分的アノテーション

● 文の中で重要な部分のみをアノテーション ● タグの種類を拡張 ● 「|」=単語境界あり ● 「ー」=単語境界なし ● 「 」=単語境界の有無が未知 農産物価格安定法を施行 農 産 物|価-格|安- 定 法 を 施 行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる

(12)

12

(13)

13

従来の単語分割

● 従来の単語分割法は HMM や CRF など、文全体の解を求 める解析法を利用することが多い ● 文全体がアノテーションされた学習データが必要 ● Tsuboi et al. 08 は部分的アノテーションで CRF を学 習 →スパースなアノテーションでは膨大な学習時間 ● 本研究では各単語境界の有無を個別に判定する点推 定を利用

(14)

14

点推定による単語分割

● 各文字間で分割を行うかどうかの2値分類問題 ● 適当な素性を決め、 SVM やロジスティック回帰などを 利用して解く ● 本研究では線形 SVM を利用 農産物価格安定法を施行 0110101110 農産 物 価格 安定 法 を 施行

(15)

15

単語分割の素性

● 文字 n-gram と文字種 n-gram 素性 ● 辞書単語素性 農産物価格安定法を施行 判定点 窓幅= 2 文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 1-gram:  2-gram:  3-gram:   文字 -2/定 -1/ 法 +1/ を +2/ 施 -2/定法 -1/ 法を  +1/ を施 -2/定法を  -1/法を施 農産物価格安定法を施行 判定点 L1(定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 辞書単語の範囲

(16)

16

京都テキスト解析ツールキット

( KyTea )

● 単語分割・読み推定の機能 ● 部分的アノテーションから学習可能 ● 点推定を利用 ● 分類器として線形 SVM やロジスティック回帰 ● LIBLINEAR で実装 ● オープンソースで公開中

http://www.phontron.com/kytea

(17)

17

(18)

18

アノテーション過程の概要

● 部分的アノテーションを最大限に活かすために有用な 箇所をアノテーションする必要がある ● 以下の能動学習手順を用いて有用なタグを付与 コーパス 自動分割 信頼度付き コーパス 点選択 アノテーション すべき点 人手による アノテーション Ca (1) (2) (3) Cg Dg Da モデル

(19)

19

ベースライン戦略:

フルアノテーション

● 一般分野の学習コーパス  を利用して学習された 分割器で適応コーパス  を分割 ● 人手でこの分割結果を訂正 + 誤り箇所を修正するだけで、量的には効率的 - 学習に有用でないところもアノテーション 農産 物価 格安 定 法 を 施行 農産 物 価格 安定 法 を 施行 C Ca

(20)

20

提案戦略1:

点アノテーション

● 自動分割結果から信頼度の最も低い 100 点を選択 ● この点の単語境界にタグを付与 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合、インターネットや辞書で  調べる必要があり、1点に付き多くの作業時間 農 産 物? 価 格 安 定 法 を 施 行 農 産 物| 価 格 安 定 法 を 施 行

(21)

21

提案戦略2:

単語アノテーション

● 自動分割結果から信頼度の最も低い 100 点を選択 ● その点だけでなくその点に隣接する(または含む)単 語全体をアノテーション + アノテーションの有効性と速度の釣り合いが取れる 農 産 物? 価 格 安 定 法 を 施 行 農 産|物|価-格| 安 定 法 を 施 行

(22)

22

(23)

23

実験条件

● 医療分野への適応実験 ● 一般分野コーパス : 現代日本語書き言葉コーパ ス ( モニター公開データ、 1.29M 文字 ) ● 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) ● 適応分野コーパス : 医療分野のコーパス (20.1M 文 字 ) ● 適応分野辞書 : ライフサイエンス辞書 (95.3k 単 語 ) ● 1人の作業者が交互に各戦略を順に繰り返す(点、単 語、フル、点、単語、フル) ● 実験開始時点では作業者は初心者 ● 評価基準: から取り除いた 1000 文に対する境界精 度 C Ca Da D Ca

(24)

24

実験結果:アノテーション時間

● 各戦略のアノテーション時間を検証 ● フルアノテーションは圧倒的に早い ● 点アノテーションは 1 点のアノテーションにかかる時 間は単語アノテーションより早いが、 1 タグは遅い 戦略 100 点 100 タグ フルアノテーション - 16s 点アノテーション 9m15s 9m15s 単語アノテーション 10m35s 2m15s

(25)

25

実験結果:時間効率

● フルと点アノテーションはほぼ同等の精度 ● 単語アノテーションは両方を上回る 0 60 120 180 240 97.50% 98.00% 98.50% 99.00% 99.50%

Accuracy vs. Annotation Time F ull (F )

P oint (P ) W ord (W )

Annotation Time (Minutes)

S eg m en ta tio n Ac cu ra cy

(26)

26

むすび

● 能動学習と点推定に基づいた分野適応法を提案した ● 3 つのアノテーション戦略を比較し、単語アノテー ションは時間効率でもっとも高い精度を実現 ● このような分野適応は他の解析タスクでも利用可能 ● 読み推定・品詞推定・固有表現抽出 ● インタフェースの改善でさらに効率の良い アノテーションが期待できる

(27)

27

(28)

28

量効率

10 100 1000 10000 100000 97. 50% 98. 00% 98. 50% 99. 00% 99. 50%

Accuracy vs. Annotated Tags

F ull (F ) P oint (P ) W ord (W )

Number of Tags Annotated

Se gm en ta tio n Ac cu ra cy

参照

関連したドキュメント

C−1)以上,文法では文・句・語の形態(形  態論)構成要素とその配列並びに相互関係

1.はじめに

噸狂歌の本質に基く視点としては小それが短歌形式をとる韻文であることが第一であるP三十一文字(原則として音節と対応する)を基本としへ内部が五七・五七七という文字(音節)数を持つ定形詩である。そ

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

解析の教科書にある Lagrange の未定乗数法の証明では,

奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数

奥付の記載が西暦の場合にも、一貫性を考えて、 []付きで元号を付した。また、奥付等の数