• 検索結果がありません。

実テキストの情報分析のための頑健な言語処理基盤

N/A
N/A
Protected

Academic year: 2021

シェア "実テキストの情報分析のための頑健な言語処理基盤"

Copied!
25
0
0

読み込み中.... (全文を見る)

全文

(1)

実テキストの情報分析のための

頑健な言語処理基盤

河原大輔 黒橋禎夫

*

林部祐太

*1

森田一

*2

Arseny Tolmachev

京都大学 大学院情報学研究科

*

科学技術振興機構

CREST

11回テキストアナリティックス・シンポジウム (2017/9/7)

1現在の所属はフェアリーデバイセズ株式会社 2現在の所属は株式会社富士通研究所

(2)

実テキスト

2 今日は内枠の先行馬が勝つレース が多くて、メインも傾向を引き継い どった。中途半端な位置にいた馬が 動くに動けん感じやったけど、そんな ペースに持ってくあたりがルメール。 そして昨日は、我が家でバーベ キューをしました。主人の後輩の方や 普段お世話になっている方々を招い て、とても楽しい時間でした。私の父 も来ました。 LCCとかいう大陸間弾道夜行バス、 (空港の滑走路で)渋滞はするしター ミナルは(都市の端にある空港の更 に端で)めんどいし、(機材遅れて)出 発到着は軽率に数時間単位で... セブンの唐揚げ串美味しいし安いん ですよね!! でも最近は丸からっていう 串に刺さってない方の唐揚げにハ マってます!! 個人的には串の上をい くのでは!? って位大好きです(´∀`*)

人が意思決定するときや、企業が自社の商品の

評価を分析する上で重要な情報源

(3)

実テキストの情報分析の例

不満買取センター ビジネスモデル

4

世間から不満を集める

集めた不満の声を

企業に届ける

「渋滞」に関する不満の例

因果関係グラフ

高速道路が渋滞しているときのトイレが 大変。 平気で路駐してる自動車。通勤ラッシュ の時はかなり迷惑です。 車線規制して大渋滞なのに、工事をして いない。 駐車場での渋滞さらにそれに料金とら れた〜! 鷺ノ宮地区の踏切、毎朝空かずに渋滞 して,バスが遅れる。 ・・・

トイレが大変

平気で路駐

してる自動車

渋滞

バスが遅れる

宅配便が指定時間

より30分遅れた

車線規制

(4)

目次

RNN言語モデルに基づく形態素解析器JUMAN++

Web上のリソースからの語彙獲得

– 部分アノテーションの利用

JUMAN++の高速化

• 語彙知識に基づく形態素・構文統合解析

4

(5)

RNN言語モデルに基づく形態素解析器

JUMAN++

オランダ,イギリス, ヨーロッパ 外国 じゃがいも, キャベツ 人参 野党, 官僚, 与党 政権 家, 女性, 者,社員 人 領有, 黙秘, 叙任 参政 権,免許, 資金,力, 権 オランダ/人 ヨーロッパ/人 : 女性/参政/権 (聖職)/者/叙任/権 外国/人参/政権 x(t) v y(t) s(t) s(t-1) Context u p(Univ.|… Kyoto) Kyoto w 0 0 1 0 … 0

外国

|人参|政権

より

外国

|人|参政|権

の方が自然だとわかりたい

意味を汎化したベクトル表現に

よって

p(w|context) を計算する

[Morita+, EMNLP2015]

5

(6)

JUMAN++による精度改善

京都大学テキストコーパス(NEWS), 京都大学ウェブ文書リードコーパス(WEB)

実験設定

Webコーパス 1000万文 RNN言語モデルの学習 学習・評価データ

JUMAN++(Proposed)

感想

| や | ご |

要望

JUMAN

感想

|

やご

|

要望

×

(F1)

単語分割

+品詞タグ付け

97.4 97.6 97.8 98 98.2 98.4 98.6

JUMAN MeCab JUMAN++

1,000文中の致命的な誤りの数 0 10 20 30 40 50 60 70 80 JUMAN++ JUMAN

(7)

語彙獲得の方針

• 基本的な語彙は人手で整備(基本語彙)

– 語彙サイズを絞る代わりに、語のドメインや反義語

などの情報をリッチに付与する

• 基本語彙に含まれない語は自動的に獲得

– 単語の候補(

Wikipedia の記事タイトルなど)の

うち、複合語でないものを自動判定し辞書へ

cf. mecab-ipadic-NEologd [佐藤+, 2017]

7

(8)

統合辞書

JUMAN++辞書獲得フロー

統合辞書

(異表記統合)

Web Corpus 文節区切り解析済み Web Corpus Webコーパス辞書 表記揺れ認識 係り受け 解析済み Web Corpus Wikipedia 形態素解析 Wiktionary (JP) Wiktionary(EN) 形態素解析 複合語判定 形態素解析 上位語・代表表記付与 品詞付与or 品詞推定 Wikipedia 辞書 Wiktionary (JP) 辞書 Wiktionary (EN) 辞書 8 形態素解析+ 文節区切り 分布類似度 係り受け解析 Web Corpus 基本語彙辞書

(9)

構築した辞書

語彙サイズ

基本語彙辞書

3万語

走る,行く,明日

Wikipedia

85万語

アベノミクス,

山極,豊洲

Dentsu,

Wiktionary

8千語

インセンティヴ,糾す

Web コーパス

1万語

ググる

, ねんどろいど

合計

90万語

9

(10)

JUMAN++における部分アノテーション

の利用

(11)

[林部, 2017]の部分アノテーションコーパス

Fairy Morphological Annotated Corpus

https://github.com/FairyDevicesRD/FairyMaCorpus

Wikipediaのハイパーリンクに基づく自然アノテーション

と自動形態素解析結果が異なる箇所を人手でチェック

2,000文のうち、次の1,400文を利用

FMAC-jpp: JUMAN++による単語区切りと異なる箇所

FMAC-other: 機能表現を中心としたその他の

部分アノテーション

例:

...遺伝子のうちのほんの

|

わずか

|

だけ

|

|

機能する

...

プロボクサー・医師の|川島?|は実兄。 11

(12)

部分アノテーションを利用した

JUMAN++の訓練

1. フルアノテーションの学習データを用いて

JUMAN++を訓練

– 学習データ:

NEWS (3.7万文) + WEB (1.4万文)

2. 部分アノテーションの各文について、与え

られた単語区切りに違反しないように、

1の

モデルで形態素解析

3. フルアノテーションの学習データに2のデータ

をマージし、これを用いて

JUMAN++を再訓練

12

(13)

部分アノテーションを利用した

JUMAN++の精度

50 55 60 65 70 75 80 85 90 95 100

NEWS 境界 NEWS 品詞 WEB 境界 WEB 品詞 ベースライン +部分アノテーション

F値

50 55 60 65 70 75 80 85 90 95 100 FMAC-jpp 境界 FMAC-other 境界 ベースライン +部分アノテーション

Rec

all

57.2 84.0 97.899.4 13

(14)

改善例

|

越石

|

|

|1-2|判定|負け|。

• 同

|時期|に|は|細川

|

たかし

|

|

|いた|。

改善しなかった例

1956|年|に|退職|して|、|三|

共に

|入社|。

• かつて

|は|ミッキー|

形どら

|焼き|「|ミッキー|

スマイ ル

|」|を|取り扱って|いた|。

14

(15)

JUMAN++の高速化

(16)

JUMAN++の高速化

JUMAN++は高精度だが、解析速度の遅さが問題

→ 高速化版を開発

• 全体的な方針

CPUキャッシュの利用効率を高める

– 冗長な計算の削減

• 詳細

– 線形モデル

• 辞書構造の改善により、string->idのID化のためのハッシュ

マップを削除

• 素性計算の効率化

RNNモデル

• スコア計算のバッチ化、ベクトル化

16

(17)

形態素解析の解析時間

(秒)

1文

10文

100文

1000文

2000文

MeCab

0.013

0.014

0.017

0.047

0.080

JUMAN

0.058

0.060

0.084

0.220

0.369

KyTea

6.010

6.068

6.047

6.377

6.737

JUMAN++V1

0.157

0.592

5.794

60.460 141.730

JUMAN++V2

0.085

0.120

0.371

2.318

5.106

JUMAN++V1: 従来版, JUMAN++V2: 高速化版

• 高速化に関する今後の課題

– 線形モデル

Unigram・Bigramの素性計算の効率化

RNNモデル

• 完全に同じ状態・スコアのRNN計算の削減

(ひらがな表記の語など、同一の表層形、品詞を持つ語)

17

(18)

語彙知識に基づく

形態素・構文統合解析

(19)

19

逆転する可能性があるかないかを確認する

歩く:1 ガ 人:57, 男性:15, 私:13, ... ヲ 道:24236, 山道:4066, ... カラ 駐車場:175, 駅:88, ... 有る:3 ガ 可能性:121867 ニ 価格:23, 自分:20, ... デ 段階:4, 影響:4, 確率:4, ...

格フレーム

• 逆転する可能性が有るかないかを確認する

• 逆転する可能性が歩かないか確認する

(20)

Input: 可能性があるかないか

(21)

可能

有る 歩か

ない

1. 形態素解析のN-best解に含まれる単語を CKYテーブルに貼り付け Input: 可能性があるかないか

(22)

可能

可能|性 可能|性|が

有る 有る|か歩か 歩か|ない 歩か|ない|か

ない

ない|か

1. 形態素解析のN-best解に含まれる単語を CKYテーブルに貼り付け 2. 単語を基に、可能な句を作る • 句 = ⾃⽴語1個 + 付属語0個以上 Input: 可能性があるかないか

(23)

Input: 可能性があるかないか

可能

可能|性 可能|性|が 可能|性|が→歩か|ない|か

有る 有る|か歩か 歩か|ない 歩か|ない|か

ない

ない|か

1. 形態素解析のN-best解に含まれる単語を CKYテーブルに貼り付け 2. 単語を基に、可能な句を作る • 句 = ⾃⽴語1個 + 付属語0個以上 3. 可能な係り受けを作り,格フレームなどに 基づくスコアを計算する 歩く:1 ガ 人:57, 男性:15, 私:13, ... ヲ 道:24236, 山道:4066, ... カラ 駐車場:175, 駅:88, ... 有る:3 ガ 可能性:121867 ニ 価格:23, 自分:20, ... デ 段階:4, 影響:4, 確率:4, ... ... ...

格フレーム

スコア=-15.9 スコア=-2.3 有る|か→ない|か 可能|性が→有る|か|ない|か

(24)

形態素・構文統合解析の評価結果

98 98.2 98.4 98.6 98.8 99 99.2 単語分割 単語分割+品詞タグ付け JUMAN++ (1-best) KNP++ (N-best) 89.6 89.8 90 90.2 90.4 90.6 90.8 91 係り受け

CaboCha KNP++ (1-best) KNP++ (N-best)

• 改善例

|いや

|めい|と|別れた

– 祭り

|で|は|

|もの

|が|

みつかり

|ます

– 泥

|を|落として|から|部屋|に|

|いる

おい

|や

|めい|と|別れた

– 祭り

|で|は|

でもの

|が|

みつかり

|ます

– 泥

|を|落として|から|部屋|に|

はいる

(F1) (F1)

評価データ

: NEWS+WEB

24

(25)

まとめ

実テキスト

の情報分析に向けた頑健な言語

処理基盤を開発

RNN言語モデルに基づく形態素解析器JUMAN++

– 語彙知識に基づく形態素・構文統合解析器

KNP++ (仮称)

• 近日公開予定!

25

参照

関連したドキュメント

明治33年8月,小学校令が改正され,それま で,国語科関係では,読書,作文,習字の三教

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

東京都は他の道府県とは値が離れているように見える。相関係数はこう

TEPCO 統合報告書 2019.. TEPCO INTEGRATED REPORT 20199. 「EXPLORING OZE

教職員用 平均点 保護者用 平均点 生徒用 平均点.

報告書見直し( 08/09/22 ) 点検 地震応答解析. 設備点検 地震応答解析

解析実行からの流れで遷移した場合、直前の解析を元に全ての必要なパスがセットされた状態になりま

データ取得 系統運⽤・需給運⽤ 分析・解析