• 検索結果がありません。

エラー分析ワークショップ Project Next NLP WS PNN16 ie slide

N/A
N/A
Protected

Academic year: 2018

シェア "エラー分析ワークショップ Project Next NLP WS PNN16 ie slide"

Copied!
36
0
0

読み込み中.... (全文を見る)

全文

(1)

圭司

楽天技術研究所

情報抽出 誤

+ 商品 属性値抽出 題材 +

(2)

目的

• 抽出結果 false-positive/negative 析 通

情報抽出 性能向 処理

必要 明

• 商品 属性情報 抽出

産地 ぶ う品種

– 実世界 高く* 析*商品

利用

• 40代男性

(3)

対象

• 楽天 公開 配布

属 商品 20件抽出

– ワ *R

属性

対象属性

ワ 品種*容量*産地*生産者* *度数

容量* *製造国*成 *商品 * *

容量* * 量*適応機種*製造国

R * *素材*色*着丈*身幅* 幅

*内容量*原産国*粗繊維*粗脂 *粗灰 *

水 *粗

(4)

対象 規模

文数 属性値数

355 262

638 490

286 375

720 357

382 132

合計 2,381 1,702

(5)

商品 特徴

• 商品 多く* 毎 訓練

備 困

• 一部 商品 構造化 属性情報 含

*そ 属性値 辞書 構築

箇条書

(6)

商品 属性値抽出方法

• 辞書 基 く属性値抽出

原因 究明 容易

• Distant supervision 基 く手法 訓練 作成

相当

辞書

自動

&高品質' 機械学習

Roth+ 2013,

Xu+ 2013

(7)

辞書 構築 [Shinzato and Sekine 2013]

• 属性 獲得

– <TH> 表現

&e.g. 方法*そ 他*商品説明* …'

• 属性-属性値 獲得

– 正規表現 [Yoshinaga and Torisawa 2006]

• P1: <T(H|D)>[ATTR]</T(H|D)><TD>[ANY]</TD>

• P2: [P][ATTR][S][ANY][P] e.g. 品種

• P3: [P][ATTR][ANY][P] e.g. 産地

• P4: [ATTR][S][ANY][ATTR][S] e.g. 地域8 容量8

[ANY] … 任意 文 列 [P] … ○ <[ [S] … 8- >]

(8)

自動構築 辞書 例&ワ

品種 容量 産地 生産者 度数

750ML /0$

720ML /0,3$

375ML //,3$

500ML M. //$

1500ML やや甘 /1$

360ML /1,3$

200ML やや辛 /2$

3000ML /.$

1800ML /0度

1000ML /2度未満

(9)

自動構築 辞書 精度

精度 [%]

3,940 80.8

6,798 83.3

956 71.3

10,227 43.5

797 83.0

(10)

辞書 基 く情報抽出

• 入力文 形態素解析 *属性値 最長一致 形態

素列 対 属性 付け

– JUMAN 7.01 利用

– 誤抽出 減 *属性値

辞書 削除&e.g., <度数, 12>'

– 属性値 入 子 考え い

Prec. [%] Recall [%] TP FP FN

56.4 61.4 159 123 100

49.9 62.7 335 337 199 71.8 46.3 171 67 198

17.6 23.1 95 446 316

56.9 86.0 111 84 18

全体 45.1 51.2 871 1,057 831

(11)

(12)

False-positive

• False-positive 1,057事例 い *以

目 次

全体

(割合)

1. 正 い属性-属性値

基 い 属性値 抽出

?

712

(67.4%) 47 183 59 376 47

2. 属性値 抽出

商品 う ?

53

(5.0%) 0 46 0 7 0

3. 商品 関係

属性値 抽

?

99

(9.4%) 9 53 4 7 26

合計

(FP事例 割合)

864 (81.7%)

56 (45.5%)

282 (83.7%)

63 (94.0%)

390 (87.4%)

73 (86.9%)

(13)

False-positive

• False-positive 1,057事例 い *以

目 次

全体

(割合)

1. 正 い属性-属性値

基 い 属性値 抽出

?

712

(67.4%) 47 183 59 376 47

2. 属性値 抽出

商品 う ?

53

(5.0%) 0 46 0 7 0

3. 商品 関係

属性値 抽

?

99

(9.4%) 9 53 4 7 26

合計

(FP事例 割合)

864 (81.7%)

56 (45.5%)

282 (83.7%)

63 (94.0%)

390 (87.4%)

73 (86.9%)

• そ 他 %ワ 関連

♪※ 次追加中!&ワ

一覧

• 色違い”

” ’’RFCPC APC UATCQ LAR ’’

&T

抽出

(14)

193件&18.2%' ?

• 適 商品

性-属性値 基 い 抽出 情報

複 考慮 193件

全体 割合 [%] ワ

人手 部 一致 84 41.8 15 50 1 15 3

他 部 文 列

抽出

40 19.9 23 3 3 11 0

当 商品 属性値 説明 関係

い記述 抽出

37 18.4 14 1 0 17 5 属性値 多義性 起因 誤抽出 33 16.4 10 0 0 17 6

起因 誤抽出 5 2.5 5 0 0 0 0

形態素解析 過 割 誤抽出 1 0.5 1 0 0 0 0

商品 内 誤 情報 抽出 1 0.5 0 1 0 0 0

全体 201 100.0 68 55 4 60 14

(15)

人手 部 一致&84件'

• 37件 正解 見 問題 い

位置 歴史あ

– 国内

– 薄手 素材 着心地抜群

– 表記 J

• 残 47件人手 一致

* 抽出 意味 い

– …

+B+ NA液 油脂

赤 8 抽出

青枠8人手

(16)

人手 部 一致&84件'

• 37件 正解 見 問題 い

位置 歴史あ

– 国内

– 薄手 素材 着心地抜群

– 表記 J

• 残 47件人手 一致

* 抽出 意味 い

– …

+B+ NA液 油脂

赤 8 抽出

青枠8人手

認識

• 固 一部 抽出

(17)

他 部 文 列 抽出&40件'

• 固 表現&24件'

戦い 歴史あ

– … 関連商品 BCI+6 BK BCI+6C BCI+ 6M…

用語&13件'

いAOC

– …

&3件'

– … 大手

– 各種機関 厳 い環境基準 解作用

汚 け 解 く 髪や頭皮 傷

(18)

他 部 文 列 抽出&40件'

• 固 表現&24件'

戦い 歴史あ

– … 関連商品 BCI+6 BK BCI+6C BCI+ 6M…

用語&13件'

いAOC

– …

&3件'

– … 大手

– 各種機関 厳 い環境基準 解作用

汚 け 解 く 髪や頭皮 傷

• 固 表現や 表現 一部 情報 抽出

構造 解析 *主辞以外 部 情報 抽出

(19)

当 商品 属性値 説明 関係 い記述 抽

出&37件'

• ワ 位置

作 ワ

紹介

– 米国 GAP

3大

体型

着用 8K& 身長8 170CM … 幅:

44CM* 首周 : 37CM'

• 使用方法

– 成猫体 1KG当 1日約1.4袋 目安 1日 給与量

2回以 け 与え く

(20)

当 商品 属性値 説明 関係 い記述 抽

出&37件'

• ワ 位置

作 ワ

紹介

– 米国 GAP

3大

体型

着用 8K& 身長8 170CM … 幅:

44CM* 首周 : 37CM'

• 使用方法

– 成猫体 1KG当 1日約1.4袋 目安 1日 給与量

2回以 け 与え く

毎 商品 内 文 何 い 言及 い

い 文 識別 処理 必要

(21)

属性値 多義性 起因 誤抽出&33件' 1/3

&16件'

– 着丈37AK 身幅 20AK

袖幅/5AK

– 32,3AK

身幅

– CKNMPGM APKALG 0./1 QQ 新作 半袖R

J/R/3H J/O2H /.. ワ

CA

(22)

属性値 多義性 起因 誤抽出&33件' 1/3

&16件'

– 着丈37AK 身幅 20AK

袖幅/5AK

– 32,3AK

身幅

– CKNMPGM APKALG 0./1 QQ 新作 半袖R

J/R/3H J/O2H /.. ワ

CA

• 属性 属性 記述

多い

• 表 記述 理解

• 従来 多義性解消技術

(23)

属性値 多義性 起因 誤抽出&33件' 2/3

• 割合&9件'

5.$ 0.$

度数

/.$

– 粗 白質82,.$以

粗脂

粗脂 8.,/$以

– .,.3$以

粗脂

• 素材 相当 表現 間 挟 割合表現 抽出対象

い&混合比 素材 一緒 併記 多い

• 属性 属性 記述

多い

• 表 記述 理解

(24)

属性値 多義性 起因 誤抽出&33件' 3/3

• そ 他&8件'

– LW

産地

&2.

選ば

最高級品 通称

最高 葡萄 熟成 生産量 極 少 く

本場 日本 手 入 い究極

産地

ば い

(25)

起因 誤抽出&5件'

• 全 事例

– 本物

産地

味わい 感 自然

派!

産地

要素 べ 備え い

過言 あ

彼 飲 心地 良く 果実味 豊

産地

要素 べ 備え い 過言

(26)

形態素解析 過 割 誤抽出&1件'

品種

[0..4]

語 Mandulas

任意 集合 自動的 語彙 獲得 *形態素

解析器 辞書 動的 拡充 必要

(27)

商品 内 誤 情報 抽出&1件'

1000ml

220ml

???

1100ml

(28)

商品 内 誤 情報 抽出&1件'

1000ml

220ml

???

1100ml

抽出元 信頼度や*画像 以外

情報 考慮 必要

(29)

False-negative

• False-negative 831事例 毎 無

50件抽出

全18件

• 以 条件 削除 *残

188件 調査

– 誤 登録 商品

– 人手 一致 * 正解 見

題 い

事例数 割合 [%]

異表記 辞書 含 い い 100 53.2

異表記 辞書 含 69 36.7

抽出手法 問題 19 10.1

(30)

異表記 辞書 含 い い&100件'

事例数

型番 27 (適応機種, NV+212A), (適応機種, MDDGACHCR NPM I3 2..)

組織 15 (生産者, ), (生産者, AFARCAS B ’WOS

CK), ( , わ わ ), ( , 日本 )

商品 14 (商品 ,

6..KJ)

10 ( , TALGJJADSBEC), ( , ) 割合 7 (粗繊維, .,/$), (粗 質, //,1$以 )

素材 7 (成 , &

加水 解 ), (成 , 和漢植物 )

6 ( , 3.. 用), ( , 着丈43AK 身幅27AK 袖 幅/7AK)

6 (生産者, ), (生産者, )

容量 4 (容量, /6,0KJ), (内容量, 35E×/0 )

4 (産地, ), (産地, 島根県)

(31)

異表記 辞書 含 い い&100件'

事例数

型番 27 (適応機種, NV+212A), (適応機種, MDDGACHCR NPM I3 2..)

組織 15 (生産者, ), (生産者, AFARCAS B ’WOS

CK), ( , わ わ ), ( , 日本 )

商品 14 (商品 ,

6..KJ)

10 ( , TALGJJADSBEC), ( , ) 割合 7 (粗繊維, .,/$), (粗 質, //,1$以 )

素材 7 (成 , &

加水 解 ), (成 , 和漢植物 )

6 ( , 3.. 用), ( , 着丈43AK 身幅27AK 袖 幅/7AK)

6 (生産者, ), (生産者, )

容量 4 (容量, /6,0KJ), (内容量, 35E×/0 )

4 (産地, ), (産地, 島根県)

固 表現 属性 間 変換 設け

固 表現認識 抽出 能性 あ &46%'

(32)

異表記 辞書 含 い &69件'

事例数

辞書

空白*中黒* 無,

替わ

18 NGVSQ 77.G NGVSQ77.G

略語 13 VJ

/..$ AMRRML

CVRPA JAPEC A/..$

長音 替わ 11 +6 酸LA 酸LA

翻訳 10 QASRCPLCQ

硫酸LA

FMJJGQRCP 硫酸

言い換え 7 /2,3$

/2,3度

接辞 4

違い 2

加水 加水

扱い 1 0$以 0,.$以

送 仮 1 6.E×26缶入 6.E×26缶入

3 --- ---

(33)

異表記 辞書 含 い &69件'

事例数

辞書

空白*中黒* 無,

替わ

18 NGVSQ 77.G NGVSQ77.G

略語 13 VJ

/..$ AMRRML

CVRPA JAPEC A/..$

長音 替わ 11 +6 酸LA 酸LA

翻訳 10 QASRCPLCQ

硫酸LA

FMJJGQRCP 硫酸

言い換え 7 /2,3$

/2,3度

接辞 4

違い 2

加水 加水

扱い 1 0$以 0,.$以

送 仮 1 6.E×26缶入 6.E×26缶入

3 --- ---

中 辞書中 表現 編集距 考慮 柔軟

行う 改善 事例 多い&54%'

(34)

抽出手法 問題&19件'

• 正 い属性-属性値 辞書中 あ 抽出

&13件'

– 属性値 数値 体

• 属性値 最長一致 抽出 問題&3

件'

– < *爽や >*< *辛 >

– 赤い果実 香 爽や

• 属性値 多義性 基 く誤 &3件'

– <身幅*33,3AK>*< 幅*33,3AK>

幅33,3AK

身幅

身幅36,3AK 着丈5.,3AK 袖

丈/6AK

(35)

抽出手法 問題&19件'

• 正 い属性-属性値 辞書中 あ 抽出

&13件'

– 属性値 数値 体

• 属性値 最長一致 抽出 問題&3

件'

– < *爽や >*< *辛 >

– 赤い果実 香 爽や

• 属性値 多義性 基 く誤 &3件'

– <身幅*33,3AK>*< 幅*33,3AK>

幅33,3AK

身幅

身幅36,3AK 着丈5.,3AK 袖

丈/6AK

• 数値情報 扱い

• 文 列長 け く*辞書 考慮

• 多義性解消

(36)

• 商品 属性値抽出 題材 *false-positive/

negative 調査 *そ 事例 類 試

• 必要 処理

– 質 高い辞書

– 属性値抽出対象箇所

– 文中 主題 認識

細 固 表現 認識技術

– 属性値 抽出 多義性解消

– 辞書 表現 柔軟

参照

関連したドキュメント

“Breuil-M´ezard conjecture and modularity lifting for potentially semistable deformations after

 Although the vacuous proof example on slide Although the vacuous proof example on slide 40 is a contradiction.. 40 is

Clock Mode Error 動作周波数エラーが発生しました。.

目標 目標/ 目標 目標 / / /指標( 指標( 指標(KPI 指標( KPI KPI KPI)、実施スケジュール )、実施スケジュール )、実施スケジュール )、実施スケジュールの の の の設定

○○でございます。私どもはもともと工場協会という形で活動していたのですけれども、要

Chateau Herbicide SW, at 2 to 4 oz/A, can be used in the fall to provide residual weed control in fields that will be planted the fol- lowing spring with cotton (refer to Rotation-

Altera Nios II フォルダを展開し、Existing Nios II software build tools project or folder into workspace を選択します(図 2–9 を参 照)。.

Scale 5 oz Apply with ground or air equipment as a full cover- age spray (minimum of 5 gals/A by air or 50 gals/A by ground) Thorough coverage is critical for ade- quate control It