新 圭司
楽天技術研究所
情報抽出 誤 析
+ 商品 属性値抽出 題材 +
目的
• 抽出結果 false-positive/negative 析 通 *
情報抽出 性能向 処理
必要 明
• 商品 属性情報 抽出
– 産
産地 ぶ う品種配 辛 ワ
– 実世界 高く* 析*商品
利用 能
• 40代男性 産 辛 ワ 売 い
対象
• 楽天 公開 配布 い 以
属 商品 20件抽出
– ワ * * *R *
• 以 属性 値
対象属性
ワ 品種*容量*産地*生産者* *度数
容量* *製造国*成 *商品 * * 量
容量* * * 量*適応機種*製造国
R * *素材*色*着丈*身幅* 幅
*内容量*原産国*粗繊維*粗脂 *粗灰 *
水 *粗 質
対象 規模
文数 属性値数
ワ 355 262
638 490
286 375
R 720 357
382 132
合計 2,381 1,702
商品 特徴
• 商品 数 多く* 毎 訓練 整
備 困
• 一部 商品 構造化 属性情報 含
*そ 属性値 辞書 構築 能
箇条書
商品 属性値抽出方法
• 辞書 基 く属性値抽出
• 純 原因 究明 容易
• Distant supervision 基 く手法 訓練 作成
部 相当
辞書
自動
付 &高品質' 機械学習
付
Roth+ 2013,
Xu+ 2013
辞書 構築 [Shinzato and Sekine 2013]
• 属性 獲得
– <TH> 囲 表現
– ワ &e.g. 保 方法*そ 他*商品説明* …'
• 属性-属性値 獲得
– 正規表現 [Yoshinaga and Torisawa 2006]
• P1: <T(H|D)>[ATTR]</T(H|D)><TD>[ANY]</TD>
• P2: [P][ATTR][S][ANY][P] e.g. 品種 …
• P3: [P][ATTR][ANY][P] e.g. 産地 …
• P4: [ATTR][S][ANY][ATTR][S] e.g. 地域8 容量8 …
[ANY] … 任意 文 列 [P] … ○ <[ [S] … 8- >]
自動構築 辞書 例&ワ '
品種 容量 産地 生産者 度数
750ML 辛 /0$
720ML 赤 /0,3$
375ML ワ 白 //,3$
500ML M. //$
1500ML やや甘 /1$
360ML 甘 /1,3$
200ML やや辛 /2$
3000ML /.$
1800ML /0度
1000ML /2度未満
自動構築 辞書 精度
数 精度 [%]
ワ 3,940 80.8
6,798 83.3
956 71.3
R 10,227 43.5
797 83.0
辞書 基 く情報抽出
• 入力文 形態素解析 *属性値 最長一致 形態
素列 対 属性 付け
– JUMAN 7.01 利用
– 誤抽出 減 *属性値 数
辞書 削除&e.g., <度数, 12>'
– 属性値 入 子 考え い
Prec. [%] Recall [%] TP FP FN
ワ 56.4 61.4 159 123 100
49.9 62.7 335 337 199 71.8 46.3 171 67 198
R 17.6 23.1 95 446 316
56.9 86.0 111 84 18
全体 45.1 51.2 871 1,057 831
析
False-positive
• False-positive 1,057事例 い *以
目 次 類
目 全体
(割合) ワ R
1. 正 い属性-属性値
基 い 属性値 抽出
?
712
(67.4%) 47 183 59 376 47
2. 属性値 抽出 べ
商品 う ?
53
(5.0%) 0 46 0 7 0
3. 商品 関係
属性値 抽
出 ?
99
(9.4%) 9 53 4 7 26
合計
(FP事例 割合)
864 (81.7%)
56 (45.5%)
282 (83.7%)
63 (94.0%)
390 (87.4%)
73 (86.9%)
False-positive
• False-positive 1,057事例 い *以
目 次 類
目 全体
(割合) ワ R
1. 正 い属性-属性値
基 い 属性値 抽出
?
712
(67.4%) 47 183 59 376 47
2. 属性値 抽出 べ
商品 う ?
53
(5.0%) 0 46 0 7 0
3. 商品 関係
属性値 抽
出 ?
99
(9.4%) 9 53 4 7 26
合計
(FP事例 割合)
864 (81.7%)
56 (45.5%)
282 (83.7%)
63 (94.0%)
390 (87.4%)
73 (86.9%)
• そ 他 % %ワ 関連
♪※ 次追加中!&ワ '
• 一覧 & '
• 色違い”
色” ’’RFCPC APC UATCQ LAR ’’
R &T '
赤 8 抽出
残 193件&18.2%' ?
• 適 商品 適 適 属
性-属性値 基 い 抽出 情報 誤
• 複 考慮 193件 類
全体 割合 [%] ワ R
人手 部 一致 84 41.8 15 50 1 15 3
他 部 文 列
抽出
40 19.9 23 3 3 11 0
当 商品 属性値 説明 関係
い記述 抽出
37 18.4 14 1 0 17 5 属性値 多義性 起因 誤抽出 33 16.4 10 0 0 17 6
起因 誤抽出 5 2.5 5 0 0 0 0
形態素解析 過 割 誤抽出 1 0.5 1 0 0 0 0
商品 内 誤 情報 抽出 1 0.5 0 1 0 0 0
全体 201 100.0 68 55 4 60 14
人手 部 一致&84件'
• 37件 正解 見 問題 い
– 位置 歴史あ
– 国内 製 品
– 薄手 素材 着心地抜群
– 表記 J
• 残 47件人手 部 一致 い
* 抽出 意味 い
– …
+B+ NA液 油脂 酸
…
赤 8 抽出
青枠8人手
人手 部 一致&84件'
• 37件 正解 見 問題 い
– 位置 歴史あ
– 国内 製 品
– 薄手 素材 着心地抜群
– 表記 J
• 残 47件人手 部 一致 い
* 抽出 意味 い
– …
+B+ NA液 油脂 酸
…
赤 8 抽出
青枠8人手
• 認識
• 固 詞 一部 抽出 い
他 部 文 列 抽出&40件'
• 固 表現&24件'
– 革 戦い 舞 歴史あ
– … 関連商品 BCI+6 BK BCI+6C BCI+ 6M…
• 固 用語&13件'
– 最 いAOC 算
出
– … 水 …
• 詞 &3件'
– … 大手 連 い
– 各種機関 厳 い環境基準 解作用
汚 け 解 く 髪や頭皮 傷
他 部 文 列 抽出&40件'
• 固 表現&24件'
– 革 戦い 舞 歴史あ
– … 関連商品 BCI+6 BK BCI+6C BCI+ 6M…
• 固 用語&13件'
– 最 いAOC 算
出
– … 水 …
• 詞 &3件'
– … 大手 連 い
– 各種機関 厳 い環境基準 解作用
汚 け 解 く 髪や頭皮 傷
• 固 表現や 特 表現 一部 情報 抽出 い
• 詞 構造 解析 *主辞以外 部 情報 抽出 い
当 商品 属性値 説明 関係 い記述 抽
出&37件'
• ワ 位置
– 知 社
作 ワ
• 紹介
– 米国 GAP & '
3大 …
• 体型
– 着用 8K& 身長8 170CM … 幅:
44CM* 首周 : 37CM'
• 使用方法
– 成猫体 1KG当 1日約1.4袋 目安 1日 給与量
2回以 け 与え く い
当 商品 属性値 説明 関係 い記述 抽
出&37件'
• ワ 位置
– 知 社
作 ワ
• 紹介
– 米国 GAP & '
3大 …
• 体型
– 着用 8K& 身長8 170CM … 幅:
44CM* 首周 : 37CM'
• 使用方法
– 成猫体 1KG当 1日約1.4袋 目安 1日 給与量
2回以 け 与え く い
毎 商品 内 文 何 い 言及 い
い 文 識別 処理 必要
属性値 多義性 起因 誤抽出&33件' 1/3
• &16件'
– 着丈37AK 身幅 20AK
幅袖幅/5AK
– 32,3AK
身幅– CKNMPGM APKALG 0./1 QQ 新作 半袖R
J/R/3H J/O2H /.. ワ
CA
属性値 多義性 起因 誤抽出&33件' 1/3
• &16件'
– 着丈37AK 身幅 20AK
幅袖幅/5AK
– 32,3AK
身幅– CKNMPGM APKALG 0./1 QQ 新作 半袖R
J/R/3H J/O2H /.. ワ
CA
• 属性 値 距 & 属性 記述
多い '
• 表 記述 理解
• 従来 多義性解消技術
属性値 多義性 起因 誤抽出&33件' 2/3
• 割合&9件'
– ワ 5.$ 0.$
度数/.$
– 粗 白質82,.$以
粗脂粗脂 8.,/$以 …
– .,.3$以
粗脂• 素材 相当 表現 間 挟 割合表現 抽出対象
い&混合比 素材 一緒 併記 多い '
• 属性 値 距 & 属性 記述
多い '
• 表 記述 理解
属性値 多義性 起因 誤抽出&33件' 3/3
• そ 他&8件'
– LW
産地&2. 以 '
選ば
– 最高級品 通称
最高 葡萄 熟成 生産量 極 少 く
本場 日本 手 入 い究極
幻
産地ば い
起因 誤抽出&5件'
• 全 事例 関
– 本物
産地味わい 感 く 自然
派!
–
産地求 要素 べ 備え い 言
過言 あ
彼 飲 心地 良く 果実味 豊
産地
求 要素 べ 備え い 言 過言
あ
形態素解析 過 割 誤抽出&1件'
•
品種[0..4]
& '
語 Mandulas
任意 集合 自動的 語彙 獲得 *形態素
解析器 辞書 動的 拡充 必要 あ
商品 内 誤 情報 抽出&1件'
1000ml
220ml
???
1100ml
商品 内 誤 情報 抽出&1件'
1000ml
220ml
???
1100ml
抽出元 信頼度や*画像 以外
情報 考慮 必要 あ
False-negative
• False-negative 831事例 毎 無
作 50件抽出
– 関 全18件
• 以 条件 い 満 削除 *残
188件 調査
– 誤 登録 商品
– 人手 部 一致 * 正解 見 問
題 い
事例数 割合 [%]
異表記 辞書 含 い い 100 53.2
異表記 辞書 含 い 69 36.7
抽出手法 問題 19 10.1
異表記 辞書 含 い い&100件'
事例数 例
型番 27 (適応機種, NV+212A), (適応機種, MDDGACHCR NPM I3 2..)
組織 15 (生産者, ), (生産者, AFARCAS B ’WOS
CK), ( , わ わ ), ( , 日本 )
商品 14 (商品 ,
6..KJ)
10 ( , TALGJJADSBEC), ( , ) 割合 7 (粗繊維, .,/$), (粗 質, //,1$以 )
成 素材 7 (成 , & '
加水 解 ), (成 , 和漢植物 )
6 ( , 3.. 用), ( , 着丈43AK 身幅27AK 袖 幅/7AK)
人 6 (生産者, ), (生産者, )
容量 4 (容量, /6,0KJ), (内容量, 35E×/0 )
地 4 (産地, ), (産地, 島根県)
異表記 辞書 含 い い&100件'
事例数 例
型番 27 (適応機種, NV+212A), (適応機種, MDDGACHCR NPM I3 2..)
組織 15 (生産者, ), (生産者, AFARCAS B ’WOS
CK), ( , わ わ ), ( , 日本 )
商品 14 (商品 ,
6..KJ)
10 ( , TALGJJADSBEC), ( , ) 割合 7 (粗繊維, .,/$), (粗 質, //,1$以 )
成 素材 7 (成 , & '
加水 解 ), (成 , 和漢植物 )
6 ( , 3.. 用), ( , 着丈43AK 身幅27AK 袖 幅/7AK)
人 6 (生産者, ), (生産者, )
容量 4 (容量, /6,0KJ), (内容量, 35E×/0 )
地 4 (産地, ), (産地, 島根県)
固 表現 属性 間 変換 設け *
固 表現認識 抽出 能性 あ &46%'
異表記 辞書 含 い &69件'
事例数 例
辞書
空白*中黒* 無,
入 替わ
18 NGVSQ 77.G NGVSQ77.G
略語 13 VJ
/..$ AMRRML
CVRPA JAPEC A/..$
長音 入 替わ 11 +6 酸LA 6 酸LA
翻訳 10 QASRCPLCQ
硫酸LA
FMJJGQRCP 硫酸
言い換え 7 /2,3$
社
/2,3度
接辞 無 4 社
翻 違い 2
加水 解 加水 解
数 扱い 1 0$以 0,.$以
送 仮 無 1 6.E×26缶入 6.E×26缶入
そ 他 3 --- ---
異表記 辞書 含 い &69件'
事例数 例
辞書
空白*中黒* 無,
入 替わ
18 NGVSQ 77.G NGVSQ77.G
略語 13 VJ
/..$ AMRRML
CVRPA JAPEC A/..$
長音 入 替わ 11 +6 酸LA 6 酸LA
翻訳 10 QASRCPLCQ
硫酸LA
FMJJGQRCP 硫酸
言い換え 7 /2,3$
社
/2,3度
接辞 無 4 社
翻 違い 2
加水 解 加水 解
数 扱い 1 0$以 0,.$以
送 仮 無 1 6.E×26缶入 6.E×26缶入
そ 他 3 --- ---