• 検索結果がありません。

)max(

1 剣道における …

1.2 試合 …

2

西洋剣術

比較基準記事のタイトル

比較領域

②比較対象領域の決定

部分一致記事

セクション タイトル

サブセクション サブセクション

セグメント 1 セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

セクションのタイトルに比較基準記事 のタイトルを含む場合

サブセクションのタイトルに比較基準記事 のタイトルを含む場合

記事本文中に比較基準記事のタイトルを含む場合

セクション タイトル

サブセクション サブセクション

セグメント 1 セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

セクション

セクション セグメント 1

セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

比較領域

②比較対象領域の決定

セグメント 1 セグメント 2

セグメント n

Kendo(

閲覧記事

)

比較

サブセクションのタイトルに比較基準記事のタイトルを含む場合 親セクションとそのサブセクションを比較対象とする

兄弟セクションは比較基準記事と関係が弱いと 考え,比較対象領域としない

二刀流

(

部分一致記事

)

1

日本

1.1 剣術

1.2 剣道

比較領域 1.3 スポーツ

比較基準記事のタイトル

親セクション

②比較対象領域の決定

部分一致記事

セクション タイトル

サブセクション サブセクション

セグメント 1 セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

セクションのタイトルに比較基準記事 のタイトルを含む場合

サブセクションのタイトルに比較基準記事 のタイトルを含む場合

記事本文中に比較基準記事のタイトルを含む場合

セクション タイトル

サブセクション サブセクション

セグメント 1 セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

セクション

セクション セグメント 1

セグメント 2

セグメント n

閲覧記事

比較

部分一致記事

②比較対象領域の決定

セグメント 1 セグメント 2

セグメント n

Kendo(

閲覧記事

)

記事本文中に比較基準記事のタイトルを含む場合

比較基準記事のタイトルが含まれている段落のみを比較対象とする

比較基準記事のタイトル

比較

道場

(

部分一致記事

)

比較領域

補完情報抽出の実験

• 補完情報抽出手法の有用性を示す実験を行った

– 実験内容

• 提案手法と Baseline の比較

• Baseline: 比較対象領域の決定を行わない場合

• 適合率,再現率, F 値の比較

• 比較言語版

– 閲覧言語:英語版

– 比較対象言語:日本語版

• 設定 ( 前実験より )

– 関連度の式のα:3.0 – 関連度の閾値β:0.2

– 補完情報抽出の閾値γ:0.2

) max(

/ )}

( )

( {

1

im ik

n

k

ik sum

sum

i

TF S TF S R

R

i i

  ・ ・ ・

実験条件

正解データ:閲覧記事に対し補完情報となる比較対象記事のセクションまたは段落

結果

0.00 0.20 0.40 0.60 0.80 1.00

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

クエリ

適合率

0.00 0.20 0.40 0.60 0.80 1.00

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

クエリ

再現率

0.00 0.20 0.40 0.60 0.80 1.00

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

クエリ

FNumber(1) My Neighbor Totoro(クエリ となりのトトロ)

(2) Doraemon(ドラえもん) (3) Iaido(居合道)

(4) Manzai(漫才) (5) Yukata(浴衣)

(6) Urashima Taro(浦島太郎) (7) Pikachu(ピカチュウ)

(8) Kinkaku-ji(鹿苑寺)

(9) Hello_Kitty(ハローキティ) (10) Kyudo(弓道)

平均(適合率:0.60->0.86,再現率:0.68->0.62,F値:0.62->0.71)

結果の良い例

• 居合道

– Baseline

部分一致記事である武道の称号の範士が抽出,しかし柔道や弓 道の範士のように居合道に関係のない情報が抽出された

– 提案手法

範士,その中でも居合道の情報のみが抽出できた

• となりのトトロ

– Baseline

部分一致記事である狭山丘陵,地理情報などとなりのトトロと関 係のない情報が抽出された

– 提案手法

狭山丘陵,となりのトトロの舞台となったという情報が抽出できた

結果の悪い例

• 部分一致記事において補完情報と成り得な い情報が抽出される場合が存在した

– 例:ドラえもん

• 部分一致記事として作者の藤子・ F ・不二雄が抽出

• 藤子・ F ・不二雄の記事では多くのセクションでドラえも んのアンカー文字列が出現

• ドラえもん以外に多くの漫画を描いており,ドラえもん の補完情報とならない情報が抽出された

• 比較対象となる領域が正しく決定できない場

合が存在

• 比較対象記事決定の閾値の設定とその精度を測った

– 実験内容

関連度と Baseline

Baseline:Cos 類似度

再現率,適合率, F 値を比較

比較言語版

– 閲覧言語:日本語版

– 比較対象言語:英語版

条件

– α=1〜10を1刻み – 閾値0〜1を0.05刻み

) max(

/ )}

( )

( {

1

im ik

n

k

ik sum

sum

i

TF S TF S R

R

i i

  ・ ・ ・

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

Batting

Laws of cricket Cricket

Hockey

0.3

双方向リンクでない

0.23

クエリ 正解データ数

Bannock(food) 2

Warwick Castle 2

Black dog (ghost) 7

Fish and chips 4

Goodwood Festival of Speed 2

Bowls 2

Burleque 3

Flag of Scotland 6

Gaelic handball 4

Kipper 3

Natinal Gallery of Scotland 12

Lipton 1

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

正解データ : 比較対象記事に成り得る記事

抽出した比較対象記事

正解データ 抽出した比較対象記事

適合率 

正解データ

正解データ 抽出した比較対象記事

再現率 

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

実験1:各閾値とαにおけるF値の平均

α=1 α=2 α=3 α=4 α=5 α=6 α=7 α=8 α=9 α=10 F

閾値

グラフよりα=3で閾値が0.2の時に最も高いF値を得ることができた よってα=3、閾値を0.2と設定する

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

0 0.2 0.4 0.6 0.8 1

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ

適合率

0 0.2 0.4 0.6 0.8 1

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ

再現率

0 0.2 0.4 0.6 0.8 1

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ

F値 Number クエリ 正解データ

(1) Bannock (food) 2

(2) Warwick Castle 2

(3) Black dog (ghost) 7

(4) Fish and chips 4

(5) Goodwood Festival of Speed 2

(6) Bowls 2

(7) Burlesque 3

(8) Flag of Scotland 6

(9) Gaelic handball 4

(10) Kipper 3

(11) National Gallery of Scotland 12

(12) Lipton 1

平均(適合率:0.37->0.59,再現率:0.45->0.64F値:0.36->0.52)

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

• 結果の良い例 (Gaelic handball)

– Baseline

• 関連する記事である GAA Handball という

Gaelic handball の理事会の記事が抽出できなかった

• Gaelic handball と Gaelic handball の理事会の場合は理

事会は Gaelic handball の競技の説明をしているわけで

はない.値が低くなり抽出できなかった

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

_________

_________

_________

_________

_________

_________

_________

_________

Gaelic handball GAA handball

比較

• 結果の良い例 (Gaelic handball)

– 提案手法

• 関連する記事である GAA Handball が抽出

• Gaelic handball の記事の中にある Gaelic handball の理 事会を説明している部分と Gaelic handball の理事会の 記事を比較.関連度が高くなり抽出できた

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

_________

_________

_________

_________

Gaelic handball GAA handball

GAA Handball 比較 の説明

• 比較対象記事であるにも関わらず比較対象 記事として抽出されない記事が存在した

– 例: Bowls

• 比較対象記事である World Bowls Events が抽出できな かった

• アンカー文字列が See also( 関連項目 ) に出現

See also(関連項目)

コンテンツ量が豊富ではない

World Bowls Eventsについて情報がほとんどない

World Bowls Eventsのアンカー文字列が一回しか出現しない

関連度であるとBowlsのSee alsoの部分と

World Bowls Eventsの記事の内容全てとの比較し計算する

関連度が低くなり抽出できなかった

実験1 : 比較対象記事の決定

比較対象記事の 決定

補完情報抽出

• 得られた比較対象記事と閲覧記事を用いて補 完情報抽出を行い最適な閾値を求めた

– 内容

• コンテンツの比較の際の閾値

• 条件

閾値 0 〜 1 を 0.05 刻み

補完情報の適合率、再現率、 F 値

• 比較言語

閲覧言語 : 日本語版

比較対象言語 : 英語版

• 実験対象記事 : 評価実験1と同じ

比較対象記事の 決定

補完情報抽出

評価実験2:補完情報抽出

セグメント 1 セグメント 2

セグメント n

比較対象記事

セグメント 1 セグメント 2

セグメント n

閲覧記事

比較

図より閾値が 0.2 の時に適合率,再現率が交わり共に高い値となった これにより,本研究では閾値を 0.2 と設定し補完情報の抽出を行う

比較対象記事の 決定

補完情報抽出

評価実験2:補完情報抽出

• 提案手法の有用性を示すための評価実験を行っ た

– 内容

• 提案手法で得られた補完情報の適合率、再現率、 F 値

• 比較言語

– 閲覧言語:日本語版 – 比較対象言語:英語版

• 実験対象記事 : 評価実験1と同じ

• 設定

– 関連度の式のα:3.0(評価実験1より) – 関連度の閾値β:0.2(評価実験1より)

– コンテンツの比較の閾値γ:0.2(評価実験2より)

比較対象記事の 決定

補完情報抽出

評価実験3 : 提案手法の精度

クエリ 正解データ数

Bannock(food) 2

Warwick Castle 12

Black dog (ghost) 32

Fish and chips 11

Goodwood Festival of Speed 10

Bowls 9

Burleque 22

Flag of Scotland 56

Gaelic handball 16

Kipper 16

Natinal Gallery of Scotland 4

Lipton 8

正解データ : 補完情報となるセグメント

抽出した補完情報

正解データ 抽出した補完情報

適合率 

正解データ

正解データ 抽出した補完情報

再現率 

比較対象記事の 決定

補完情報抽出

評価実験3 : 提案手法の精度

クエリ 提案手法

適合率 再現率 F値

Bannock (food) 0.33 0.5 0.4

Warwick Castle 0.79 0.92 0.85

Black dog (ghost) 0.89 0.78 0.83

Fish and chips 0.45 0.82 0.58

Goodwood Festival of Speed 0.6 0.6 0.6

Bowls 0.5 1 0.67

Burlesque 0.71 0.45 0.56

Flag of Scotland 0.98 0.88 0.92

Gaelic handball 0.68 0.94 0.79

Kipper 0.88 0.94 0.91

National Gallery of Scotland 0.57 1 0.72

Lipton 0.71 0.63 0.67

平均 0.67 0.79 0.71

適合率の平均: 0.67 ,再現率の平均: 0.79 ,F値の平均: 0.71 高い結果を得ることができ提案手法の有用性を示すことができた

比較対象記事の 決定

補完情報抽出

評価実験3 : 提案手法の精度

• 結果の良い例

– Lipton

• 日本語版にはティーパックの説明しかない

• 英語版にはトーマスリプトンがイエローラベルを考えた など情報が存在,そのイエローラベルの情報が補完情 報として抽出された

– Fish and Chips

• 比較対象記事としてマッシピーの記事が抽出

• 地域によるマッシピーの種類について情報が抽出

比較対象記事の 決定

補完情報抽出

評価実験3 : 提案手法の精度

• 閲覧記事と関係のない情報が補完情報として 抽出される場合が存在した

– 例: Black dog (ghost)

• 関連する記事として Hanging Hills というアメリカに存在す る丘の記事が抽出された

• この丘はブラック・ドッグが伝承されている

• Hanging Hills の記事にはブラック・ドッグの情報は一部分

• この丘の地理情報や地質などはブラック・ドッグの補完 情報に成り得ない

比較対象記事の 決定

補完情報抽出

評価実験3 : 提案手法の精度

今後は関係のない情報の削除を考える必要がある

関連したドキュメント