単語の多義性を考慮していない
Wikipedia 他言語へのリンク
全体の流れ
閲覧記事
関連する 記事 1
同じタイトルを 持つ他言語
の記事 比較
関連する 記事 2
補完情報抽出
比較対象記事群
ユーザ
比較対象記事の決定
比較対象領域の決定
関連する 記事 n
①
②
補完
補完情報提示手法
③
④
①比較対象記事の決定
リンク構造解析
リンクグラフの生成
比較対象ページの取得 関連度計算
強連結:関連性が強い 関連している記事同士は リンク関係にある
剣道家一覧
二刀流 剣道
企業
Kendo 平成
0.3
0.05
片
双
双
双 比較
関連度が 低い
双方向リンクでない
補完情報抽出
閾値以下を取り除く
0.23
①比較対象記事の決定
• 過去の手法
– リンクグラフのノード間を Cos 類似度で計算
• 適合率 :35%, 再現率 :49%,F 値 :41
⇒精度が低かった
関連度
アンカー文字列の出現位置
アンカー文字列の出現回数
双方向リンク注目した
記事と記事との関連する度合い
サマリにリンクを張っている記事は 関連性が高い
記事に何度も出現する
アンカー文字列は関連性が高い
コンテンツの類似性
関連する記事はある程度内容が 似ているBatting
Cricket
①比較対象記事の決定
サマリ
セグメント セグメント
セグメント
記事をサマリとセグメントに分割 一番初めの説明部分
関連度
①比較対象 Wikipedia の記事の決定
タイトル:
セグメント A
サマリ
セクション 1 セグメント B セクション 2
セグメント n セクション n
双方向リンク の記事
(例:Batting)
アンカー文字列
アンカー文字列
サマリ エリア
クエリがタイトルのページ (例:Cricket)
比較対象記事のアンカー文字列が基準記事のサマリ,
どのセグメントに出現するかを求める
関連度
アンカー文字列の出現位置
基準記事
①比較対象記事の決定
タイトル:
セグメント A
サマリ
セクション 1 セグメント B セクション 2
セグメント n セクション n
双方向リンク の記事
(例:Batting)
出現回数計算
出現回数計算
サマリ エリア
クエリがタイトルのページ (例:Cricket)
比較対象記事のアンカー文字列が出現するサマリ,セグメントに対し 比較対象記事のアンカー文字列の出現回数を求める
関連度
アンカー文字列の出現回数
基準記事
①比較対象記事の決定
タイトル:
セグメント A
サマリ
セクション 1 セグメント B セクション 2
セグメント n セクション n
双方向リンク の記事
(例:Batting) サマリ エリア
クエリがタイトルのページ (例:Cricket)
比較対象記事のアンカー文字列が出現するサマリ,セグメントに対し 比較対象記事との類似度を計算
関連度
コンテンツの類似性
比較
比較
基準記事
①比較対象記事の決定
タイトル:
セグメント A
サマリ
セクション 1 セグメント B セクション 2
セグメント n セクション n
双方向リンク の記事
(例:Batting)
アンカー文字列
アンカー文字列
比較
比較 サマリ エリア
クエリがタイトルのページ (例:Cricket)
i:比較対象ノード
TFsumiのサマリのアンカー文字列の出現回数 Ssumiのサマリと比較対象記事との類似度
TFikのあるセグメントのアンカー文字列の出現回数 Sikのあるセグメントと比較対象記事との類似度 n:あるlのリンクを張っているセグメントの数
max(Rim):比較対象記事群のRiの最大値
) max(
/ )}
( )
( {
1
im ik
n
k
ik sum
sum
i
TF S TF S R
R
i i
・ ・ ・
関連度
基準記事
②コンテンツの比較
・ Wikipedia の記事は構造に基づいて段落に分かれている
→ 意味的に分かれている可能性が高い
・各々の段落におけるコンテンツ同士の類似度を求める
・全てのコンテンツに対しある閾値以下である段落を補完情報として抽出
セグメント 1 セグメント 2
セグメント n
比較対象記事
セグメント 1 セグメント 2
セグメント n
閲覧記事
比較
②コンテンツの比較
例:フィッシュ・アンド・チップス
セグメント セグメント セグメント
セグメント
セグメント
比較対象記事 閲覧記事
記事をセグメントという単位に分ける
②コンテンツの比較
例:フィッシュ・アンド・チップス
セグメント セグメント セグメント
セグメント セグメント
閲覧記事の全ての セグメントに対し 類似度が閾値以下
補完情報
比較対象記事 閲覧記事
名詞の出現頻度を抽出
名詞の出現頻度を抽出
名詞の出現頻度を抽出
名詞の出現頻度を抽出
名詞の出現頻度を抽出
x y x y
i j i j
y x
Cos 2 2
) , (
xi:日本語版記事の名詞の出現頻度
yi:英語版記事の名詞の出現頻度
・各々の段落におけるコンテンツ同士の類似度を求める
・全てのコンテンツに対しある閾値以下である段落を補完情報として抽出
④補完情報の提示
• 補完情報抽出手法により得られた補完情報 の提示
補完情報の提示
補完情報と閲覧記事との関連性に基づき閲覧記事の 適した場所に補完情報へのリンクを張りユーザに提示
目次のタイトル ページ構造
関連性
類似性
④補完情報の提示
剣道(比較対象記事) 1 歴史
・
・
4 服装・用具 1.1 江戸時代
Kendo(閲覧記事) 1 History
・
・
4 Equipment and clothing 2 Practitioners
・
・
・
・
補完情報
服装→equipment 用具→clothing
閲覧言語に翻訳
名詞抽出
①:補完情報の目次のタイトルに注目
補完情報の目次のタイトルに注目し,タイトルの名詞を含む閲覧記事の目次に補完を 行う
補完 目次のタイトル
4 Equipment and clothing
マッチング
④補完情報の提示
剣道(比較対象記事) 1 歴史
・
・
1.1 江戸時代
Kendo(閲覧記事) 1 History
・
・
4 Equipment and clothing 2 Practitioners
・
・
・
・
補完情報
歴史→History
閲覧言語に翻訳
1.5 年表
補完
②: ①で補完できないかつ補完情報がサブセクションの場合
サブセクションは親セクションを詳細に記載していると考え,その親セクションに注目 し,親セクションのタイトルの名詞を含んでいる閲覧記事の目次に補完を行う
名詞抽出 ページ構造
マッチング
④補完情報の提示
剣道(比較対象記事) 1 歴史
・
・
2 組織統括
Kendo(閲覧記事) 1 History
・
・
7 Rules of Competition 2 Practitioners
・
・
・
・
補完情報
6.6 審判員
補完
類似度(高)
類似度計算
閾値δ以上の場合:その中で最も高い値の場所へ補完
③: ①と②で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
類似性
④補完情報の提示
剣道(比較対象記事) 1 歴史
・
・
2 組織統括
Kendo(閲覧記事) 1 History
・
・
13 See also
2 Practitioners
・
・
・
・
補完情報
6.6 審判員
類似度計算
閾値δ未満の場合:新しい情報として関連項目の手前に補完 3: 1と2で補完できない場合
関連している情報はある程度類似していると考え類似度を計算
類似性
閾値δ未満 閾値δ未満 閾値δ未満
プロトタイプシステム
プロトタイプシステム
プロトタイプシステム
• 比較対象記事決定の閾値の設定とその精度を測った
– 実験内容
•
関連度と Baseline
•
Baseline:Cos 類似度
•
再現率,適合率, F 値を比較
•
比較言語版
– 閲覧言語:日本語版 – 比較対象言語:英語版
•
条件
– α=1〜10を1刻み – 閾値0〜1を0.05刻み
) max(
/ )}
( )
( {
1
im ik
n
k
ik sum
sum
i
TF S TF S R
R
i i
・ ・ ・
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
Batting
Laws of cricket Cricket
Hockey
0.3
双方向リンクでない
0.23
クエリ 正解データ数
Bannock(food) 2
Warwick Castle 2
Black dog (ghost) 7
Fish and chips 4
Goodwood Festival of Speed 2
Bowls 2
Burleque 3
Flag of Scotland 6
Gaelic handball 4
Kipper 3
Natinal Gallery of Scotland 12
Lipton 1
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
正解データ : 比較対象記事に成り得る記事
抽出した比較対象記事
正解データ 抽出した比較対象記事
適合率
正解データ
正解データ 抽出した比較対象記事
再現率
0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
実験1:各閾値とαにおけるF値の平均
α=1 α=2 α=3 α=4 α=5 α=6 α=7 α=8 α=9 α=10 F値
閾値
グラフよりα=3で閾値が0.2の時に最も高いF値を得ることができた よってα=3、閾値を0.2と設定する
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
0 0.2 0.4 0.6 0.8 1
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ
適合率
0 0.2 0.4 0.6 0.8 1
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ
再現率
0 0.2 0.4 0.6 0.8 1
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) クエリ
F値 Number クエリ 正解データ
(1) Bannock (food) 2
(2) Warwick Castle 2
(3) Black dog (ghost) 7
(4) Fish and chips 4
(5) Goodwood Festival of Speed 2
(6) Bowls 2
(7) Burlesque 3
(8) Flag of Scotland 6
(9) Gaelic handball 4
(10) Kipper 3
(11) National Gallery of Scotland 12
(12) Lipton 1
平均(適合率:0.37->0.59,再現率:0.45->0.64,F値:0.36->0.52)
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
• 結果の良い例 (Gaelic handball)
– Baseline
• 関連する記事である GAA Handball という
Gaelic handball の理事会の記事が抽出できなかった
• Gaelic handball と Gaelic handball の理事会の場合は理
事会は Gaelic handball の競技の説明をしているわけで
はない.値が低くなり抽出できなかった
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
_________
_________
_________
_________
_________
_________
_________
_________
Gaelic handball GAA handball
比較
• 結果の良い例 (Gaelic handball)
– 提案手法
• 関連する記事である GAA Handball が抽出
• Gaelic handball の記事の中にある Gaelic handball の理 事会を説明している部分と Gaelic handball の理事会の 記事を比較.関連度が高くなり抽出できた
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
_________
_________
_________
_________
Gaelic handball GAA handball
GAA Handball 比較 の説明
• 比較対象記事であるにも関わらず比較対象 記事として抽出されない記事が存在した
– 例: Bowls
• 比較対象記事である World Bowls Events が抽出できな かった
• アンカー文字列が See also( 関連項目 ) に出現
See also(関連項目)
コンテンツ量が豊富ではない
World Bowls Eventsについて情報がほとんどない
World Bowls Eventsのアンカー文字列が一回しか出現しない
関連度であるとBowlsのSee alsoの部分と
World Bowls Eventsの記事の内容全てとの比較し計算する
関連度が低くなり抽出できなかった
実験1 : 比較対象記事の決定
比較対象記事の 決定
補完情報抽出
• 得られた比較対象記事と閲覧記事を用いて補 完情報抽出を行い最適な閾値を求めた
– 内容
• コンテンツの比較の際の閾値
• 条件
–
閾値 0 〜 1 を 0.05 刻み
–
補完情報の適合率、再現率、 F 値
• 比較言語
–
閲覧言語 : 日本語版
–比較対象言語 : 英語版
• 実験対象記事 : 評価実験1と同じ
比較対象記事の 決定
補完情報抽出
評価実験2:補完情報抽出
セグメント 1 セグメント 2
セグメント n
比較対象記事
セグメント 1 セグメント 2
セグメント n
閲覧記事
比較