• 検索結果がありません。

第 4 章 オープンプラットフォーム

4.2 Resource Propagation Algorithm

4.2.2 潜在的リンクの推定

RPA

は,第

1

ステップにおいてキーワード推定が完了した後に,グラフ構造に基づいて 潜在的なリンクを推定する.RPAにおける潜在的リンクの推定は,一般的なラベル伝搬ア ルゴリズムと同様に,隣接ノードは同じクラスに属するという仮定の下で隣接ノードに重 みを伝搬する.このため,次のステップとして教師データの設定を行う.ここでは,以下 の式に基づいて自動的に教師データを選定し,リソースであるノードに対してラベルを付 与する.同式における

𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖は,該当ノードに隣接しているノードの数(次数)を表してお り,次数が大きいほど教師データとして採用される可能性が高くなる.C値がユーザパラ メータの閾値以上の場合は教師データとして該当のラベルがノードに付与される.閾値を

1.0

とした場合は最大で

1

種類のラベルが付与され,

0.0

とした場合は無意味であるが全て のリソースが教師データとしてラベルが付与される.例えば,図

71

に示すようにノード

i

が教師データのノードとして選定された場合,その隣接ノードにノード

i

のラベルを付与 され,ラベル予測値が

1.0

に初期化される.

𝐶𝐶

𝑖𝑖

= 𝑙𝑙𝑙𝑙𝑑𝑑 (𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖

)

𝑙𝑙𝑙𝑙𝑑𝑑 (𝑚𝑚𝑚𝑚𝑚𝑚 𝑡𝑡𝑑𝑑𝑑𝑑) (2)

図 71 教師データの自動選定 𝒊𝒊

𝒊𝒊

: Label of node.

𝒊𝒊

𝒊𝒊

𝒊𝒊

83

ノードへのラベル付与が終了した後に,ラベル予測値

1.0

のノードを中心として最短経路 で各ノードにラベルを伝搬する.このとき,ラベル予測値は以下の式により更新される.

𝑝𝑝

𝑗𝑗,𝑘𝑘

+ 𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖,𝑗𝑗

∗ 𝑝𝑝

𝑖𝑖,𝑘𝑘

�𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖

→ 𝑝𝑝

𝑗𝑗,𝑘𝑘

(3)

𝑝𝑝

𝑗𝑗,𝑘𝑘は,ラベル予測値の更新対象であるノードのラベル予測値であり,

𝑝𝑝

𝑖𝑖,𝑘𝑘はラベル伝搬

元のラベル予測値である.また,

𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖はラベル伝搬元のノード次数であり,

𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑

𝑖𝑖,𝑗𝑗はラベ ルの伝搬元ノードと伝搬先ノードを結ぶエッジの重みである.このエッジ重みは,観光語 彙基盤に基づいて決定される.図

72

は,観光語彙基盤におけるキーワードの伝搬定数を 変化させたときの以下の式に基づいて

Dice

係数値の変化を評価したものであり,

RPA

に よるラベル正解率を表している.同図より,キーワードの伝搬定数が大きいほどラベル正 解率が向上する傾向に有ることが分かる

[70]

𝐴𝐴𝐴𝐴𝑑𝑑.𝐷𝐷𝑡𝑡𝐷𝐷𝑑𝑑 𝐷𝐷𝑙𝑙𝑑𝑑𝑓𝑓𝑓𝑓𝑡𝑡𝐷𝐷𝑡𝑡𝑑𝑑𝑛𝑛𝑡𝑡= 1 𝑁𝑁 �

2 × |𝑋𝑋𝑖𝑖∩ 𝑌𝑌𝑖𝑖|

|𝑋𝑋𝑖𝑖| + |𝑌𝑌𝑖𝑖|

𝑁𝑁 𝑖𝑖=0

(4)

図 72 キーワードの伝搬定数に基づくラベル正解率の評価 4,050 4,100 4,150 4,200 4,250 4,300

0.00 0.20 0.40 0.60 0.80 1.00

0.800 0.805 0.810 0.815 0.820 0.825

Propagation ratio of keyword

Average of Dice's coefficient

Dice The number of edges

84

図 73 カテゴリの伝搬定数に基づくラベル正解率の評価

図 74 市区町村の伝搬定数に基づくラベル正解率の評価

73

は,カテゴリの伝搬定数を変化させたときのラベル正解率を表している.キーワー ドの伝搬定数と正解率の変化とは異なり,カテゴリの場合は

0.5

が最も高精度となることが 分かる.また,図

74

は,市区町村の伝搬定数を変化させたときのラベル正解率を表してい る.市区町村の場合は,伝搬定数が大きいほど精度低下につながることが分かる.この原因 として,実験対象のデータは新宮町の

LOD

であり,市区町村ではリソースの分類に貢献し ないことが挙げられる.

4,100 4,150 4,200 4,250 4,300 4,350 4,400

0.00 0.20 0.40 0.60 0.80 1.00

0.800 0.805 0.810 0.815 0.820 0.825

Propagation ratio of category

Average of Dice's coefficient

Dice The number of edges

4,200 4,220 4,240 4,260 4,280 4,300 4,320 4,340 4,360 4,380 4,400 4,420

0.00 0.20 0.40 0.60 0.80 1.00

0.800 0.805 0.810 0.815 0.820 0.825

Propagation ratio of city

Dice's coefficient

Dice The number of edges

85

図 75 RPA適用前のグラフ構造

図 76 RPA適用後のグラフ構造

75

は,RPA適用前における新宮町

LOD

のグラフ構造であり,3,331 edgesから構成 されており,平均クラスタ係数は

0.087

である.図

76

は,

RPA

適用後における新宮町

LOD

のグラフ構造であり,

4,165 edges

から構成されており,平均クラスタ係数は

0.096

に上 昇している.図

75

と図

76

を一見しただけでは変化に気が付きにくいが,グラフ構造に基 づいて正確に潜在的リンクを推定していることが分かる.

86

表 24 神宮寺の

triple

におけるキーワード推定の結果 Truth Turtle data Original Turtle data Estimated Turtle data

dbpedia:History (undefined) dbpedia:History

dbpedia:Temple dbpedia:Temple dbpedia:Temple

dbpedia:Culture (undefined) dbpedia:Culture

dbpedia:Korean_correspondent (undefined) dbpedia:Korean_correspondent

dbpedia:Sacred_tree (undefined) (undefined)

dbpedia:Document dbpedia:Document dbpedia:Document

dbpedia:Jizo_bodhisattva (undefined) (undefined)

dbpedia:Jodo_sect dbpedia:Jodo_sect dbpedia:Jodo_sect

dbpedia:Kannon_senza_festival (undefined) dbpedia:Kannon_senza_festival dbpedia:Hideyoshi_Toyotomi (undefined) (undefined)

dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Ainoshima_island (undefined) dbpedia:Ainoshima_island

(Estimated resource) (undefined) dbpedia:Nature

25

相島春フェスタの

triple

におけるキーワード推定の結果

Truth Turtle data Original Turtle data Estimated Turtle data

dbpedia:Concert (undefined)

dbpedia:Culture dbpedia:Culture dbpedia:Culture

dbpedia:Event (undefined) dbpedia:Event

dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Shingu_town

24

は,神宮寺の

triple

におけるキーワード推定の結果を整理したものである.同表の カラムは,左から正解キーワード,推定前キーワード,推定後キーワードを表しており,正 解キーワードに対応付けて記述している.

RPA

を適用することで正確にキーワードが推定 されていることを示している.また,本来は付与されていなかった「自然」のキーワードが 付与されているが,これは相島に自然要素が多いと判定されたかであると考えられる.

25

は,相島春フェスタの

triple

におけるキーワード推定の結果を整理したものであ り,こちらも正確にキーワードが付与されていることを示している.以上の結果から,

RPA

は闇雲にリンク推定をしているのではなく,グラフ構造に基づいていることを示して いる.

87

図 77 RPAによる

LOD

の潜在的リンク推定の性能

77

は,完全な

LOD

に対してランダムにリソースを欠如させ,その欠如した

LOD

か らどの程度の精度向上が期待できるのかを評価したものである.この結果,Dice係数によ る評価では,

1.2

倍程度の改善が見られている.つまり,教師データがなくともグラフ構 造に基づいて一定のデータ修復効果が見られたことになる.

y = 1.2465x + 0.0383

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80

0.00 0.10 0.20 0.30 0.40 0.50 0.60

Dice's coefficient of the estimated turtle

Dice's coefficient of the original turtle data

88