第 4 章 オープンプラットフォーム
4.2 Resource Propagation Algorithm
4.2.2 潜在的リンクの推定
RPA
は,第1
ステップにおいてキーワード推定が完了した後に,グラフ構造に基づいて 潜在的なリンクを推定する.RPAにおける潜在的リンクの推定は,一般的なラベル伝搬ア ルゴリズムと同様に,隣接ノードは同じクラスに属するという仮定の下で隣接ノードに重 みを伝搬する.このため,次のステップとして教師データの設定を行う.ここでは,以下 の式に基づいて自動的に教師データを選定し,リソースであるノードに対してラベルを付 与する.同式における𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖は,該当ノードに隣接しているノードの数(次数)を表してお り,次数が大きいほど教師データとして採用される可能性が高くなる.C値がユーザパラ メータの閾値以上の場合は教師データとして該当のラベルがノードに付与される.閾値を1.0
とした場合は最大で1
種類のラベルが付与され,0.0
とした場合は無意味であるが全て のリソースが教師データとしてラベルが付与される.例えば,図71
に示すようにノードi
が教師データのノードとして選定された場合,その隣接ノードにノードi
のラベルを付与 され,ラベル予測値が1.0
に初期化される.𝐶𝐶
𝑖𝑖= 𝑙𝑙𝑙𝑙𝑑𝑑 (𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖)
𝑙𝑙𝑙𝑙𝑑𝑑 (𝑚𝑚𝑚𝑚𝑚𝑚 𝑡𝑡𝑑𝑑𝑑𝑑) (2)
図 71 教師データの自動選定 𝒊𝒊
𝒊𝒊
: Label of node.
𝒊𝒊
𝒊𝒊
𝒊𝒊
83
ノードへのラベル付与が終了した後に,ラベル予測値
1.0
のノードを中心として最短経路 で各ノードにラベルを伝搬する.このとき,ラベル予測値は以下の式により更新される.𝑝𝑝
𝑗𝑗,𝑘𝑘+ 𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖,𝑗𝑗∗ 𝑝𝑝
𝑖𝑖,𝑘𝑘�𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖→ 𝑝𝑝
𝑗𝑗,𝑘𝑘(3)
𝑝𝑝
𝑗𝑗,𝑘𝑘は,ラベル予測値の更新対象であるノードのラベル予測値であり,𝑝𝑝
𝑖𝑖,𝑘𝑘はラベル伝搬元のラベル予測値である.また,
𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖はラベル伝搬元のノード次数であり,𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑
𝑖𝑖,𝑗𝑗はラベ ルの伝搬元ノードと伝搬先ノードを結ぶエッジの重みである.このエッジ重みは,観光語 彙基盤に基づいて決定される.図72
は,観光語彙基盤におけるキーワードの伝搬定数を 変化させたときの以下の式に基づいてDice
係数値の変化を評価したものであり,RPA
に よるラベル正解率を表している.同図より,キーワードの伝搬定数が大きいほどラベル正 解率が向上する傾向に有ることが分かる[70]
.𝐴𝐴𝐴𝐴𝑑𝑑.𝐷𝐷𝑡𝑡𝐷𝐷𝑑𝑑 𝐷𝐷𝑙𝑙𝑑𝑑𝑓𝑓𝑓𝑓𝑡𝑡𝐷𝐷𝑡𝑡𝑑𝑑𝑛𝑛𝑡𝑡= 1 𝑁𝑁 �
2 × |𝑋𝑋𝑖𝑖∩ 𝑌𝑌𝑖𝑖|
|𝑋𝑋𝑖𝑖| + |𝑌𝑌𝑖𝑖|
𝑁𝑁 𝑖𝑖=0
(4)
図 72 キーワードの伝搬定数に基づくラベル正解率の評価 4,050 4,100 4,150 4,200 4,250 4,300
0.00 0.20 0.40 0.60 0.80 1.00
0.800 0.805 0.810 0.815 0.820 0.825
Propagation ratio of keyword
Average of Dice's coefficient
Dice The number of edges
84
図 73 カテゴリの伝搬定数に基づくラベル正解率の評価
図 74 市区町村の伝搬定数に基づくラベル正解率の評価
図
73
は,カテゴリの伝搬定数を変化させたときのラベル正解率を表している.キーワー ドの伝搬定数と正解率の変化とは異なり,カテゴリの場合は0.5
が最も高精度となることが 分かる.また,図74
は,市区町村の伝搬定数を変化させたときのラベル正解率を表してい る.市区町村の場合は,伝搬定数が大きいほど精度低下につながることが分かる.この原因 として,実験対象のデータは新宮町のLOD
であり,市区町村ではリソースの分類に貢献し ないことが挙げられる.4,100 4,150 4,200 4,250 4,300 4,350 4,400
0.00 0.20 0.40 0.60 0.80 1.00
0.800 0.805 0.810 0.815 0.820 0.825
Propagation ratio of category
Average of Dice's coefficient
Dice The number of edges
4,200 4,220 4,240 4,260 4,280 4,300 4,320 4,340 4,360 4,380 4,400 4,420
0.00 0.20 0.40 0.60 0.80 1.00
0.800 0.805 0.810 0.815 0.820 0.825
Propagation ratio of city
Dice's coefficient
Dice The number of edges
85
図 75 RPA適用前のグラフ構造
図 76 RPA適用後のグラフ構造
図
75
は,RPA適用前における新宮町LOD
のグラフ構造であり,3,331 edgesから構成 されており,平均クラスタ係数は0.087
である.図76
は,RPA
適用後における新宮町LOD
のグラフ構造であり,4,165 edges
から構成されており,平均クラスタ係数は0.096
に上 昇している.図75
と図76
を一見しただけでは変化に気が付きにくいが,グラフ構造に基 づいて正確に潜在的リンクを推定していることが分かる.86
表 24 神宮寺の
triple
におけるキーワード推定の結果 Truth Turtle data Original Turtle data Estimated Turtle datadbpedia:History (undefined) dbpedia:History
dbpedia:Temple dbpedia:Temple dbpedia:Temple
dbpedia:Culture (undefined) dbpedia:Culture
dbpedia:Korean_correspondent (undefined) dbpedia:Korean_correspondent
dbpedia:Sacred_tree (undefined) (undefined)
dbpedia:Document dbpedia:Document dbpedia:Document
dbpedia:Jizo_bodhisattva (undefined) (undefined)
dbpedia:Jodo_sect dbpedia:Jodo_sect dbpedia:Jodo_sect
dbpedia:Kannon_senza_festival (undefined) dbpedia:Kannon_senza_festival dbpedia:Hideyoshi_Toyotomi (undefined) (undefined)
dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Ainoshima_island (undefined) dbpedia:Ainoshima_island
(Estimated resource) (undefined) dbpedia:Nature
表
25
相島春フェスタのtriple
におけるキーワード推定の結果Truth Turtle data Original Turtle data Estimated Turtle data
dbpedia:Concert (undefined)
dbpedia:Culture dbpedia:Culture dbpedia:Culture
dbpedia:Event (undefined) dbpedia:Event
dbpedia:Shingu_town dbpedia:Shingu_town dbpedia:Shingu_town
表
24
は,神宮寺のtriple
におけるキーワード推定の結果を整理したものである.同表の カラムは,左から正解キーワード,推定前キーワード,推定後キーワードを表しており,正 解キーワードに対応付けて記述している.RPA
を適用することで正確にキーワードが推定 されていることを示している.また,本来は付与されていなかった「自然」のキーワードが 付与されているが,これは相島に自然要素が多いと判定されたかであると考えられる.表
25
は,相島春フェスタのtriple
におけるキーワード推定の結果を整理したものであ り,こちらも正確にキーワードが付与されていることを示している.以上の結果から,RPA
は闇雲にリンク推定をしているのではなく,グラフ構造に基づいていることを示して いる.87
図 77 RPAによる
LOD
の潜在的リンク推定の性能図
77
は,完全なLOD
に対してランダムにリソースを欠如させ,その欠如したLOD
か らどの程度の精度向上が期待できるのかを評価したものである.この結果,Dice係数によ る評価では,1.2
倍程度の改善が見られている.つまり,教師データがなくともグラフ構 造に基づいて一定のデータ修復効果が見られたことになる.y = 1.2465x + 0.0383
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80
0.00 0.10 0.20 0.30 0.40 0.50 0.60
Dice's coefficient of the estimated turtle
Dice's coefficient of the original turtle data