参考資料
5. 福⽥ 直樹(静岡⼤学)
人工知能学会研究会資料 SIG-SWO-041-15
Querying/SPARQL (I)
ISWC2016 Conference Session Preview
by N. Fukuta (Shizuoka Univ.)
International Semantic Web Conference 2016 Conference Session Preview
Track: R=Research, S=Resource, A=Application, J=Journal
人工知能学会研究会資料 SIG-SWO-041-15
Extending SPARQL for data analytic tasks
Kavitha Srinivas, Julian Dolby, Achille Fokoue, Mariano Rodríguez Muro and Wen Sun
• SPARQL を効果的に使って,
Drug‐Drug Interaction と
PM2.5 のpotential health consequences についての分析をしてみた
• このために, SPARQL 文法を少しだけ拡張
– BIND ( データ処理をして変数に代入 )
– URI → URI (URI どうしの接続関係の表現 )
– Service (WebAPI 呼び出し ) と Table ( データ切出し )
著者らの Lessons Learnt: こういう機能がないと SPARQL 単体では data analytic task は厳しい
A
人工知能学会研究会資料 SIG-SWO-041-15
SPARQLGX: Efficient Distributed Evaluation of SPARQL with Apache Spark
Damien Graux, Louis Jachiet, Pierre Geneves and Nabil Layaida
• 補足
– Apache Spark = Hadoop 後継 ? の Map Reduce 実装
• SPARQL クエリの実行を効率化するために
MapReduce の枠組みに載せてしまう
– https://github.com/tyrex‐team/sparqlgx で公開
• 方法
– SPARQL クエリ断片を low‐level Scala コードに変換 – これはそのまま SparkAPI で呼べるので実行
– 統計情報を使って Optimized Join Order も実現
著者らの結論 : 747GB のファイルサイズの billion triples へも実用的に適用可能 !
S
人工知能学会研究会資料 SIG-SWO-041-15
Querying Wikidata: Comparing SPARQL, Relational and Graph Databases
Daniel Hernandez, Aidan Hogan, Cristian Riveros, Carlos Rojas and Enzo Zerega
• SPARQL の実行効率を RDB とグラフ DB と比較
• 使うデータは Wikidata, 比較対象は以下
– SPARQL : Virtuoso, Blazegraph の2つ – RDB: PostgreSQL
– GraphDB: Neo4J
• ベンチマーク結果は以下に公開
– https://dx.doi.org/10.6084/m9.figshare.3219217
著者らの結論 : Blazegraph と Neo4J が 1 つの重いクエリでドミノ効果が出ないので良好,等
S
人工知能学会研究会資料 SIG-SWO-041-15
A Fine‐Grained Evaluation
of SPARQL Endpoint Federation Systems
Muhammad Saleem, Yasar Khan, Ali Hasnain, Ivan Ermilov and Axel‐Cyrille Ngonga Ngomo
• この発表の出典:
– Semantic Web, vol. 7, no. 5, pp. 493‐518, 2016, DOI: 10.3233/SW‐150186
• Q.SPARQL Endpoint Federation System とは?
– A. 複数のエンドポイントにクエリを発行できるもの
• 実際のコアな比較対象 : SPLENDID と FedEx
– 他にも LHD 含めて 14 のシステムを網羅的に比較
著者らの結論 : FedEx(cache) 強い. SPARQL の ASK 句の処理が全体の metric に大きな影響
J
人工知能学会研究会資料 SIG-SWO-041-15
Enriching Data Sources
ISWC2016 Conference Session Preview
International Semantic Web Conference 2016 Conference Session Preview
Track: R=Research, S=Resource, A=Application, J=Journal
人工知能学会研究会資料 SIG-SWO-041-15
Multi‐level semantic labelling of numerical values
Sebastian Neumaier, Jürgen Umbrich, Josiane Xavier Parreira and Axel Polleres
• Web によくある表データにラベル付けしたい
• アプローチ
– DBpedia から背景知識となるグラフ構造を構築
– k‐Nearest Neighbors で近いのを探す
• ポイント
– どの距離尺度を使うか?
– 複数の軸で出てきた値をどう統合するか?
著者らの結論 : これで Open Data CSV にも,現実的な水準でラベル付けができますよ !
R
人工知能学会研究会資料 SIG-SWO-041-15
Leveraging Linked Data to Discover Semantic Relations within Data Sources
Mohsen Taheriyan, Craig Knoblock, Pedro Szekely and José Luis Ambite
• 「データ中の要素の関係性」の抽出を実現
• 前提
– データの各カラムを ( ラベル付け手法で )
クラス名やプロパティ名にマップ ( できると仮定 )
• ただしここでは property 名の上位下位関係などは不明
→ それさえわかれば,オントロジーにマップできるはず?
• 手法
– 各クラスに対応しているインスタンス間の関係を データにクエリをかけて ( 包含関係など ) 調査
• ここで出た局所的な関係を1つのグラフに組み上げる
• BANKS アルゴリズムで top‐k minimum cost tree を計算
→ 一番 ( 短く )coherent なのを選べばきっと OK!
著者らの結論 : データにラベル付けができれば,その間の関係だって計算で作れるよ 例: “ 名前 ” と ” 名 ” というラベルの 2 つのプロパティがあったとして,
“ 名前 ” のほうが ” 名 ” より詳細なものとわかれば?
R
人工知能学会研究会資料 SIG-SWO-041-15
Semantic labeling: A domain‐independent approach
Minh Pham, Suresh Alse, Craig Knoblock and Pedro Szekely
• データへのラベル付けを行いたい
• すでに機械学習でかなり精度が出せてる
– ただし,ドメインごとに学習が必要
その原因 : 概念名等をそのまま使ってしまうので
• 今回のはそれをドメイン非依存な方法で実現
– 例 :”NFL” のかわりに ” 先頭 N”+” 末尾 L” で表現
→”NHL”(Na onal Hockey League) の場合も OK?
– JACCARD 係数や TF‐IDF コサイン値など複数使用
著者らの結論 : サッカーのラベル付けを博物館データでの学習結果からできたりした
R
人工知能学会研究会資料 SIG-SWO-041-15
Extracting Semantic Information for e‐Commerce
Bruno Charron, Yu Hirate, David Purcell and Martin Rezk
• 「売り上げ増」につながるデータ属性の抽出を これまで人手でやってたのを ” 自動化 ”
• やりかた
– 事前に用意した Taxonomy から種を自動選定
• 商品の探しやすさやユーザ購買行動につながるもの
– Word2vec 駆使しつつ Bootstrapping 使って学習 – それを元に Property‐Value 関係も抽出
– ついでに RDF triple 化もしてしまう !
楽天の平手さん !
著者らの結論 : 性能測定したけど割とよかったよ (+ たぶんこれでしっかり儲かった …?)
A
人工知能学会研究会資料 SIG-SWO-041-15
Ontology Matching ,
Search (I)
ドキュメント内
ISWC2016サーベイ
(ページ 55-66)