福⽥直樹(静岡⼤学)

参考資料

5. 福⽥直樹(静岡⼤学)

人工知能学会研究会資料 SIG-SWO-041-15

Querying/SPARQL (I)

ISWC2016 Conference Session Preview

by N. Fukuta (Shizuoka Univ.)

International Semantic Web Conference 2016 Conference Session Preview

Track: R=Research, S=Resource, A=Application, J=Journal

人工知能学会研究会資料 SIG-SWO-041-15

Extending SPARQL for data analytic tasks

Kavitha Srinivas, Julian Dolby, Achille Fokoue, Mariano Rodríguez Muro and Wen Sun

• SPARQL を効果的に使って，

Drug‐Drug Interaction と

PM2.5 のｐｏｔｅｎｔｉａｌ health consequences についての分析をしてみた

• このために， SPARQL 文法を少しだけ拡張

– BIND ( データ処理をして変数に代入 )

– URI → URI (URI どうしの接続関係の表現 )

– Service (WebAPI 呼び出し ) と Table ( データ切出し )

著者らの Lessons Learnt: こういう機能がないと SPARQL 単体では data analytic task は厳しい

A

人工知能学会研究会資料 SIG-SWO-041-15

SPARQLGX: Efficient Distributed Evaluation of SPARQL with Apache Spark

Damien Graux, Louis Jachiet, Pierre Geneves and Nabil Layaida

• 補足

– Apache Spark = Hadoop 後継 ? の Map Reduce 実装

• SPARQL クエリの実行を効率化するために

MapReduce の枠組みに載せてしまう

– https://github.com/tyrex‐team/sparqlgx で公開

• 方法

– SPARQL クエリ断片を low‐level Scala コードに変換 – これはそのまま SparkAPI で呼べるので実行

– 統計情報を使って Optimized Join Order も実現

著者らの結論 : 747GB のファイルサイズの billion triples へも実用的に適用可能 !

S

人工知能学会研究会資料 SIG-SWO-041-15

Querying Wikidata: Comparing SPARQL, Relational and Graph Databases

Daniel Hernandez, Aidan Hogan, Cristian Riveros, Carlos Rojas and Enzo Zerega

• SPARQL の実行効率を RDB とグラフ DB と比較

• 使うデータは Wikidata, 比較対象は以下

– SPARQL : Virtuoso, Blazegraph の２つ – RDB: PostgreSQL

– GraphDB: Neo4J

• ベンチマーク結果は以下に公開

– https://dx.doi.org/10.6084/m9.figshare.3219217

著者らの結論 : Blazegraph と Neo4J が 1 つの重いクエリでドミノ効果が出ないので良好，等

S

人工知能学会研究会資料 SIG-SWO-041-15

A Fine‐Grained Evaluation

of SPARQL Endpoint Federation Systems

Muhammad Saleem, Yasar Khan, Ali Hasnain, Ivan Ermilov and Axel‐Cyrille Ngonga Ngomo

• この発表の出典：

– Semantic Web, vol. 7, no. 5, pp. 493‐518, 2016, DOI: 10.3233/SW‐150186

• Q.SPARQL Endpoint Federation System とは？

– A. 複数のエンドポイントにクエリを発行できるもの

• 実際のコアな比較対象 : SPLENDID と FedEx

– 他にも LHD 含めて 14 のシステムを網羅的に比較

著者らの結論 : FedEx(cache) 強い． SPARQL の ASK 句の処理が全体の metric に大きな影響

J

人工知能学会研究会資料 SIG-SWO-041-15

Enriching Data Sources

ISWC2016 Conference Session Preview

International Semantic Web Conference 2016 Conference Session Preview

Track: R=Research, S=Resource, A=Application, J=Journal

人工知能学会研究会資料 SIG-SWO-041-15

Multi‐level semantic labelling of numerical values

Sebastian Neumaier, Jürgen Umbrich, Josiane Xavier Parreira and Axel Polleres

• Web によくある表データにラベル付けしたい

• アプローチ

– DBpedia から背景知識となるグラフ構造を構築

– k‐Nearest Neighbors で近いのを探す

• ポイント

– どの距離尺度を使うか？

– 複数の軸で出てきた値をどう統合するか？

著者らの結論 : これで Open Data CSV にも，現実的な水準でラベル付けができますよ !

R

人工知能学会研究会資料 SIG-SWO-041-15

Leveraging Linked Data to Discover Semantic Relations within Data Sources

Mohsen Taheriyan, Craig Knoblock, Pedro Szekely and José Luis Ambite

• 「データ中の要素の関係性」の抽出を実現

• 前提

– データの各カラムを ( ラベル付け手法で )

クラス名やプロパティ名にマップ ( できると仮定 )

• ただしここでは property 名の上位下位関係などは不明

→ それさえわかれば，オントロジーにマップできるはず？

• 手法

– 各クラスに対応しているインスタンス間の関係をデータにクエリをかけて ( 包含関係など ) 調査

• ここで出た局所的な関係を１つのグラフに組み上げる

• BANKS アルゴリズムで top‐k minimum cost tree を計算

→ 一番 ( 短く )coherent なのを選べばきっと OK!

著者らの結論 : データにラベル付けができれば，その間の関係だって計算で作れるよ例： “ 名前 ” と ” 名 ” というラベルの 2 つのプロパティがあったとして，

“ 名前 ” のほうが ” 名 ” より詳細なものとわかれば？

R

人工知能学会研究会資料 SIG-SWO-041-15

Semantic labeling: A domain‐independent approach

Minh Pham, Suresh Alse, Craig Knoblock and Pedro Szekely

• データへのラベル付けを行いたい

• すでに機械学習でかなり精度が出せてる

– ただし，ドメインごとに学習が必要

その原因 : 概念名等をそのまま使ってしまうので

• 今回のはそれをドメイン非依存な方法で実現

– 例 :”NFL” のかわりに ” 先頭 N”+” 末尾 L” で表現

→”NHL”(Na onal Hockey League) の場合も OK?

– JACCARD 係数や TF‐IDF コサイン値など複数使用

著者らの結論 : サッカーのラベル付けを博物館データでの学習結果からできたりした

R

人工知能学会研究会資料 SIG-SWO-041-15

Extracting Semantic Information for e‐Commerce

Bruno Charron, Yu Hirate, David Purcell and Martin Rezk

• 「売り上げ増」につながるデータ属性の抽出をこれまで人手でやってたのを ” 自動化 ”

• やりかた

– 事前に用意した Taxonomy から種を自動選定

• 商品の探しやすさやユーザ購買行動につながるもの

– Word2vec 駆使しつつ Bootstrapping 使って学習 – それを元に Property‐Value 関係も抽出

– ついでに RDF triple 化もしてしまう !

楽天の平手さん !

著者らの結論 : 性能測定したけど割とよかったよ (+ たぶんこれでしっかり儲かった …?)

福⽥ 直樹(静岡⼤学)

参考資料

5. 福⽥ 直樹(静岡⼤学)

Querying/SPARQL (I)

ISWC2016 Conference Session Preview

by N. Fukuta (Shizuoka Univ.)

International Semantic Web Conference 2016 Conference Session Preview

Track: R=Research, S=Resource, A=Application, J=Journal

Extending SPARQL for data analytic tasks

Kavitha Srinivas, Julian Dolby, Achille Fokoue, Mariano Rodríguez Muro and Wen Sun

• SPARQL を効果的に使って，

Drug‐Drug Interaction と

PM2.5 のｐｏｔｅｎｔｉａｌ health consequences についての分析をしてみた

• このために， SPARQL 文法を少しだけ拡張

– BIND ( データ処理をして変数に代入 )

– URI → URI (URI どうしの接続関係の表現 )

– Service (WebAPI 呼び出し ) と Table ( データ切出し )

著者らの Lessons Learnt: こういう機能がないと SPARQL 単体では data analytic task は厳しい

A

SPARQLGX: Efficient Distributed Evaluation of SPARQL with Apache Spark

Damien Graux, Louis Jachiet, Pierre Geneves and Nabil Layaida

• 補足

– Apache Spark = Hadoop 後継 ? の Map Reduce 実装

• SPARQL クエリの実行を効率化するために

MapReduce の枠組みに載せてしまう

– https://github.com/tyrex‐team/sparqlgx で公開

• 方法

– SPARQL クエリ断片を low‐level Scala コードに変換 – これはそのまま SparkAPI で呼べるので実行

– 統計情報を使って Optimized Join Order も実現

著者らの結論 : 747GB のファイルサイズの billion triples へも実用的に適用可能 !

S

Querying Wikidata: Comparing SPARQL, Relational and Graph Databases

Daniel Hernandez, Aidan Hogan, Cristian Riveros, Carlos Rojas and Enzo Zerega

• SPARQL の実行効率を RDB とグラフ DB と比較

• 使うデータは Wikidata, 比較対象は以下

– SPARQL : Virtuoso, Blazegraph の２つ – RDB: PostgreSQL

– GraphDB: Neo4J

• ベンチマーク結果は以下に公開

– https://dx.doi.org/10.6084/m9.figshare.3219217

著者らの結論 : Blazegraph と Neo4J が 1 つの重いクエリでドミノ効果が出ないので良好，等

S

A Fine‐Grained Evaluation

of SPARQL Endpoint Federation Systems

Muhammad Saleem, Yasar Khan, Ali Hasnain, Ivan Ermilov and Axel‐Cyrille Ngonga Ngomo

• この発表の出典：

– Semantic Web, vol. 7, no. 5, pp. 493‐518, 2016, DOI: 10.3233/SW‐150186

• Q.SPARQL Endpoint Federation System とは？

– A. 複数のエンドポイントにクエリを発行できるもの

• 実際のコアな比較対象 : SPLENDID と FedEx

– 他にも LHD 含めて 14 のシステムを網羅的に比較

著者らの結論 : FedEx(cache) 強い． SPARQL の ASK 句の処理が全体の metric に大きな影響

J

Enriching Data Sources

ISWC2016 Conference Session Preview

International Semantic Web Conference 2016 Conference Session Preview

Track: R=Research, S=Resource, A=Application, J=Journal

Multi‐level semantic labelling of numerical values

Sebastian Neumaier, Jürgen Umbrich, Josiane Xavier Parreira and Axel Polleres

• Web によくある表データにラベル付けしたい

• アプローチ

– DBpedia から背景知識となるグラフ構造を構築

– k‐Nearest Neighbors で近いのを探す

• ポイント

– どの距離尺度を使うか？

– 複数の軸で出てきた値をどう統合するか？

著者らの結論 : これで Open Data CSV にも，現実的な水準でラベル付けができますよ !

R

Leveraging Linked Data to Discover Semantic Relations within Data Sources

Mohsen Taheriyan, Craig Knoblock, Pedro Szekely and José Luis Ambite

• 「データ中の要素の関係性」の抽出を実現

• 前提

– データの各カラムを ( ラベル付け手法で )

クラス名やプロパティ名にマップ ( できると仮定 )

• ただしここでは property 名の上位下位関係などは不明

→ それさえわかれば，オントロジーにマップできるはず？

• 手法

– 各クラスに対応しているインスタンス間の関係を データにクエリをかけて ( 包含関係など ) 調査

• ここで出た局所的な関係を１つのグラフに組み上げる

• BANKS アルゴリズムで top‐k minimum cost tree を計算

→ 一番 ( 短く )coherent なのを選べばきっと OK!

5. 福⽥直樹(静岡⼤学)

– 各クラスに対応しているインスタンス間の関係をデータにクエリをかけて ( 包含関係など ) 調査

著者らの結論 : データにラベル付けができれば，その間の関係だって計算で作れるよ例： “ 名前 ” と ” 名 ” というラベルの 2 つのプロパティがあったとして，

• 「売り上げ増」につながるデータ属性の抽出をこれまで人手でやってたのを ” 自動化 ”