• 検索結果がありません。

PDFファイル 1G4OS19a オーガナイズドセッション「OS19 Linked Dataとオントロジー 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 1G4OS19a オーガナイズドセッション「OS19 Linked Dataとオントロジー 」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

辞書

ンク

タ構築

Building Linked Open Data of the Life Science Dictionary

藤原

豊史

*1

山本

泰智

*2

Toyofumi Fujiwara Yasunori Yamamoto

*1

株式会社

*2

情報

研究機構

統合

タベ

ンタ

INTEC Inc. Database Center for Life Science, Research Organization of Information and Systems

Recent innovative progress of the experimental technologies in life science has produced large and diverse data, and many databases have been constructed. We are developing an environment where researchers can access these databases in an integrated manner by using Semantic Web technologies. In an effort to realize this environment, we built a Linked Open Dataset of the Life Science Dictionary (LSD) with links to DBpedia. A dictionary to translate words into another language in Resource Description Framework (RDF) is useful to cross a language barrier such as English and Japanese when we want to access datasets in multiple languages. LSD consists of various lexical resources including English-Japanese / Japanese-English dictionaries and a thesaurus using the MeSH vocabulary. The latest version of LSD contains 110 thousand Japanese-English and 120 thousand Japanese terms. Our aim is to provide users with a useful language resource in the life science domain to process Japanese and English text data seamlessly, and linking LSD to DBpedia enables us to find related knowledge more easily. We report these works and usefulness of the linked data sets.

1.

めに

大学共同利用機関法人情報 研究機構

ン 統合 タベ ンタ ,生 科学分野 こ

蓄 積 さ 知 見 や ロ ク 果 研 究 者 効 率

的 利 活 用 環 境 構 築 行 い [Bono 2009].

活動 一環 し ,生 科学 分 野 研究 生 出さ 多

様 膨 大 タ 必 要 情 報 効 率 的 得 ,

ば ば 構築さ い タベ 統合的 利用可能

技術開発 ン ク 技術 着目し 進 い

[Yamaguchi 2011].

ンク ン タ*1 以 LOD ぶ ,散在

タ 対 し , 含 互 い 同 一 概 念

表 要素同士 結ぶこ タ 共 容易 ,互い

異 言語 RDF タ 対し ,同一概念同

士 結ぶ場合 ,対訳辞書 必要 .現在,日本 国立

国会図書館 国立国会図書館典拠 タ*2 RDF タ

提供 英語以外 言語 含 RDF タ 増加

し ,対訳辞書情報 含 RDF タ 対 需要 増

加し い [Gracia 2012].

こ 々 ,生 科学分野 電子辞書 あ

ン 辞書 以 LSD ぶ *3 RDF タ 構築し,LSD

含 語彙 対応 DBpedia 英語 事 ンク

作 し .LSD 1993年 LSD ロ ク 構築

維持さ , ロ ク ン 生 科学分野 専門

家 あ .LSD ,生 科学分野 用い 英語 び日本

語 専 門用語 い , 対訳 関係 定義 し 日 英対訳 辞書

作 し い . 他 ,MeSH*4 用し 統制語 日英対

訳辞書 合わ 作業 行い,日英 ニ 同義語 辞書

作 し い . MeSH 利用し 統制語 位概

念 位概念 関係 整理し ,更 PubMed*5抄録中

統 制 語 共 起頻 度 収 し,統 制 語 共 起関 係 抽 出 し

い [Kaneko 2014].

対訳辞書情報 含 RDF タ し ,DBpedia*6 利用

こ 考え .DBpedia 多言語 ン ン百科事典

ロ ク あ Wikipedia*7 容 RDF タ し 提供し,

LOD ク 最 大 い .あ 言語 事

い , 対応 他言語 事 紐付け い ,

日 本 語 事 タ , 対 応 付 け 英 語 事 タ

日英対訳辞書 し 利用 こ . し し ,

特定領域 対訳辞書 し DBpedia 利用 場合,必 し

用 言え い.例えば,執筆時点 2014年 3 11日

Wikipedia 英 語 け ”World Health Organization

essential medicines” 147 事 在 ,一

方,日本語 57 事し 在し いこ ,利用

日英対訳情報 限定さ こ わ .

々 ,作 し LSD ンク タ 生 科学分野 い

日 英 対 訳 情 報 含 RDF タ し 利 用 さ ,

DBpedia 補完 し 利用さ こ 目的 し い .

構 築 し LSD ン ク タ び Key Collision法[Google

2013]等 文 列比較 用い DBpedia 各 事

タ 対 応付け 結果 , タ 用 性

い 報告 .

2. LSD

リンク

ータ構築

2.1 LSDおよびDBpedia ータ概要

108,213 英語 見出し語 121,851 日本語 見出し語

LSD 最新 ョン Mar. 2013 ,8,826,375

DBpedia version 3.7 labels_en.nt.bz2 利用し .

2.2 LSDとDBpediaと リンク作成

連絡先:株式会社 ン ク

〒136-8637東京都江東区新砂1-3-3 E-mail: [email protected]

1G4-OS-19a-2

*1 http://www.w3.org/standards/semanticweb/data *2 http://id.ndl.go.jp/auth/ndla

*3 http://lsd.pharm.kyoto-u.ac.jp/ja/about/about_lsd/index.html *4 http://www.ncbi.nlm.nih.gov/mesh

*5 http://www.ncbi.nlm.nih.gov/pubmed *6 http://dbpedia.org/

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

英語 見出し語 表 DBpeida 英語 事タ 文

列 ,完全一致や ン類似度[Cohen 2003,Okazaki 2010]等 利用し 比較し, ンク 作 し .各 DBpedia 英語 事タ 対 し , 全 表 完 全 一 致 ,Fingerprint Key

Collision FKC ,bi-gram FKC,tri-gram FKC び ン類

似度 順 対応 索 し,対応 見

時点 次 移行 .こ ,例えば bi-gram FKC

対 応 見 場 合 , 以 降 tri-gram

FKC び ン類似度 利用し いこ 意味 .

ン類似度 対応 い ,広く対応 見出し語 索

,類似度 閾値 70% 設定し .一方,interleukin-1

interleukin-2 望 い対応 除 く いく

設定し, 除去し .対応付け 60,348 英語

見出し語 81,065 DBpedia 英語 事 ,

skos:exactMatch [Miles 2009] 用い 両者 ンク関係 定義

し 数:81,065 .

60,348 英語 見出し語 DBpedia ンク 付加さ

一 方 , DBpedia 英 語 事 対 応 付 け い 日 本 語

DBpedia 事 390,994あ , う 英語 見出し語 ン

ク付け DBpedia英語 事 9,816 あ . こ ,

生 科学分野 い DBpedia 日英対訳辞書 し 利用

,情報 限定さ い こ 意味し い .

2.3 LSDリンク ータ 構築

(1) 英語および日本語 見出 語を表 RDF ータ

図1 英語 見出し語 表 RDF タ あ .英語 見

出し語 lsd:EnglishCode ク 属し,表 rdfs:label ロ

表現 .英語 見出し語 対応付け MeSH

統制語 lsd:MeSHUniqueID ロ 指定し,類義語

LSD 英語 見出し語 skos:closeMatch ロ 指

定 . , DBpedia ソ ンク skos:exactMatch

ロ 指定 .

(2) 見出 語 対訳関係を表 RDF ータ

図 2 英語 見出し語 日本語 見出し語 対訳関係

表 RDF タ あ .あ 見出 し語 い , 対訳 複数

在 場合や対訳 見出し語 い 付加情報 品詞

持 場合 あ ,対訳 見出し語間 対訳 付

加情報 lsd:EnglishEntry ク び lsd:JapaneseEntry

ク 属 概 念 設 定 し , 見 出 し 語

lsd:hasEntry ロ 指定さ .lsd:EnglishEntry ク

属 概 念 日 本 語 訳 見 出 し 語

lsd:hasJapaneseTranslationOf ロ びskos:related ロ

指定 . ,lsd:JapaneseEntry ク 属 概念 英 語 訳 見 出 し 語 lsd:hasEnglishTranslationOf ロ

びskos:related ロ 指定 .

(3) MeSH統制語 共起関係を表 RDF ータ

図3 PubMed抄録中 MeSH統制語 共起頻度 表

RDF タ あ .共起関係 表 概念

lsd:CooccurrenceCodeク 属し,PubMed抄録中 tf-idf

lsd:TfIdfvalue ロ 指 定 し,共 起関 係 あ MeSH

統制語 skos:member ロ 指定 . ,MeSH 統

制語 日本語表 び英語表 rdfs:label ロ 表

現 .

3. LSD

リンク

ータ

有用性について

LSD ンク タ び DBpedia ンク 用性

示 , 利用例 述 .

日本語 見出 し語”片頭痛” 割 当 い MeSH

取得し, MeSH 割 当 い 全 日本語 見出

し 語 類 義 語 い , 対 訳 英 語 見 出 し 語

DBpedia ン ク 取 得 . こ 情 報 得

SPARQLク Appendix 1 示 . 結果,15件 英

語 見出し語 取得し,う 4件 い DBpedia ンク

取得 し .取得 し 英語 見 出し語 ,”片頭 痛” 関 連し 文 献 情 報 検 索 利 用 ,DBpedia ン ク ”片 頭

痛” 関連し 情報 DBpedia 取得 際 役立 .

図1.英語の見出し語を表すRDFデータ

(abbr. rdf) http://www.w3.org/1999/02/22-rdf-syntax-ns# (abbr. rdfs) http://www.w3.org/2000/01/rdf-schema# (abbr. lsd) http://purl.jp/bio/10/lsd/ontology/201209# (abbr. skos) http://www.w3.org/2004/02/skos/core#

図2.見出し語の対訳関係を表すRDFデータ

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

MeSH統制語”片頭痛” 共起 MeSH統制語 い ,

共起頻度 位 10件 統制語 取得 .こ 情報 得

SPARQLク Appendix 2 示 .取得し MeSH統

制 語 同様 ,”片頭 痛” 関 連 し 文 献情 報 検 索

利用 .

4.

おわりに

今回, 々 LSD ンク タ こ 利用 ン

ロ http://purl.jp/bio/10/lsd/ontology/201209# 作 し .

こ 生 科学分野 ,多言語 ソ 滑 利用

広く使わ こ 望 い . タ CC BY-ND 3.0

, ン ロ CC0 1.0 SPARQL ン

ン http://purl.jp/bio/10/lsd/sparql 利用 び 取 得 可 能 あ .

謝辞

金子周司博士 LSD CC BY-ND 3.0 こ

許可し い い . ここ 感 謝 意 表し い. , 本究

文部科学省委 研究開発事業 統合 タベ ロ ク

助 .

参考文献

[Bono 2009] 坊農秀 : ン 統合 タベ

ンタ 統合 タベ ロ ク ,情報 科学 技術,

Vol. 59,No. 4,pp. 165-169,(2009)

[Yamaguchi 2011] 山口敦子,片山俊明: タベ 統合

利 用 基 盤 し ン ク 技 術 ,

国 タ ベ 構 築 統 合 政 略 ,National Bioscience

Database Center ,http://events.biosciencedbc.jp/article/02

[Gracia 2012] Gracia, J., Montiel-Ponsoda, E., Cimiano, P., Gómez-Pérez, A., Buitelaar, P., & McCrae, J. Challenges for the multilingual Web of Data. Web Semantics: Science, Services and Agents on the World Wide Web, 11, 63-71, (2012)

[Kaneko 2010] 金子周司,藤田信之,鵜川義弘: 生 科学知

識 連想検索 け 提示語 最適化, 言語処理学会第

16回年次大会発表論文 ,(2010)

[Google 2013] Key Collision Methods,

https://github.com/OpenRefine/OpenRefine/wiki/Clustering-In-Depth

[Cohen 2003] Cohen, W., Ravikumar, P., & Fienberg, S.: A comparison of string metrics for matching names and records. In KDD Workshop on Data Cleaning and Object

Consolidation, Vol. 3, 73-78 (2003)

[Okazaki 2010] Okazaki, N., Tsujii, J.: Simple and efficient algorithm for approximate dictionary matching. In Proceedings of the 23rd International Conference on Computational Linguistics, 851-859 (2010)

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX icd10: <http://purl.jp/bio/10/lsd/icd10/>

PREFIX lsd: <http://purl.jp/bio/10/lsd/ontology/201209#> PREFIX mesh: <http://purl.jp/bio/10/lsd/mesh/>

PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX pair: <http://purl.jp/bio/10/lsd/pair/>

PREFIX skos: <http://www.w3.org/2004/02/skos/core#> PREFIX term: <http://purl.jp/bio/10/lsd/term/>

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX dbpedia: <http://dbpedia.org/resource/> PREFIX dbpedia_ja: <http://ja.dbpedia.org/resource/> SELECT DISTINCT ?synonymLabelEn ?dbpedia WHERE { ?code1 rdfs:label "片頭痛"@ja ;

lsd:MeSHUniqueID ?meshID . ?code2 lsd:MeSHUniqueID ?meshID ; skos:closeMatch ?synonymJa . ?synonymJa rdfs:label ?synonymLabelJa ;

lsd:hasEntry [lsd:hasEnglishTranslationOf ?synonymEn]. ?synonymEn rdfs:label ?synonymLabelEn .

OPTIONAL{

?synonymEn skos:exactMatch ?dbpedia . }

FILTER(lang(?synonymLabelJa) = "ja") FILTER(lang(?synonymLabelEn) = "en")

} ORDER BY ?synonymLabelJa ?synonymLabelEn

PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX icd10: <http://purl.jp/bio/10/lsd/icd10/>

PREFIX lsd: <http://purl.jp/bio/10/lsd/ontology/201209#> PREFIX mesh: <http://purl.jp/bio/10/lsd/mesh/>

PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX pair: <http://purl.jp/bio/10/lsd/pair/>

PREFIX skos: <http://www.w3.org/2004/02/skos/core#> PREFIX term: <http://purl.jp/bio/10/lsd/term/>

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX dbpedia: <http://dbpedia.org/resource/> PREFIX dbpedia_ja: <http://ja.dbpedia.org/resource/> SELECT DISTINCT ?meshLabel ?tfidf WHERE {

?cooccurrence skos:member <http://purl.jp/bio/10/lsd/mesh/D008881> ; skos:member ?comesh ;

lsd:TfIdfValue ?tfidf .

?comesh rdfs:label ?meshLabel .

FILTER(<http://purl.jp/bio/10/lsd/mesh/D008881> != ?comesh) FILTER(lang(?meshLabel) = "ja")

} ORDER BY DESC(?tfidf) LIMIT 10

参照

関連したドキュメント

S.; On the Solvability of Boundary Value Problems with a Nonlocal Boundary Condition of Integral Form for Multidimentional Hyperbolic Equations, Differential Equations, 2006, vol..

Corollary 5 There exist infinitely many possibilities to extend the derivative x 0 , constructed in Section 9 on Q to all real numbers preserving the Leibnitz

In [2], the ablation model is studied by the method of finite differences, the applicable margin of the equations is estimated through numerical calculation, and the dynamic

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first se- ries of the MSJ official

I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c

Bouziani, Rothe method for a mixed problem with an integral condition for the two-dimensional diffusion equation, Abstr.. Pao, Dynamics of reaction-diffusion equations with

[7] , On initial boundary value problem with Dirichlet integral conditions for a hyperbolic equation with the Bessel operator, J.. Bouziani

In Section 3 using the method of level sets, we show integral inequalities comparing some weighted Sobolev norm of a function with a corresponding norm of its symmetric