DEIM Forum 2018 A3-1
観光領域の Linked Data を対象とした横断的知識ベースの構築法
槇 俊孝
†髙橋 和生
‡若原 俊彦
‡†福岡工業大学大学院 〒811-0295 福岡県福岡市東区和白東 3-30-1
E-mail: † {bd15002, mgm16105}@bene.fit.ac.jp, [email protected]
あらまし Linked Data は,Uniform Resource Identifier (URI)によりウェブ上のリソースを識別し,そのリソースの メタデータを記述したデータであり,オープンデータとして公開したものを Linked Open Data (LOD)という.LOD の公開件数は年々増加しており,日本国内においても地域や施設などに関する LOD が多数公開されている.しか し,現在公開されている LOD は,述語やリンクなどのデータ構造に課題があり,汎用的に用いることが難しいと考 えられる.このため,本稿では,Linked Data における述語の統一と潜在的リンクの推定により,横断的知識ベース を構築する Resource Propagation Algorithm (RPA) を提案する.RPA は,URI のリンクが全く存在しない Linked Data でも,キーワード特性を考慮してキーワードやカテゴリ,市区町村のリンクを推定可能である.実験の結果,孤立 状態にあったリソースが減少し,Linked Data の汎用的利用が可能になる見通しが得られた.
キーワード Linked Data,オープンデータ,知識ベース,リンク推定,語彙,観光
1. は じ め に
Linked Data は ,Resource Description Framework (RDF) [1]に 基 づ い て 主 語 ,述 語 ,目 的 語 の 3 つ 組 (triple)で ウ ェ ブ 上 に 存 在 す る リ ソ ー ス の メ タ デ ー タ を 体 系 的 に 記 述 し た デ ー タ で あ る . Linked Data は , ウ ェ ブ 上 の リ ソ ー ス を Uniform Resource Identifier (URI) に よ り 識 別 し ,ま た ,各 リ ソ ー ス の 関 係 性 を そ れ ぞ れ の URI に よ り 参 照 す る こ と が 望 ま し い [2]. 2009 年 に 米 国 の オ バ マ 政 権 が オ ー プ ン ガ バ メ ン ト [3]を 表 明 し て 以 降 ,行 政 を 中 心 と し て 公 共 デ ー タ の オ ー プ ン デ ー タ 化 が 進 み , Linked Data を オ ー プ ン デ ー タ と し て 公 開 し た Linked Open Data (LOD)が 脚 光 を 浴 び て い る .日 本 に お け る 事 例 と し て は ,福 井 県 鯖 江 市 が「 デ ー タ シ テ ィ 鯖 江 」[4] を ス ロ ー ガ ン と し て ,観 光 地 や 避 難 場 所 な ど の LOD を 積 極 的 に 公 開 し て い る . ま た , 電 子 情 報 通 信 学 会 は , 学 会 誌 や 論 文 誌 , 研 究 技 術 報 告 , 企 業 誌 な ど の 文 献 メ タ デ ー タ を Linked Data と し て 蓄 積 し , I-Scover SPARQL Endpoint [5]を 提 供 し て い る .さ ら に Wikipedia の デ ー タ ベ ー ス を LOD に 変 換 し た DBpedia [6]は ,様 々 な 領 域 に お け る LOD を 横 断 的 に リ ン ク す る ク ロ ス ド メ イ ン と し て 重 要 な 存 在 と な っ て い る . LO D の 公 開 件 数 は , 世 界 的 に 増 加 し て い る が , 様 々 な 課 題 が 浮 上 し て い る .例 え ば ,LOD STATS の 調 査 に よ る と , LOD STATS が 認 識 し て い る 9,960 件 の デ ー タ セ ッ ト (約 1,500 億 triples) の う ち 6,971 件 の デ ー タ セ ッ ト は デ ー タ 構 造 や ア ク セ ス 環 境 に 問 題 が あ る こ と を 示 し て い る [ 7].ま た ,日 本 国 内 で 公 開 さ れ て い る LOD に お い て も 様 々 な 課 題 が 存 在 す る . 図 1 は , LinkData.org [8]で 公 開 さ れ て お り , ダ ウ ン ロ ー ド 数 が 多 い 地 域 関 係 の 100 件 の LOD を 可 視 化 し た グ ラ フ の 一 部 で あ る . 図 1 LinkData.org 上の LOD におけるグラフ構造の一部 図 1 は ,「 京 都 市 観 光 ス ポ ッ ト リ ス ト _2013」 や 「 さ ば え ト イ レ 情 報 」 な ど の triple が 含 ま れ て お り , こ こ で は URI 形 式 の 主 語 と 目 的 語 を source と target と し て 可 視 化 し た .同 図 の グ ラ フ は ,6,872 nodes,5,564 edges か ら 構 成 さ れ て お り , 1,615 件 の コ ン ポ ー ネ ン ト が 存 在 す る . つ ま り , 各 リ ソ ー ス の 意 味 概 念 が 共 有 さ れ ず 孤 立 状 態 に あ る こ と を 示 し て い る . こ の た め , 複 数 の デ ー タ セ ッ ト を 用 い た サ ー ビ ス の 開 発 が 困 難 と な り , デ ー タ セ ッ ト に 合 わ せ て 個 別 に サ ー ビ ス を 開 発 す る 他 な い 現 状 に あ る と 考 え ら れ る .本 来 ,LOD は ,相 互 に リ ン ク す る こ と で リ ソ ー ス の 意 味 概 念 を 共 有 し , 意 味 概 念 の 再 開 発 を 避 け て 効 率 的 に 知 識 ベ ー ス を 構 築 で き る も の で あ り , セ マ ン テ ィ ッ ク ウ ェ ブ ( デ ー タ の ウ ェ ブ ) の 形 成 に 寄 与 す る も の で あ る . こ の た め ,本 研 究 で は ,孤 立 状 態 に あ る LOD の 潜 在 的 な リ ン ク を 推 定 し , 知 識 ベ ー ス を 構 築 す る こ と を 目 的 と し , 観 光 領 域 の LOD を 対 象 と し て 有 効 性 を 検 証 す る .本 稿 の 構 成 は 次 の 通 り で あ る .第 2 章 で Linked Data に お け る URI の 性 質 を 議 論 し ,第 3 章 で 関 連 研 究 を 述 べ る . 第 4 章 で 提 案 ア ル ゴ リ ズ ム に つ い て 述 べ , 第 5 章 で 実 験 と 考 察 を 述 べ た 後 に , 第 6 章 で 本 稿 の 内 容 を 纏 め る .
2. Linked Data に お け る URI の 性 質
Linked Data は ,XML ス キ ー マ 定 義 言 語 (XSD) [9]を 基 盤 と し て デ ー タ 型 が 定 義 さ れ て お り , Web Ontology Language (OWL) [10]に よ っ て 構 造 体 の デ ー タ 型 を 新 た に 定 義 可 能 で あ る . Linked Data に お け る triple は , 主 語 と 述 語 が URI 型 (xsd:anyURI)で 記 述 さ れ ,目 的 語 が URI 型 や 文 字 列 型 (xsd:string), 整 数 型 (xsd:integer), 小 数 型 (xsd:decimal)な ど で 記 述 さ れ る .
Linked Data は ,RDF ク エ リ 言 語 で あ る SPARQL [11] に よ り 取 り 扱 う こ と が で き ,triple を 指 定 す る こ と で 検 索 や 分 析 が 可 能 で あ る .SPARQL は ,count 関 数 や sum 関 数 の 他 , if 関 数 や replace 関 数 , regex (regular expression) 関 数 な ど の 様 々 な 関 数 が 使 用 で き ,RDF デ ー タ の 高 度 な 利 活 用 が 期 待 さ れ る . 例 え ば , DBpedia Japanese を 用 い て 「 福 井 県 に あ る 名 湯 百 選 の 名 称 と 所 在 地 」 を 取 得 す る ク エ リ を 図 2 の よ う に 記 述 で き る . “ ?” か ら 始 ま る 文 字 列 は 変 数 を 表 し て お り , triple の 条 件 に 該 当 す る 値 が 代 入 さ れ る .本 ク エ リ で は ,「 福 井 県 」 と 「 名 湯 百 選 」 を キ ー ワ ー ド と し リ ン ク 構 造 に 基 づ い て 検 索 し , rdfs:label (名 称 )と property:所 在 地 に 該 当 す る 各 値 を 変 数 に 代 入 し て select に よ り 出 力 し て い る . 本 ク エ リ を 実 行 す る と name:" 芦 原 温 泉 "@ja , address:"福 井 県 あ わ ら 市 "@ja が 得 ら れ る . regex 関 数 を 用 い る こ と で 全 文 検 索 も 可 能 で あ り , 図 3 に 示 す ク エ リ で も 同 結 果 を 得 ら れ る . 但 し , URI に よ る 完 全 一 致 検 索 と , 文 字 列 に よ る 部 分 一 致 検 索 で は , 後 者 は 処 理 コ ス ト が 高 い た め 応 答 時 間 を 要 す る . 図 2 の ク エ リ 応 答 時 間 は 平 均 0.09 秒 で あ る の に 対 し ,図 3 の ク エ リ
pre fix rd fs :< http ://www. w3. org/200 0/01/rd f-s c he ma #> pre fix prope rt y:< http :/ /ja . dbpe dia . o rg/prope r t y/> pre fix o nto lo gy:< http ://d bpe d ia . org/ onto lo gy/> pre fix re s ourc e :< http :// ja . dbpe dia . o rg/re s o urc e /> se le c t ?na me ?a ddre s s whe re { ?s ubje c t rdfs :la be l ? na me ; prope rt y:所 在 地 ?a dd re s s ;
onto lo gy:w ik iPa ge Wik iLink re s ourc e :福 井 県 , re s o urc e :名 湯 百 選 . }
図 2 URI に よ る 検 索 ク エ リ の 例
pre fix rd fs :< http ://www. w3. org/200 0/01/rd f-s c he ma #> pre fix prope rt y:< http :/ /ja . dbpe dia . o rg/prope r t y/> se le c t ?na me ?a ddre s s whe re { ?s ubje c t rdfs :la be l ? na me ; rdfs :c o mme nt ?c o mme nt; prope rt y:所 在 地 ?a dd re s s.
filte r (re ge x( ?c o mme nt, " 福 井 県 ") = tr ue ) filte r (re ge x( ?c o mme nt, " 名 湯 百 選 " ) = tr ue ) } 図 3 文 字 列 に よ る 検 索 ク エ リ の 例 応 答 時 間 は 平 均 0.56 秒 で あ り ,応 答 時 間 に 6 倍 以 上 の 差 異 が 生 じ る こ と が 分 か る . ビ ッ グ デ ー タ を 取 り 扱 う 場 合 , こ の 差 異 は さ ら に 拡 大 す る こ と が 想 定 さ れ る た め ,可 能 な 限 り 完 全 一 致 で 検 索 で き る こ と が 望 ま し く , URI に よ り リ ソ ー ス を 参 照 す る こ と が 重 要 で あ る と 考 え ら れ る . ま た , URI は , 一 般 的 な 関 係 デ ー タ ベ ー ス に お け る ID に 相 当 し , デ ー タ ア ク セ ス の 効 率 化 だ け で な く 冗 長 性 の 削 減 と 一 意 性 の 確 保 に 寄 与 す る . さ ら に ,URI は ウ ェ ブ 上 の リ ソ ー ス を 参 照 可 能 な た め ,LOD 間 に 横 断 的 な リ ン ク を 設 定 す る こ と が で き , ウ ェ ブ 上 に 大 規 模 な 知 識 ベ ー ス を 構 築 す る こ と が 可 能 と な る .
以 上 の こ と か ら , Linked Data の triple に お け る 目 的 語 は 可 能 な 限 り URI 型 で 記 述 す る こ と が 望 ま し く ,正 規 形 に 変 形 で き な い ラ ベ ル や コ メ ン ト , 住 所 , 緯 度 , 経 度 な ど を 文 字 列 型 や 小 数 型 な ど で 記 述 す る こ と が 最 良 で あ る と 考 え ら れ る . こ の た め , 本 研 究 に お け る 潜 在 的 な リ ン ク の 推 定 で は , URI 型 リ ソ ー ス の 関 係 性 を 導 出 す る こ と す る .Linked Data の グ ラ フ 構 造 に 基 づ い て リ ン ク を 推 定 す る た め に , 述 語 の マ ッ ピ ン グ 機 能 と 述 語 に 対 応 し た エ ッ ジ 重 み ( 伝 搬 定 数 ) を 定 義 し た 語 彙 基 盤 を 実 装 す る .
3. 関 連 研 究
本 章 で は ,RDF デ ー タ の 構 築 に お い て 重 要 な 語 彙 基 盤 と , リ ン ク 推 定 に 関 す る 関 連 研 究 に つ い て 述 べ る .3.1. 語 彙 基 盤
World Wide Web Consortium (W3C)は , RDF デ ー タ の 述 語 統 一 と 構 造 化 の た め に ,RDFS や OWL,WGS84 Geo な ど の 様 々 な 語 彙 を 提 供 し て い る . 日 本 で は , 情 報 処 理 推 進 機 構 が 共 通 語 彙 基 盤 [12]の 整 備 を 進 め て い る . 述 語 は , RDF デ ー タ の triple に お い て 主 語 と 目 的 語 の 関 係 を 意 味 付 け す る 機 能 を 担 う . 関 係 デ ー タ ベ ー ス に お け る テ ー ブ ル の カ ラ ム と 同 様 で あ り , デ ー タ 型 の 定 義 や 使 用 回 数 な ど の 制 約 を 設 定 で き る . 現 在 公 開 さ れ て い る 多 く の LOD は , 個 々 に 述 語 が 定 義 さ れ て お り , 述 語 の 統 一 が 進 ん で い な い 状 況 が あ る . 図 1 に 示 し た デ ー タ セ ッ ト の 場 合 , 664 種 類 の 述 語 が 用 い ら れ て お り , ラ ベ ル や 住 所 な ど の 類 似 し た 述 語 が 再 定 義 さ れ て い る . 本 研 究 で は , 観 光 領 域 に お け る 述 語 の 統 一 化 と 潜 在 的 リ ン ク の 推 定 を 目 的 と し て , 観 光 語 彙 基 盤 の 整 備 を 進 め て い る . 従 来 の 語 彙 基 盤 に は 存 在 し な い 述 語 の マ ッ ピ ン グ や エ ッ ジ 重 み を 定 義 す る 伝 搬 定 数 の 機 能 を 有 し て い る .ま た ,非 ネ ス ト 構 造 で 簡 単 に RDF デ ー タ を 記 述 で き る 特 徴 が あ る .
3.2. Silk
Silk は ,Julius Volz 氏 や Christian Bizer 氏 ら が 開 発 し た セ マ ン テ ィ ッ ク ウ ェ ブ の た め の リ ン ク 発 見 フ レ ー ム ワ ー ク で あ り , 2 つ の 異 な る デ ー タ セ ッ ト 間 に リ ン ク を 生 成 で き る [13].文 字 列 や 数 値 ,日 付 な ど の 各 類 似 度
に 基 づ い て 双 方 向 の リ ン ク を 生 成 で き , そ の リ ン ク の 述 語 を 個 別 に 指 定 で き る .例 え ば ,デ ー タ セ ッ ト X に お い て 要 素 A, B が 述 語 C で リ ン ク さ れ て い る が , デ ー タ セ ッ ト Y に お い て 要 素 B, A が リ ン ク さ れ て い な い 場 合 , 要 素 B, A を owl:sameAs の よ う な 述 語 C’で リ ン ク す る も の で あ る .
本 研 究 で 提 案 す る Resource Propagation Algorithm (RPA)は , 任 意 の デ ー タ セ ッ ト と DBpedia を リ ン ク す る も の で あ り , リ ン ク の 述 語 と し て tour:キ ー ワ ー ド , tour:カ テ ゴ リ ,tour:市 ,tour:区 ,tour:町 ,tour:村 ,及 び tour:都 道 府 県 の 7 種 を 全 自 動 で 推 定 可 能 で あ る .な お , tour の prefix は , 本 研 究 で 提 案 す る 観 光 語 彙 基 盤 を 示 し て い る . Silk に お け る 文 字 列 の 類 似 度 は , Dice 係 数 を 応 用 し た jaroSimilarity に よ り 評 価 さ れ る た め ,日 本 語 を 取 り 扱 う た め に は 事 前 に 分 か ち 書 き が 必 要 で あ る . ま た , リ ソ ー ス の 意 味 概 念 を 表 す キ ー ワ ー ド や カ テ ゴ リ を 推 定 す る こ と が 難 し い と 考 え ら れ る . こ れ に 対 し て 本 研 究 で 提 案 す る RPA は ,意 味 概 念 の 推 定 に 特 化 し た も の で あ り , 後 述 の キ ー ワ ー ド 特 性 に 基 づ い た TF-IDF に よ り 精 度 良 く キ ー ワ ー ド を 推 定 で き る .
3.3. 潜 在 的 リンクの推 定
ノ ー ド 間 の リ ン ク を 推 定 す る 手 法 と し て ,Jaccard 係 数 [14]や ,ラ ベ ル 伝 搬 を 応 用 し た リ ン ク 伝 搬 [15]な ど が あ る . 従 来 の リ ン ク 推 定 を Linked Data に 適 用 す る こ と を 想 定 し た と き , 図 1 に 示 し た よ う に 十 分 な リ ン ク が 存 在 す る デ ー タ セ ッ ト が 少 な い た め , 精 度 良 く 推 定 す る こ と が 難 し い . こ の た め , 本 研 究 で は , 述 語 の マ ッ ピ ン グ , 概 念 推 定 , 地 域 推 定 を 順 に 施 し た 後 に , 表 層 的 な 文 字 列 で は 推 定 で き な い 潜 在 的 な リ ン ク を 推 定 す る 各 機 能 を 実 装 し た RPA を 提 案 す る .RPA は ,一 般 的 な ラ ベ ル 伝 搬 ア ル ゴ リ ズ ム と 同 様 に 隣 接 ノ ー ド は 同 じ ク ラ ス に 属 す る と い う 仮 定 に 基 づ い て お り , ノ ー ド に ラ ベ ル を 付 与 す る 点 は 同 じ で あ る が , 教 師 デ ー タ を 必 要 と し な い た め , 既 存 の 様 々 な Linked Data に 対 し て 適 用 し や す い と 考 え ら え れ る .4. Resource Propagation Algorithm
RPA は , Linked Data の 潜 在 的 リ ン ク を 推 定 し て , 知 識 ベ ー ス を 生 成 す る 新 し い ア ル ゴ リ ズ ム で あ り ,図 4 に 示 す よ う に 4 つの機能か ら構成され,そ れぞれの 機 能 は 観 光 語 彙 基 盤 , DBpedia,及び IPAdic を用いて い る. 図 4 RPA の 概 略 図
4.1. 観 光 語 彙 基 盤
観 光 語 彙 基 盤 は , 著 者 ら が 整 備 を 進 め て い る , 観 光 領 域 の RDF デ ー タ を 記 述 す る た め の 述 語 セ ッ ト で あ る . 観 光 語 彙 基 盤 は , 主 に 以 下 の 特 徴 を 有 し て い る . 観 光 領 域 の 述 語 を 提 供 観 光 に 関 す る ウ ェ ブ 上 の 全 て の リ ソ ー ス に 対 し て メ タ デ ー タ を 記 述 で き る よ う に す る こ と を 目 的 と し , 記 事 型 を マ ス タ と し て 画 像 や 動 画 な ど の リ ソ ー ス の メ タ デ ー タ を 記 述 で き る 述 語 を 提 供 す る . 非 ネ ス ト 構 造 述 語 を ド メ イ ン に よ り 管 理 し て い る た め , 非 ネ ス ト 構 造 の RDF データを作成 できる. LinkData.org や自 治 体 独 自 の デ ー タ カ タ ロ グ サ イ ト で 公 開 さ れ て い る LOD は ,非 ネ ス ト 構 造 で 記 述 さ れ て い る も の が 多 い た め ,容 易 に 述 語 を 対 応 付 け る こ と が 可 能 で あ る . URI の 識 別 子 知 識 ベ ー ス と し て 用 い る こ と が 可 能 な RDF デ ー タ を 作 成 で き る よ う に , URI 型 を 基 本 と し た 述 語 構 成 と す る .URI は ,参 照 可 能 で あ る こ と が 条 件 で あ る た め , 表 記 揺 れ の 発 生 を 抑 制 す る 効 果 も 期 待 で き る . 日 本 語 の 述 語 日 本 語 表 記 の 述 語 を 提 供 す る . 述 語 を 統 一 化 し て Linked Data を 記 述 す る こ と で ,RDFS や OWL,WGS84 Geo な ど の 他 の 語 彙 に 変 換 す る こ と も 可 能 と な る . マ ッ ピ ン グ 正 規 表 現 に 対 応 し た 述 語 の マ ッ ピ ン グ 機 能 を 提 供 し て お り , 様 々 な LOD を 統 合 し て 利 用 可 能 と な る . 伝 搬 定 数 主 語 と 目 的 語 の 関 係 性 の 強 さ を 示 す エ ッ ジ 重 み ( 伝 搬 定 数 )に よ り ,柔 軟 に RDF デ ー タ を グ ラ フ デ ー タ に 変 換 す る こ と が で き る . 観 光 語 彙 基 盤 は , 以 下 の 名 前 空 間 で 公 開 し て お り , “ tour” を 接 頭 辞 と し て 用 い る こ と を 想 定 し て い る . http://www.tourism.property/# 図 5 は , 観 光 語 彙 基 盤 を 用 い て 「 沖 田 中 央 公 園 」 の リ ソ ー ス を 記 述 し た 例 で あ る .“ dbpedia:公 園 ” の よ う に URI で 目 的 語 を 記 述 す る こ と で , 他 の LOD に お け る リ ソ ー ス の 概 念 を 継 承 で き る .@pre fix r d f: < http ://w ww. w3. org/19 99/02/22- rd f-s ynta x- ns #> . @pre fix to ur : < http ://ww w. to ur is m. prope rt y/#> .
@pre fix dbpe d ia : < http ://ja . dbpe d ia . org/ re s ourc e /> < http ://www. ta nos hingu. org/ 沖 田 中 央 公 園 >
to ur :名 称 " 沖 田 中 央 公 園 " @ja , " Okita c e ntra l pa rk "@e n; to ur :概 要 " 沖 田 中 央 公 園 は , 福 岡 県 糟 屋 郡 新 宮 町 に あ る
セ ン ト ラ ル パ ー ク で あ る . "@ja; to ur :カ テ ゴ リ dbpe d ia :公 園 ;
to ur :キ ー ワ ー ド db pe d ia :公 園 , dbpe dia :自 然 , dbpe d ia :噴 水 ; to ur :記 事 型 . 図 5 観 光 語 彙 基 盤 を 用 い た Linked Data の 記 述 例 推 定 対 象 の Linked Data 概 念 拡 張 し た Linked Data マ ッ ピ ン グ 観 光 語 彙 基 盤 概 念 推 定 DBpe d ia 地 域 推 定 IPAd ic 潜在的リンク の推定
4.2. マッピング
RPA は , 始 め に Linked Data の 述 語 を マ ッ ピ ン グ す る .例 え ば ,以 下 の よ う に 類 似 し た 述 語 を“ tour:名 称 ” に 統 一 す る . 変 換 対 象 の 文 字 列 は , 観 光 語 彙 基 盤 の 各 述 語 で定義されており,任意値を設定可能である. - http://www.w3.org/2000/01/rdf-schema#label - http://purl.org/dc/terms/title - http://imi.go.jp/ns/core/rdf#表 記 - http://schema.org/name - http://linkdata.org/property/rdf1s2442i#名 称
4.3. キーワード推 定
キ ー ワ ー ド は , リ ソ ー ス の 概 念 を 単 語 , あ る い は 単 語 の 組 み 合 わ せ で 表 現 し た も の で あ り , 複 数 の キ ー ワ ー ド を 用 い て リ ソ ー ス を 判 別 で き る こ と が 望 ま し い と 考 え ら れ る .本 研 究 で は ,電 子 情 報 通 信 学 会 の I-Scover SPARQL API を 用 い て 図 6 に 示 す よ う に キ ー ワ ー ド 特 性 を 評 価 し , そ の 特 性 値 を 導 入 し た 式 (1)の TF-IDF に よ り キ ー ワ ー ド を 推 定 す る .εは,キーワードの特性値 で あ り , 表 1 に 示 す 文 字 列 の パ タ ー ン に 応 じ た 各 式 に よ り 算 出 す る .𝑛𝑛𝑡𝑡,𝑟𝑟 𝑠𝑠は ,リ ソ ー ス𝑟𝑟𝑠𝑠に 対 応 す る 用 語𝑡𝑡の出 現 回 数 で あ り ,𝑓𝑓𝑟𝑟 𝑠𝑠(𝑡𝑡)は,用語𝑡𝑡に対応するリソース𝑟𝑟𝑠𝑠の 件 数 で あ る .N は ,全 リ ソ ー ス の 件 数 で あ る .τ
𝑡𝑡,𝑟𝑟𝑠𝑠は , リ ソ ー ス𝑟𝑟𝑠𝑠に お け る 用 語𝑡𝑡の評価値であり,任意の閾値 以 上 の 用 語 を キ ー ワ ー ド と し て 同 定 で き る .τ
𝑡𝑡,𝑟𝑟𝑠𝑠= ε ∙
𝑛𝑛𝑡𝑡,𝑟𝑟𝑠𝑠 ∑ 𝑛𝑛𝑡𝑡,𝑟𝑟𝑠𝑠�log
𝑁𝑁 𝑓𝑓𝑟𝑟𝑠𝑠(𝑡𝑡)+ 1�
(1) 表 1 キ ー ワ ー ド 特 性 文 字 列 の パ タ ー ン ピーク時 文字数 ピ ー ク 以 下 ピ ー ク 以 上 {英数字(小文字)} 16 ε = 0.070x- 0.120 𝜀𝜀 = - 0.052x+ 1.832 {英数字(大文字)} 3 - 𝜀𝜀 = - 0.121x+ 1.363 {カタカナ} 7 𝜀𝜀 = 0.200x- 0.400 𝜀𝜀 = - 0.093x+ 1.651 {漢字} 4 𝜀𝜀 = 0.330x- 0.320 𝜀𝜀 = - 0.257x+ 2.028 {ひらがな, 漢字} 5 𝜀𝜀 = 0.238x- 0.190 𝜀𝜀 = - 0.207x+ 2.035 {カタカナ, 漢字} 8 𝜀𝜀 = 0.223x- 0784 𝜀𝜀 = - 0.188x+ 2.504 {英数字, カタカナ} 8 𝜀𝜀 = 0.215x- 0.720 𝜀𝜀 = - 0.104x+ 1.832 {英数字, 漢字} 9 𝜀𝜀 = 0.176x- 0.584 𝜀𝜀 = - 0.072x+ 1.648 {ひらがな, カタカナ, 漢字} 9 𝜀𝜀 = 0.143x- 0.287 𝜀𝜀 = - 0.148x+ 2.332 {英数字, カタカナ, 漢字} 10 𝜀𝜀 = 0.166x- 0.666 𝜀𝜀 = - 0.107x+ 2.070 表 2 各 パ タ ー ン に お け る キ ー ワ ー ド の 文 字 数 文 字 列 の パ タ ー ン 総 計 文 字 数 網 羅 率 {英数字(小文字)} 94,234 3 - 33 93.3% {英数字(大文字)} 13,706 3 - 11 93.7% {カタカナ} 16,912 3 - 12 95.9% {漢字} 55,081 1 - 6 93.5% {平仮名, 漢字} 7,759 2 - 8 90.3% {カタカナ, 漢字} 41,652 4 - 12 92.2% {英数字, カタカナ} 4,164 4 - 16 91.8% {英数字, 漢字} 2,299 3 - 19 91.0% {平仮名, カタカナ, 漢字} 2,981 5 - 14 90.5% {英数字, カタカナ, 漢字} 3,480 6 - 17 90.4% 図 6 英 数 字 ( 小 文 字 ) で 構 成 さ れ た キ ー ワ ー ド の 文 字 数 と 件 数 の 分 布 図 7 Simpson 係 数 に よ る キ ー ワ ー ド 推 定 の 評 価 図 8 DBpedia か ら 生 成 し た 用 語 辞 書 の 例 τ𝑡𝑡,𝑟𝑟𝑠𝑠は,表 2 に示す各パターンにおける文字数によって 候補となるキーワードを制限しているため,0 以上 1 以下 の実数となる.2016 年電子情報通信学会総合大会で発表さ れた論文のうち,論文キーワードが概要文に含まれている 2,846 件の論文を対象としてキーワード推定の精度を評価 したところ図 7 の結果が得られた[16].なお,論文キーワ ードを正解データとし,I-Scover に登録されている約 33 万 件のキーワードを辞書として使用している.同図の結果よ り,キーワード特性を考慮した TF-IDF は,一般的な TF-IDF よりもキーワード推定の精度が高いことが分かる. RPA では ,キーワード推定のために DBpedia のラベル データから生成した 506,543 語の辞書を用いており,こ の辞書は図 8 に示すように観光語彙基盤に基づいている. 0 1,000 2,000 3,000 4,000 5,000 6,000 0 5 10 15 20 25 30 35 40 45 50 55 60 キーワ ード の件 数 文字数 0.500 0.600 0.700 0.800 2 4 6 8 10 12 14 16 Si mp so n 係数 キーワード数@pre fix r d f: < http ://w ww. w3. org/19 99/02/22- rd f-s ynta x- ns #> . @pre fix to ur : < http ://ww w. to ur is m. prope rt y/#> .
@pre fix dbpe d ia : < http ://ja . dbpe d ia . org/ re s ourc e /> dbpe dia :観 光
tour :名 称 " 観 光 " @ja ;
tour :キ ー ワ ー ド dbpe d ia :レ ジ ャ ー , dbpe dia :観 光 圏 ;
tour :説 明 " 観 光( か ん こ う )は 、一 般 に は 、楽 し み を 目 的 と す る 旅 行 の こ と を 指 す 。 "@ja;
tour :参 考 < http ://ja . w ik ipe d ia . org/wik i/ 観 光 > ;
tour:ラ イ セ ン ス <https://creativecommons.org/licenses/by-sa/3.0/>; tour :提 供 者 < http :/ /w ik i. dbpe d ia . org/a bo ut/dbpe d ia -c o mmu nit y> ; tour :作 成 者 < http :/ /www. to ur is m. prope rt y/a bo utUS> ;
a to ur :用 語 型 .
4.4. 地 域 推 定
形 態 素 解 析 エ ン ジ ン で 用 い ら れ て い る IPAdic を 用 い て , 推 定 キ ー ワ ー ド に 含 ま れ る 市 区 町 村 を 判 定 し , tour:都 道 府 県 ,tour:市 ,tour:区 ,tour:町 ,tour:村 の 各 述 語 に 対 応 す る 目 的 語 を 推 定 す る . 推 定 キ ー ワ ー ド が 上 述 の い ず れ か の 述 語 に 対 応 す る 場 合 は , そ の 推 定 キ ー ワ ー ド を キ ー ワ ー ド 群 か ら 除 外 す る .
4.5. カテゴリ推 定
観 光 語 彙 基 盤 で は , 1 つ の 主 語 に 対 し て 最 大 1 件 の カ テ ゴ リ を 記 述 す る 制 約 を 設 け て い る . 推 定 さ れ た キ ー ワ ー ド 群 に お い て 使 用 回 数 が 多 い 順 に キ ー ワ ー ド を カ テ ゴ リ の 候 補 と し , 各 主 語 に お け る 推 定 キ ー ワ ー ド と 一 致 し た ら そ の 推 定 キ ー ワ ー ド を カ テ ゴ リ と す る .4.6. 潜 在 的 リンクの推 定
RPA は , 先 述 の 各 推 定 を 実 施 し た 後 に , グ ラ フ 構 造 に 基 づ い て 潜 在 的 な キ ー ワ ー ド の リ ン ク を 推 定 す る . 一 般 的 な ラ ベ ル 伝 搬 ア ル ゴ リ ズ ム と 同 様 に , 隣 接 ノ ー ド は 同 じ ク ラ ス に 属 す る と 仮 定 し て , キ ー ワ ー ド の ラ ベ ル を 伝 搬 す る . ま ず , triples に お け る 主 語 と 目 的 語 を ノ ー ド と し , 観 光 語 彙 基 盤 に 基 づ い て 述 語 に 対 応 す る エ ッ ジ 重 み ( 伝 搬 定 数 ) を 設 定 し , 無 向 グ ラ フ と し て 取 り 扱 う .次 に ,多 様 な LOD に 対 応 で き る よ う に 教 師 デ ー タ を 式 (2)に 基 づ い て 自 動 的 に 設 定 す る .𝑡𝑡𝑑𝑑𝑑𝑑𝑖𝑖は , ノ ー ド𝑡𝑡に 接 続 さ れ た エ ッ ジ の 総 数 ( 次 数 ) で あ り , 𝑚𝑚𝑚𝑚𝑚𝑚 𝑡𝑡𝑑𝑑𝑑𝑑は,ノード群における最大の次数である .任意 の 閾 値 以 上 の ノ ー ド を 教 師 デ ー タ と し て 設 定 す る . 式 (3)は , ラ ベ ル 予 測 値 の 更 新 式 で あ り ,𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑𝑖𝑖,𝑗𝑗は ノ ー ド 𝑡𝑡,𝑗𝑗間のエッジ重みである. 𝐶𝐶𝑖𝑖=𝑙𝑙𝑙𝑙𝑑𝑑 (𝑚𝑚𝑚𝑚𝑚𝑚 𝑡𝑡𝑑𝑑𝑑𝑑)𝑙𝑙𝑙𝑙𝑑𝑑 (𝑡𝑡𝑑𝑑𝑑𝑑𝑖𝑖) (2) 𝑝𝑝𝑗𝑗,𝑘𝑘+𝑑𝑑𝑡𝑡𝑑𝑑𝑑𝑑𝑖𝑖,𝑗𝑗∗ 𝑝𝑝𝑖𝑖,𝑘𝑘 �𝑡𝑡𝑑𝑑𝑑𝑑𝑖𝑖 → 𝑝𝑝𝑗𝑗,𝑘𝑘 (3) 𝑝𝑝𝑖𝑖,𝑘𝑘は,伝搬元のノード𝑡𝑡におけるラベル𝑘𝑘のラベル予測値 である.𝑝𝑝𝑗𝑗,𝑘𝑘は,伝搬先のノード𝑗𝑗におけるラベル𝑘𝑘のラベ ル予測値である.教師データとして設定された𝑝𝑝𝑖𝑖,𝑘𝑘は 1.0 の値 がセ ット さ れて おり , ノー ド𝑡𝑡からノード𝑗𝑗までの最 短経路を経て再帰的にラベル予測値が伝搬される.本推 定は,マルチラベルに対応しており,1 つのノード(主 語)に対して複数のラベル(キーワード)が推定される. 下限値を設けており,任意の値以下となった場合は,該 当の伝搬を停止することで高速化を図っている. 先 行 研 究 に お い て , 福 岡 県 糟 屋 郡 新 宮 町 の LOD を 対 象 と し て 潜 在 的 リ ン ク の 推 定 精 度 を 評 価 し た 結 果 , 図 9 の 結 果 が 得 ら れ て い る [17]. 正 解 デ ー タ と し て 新 宮 町 LOD を用いて おり,ランダムにキー ワードリ ン ク 図 9 潜 在 的 リ ン ク の 推 定 に お け る 性 能 評 価 を 削 除 し て 推 定 対 象 の Linked Data を生成した .同図 の 横 軸 は ,こ の Linked Data と 正解データを Dice 係数 に よ り 評 価 し た 値 で あ る . 縦 軸 は , こ の Linked Data の潜 在 的 リ ン ク を 推 定 し て 得 ら れ た Linked Data と正解デー タ を Dice 係数に より評価 し た値である.同図より ,Linked Data の リ ン ク 構 造 が 改 善 し て い る こ と が 分 か る .な お , こ の 結 果 は tour:カテゴリの 伝搬定数を 0.5,tour:キーワ ー ド の 伝 搬 定 数 を 0.95 に設定したときの結 果である .5. 実 験
本実験では, LinkData.org で公開されており,ダウンロ ード数が多い 100 件のデータセット (108,942 triples)を対 象とし,RPA によるリンク推定の効果を検証する.概念推 定における各主語の最大キーワード数を 5 件とし,0.3 ≤ τ𝑡𝑡,𝑟𝑟𝑠𝑠とする.また,潜在的リンクの推定においては,各主 語に対する最大キーワード数を 3 件とし,また,0.3 ≤ 𝐶𝐶𝑖𝑖, 下 限 値 0.1 と し て ラ ベ ル 予 測 値 が 0.3 以 上 の ラ ベ ル を キ ー ワ ー ド と す る . こ れ に よ り , 各 主 語 に 対 し て 最 大 8 件 の キ ー ワ ー ド が 付 与 さ れ る こ と と な る . 図 10 は, RPA により推定された Linked Data のグラフ構造の一部で あり,推定前は図 1 に示したグラフ構造の通りである.図 10 RPA により推定された Linked Data のグラフ構造
y = 1.3435x 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.00 0.20 0.40 0.60 推定後の Li nk ed D at aに おける D ice 係数 (y ) 推定前のLinked DataにおけるDice係数 (x)
<http://www3.city.sabae.fukui.jp/ls/001> <http://linkdata.org/property/rdf1s283i#city> "鯖江市"@ja ; <http://linkdata.org/property/rdf1s283i#title> "きらめきロード中河"@ja ; <http://linkdata.org/property/rdf1s283i#llocation> "上河端町、浅水川堤防沿い"@ja ; <http://www.w3.org/2003/01/geo/wgs84_pos#lat> "35.95254"^^xsd:float ; <http://www.w3.org/2003/01/geo/wgs84_pos#long> "136.207561"^^xsd:float ; <http://linkdata.org/property/rdf1s283i#feature> "水辺"@ja ; <http://linkdata.org/property/rdf1s283i#season> "春"@ja ; <http://linkdata.org/property/rdf1s283i#description> "鯖江市の東部を流れる浅水川の堤防 沿いの通り。桜並木と地域の人々が植えた水仙が美しい花を咲かせます。4 月上旬 ~中旬の頃が特に美しい景観となります。"@ja ; <http://linkdata.org/property/rdf1s283i#url> <http://www3.city.sabae.fukui.jp/ls#1> ; <http://linkdata.org/property/rdf1s283i#imageurl> <http://www3.city.sabae.fukui.jp/ls/image/No1.jpg> ; <http://linkdata.org/property/rdf1s283i#imagelargeurl> <http://www3.city.sabae.fukui.jp/ls/imagelarge/No1.jpg> . 図 11 RPA に よ る 推 定 前 の triples の 例 <http://www3.city.sabae.fukui.jp/ls/001> <http://linkdata.org/property/rdf1s283i#season> "春"@ja; tour:ウェブページ <http://www3.city.sabae.fukui.jp/ls#1>; tour:カテゴリ dbpedia:景観;
tour:キーワード dbpedia:中旬, dbpedia:堤防, dbpedia:景観, dbpedia:桜並木; tour:名称 "きらめきロード中河"@ja;
tour:市 dbpedia:鯖江市;
tour:市区町村 "上河端町、浅水川堤防沿い"@ja, "鯖江市"@ja; tour:特記事項 "水辺"@ja; tour:画像 <http://www3.city.sabae.fukui.jp/ls/image/No1.jpg>, <http://www3.city.sabae.fukui.jp/ls/imagelarge/No1.jpg>; tour:経度 "136.207561"^^xsd:float; tour:緯度 "35.95254"^^xsd:float; tour:説明 "鯖江市の東部を流れる浅水川の堤防沿いの通り。桜並木と地域の人々が 植えた水仙が美しい花を咲かせます。4 月上旬~中旬の頃が特に美しい景観となり ます。"@ja. 図 12 RPA に よ る 推 定 後 の triples の 例 RPA により 6,872 nodes から 18,324 nodes に増加し,また, 5,564 edges から 39,174 edges に増加した.これにより,推 定前は 1,615 件のコンポーネントが存在したが,推定後は 235 件に減少し,孤立状態のリソースが改善されたことが 分かる.Triples の件数は,108,942 triples から 141,554 triples に増加しており,32,612 triples のリンクが増加したことに なる.図 11 と図 12 は,それぞれ推定前と推定後の triples の一部である.推定前は,ウェブページと画像の URI の リンクのみであったが,推定後はカテゴリやキーワード, 市のリンクが追加されたことが分かる.また,推定前は 664 種類の述語が存在したが,マッピングにより 430 種類 に減少したことから,メタデータの取り扱いが容易になっ たと考えられる.
6. む す び
近 年 , Linked Open Data (LOD) の 公 開 件 数 が 世 界 的 に 増 加 し て お り ,日 本 国 内 で も 増 加 傾 向 に あ る .Linked Data に お け る URI は ,リ ソ ー ス 間 を 横 断 的 に リ ン ク す る た め に 必 要 な も の で あ り , デ ー タ の ウ ェ ブ を 構 築 す る た め に 不 可 欠 で あ る .し か し ,多 く の LOD は ,十 分 な URI の リ ン ク が 存 在 せ ず ,機 械 判 読 が 課 題 と な り 二 次 利 用 が 難 し い 状 況 に あ る と 考 え ら れ る . こ の た め 本 研 究 で は , リ ソ ー ス の 意 味 概 念 を 推 定 し , キ ー ワ ー ド や カ テ ゴ リ の 潜 在 的 リ ン ク を 推 定 す る Resource Propagation Algorithm (RPA)を 提 案 し た . RPA は , 述 語 の マ ッ ピ ン グ , 概 念 推 定 , 地 域 推 定 , 潜 在 的 リ ン ク の 推 定 の 4 つ の 機 能 か ら 構 成 さ れ て い る .LinkData.org に 登 録 さ れ て い る LOD を 対 象 と し て RPA の 有 効 性 を 検 証 し た と こ ろ , リ ソ ー ス の キ ー ワ ー ド や カ テ ゴ リ の リ ン ク 数 が 増 加 し , DBpedia を 介 し て 各 リ ソ ー ス が 横 断 的 に リ ン ク さ れ た こ と か ら , RPA は LOD の 知 識 ベ ー ス 化 に 有 効 で あ る と 考 え ら れ る .
謝 辞
本 研 究 は JSPS 特 別 研 究 員 奨 励 費 17J09765 の 助 成 を 受 け た も の で あ る .参 考 文 献
[1] Stefan Decker, Prasenjit Mitra, Sergey Melnik, “Framework for Semantic Web: An RDF Tutorial”, IEEE Internet Computing, Volume 4, Issue 6, DOI: 10.1109/4236.895018, pp. 68-73, 2000.
[2] Christian Bizer, Tom Heath, Tim Berners-Lee, “Linked Data -The Story So Far”, International Journal on Semantic Web and Information Systems (IJSWIS), Volume 5, Issue 3, pp. 1-22, 2009.
[3] Wendy R. Ginsberg, “The Obama Administration’s Open Government Initiative: Issued for Congress”, CRS Report for Congress, pp. 1-32, 2011.
[4] Data City Sabae ,“ デ ー タ シ テ ィ 鯖 江 と は ”, 鯖 江 市 , http://data.city.sabae.lg.jp/data-city-sabae/ (Accessed on January 10).
[5] 五 味 弘 ,“ I-Scover で 始 め る 文 献 探 し の 旅 ”,電 子 情 報 通
信 学 会 ,情 報・シ ス テ ム ソ サ イ エ テ ィ 誌 ,Volume 22, Issue 3, pp. 25-28, 2017.
[6] Christian Bizer, Jens Lehmann, Georgi Kobilarov, Soren Auer, Christian Becker, Richard Cyganiak, Sebastian Hellmann, “DBpedia – A Crystallization Point for the Web of Data”, Web Semantics: Science, Services and Agents on the World Wide Web, Volume 7, Issue 3, pp. 154-165, 2009.
[7] “LOD STATS”, http://stats.lod2.eu/ (Accessed on January 10).
[8] 一 般 社 団 法 人 リ ン ク デ ー タ ,“ LinkData.org ”, http://linkdata.org/ (Accessed on January 10).
[9] World Wide Web Consortium, “W3C XML Schema Definition Language”, https://www.w3.org/TR/xmlschema11-1/, Accessed on February 13, 2018.
[10] World Wide Web Consortium, “OWL Web Ontology Language”, https://www.w3.org/TR/owl-features/, Accessed on February 13, 2018.
[11] World Wide Web Consortium, “SPARQL Query Language for RDF”, https://www. w3.org/TR/rdf-sparql-query/, Accessed on February 13, 2018.
[12] 情 報 処 理 推 進 機 構 ,“ 共 通 語 彙 基 盤 概 要 ”, https://imi.ipa.go.jp/doc/ IM I_Overview_v2.pdf, Accessed on January 10, pp. 1-9, 2015.
[13] Julius Volz, Christian Bizer, Martin Gaedke, Georgi Kobilarov, “Silk – A Link Discovery Framework for the Web of Data”, 18th International World Wide Web Conference, 2009.
[14] David Liben-Nowell, Jon Kleinberg, “The Link Prediction Problem for Social Networks”, Journal of the American Societ y for Information Science and Technology, Volume 58, Issue 7, pp. 1019-1031, 2007.
[15] 鹿 島 久 嗣 , 加 藤 毅 , 山 西 芳 裕 , 杉 山 将 , 津 田 宏 治 ,“ リ ン ク 伝 搬 法 : リ ン ク 予 測 の た め の 半 教 師 付 き 学 習 法 ”, 人 工 知 能 基 本 問 題 研 究 会 , Volume 73, pp. 19-24, 2009. [16] 槇 俊 孝 ,古 賀 大 騎 ,髙 橋 和 生 ,若 原 俊 彦 ,小 舘 亮 之 ,曽
根 原 登 ,“ Linked Data の 知 識 ベ ー ス を 拡 張 す る Resource
Propagation Algorithm の 特 性 ”,信 学 技 報 , Volume 117, no. 389, LOIS2017-69, pp. 111-116, 2018.
[17] Toshitaka Maki, Kazuki Takahashi, Toshihiko Wakahara, Akihisa Kodate, Noboru Sonehara, “Resource Propagation Algorithm to reinforce Knowledge Base in Linked Data”, The 20th International Conference on Network-Based Information Systems NBiS-S9 (NBiS2017) pp.476-483, 2017.