The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
専門文書
Linked Open Data
用い
ン
大規模
試
A Trail of Expansion of a Biomimetic Ontology using Technical Documents and Linked Open Data
多田
恭
*1
崎
司
*1
來
信
*1
溝
理一郎
*2
Kyohei Tada Kouji Kozaki Yoshinobu Kitamura Riichiro Mizoguchi
*1
大阪大学産業科学研究所
*2
陸先端科学技術大学院大学
The Institute of Scientific and Industrial Research (ISIR), Osaka University Japan Advanced Institute of Science and TechnologyIt is very important to develop biomimetic database which can bridge various knowledge among through different domains for expansion of biomimetic researches. Biomimetic ontologies makes up the core of the database because it provide systematized knowledge through domains. However, targets of the biomimetic ontology is too large to develop it by hands. This article proposes methods to expand a biomimetic ontology from two approaches. The one is based on natural language techniques for technical documents and the other uses Linked Open Data published on the Web.
1.
めに
異 融 目指 世代科学 実現 ,各
多種多様 や知見 , 超え 連携 可 あ . 中 ,生物 優 機能や製造プ
模 ,技術開発や 生 う , 注目 高 い . 研 究 支え プン ョンプ 構築
,種々 異 知識 相互運用性 確保 必
須 . 大規模 ン 構築 ,
新 技術 開発 う い 工学研究者 ,昆虫,鳥類, 魚類 生物多様性 適応 関 情報 あ ゆ 角度 検 索 可 能 , 技 術 革 新 着 想 得
発想支援型 構築 貢献
. ,多種多様 生物 情報 幅広 扱う 必要
研究 特 , ン
大規模 必要 い . 研究 , 先行研究[ 崎 13] 基 , ン 大規模 手法 中 心 研究 行 .大規模 手法 ,専門文書 対象 自 然 言 語 処 理 技 術 利 用 , び , 再 利 用 可 能 形
Web 公 開 い 構 造 あ
Linked Open Data 利用[ 13] いう2 プ
検討 . , 研究 ン 拡 , 昆虫
模 研究 対象 行 , 生
物種 い 様 手法 適用 .
以 ,2章 ン 研究方針
構築 あ 必要 ン
概要 構 築結果 い 述 .3 章 , ン 利用
ン 拡 い , 概要 構築結果 述 .4章 , 研究 総括 今 展望 い 述 .
2.
バ
オミメテ
ク
位オントロ
2.1
バ
オミメテ
ク
位オントロ
概要
ン 用い
幅広い生物種 多様性 適 扱う ,数多 概念 ン 必要 あ .生 物 種 数 い 主要 数万,詳細 含
数百万 . 多 概念 手動 ン
追 加 可 能 近 い . , 概 念 追 加 自 動 的 行う必要 あ . , ン 構築 あ , 数 多 概念 自 動 的 追 加 , 拡 指 標 最 限 ン 人 間 手 あ 用意
ば い. 研究 , ン ン 呼ぶ.
ン 構築 ,昆虫 専門書 あ 昆虫 [ 澤 08] 用 い . ,著者 要 あ 断 語 キ ワ
選 出 , キ ワ 集 索 引 キ ワ 索 引 記 載 い . 研 究 , キ ワ 索 引
掲載 い 語 ン ン
追 加 概 念 , 手 動 ン 構 築 .
2.2
位概念
決定
キ ワ 索 引 , や い 虫 前,飛行や捕食 い 虫 行動,頑強性や走行性 い 虫
性質, ンや ン い 生物 発 物質 う 様々 語 全部 657 語記載 い .
用 い , 単 語 士 関 連 示
う 付 ば い. ,キ ワ
索引 含 657 語 対 , 概念 付 . 以 付 概 念 , 概念 語 数 示 .
概念……… 概念 語 数 器官………106語 機能………115語 機能物………50語 現象………26語 構造………12語 自然物………3語
代………2語 人工物………25語 性質………63語 生体行動………57語 連絡先:多田 恭 ,大阪大学産業科学研究所 知識科学研究
, 〒 大 阪 府 茨 木 市 美 穂 ヶ 丘 , ℡ ,a a@ a a a a
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
動物 種類………9語 動物 前………25語 物質………5語 物質 自然 ………45語 方法………6語 理論………18語
………80語
見 , 機 能 や 機 能 物 , 生 体 行 動 , 器 官 , 性 質 概念 持 概念 比較 的多 現 い .
,先行研究 述 い う , 機能 → 生物種 → 構造
機能 → 生体環境 → 生物種 → 構造 機能 → 生物 行動 → 生物種 → 構造 機能 → 構造 → 生物種
い う , 機能 中 心 様々 観点
見 え , 概 念 利 用 , あ 機 能 実 現 い 生物 部 検索 可能 必要 ン 構 築 際 , 必 要 概 念 多 含 い 思わ .
3.
バ
オミメテ
ク
オントロ
拡充
3.1
オントロ
拡充に向けた
2
種類
プロ
チ
生 物 規 範 工 学 専 門 的 知 識 ン 拡
,自然言語処理 Linked Open Data 用い 2 プ 提案 .前者 い ,前章 用い 昆虫
ン 拡 い 用 い 考 え . 書 1000 近 あ 書籍 あ ,昆虫以外 領域 適 用 拡 手法 目指 考え , ン 構築者 全 文書 ン 拡 必要 知識 人手 抽出
現実的 い. 研究 , 昆虫
文 対 自 然 言 語 処 理 技 術 適 用 , ン 必要 概念 追加 いう方針 採用 .
者 い ,Web , 計 算 機 知 識 処 理
適 RDF 用い 構造 ,誰
利 用 プ ン 公 開 い Linked Open Data 用い 考え . 研究 ,一般 的 百科事典
Web 構築 い Wikipedia 情報 構築 DBpedia Japanese1 び日 語 Wikipedia ン [玉川 11]
2
用い .
両 プ 共通 手 , 記 3 プ .
(1) ン 追加 概念 候補 選択 . (2) ン 追加 概念 概念 定 . (3) 関 種類 定 .
以降 3 プ 沿 明 .
3.2
自然言語処理を用いたオントロ
拡充
自 然 言 語 処 理 用 い ン 拡 手 以 通 あ .
(1) ン 追加 概念 候補 選択
拡 ン 追加 概念候補 選択 あ , , キ ン 用ソ Text Mining Studio
3
キ 文 中 出 現 単 語 頻 度 出 力 機 能 用
1
http://ja.dbpedia.org/
2
http://www.wikipediaontology.org/
3
https://www.msi.co.jp/tmstudio/
い , 昆虫 文中 あ 単語 う 高頻度 出 現 い 抽出 . 要 単語 絞 込 際 ,
昆虫 巻 掲載 い 索引 語 追加 概念 候補 .索引語 書籍 著者 あ 専門家
選定 い ,専門家 観点 要 断 語
あ 出来 .
(2) ン 追加 概念 概念 定
前章 述 ン 定義 い 概念 , 概 念 既 定 義 い . 種類 概 念 概 念 , ン 既 定義 い 概念 類似度 高い単語 , 概念 弟概念 考え
. (1) 選択 ン 追加 候補 単語 ン 概念 間 単語間類似度 計算 ,
類似度 高い ン 追加 .例えば, 概念 器官 定義 い ン 概念 衡 胞 , 類似度 高い単語 尾扇肢 組 あ 場 , 尾 扇肢 概念 器官 ン 追加 .
単 語 間 類 似 度 計 尺 度 様 々 あ , 研 究 , 自 然言語処理 一般的 わ い コサ ン類似度 用 い .コサ ン類似度 ,特 間 距離 基 尺度 [相澤 07] あ ,各単語 表
,比較 2 単語 表 類似 い ば 単語 士 類似 い いう考え方 計算 . 研究 ,類似度計算 必要 特 ,(1)
抽 出 昆 虫 全 文 中 高 頻 度 出 現 単語 い ,1文毎 共起語 抽出 ,書籍 全 文 通
和集 特 .計算 簡単 ,単語 共起回数 考慮 ,あ 単語 書籍全体 通 1回
一文章 共起 現 い ば特
共起語 対 1 , う ば 0 . (3) 関 定
概 念 間 関 ,書 籍 文 抽 出 単語 間 共起関 び 関 用い . ,
関 抽出 単語間 ,何 関 性
考え ,概念 間 意味的 関 種類 区 い い. ,関 種類 い ,共起
得 関連 性 あ 単 語 概 念 比 較 定 .
例えば,単語 A 例:多層膜 渉 単語 B 例: 構造 関連性 , 概念 機 能 構造 あ 場 , 関 機能 成 貢献 構造 考え
1 .
1 関 定 例
機能達成に貢献 る構造
関 係
多層膜干渉 機能
is‐a関係
構造
is‐a関係
二つ 単語 関連 いる … 位概念 関係 参照 る
位概念 位概念
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
3.3
自然言語処理を用いたオントロ
拡充
考察
, 昆虫 全 文 16,743 文 Text Mining Studio 用い 処理 ,出現 回数 2回 以 単語 10,616
語 抽出 . , 10,616語 単語 い , 文中 共起 出現 単語 組 導出 .得 共 起 単語 組 2,134,511 組 あ 異 文 現
単 語 組 わ 含 . , 結 果 用 い 単 語 毎 共起 出現 語 一覧 生成 . 単語 特 相当 . , 共起語 組 生成 各単語 特 用い ,各単語間 コサ ン類似度 計算 . あ 類似 度 高 い単 語 組 概念
適 あ , 研究 ,コ サ ン類似度 0.5以 単語 組8731組 い 考察 行 .
最初 ,コサ ン類似度 0.5以 単語 組8731組 う , 追 加 候 補 単 語 キ ワ 索 引 複 い い
7320組 い ,コサ ン類似度 高い ソ ,単語
組 ン 選び, 概念 付 い い事 索引 概念 単語 類似 い ン
概念 概念 付 正答率 コサ ン類似度 関 手動 調 . 結果 表 1 , 2 示 . ,正答率 高 46.2%ほ 得 . ,全 高頻度 出現 単語 あ 要 い単語 や う 抽 出 出 来 い い 単 語 含 い 考 え
. , 昆虫 付録 い ,専門語 索引 あ 事 索引 単語 限定 様 処理 試 .
事 索引 2228語 単語 掲載 い , 中 キ ワ 索引 複 単語 含 い . ン
概念 類似 事 索引 単語 組 う ,事 索引 キ ワ 索引 複 い い単語 組 コサ ン類似度 0.5 以 あ 443組 あ . 様 処理 行
い 概念 付 正答率 コサ ン類似度 関 調 . 結果 表2 , 3 示 . , コサ ン類似度 正答率 63.6% 高 出 来 . ,追加候 補 単語 適 限 定
正答率 あ 要 あ 示唆 . ,コサ ン類似度 高 , 細胞 ン 概念 事 索引 単語 や捕食 ン
概念 捕食者 事 索引 単語 う , 一方 う一方 単語 一部 い 場 多
概念 う場 あ ,全体的 見 コサ ン
類似度 従 概念 確率
い い .
3.4 Linked Open Data
を用いたオントロ
拡充
Linked Open Data 用い ン 拡 手 以
通 あ .
(1) ン 追加 概念 候補 選択 SPARQL ン ン LOD用 検索 API 公開
い 任意 LOD 対 検索ソ 簡易SPARQL 表2 事 索引 単語 コサ ン類似度 概念 定 正答率
コサ ン類似度 全組 定数 正 い組 誤 い 組 正答率
0.80-1.00 8 8 2 6 25.0%
0.70-0.80 11 11 7 4 63.6%
0.60-0.70 53 11 6 5 54.5%
0.50-0.60 371 20 6 14 30.0%
2 抽出 全単語 対象 コサ ン類似度
概念 定結果 評価
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0%
0.95‐1.00 0.90‐0.95 0.85‐0.90 0.80‐0.85 0.75‐0.80 0.70‐0.75 0.65‐0.70 0.60‐0.65 0.55‐0.60 0.50‐0.55
正
答
率
コ サ ン 類 似 度
3 事 索引 単語 対象 コサ ン類似度
概念 定結果 評価
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0%
0.80‐1.00 0.70‐0.80 0.60‐0.70 0.50‐0.60
正
答
率
コ サ ン 類 似 度
表1 昆虫 出 全 単語 コサ ン類似度 概念 定 正答率
コサ ン類似度 全組 定数 正 い組 誤 い 組 正答率
0.95-1.00 10 10 3 7 30.0%
0.90-0.95 13 13 6 7 46.2%
0.85-0.90 23 16 3 13 18.8%
0.80-0.85 20 10 4 6 40.0%
0.75-0.80 33 12 5 7 41.7%
0.70-0.75 55 11 2 9 18.2%
0.65-0.70 146 14 4 10 28.6%
0.60-0.65 450 12 2 10 16.7%
0.55-0.60 1628 22 3 19 13.6%
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 4 -
1
用い , 前章 構築 ン
概念 う DBpedia Japanese 日 語Wikipedia ン
概念 一 存在 抽出 ,
関 ン 追加 概念
候補 .
(2) ン 追加 概念 概念 定 DBpedia Japanese,日 語Wikipedia ン
一 概念 関 , LOD 定義 い 関 利用 . 関 用い 導入 追加 概念 候補 概念 い , ン 定義
い プ 概 念 相 当 既 各 LOD 定義 い 場 , 関 調
定 . 以外 場 ,各LOD内 概念相当 ン ン 行う 工夫 必要 あ .
(3) 関 定
関 定 い ,自 然言語 処理 手法 様 , 概念 定結果 用い 手法 加え,各 LOD 定義 い 関 種類 利用 方法 考え .
3.5 Linked Open Data
を用いたオントロ
拡充
考
察
簡易 SPARQL , ン 概念 657 個 う ,DBpedia Japanese 存 在
285 個 43.4% ,日 語 Wikipedia ン 存
在 226個 34.4% あ . 概 念 関 ,日 語Wikipedia ン 用い is-a 関
や 関 あ 概 念 追 加や,DBpedia Japanese 用い ン 概念 関連性 あ 単語 追加 行 え .
,前章 定義 ン 概念 い 様 解析 行 . 結果, 除い 概念全 16個 う ,器官,機能,現象,構造, 代,性質,物質,方法,
理論 9個 概念 DBpedeia Japanese 日 語 Wikipedia
ン 存 在 .
用い ,今 追加 概念 既 DBpedia Japanese や日 語Wikipedia ン 概念 単語 is-a関
や 関 あ 定義 い 場 関
用い 出来 . ,器官や物質 い 概念 , 来 意味 生物や実際 存在 い 関 あ ,LOD 定義 関 用 い 可能 あ う ,機能や構造 関 ,構築 い ン
関 あ , 追 加 い 概 念 関 い い可能性 あ . LOD 存在 い 概念 い , ン ン 行う
対応 検討 い.
一方,DBpedia Japanese WikiLink 用い 関連概念 追 加 関 ,特性 ,概念間 関 定 必要 あ
,Wikipedia 記 事 内 自 然 言 語 処 理 類 似 度 計 算 関 導出 操作 行わ ば い. い
今 研 究 効率 的 関 定 方法 考え 必 要 あ .
4.
本研究
総括
今後
展望
研 究 , 自然 学 ぶ 目 指 い , 生 物 学 工 学 両 研 究 者
1
http;//sourceforge.jp/projects/easylod/wiki/EasySPARQL
多種多様 知識や知見, 領域横断的 利用
う , 中
核 ン 大規模 手法
い 考察 行 .
今 研究 ,様々 観点 検索 可能
構 築 多 知 識 ン 拡 必 要 あ , 多 角 的 扱 う , ン 概念数 多 加え ,概念間 多 関 持
要 ,今回提案 2 概念追加 プ 考察 ,生物学 工学 いう全 異
連携 進 い い. ,自然言語処理 用い ン 拡 い , コ サ ン 類 似 度
概念 定 正確性 足 い ,今回行 1 文 毎 特 計算 段落毎, 一 変更
, 範 特 生成 ば良い 検討 必 要 あ . ,Web 検 索 ン ン 用 い 類 似 度 計 算 [Bollegala 07] ,コサ ン類似度以外 手法 入
考察 い. ,Linked Open Data 用い ン 拡 い ,DBpedia Japanese,日 語Wikipedia以外
日 語 WordNet
2
既存 ソ 用い [Morita 08,山 99] 検討 い .
謝辞
研究 一部 科学研究費補助金 新学術領域研究 研究 領域提案型 24120002 構築
助成 .
参考文献
[相澤 07] 相澤彰子:共起 基 類似性尺度, ョン
サ 経営 科学,Vol.52,No.11,pp.706-712,2007. [ 崎 13] 崎 司:生物 多様性 規 範 料技術開発
支 援 向 ン 試 作 ,2013 度人工知能学会全国大会,3I1-3,2013.
[ 澤 08] 澤楯夫,針山孝彦: 昆虫 ~昆虫 設
計 学ぶ~,NTS,2008.
[玉川 11] 玉川奨, 森田武史, 山 高 :日 語Wikipedia
プ 備え ン 構築,人工知能学会論 文 ,Vol.26,No.4,pp.504-517,2011.
[ 13] (著), ン (著), 武田
英明 (監訳):Linked Data: Web 空間 組 , 近代科学社,2013
[Bollegala 07] D. Bollegala, Y Matsuo and M Ishizuka: Measuring Semantic Similarity between Words Using Web Search Engines, Proc. of the 16th international conference on World Wide Web, pp. 757-766, 2007.
[Morita 08] T. Morita, N. Izumi, T. Yamaguchi: Integrating a Domain Ontology Development Environment and an Ontology Search Engine, Proc. of the Eighth Joint Conference on Knowledge-Based Software Engineering, Frontiers in Artificial Intelligence and Applications pp.263– 272, 2008.
[山 99] 山 高 ,榑松理樹,青木千鶴,関内 恵子,加賀
山 茂 , 一 : 計 算 機 可 型 辞 書 利 用 領 域 ン 構 築 支 援 環 境 , 人 工 知 能 学 会 ,Vo.14,No.6, pp.1080-1087, 1999.