本章では,本論文のまとめと今後の課題および展望について述べる.
本論文では,半構造化情報資源として,日本語版Wikipediaを用いて,概念および概念 間の関係を抽出する事で,大規模で汎用的なオントロジー(日本語 Wikipedia オントロジ ー)の自動構築手法の提案とその評価を行った.また,日本語 Wikipedia オントロジーの 領域オントロジー構築支援としての評価とLinked Open Dataのハブとしての評価により,
構築した日本語Wikipediaオントロジーの有用性を示した.
日本語 Wikipediaの様々な構造から is-a関係(rdfs:subClassOf),クラス-インスタン ス関係(rdf:type),プロパティ名とトリプル,プロパティ定義域(rdfs:domain),プロパティ 値 域(rdfs:range), プ ロ パ テ ィ 上 位 下 位 関 係(rdfs:subPropertyOf), 上 位 下 位 関 係 (jwo:hyper),関連語・同義語(jwo:nearly),動詞とプロパティの関係(jwo:verb)を抽出し,
関係を統合することで,1300万以上もの関係を持った非常に大規模で汎用的なオントロジ ーを自動構築することができた.加えて,日本語Wikipediaオントロジーは,クラス,イ ンスタンス,プロパティのオントロジー3 要素を持つだけでなく,プロパティ定義域,プ ロパティ値域,プロパティ上位下位関係とプロパティタイプを持つ.これはオントロジー 記述言語OWLの仕様に則ったオントロジーであり,自動構築したオントロジーの質とし ては非常に高いものである.さらに,手動構築されている WordNet や日本語語彙大系と の比較により,日本語Wikipediaオントロジーは他の汎用的なオントロジーには無い詳細 な概念を多く持っており,汎用的なオントロジーとしての有用性を示すことができた.
日本語Wikipediaオントロジーの利用については,日本語Wikipediaオントロジーのい
くつかの領域でクラス,インスタンス,プロパティおよびそれらの関係を評価することで,
具体物がインスタンスとなる領域では日本語Wikipediaオントロジーは領域オントロジー 支援として有用であり,再利用可能であることを示すことができた.また,日本語 WikipediaオントロジーをLinked Open Data化し,既存の代表的なLinked Open Data ハブであるDBpediaと比較した結果,日本語WikipediaオントロジーはDBpediaには無 い関係を多く持っており,国内Linked Open Dataハブとして有用であることを示すこと ができた.加えて,外部Linked Open Dataとの連携による日本語Wikipediaオントロジ ーLinked Open Dataの有用性を示すために,日本語WikipediaオントロジーとLinked Open Data を連携させて検索することができるツール WiLD(Wikipedia Linked Data Application)を実装した.外部Linked Open Dataとして,XBRL Linked Open Dataを 用いて日本語Wikipediaオントロジー内の科目情報と,XBRL Linked Open Dataの科目 情報を関連付けることで,分析支援ツールとして利用可能であった.日本語Wikipediaオ ントロジーのプロパティとLinked Open Vocabulariesの語彙の対応付けによる日本語語 彙構築手法の提案と評価については,schema.orgに代表される汎用的な語彙に関しては日
122 第5章 結論
本語 Wikipedia オントロジーとの対応付けが可能であり,日本語Wikipedia オントロジ
ーのプロパティを用いることで,LOD 構築のための支援としての利用可能性を示すこと ができた.しかしながら,専門性が高い語彙については,日本語Wikipediaオントロジー との対応付けが十分にできず,このような専門性が高い概念をWikipediaから抽出するこ とが今後の課題である.
日本語Wikipediaオントロジー構築についての今後の課題として,日本語Wikipediaオ
ントロジーに不足している抽象的な概念や専門性が高い概念の構築がある.抽象的な概念 や専門性が高い概念は構造化することが比較的難しく,Wikipediaの本文中にその説明が 書かれていることが多い.本文の多くはフリーテキストによる記述のため,本文からの情 報抽出のためには自然言語処理技術の利用が必要不可欠である.フリーテキストからのオ ントロジー構築に関する研究は多く存在しているが,辞書に依存することが多く,あまり 成果を上げられていない.フリーテキストからのオントロジー構築は高いハードルがある ため,既に抽出している日本語Wikipediaオントロジーの概念を再利用し,Wikipedia本 文中のフリーテキストからオントロジー構築のためのルールを抽出し,ルールを基にオン トロジーを再構築するといった手法が可能なのではないかと考えている.
日本語Wikipediaオントロジーの利用についての今後の課題として,Linked Open Data
を中心とした日本語Wikipedia オントロジーの利用法を検討していく必要がある.より実 用性を考慮したオントロジーとするためには,質の向上と規模の拡大が必要不可欠であり,
先に述べたような概念の抽出による規模の拡大だけでなく,各種手法による抽出結果の精 度の向上も同時に行わなければならない.
最後に,今後の展望として,日本語Linked Open Dataの更なる普及のためにLinked
Open Data構築支援環境の整備が考えられる.現在のLinked Open Dataの公開には構築
者の技術,知識,手法に依存しているところが多く,ハードルが高いと言える.Linked Open Dataの再利用や構築支援ツールの普及など,ハードルを下げる取り組みが必要である.
DBpedia Japanese のサービスが開始され,現在,日本語 Wikipedia オントロジーは
DBpedia Japanese とリンクし合う形で,組み込まれている.DBpedia Japanese は
DBpedia Japanese に無い概念を日本語 Wikipedia オントロジーから補完し,日本語
Wikipediaオントロジーは,自動構築のために日本語Wikipediaオントロジーに不足して
いる安定性や精度をDBpedia Japaneseから補完している.このように,共に補完し合う
形で,Linked Open Dataハブとして共存は可能であり,DBpediaとYAGOの関係と似て
いると言える.今後はより,サービスとしての有用性を意識して,国内の Linked Open Data普及のための構築支援に取り組んでいきたい.
123
参考文献
[1] T. Berners-Lee, J. Hendler, and O. Lassila, “The Semantic Web,” Scientific American, pp.34-43, 2001.
[2] N. Shadbolt, T. Berners-Lee, and W. Hall, “The Semantic Web Revisited,” IEEE Intelligent Systems, vol.21, no.3, pp.96-101, 2006.
[3] F. Bond, H. Isahara, S. Fujita, K. Uchimoto, T. Kuribayashi, and K. Kanzaki,
“Enhancing the Japanese WordNet,” Proceedings of the 7th Workshop on Asian Language Resources, 2009.
[4] 池原悟,宮崎正弘,白井諭,横尾昭男,中岩浩己,小倉健太郎,大山芳史,林良彦,“日 本語語彙大系”,岩波書店,1997.
[5] P. Buitelaar, P. Cimiano, and B. Magnini, “Ontology Learning from Text: Methods, Evaluation and Applications,” Frontiers in Artificial Intelligence and Applications Series, IOS Press, Vol. 123, 2005.
[6] T. Yokoi, “The EDR Electronic Dictionary,” Communications of the ACM, Vol.38, No.11, pp.42-44, 1995.
[7] Free Software Foundation, “GNU Free Documentation License,” 2008, http://www.gnu.org/licenses/fdl-1.3.en.html
[8] ISO/IEC 9075:2008, “Information technology--Database languages--SQL,” 2008.
[9] T. Bray, J. Paoli, C.M. Sperberg-McQueen, E. Maler, and F. Yergeau, “Extensible Markup Language (XML) 1.0 (Fifth Edition),” W3C Recommendation, 2008, http://www.w3.org/TR/xml/
[10] 中山浩太郎,伊藤雅弘,Erdmann, M.,白川真澄,道下智之,原隆浩,西尾章治郎,
“Wikipediaマイニング 近未来チャレンジキックオフ編”,人工知能学会論文誌,Vol.
24,No. 6,pp.549--557,2009.
[11] F. Manola and E. Miller, “RDF Primer,” W3C Recommendation, 2004, http://www.w3.org/TR/rdf-primer/
[12] T. Berners-Lee, “Design Issue: Linked Data,” 2009, http://www.w3.org/DesignIssues/LinkedData
[13] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, and Z. Ives, “DBpedia: A Nucleus for a Web of Open Data,” 6th International Semantic Web Conference, Vol.
4825, pp.722-735, 2007.
[14] A. Maedche and S. Staab, “Discovering Conceptual Relations from Text,”
Proceedings of the ECAI2000, pp.321-325, 2000.
[15] D. Faure and C. Nedellec, “Knowledge Acquisition of Predicate Argument Structures from Technical Texts Using Machine Learning: The System ASIUM,”
124 参考文献 Proceedings of the EKAW, vol.1621, pp.329-334, Springer, 1999.
[16] P. Y. Vandenbussche, B. Vatant, and L. Rozat, “Linked Open Vocabularies,” Atelier Qualite et Robustesse pour le Web de Donnees IC 2011, 2011.
[17] 溝口理一郎,“オントロジー工学”,人工知能学会編集,オーム社,2005.
[18] T. R. Gruber, “Ontolingua: A Mechanism to Support Portable Ontologies,”
Knowledge Systems Laboratory, Stanford University, 1991.
[19] M.K. Smith, C. Welty, and D.L. McGuinness, “OWL Web Ontology Language Guide,”
W3C Recommendation, 2004, http://www.w3.org/TR/owl-guide/
[20] W3C OWL Working Group, “OWL 2 Web Ontology Language Document Overview (Second Edition),” W3C Recommendation, 2012,
http://www.w3.org/TR/owl2-overview/
[21] D. Connolly ,F. Harmelen, I. Horrocks, D. McGuinness, P. F. Patel-Schneider, and L.
A. Stein, “Annotated DAML+OIL Ontology Markup,” 2001, http://www.w3.org/TR/daml+oil-walkthru/
[22] T. Berners-Lee, R. Fielding, and L. Masinter, “RFC 3986: Uniform Resource Identifier (URI): Generic Syntax,” IETF, 2005, http://www.ietf.org/rfc/rfc3986.txt [23] M. Duerst and M. Suignard, “RFC 3987: Internationalized Resource Identifiers
(IRIs),” IETF, 2005, http://www.ietf.org/rfc/rfc3987.txt
[24] D. Brickley and R. Guha, “RDF Vocabulary Description Language 1.0: RDF Schema,” W3C Recommendation, 2004, http://www.w3.org/TR/rdf-schema/
[25] H. Knublauch, R.W. Fergerson, N.F. Noy, and M.A. Musen, “The Prot´eg´e OWL Plugin: An Open Development Environment for Semantic Web Applications,”
Proceedings of the Third International Semantic Web Conference, pp.229-243, 2004, http://protege.stanford.edu/
[26] T. Morita, N. Fukuta, N. Izumi, and T. Yamaguchi, “DODDLEOWL: Interactive Domain Ontology Development with Open Source Software in Java,” IEICE Transactions on Information and Systems, Vol.E91-D, No.4, pp.945-958, 2008.
[27] X.Lopez and S. Das, “Oracle Database 11g Semantic Technologies Semantic Data Integration for the Enterprise,” an Oracle White Paper, 2009.
[28] R. M. Keller, D. C. Berrios, R. E. Carvalho, D. R. Hall, S. J. Rich, I. B. Sturken, K. J.
Swanson, and S. R. Wolfe, “SemanticOrganizer: A Customizable Semantic Repository for Distributed NASA Project Teams,” International Semantic Web Conference 2004, pp. 767-781, 2004.
[29] V. Lopez, M. Pasin, and E. Motta, “AquaLog: An Ontology-Portable Question Answering System for the Semantic Web,” The Semantic Web: Research and Applications, pp.546-562, 2005.
[30] F. M. Suchanek, G. Kasneci, and G. Weikum, “YAGO: A Large Ontology from Wikipedia and WordNet,” Journal of Web Semantics, Volume 6 Issue 3, pp. 203-217, 2008.
125 [31] J. Biega, E. Kuzey, F. M. Suchanek, “Inside YAGO2s: a transparent information
extraction architecture,” Proceedings of the 22nd international conference on World Wide Web companion, pp. 325-328, 2013.
[32] S. P. Ponzetto and M. Strube, “Deriving a Large Scale Taxonomy fromWikipedia,”
Proceedings of the 22nd national conference on Artificial intelligence, Vol. 2, pp.1440-1447, 2007.
[33] B. Wei, J. Liu, J. Ma, Q. Zheng, W. Zhang, B. Feng, “Motif-based Hyponym Relation Extraction from Wikipedia Hyperlinks,” Proceedings of the 19th international conference on Neural Information Processing, Vol. 5, pp.610-619, 2012.
[34] F. Wu and D. S. Weld, “Automatically Refining the Wikipedia Infobox Ontology,”
Proceedings of the 17th international conference on World Wide Web, pp.635-644, 2008.
[35] M. Xu, Z. Wang, R. Bie, J. Li, C. Zheng, W. Ke, M. Zhou, “Discovering Missing Semantic Relations between Entities in Wikipedia,” Proceedings of the 12th International Semantic Web Conference, pp. 673-686, 2013.
[36] 小林暁雄,増山繁,関根聡,“日本語版ウィキペディアのカテゴリー階層に着目した日
本語WordNet上位下位意味体系の拡張手法”,電子情報通信学会論文誌 D,J95-D,6,
pp.1356-1368, 2012.
[37] 柴木優美,永田昌明,山本和英,“日本語語彙大系を用いたWikipediaからの汎用オン
トロジー構築”,情報処理学会研究報告,自然言語処理研究会報告,2009-NL-194-4,
pp. 1-8,2009.
[38] 隅田飛鳥,吉永直樹,島澤健太郎,“Wikipediaの記事構造からの上位下位関係抽出”,
自然言語処理学会,Vol.16,No.3,pp. 3-24,2009.
[39] Open Government Working Group, “8 Principles of Open Government Data,” 2007, http://www.opengovdata.org/home/8principles
[40] T. Berners-Lee, “Linked Data - Design Issues”, 2006, http://www.w3.org/DesignIssues/LinkedData
[41] R. Cyganiak and J. Anja, “The Linking Open Data cloud diagram,” 2011, http://lod-cloud.net/
[42] 武田英明,嘉村哲郎,加藤文彦,大向一輝,高橋徹,上田洋,“日本におけるLinked Data
の普及にむけて”,第25回人工知能学会全国大会論文集, NO.3E3-OS20-9,2011.
[43] D. Brickley and L. Miller, “FOAF Vocabulary Specification 0.98,” 2010, http://xmlns.com/foaf/spec/
[44] A. Miles and D. Brickley, “SKOS Core Guide,” 2005, http://www.w3.org/TR/swbp-skos-core-guide/
[45] M. Hepp, “GoodRelations Language Reference V 1.0,” 2011, http://www.heppnetz.de/ontologies/goodrelations/v1
126 参考文献 [46] GeoNames Team, “GeoNames Ontology V 3.1,” 2012,
http://www.geonames.org/ontology/documentation.html
[47] W3C Web Schemas group, “http://schema.org/docs/documents.html,” 2011, http://schema.org/docs/documents.html
[48] 玉川奨,桜井慎弥, 手島拓也, 森田武史, 和泉憲明, 山口高平,“日本語Wikipediaから の大規模オントロジー学習”,人工知能学会論文誌,Vol.25,No. 5,pp. 623-636,2010.
[49] 玉川奨,森田武史,山口高平,“日本語Wikipediaからプロパティを備えたオントロジ
ーの構築”,人工知能学会論文誌,Vol.26,No.4,pp. 504-517,2011.
[50] F. Giasson and Y. Raimond, “Music Ontology Specification,” 2007, http://motools.sourceforge.net/doc/musicontology.html
[51] M. Magrane and UniProt Consortium, “UniProt Knowledgebase: a hub of integrated protein data,” Journal of Biological Databases and Curation, PMC3070428, 2011.
[52] D. Brickley, “WGS84 Geo Positioning: an RDF vocabulary,” 2009, http://www.w3.org/2003/01/geo/wgs84_pos#
[53] DCMI Usage Board, “DCMI Metadata Terms,” 2012, http://dublincore.org/documents/dcmi-terms/
[54] 鈴木健太,玉川奨,山口高平,“大規模会計Linked Dataのためのシステムアーキテク
チャ”, 第26回人工知能学会全国大会論文集,3C2-OS-13b-7,2012.
[55] M. Okabe, A. Yoshioka, K. Kobayashi, and T. Yamaguchi, "Organizational Knowledge Transfer Using Ontologies and a Rule-Based System," IEICE Transactions on Information and Systems, Special Section on Knowledge Based Software Engineering, Vol.E93-D, No.4,pp.763-773, 2010.
[56] 得丸英勝,“統計工学ハンドブック”,培風館,1987.