• 検索結果がありません。

2.3.1 Wikipedia の概要

Wikipedia8は誰もが無料で自由に編集に参加できるオンライン百科事典であり,日本語

版Wikipediaは2013年10月現在,既に87万を超えるページ数が存在する9.Wikipedia のような知識形態は「集合知」とも呼ばれ,語彙の現在使用されている意味の定義が掲載 されており,既存の辞書よりも真の意味を表すという考え方も広まってきてい る.

Wikipediaは一般的な概念から最新の技術動向に関する記事まで幅広い分野の記事が網羅

されていて膨大なコンテンツが存在し,さらに記事内の単語それぞれから対応したページ へのリンクや言語リンク,関連項目のページへのリンクなど,Wikipedia内の各ページ間 でのハイパーリンクも充実している.Wikipedia ではカテゴリ階層,Infobox といった構 造フォーマットを利用してこの膨大な量のコンテンツを整理している.Wikipediaのデー タは記事本文,リンク構造などはGFDL (GNU Free Documentation License) [7]のライ センスの下にフリーで公開され,SQLやXMLの形式でダウンロードすることができる.

2.3.2 Wikipedia の利点

Wikipediaはオントロジー構築の観点から見て有用な点が多いコーパスである.以下に

その点を3つ述べる.

図 2.15 Wikipedia のトップページ

8 http://ja.wikipedia.org

9 http://ja.wikipedia.org/wiki/Wikipedia:日本語版の統計

2.3 Wikipedia 27

(1) URLによる語彙の一意性確立

URLによって語彙の一意性が確立されている点は,Wikipediaの大きな特徴の一つであ る.電子辞書では,通常一つの見出し語が一つのページに割り当てられており,その中で 複数の意味について詳述される.一方,Wikipediaでは一つのURL(ページ)に一つの概 念が割り当てられており,多義性がURLによって解決されている点が大きな特徴である.

たとえば,「Football」は強いコンテキスト依存を持つ単語であり,アメリカンフットボー ルを示す場合もサッカーを示す場合もある.Wikipediaでは,これら二つの概念は別々の ページで管理されており,

”http://en.wikipedia.org/wiki/American_Football”,”http://en.wikipedia.org/wiki/Foo

tball_%28soccer%29”という別々のURLが割り当てられている.

(2) 辞書更新の即時性

従来の辞書では,一般的な語からトップダウン的に追加されていくのが通常であり,一 般的でない語や専門的な語は辞書に追加されるのが遅れる.もしくはいつまでも登録され ないのが一般的である.しかし,Wikipediaでは,インターネットを通じてリアルタイム に記事が編集・アップロードされ,リンクが構築されていくため,極めて即時性が高い.

例えば,ある企業から最新の技術の発表があった数時間後には,エントリが生成され,そ の説明や詳細なスペック,画像などが他の語へのリンク付きで公開されたというケースも ある.このような新しい概念に対する網羅性の高さはコーパスとしてみたときの重要な特 徴の一つである.

(3) コンテンツの網羅性

従来,WWWを自然言語処理のコーパスとして利用する場合,その探索空間が膨大すぎ ることから,解析内容が発散もしくは偏ってしまうという問題があった.これを回避する ためにはクローリングの方法を工夫するか大規模な並列システムを構築しなければならな かった.これに対し,Wikipediaは,一般的な概念から最新の技術動向に関する記事まで 幅広い分野の記事が網羅されており,膨大なコンテンツ量が存在するものの,WWWの探 索空間に比較するとそのリンク構造はサイト内で閉じられており,現実的な時間での解析 が可能となる.

2.3.3 Wikipedia のデータ

Wikipediaを構成するデータとその構造のうち,主要なものを説明する.

 記事ページ

Wikipediaの構成単位としては最も主要なものである.電子辞書でいう見出し語の一つ

を記述しているページである.一つのページに一つの概念が割り当てられており,多義性 がURLによって解決されている.図2.16に記事ページの例を示す.

28 第2章 関連研究

図 2.16 記事ページの例

 Infobox

記事ページの中には,Infoboxと呼ばれる構造を持つページもある.Infoboxは,その概 念の基本的な情報をテーブル形式でまとめたもので,動物,果物,国など種類ごとにテン プレートが存在する.図2.17はInfoboxを持つ記事ページとInfoboxである.

図 2.17 Infobox を持つ記事ページ(左)と Infobox(右)の例

2.3 Wikipedia 29

図 2.18 カテゴリページ(左)とカテゴリ階層の概念図(右)の例

 カテゴリとカテゴリ階層

カテゴリには記事ページが割り当てられ,記事ページの分類・整理の役割を果たしてい る.記事ページは複数のカテゴリに属している場合もある.カテゴリ自体も親カテゴリ,

子カテゴリが割り当てられ,ネットワークを形成しているが,ある部分だけを一種の木構 造をとみなし,カテゴリ階層と捉えることができる.

 一覧ページ

記事ページの中には,「~の一覧」というタイトルのページがあり,そのページには,

記事のタイトルをクラスと見立てた場合にそのインスタンスとなるものが項目として列挙 されている.一覧ページは主に記事タイトル,その項目(インスタンス),インスタンス を整理・分別している目次から成り,図2.19のような形態をしている.Wikipediaが多く の分野の知識をカバーしているのと同様,一覧ページも数多くの分野のものが存在する.

数多く存在する一覧ページは本研究でも着目している構造化情報であり,豊富なインスタ ンスの情報を抽出できる可能性を持っている.

図 2.19 一覧ページ(左)とその概念図(右)の例

30 第2章 関連研究

図 2.20 DBpedia の記事の例