[7] [10] Web Web RDF Resource Description Framework subjectpredicate object Web Web Web Web Web 2 Web Web MUC(Message Understanding Confere

(1)

社団法人電子情報通信学会

THE INSTITUTE OF ELECTRONICS,

INFORMATION AND COMMUNICATION ENGINEERS

信学技報

TECHNICAL REPORT OF IEICE.

Web

からの関係情報の抽出

辻下

卓見

†

森

純一郎

††

石塚

満

††

†

東京大学工学部

〒 113–8656 東京都文京区本郷 7–3–1

††

東京大学大学院情報理工学系研究科

〒 113–8656 東京都文京区本郷 7–3–1

E-mail:

†{

tjstkm,jmori,ishizuka

}

@mi.ci.i.u-tokyo.ac.jp

あらまし近年の Web における情報の爆発的な増加を受けて，Web から有用な情報や構造を抽出する Web マイニン

グに関する研究が盛んに行われてきている．本研究では，Web マイニングの一手法として，エンティティとエンティ

ティの間の関係をあらわすような情報を Web 上からキーワードとして自動的に抽出する手法を提案する．提案手法で

は同じ関係を持ったエンティティペアは同様の文脈で Web 上に表れるとの仮定に基づき，エンティティペアの出現文

脈を重要語でモデル化する．エンティティペアモデルをクラスタリングすることで，生成されたクラスターから関係

情報を抽出する．提案手法を用いた実験では政治家と地名のエンティティペアに対して適切な関係情報が抽出できる

ことを検証した．

キーワード情報抽出，Web マイニング，検索エンジン，エンティティペアモデル，クラスタリング

Extracting Relationships among Named Entities from the Web

Tsujishita TAKUMI

†

, Junichiro MORI

††

, and Mitsuru ISHIZUKA

††

†

Faculty of Engineering, University of Tokyo

Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8656 Japan

††

Graduate School of Information Science and Technology, University of Tokyo

Hongo 7–3–1, Bunkyo-ku,

Tokyo, 113–8656 Japan

E-mail:

†{

tjstkm,jmori,ishizuka

}

@mi.ci.i.u-tokyo.ac.jp

Abstract

With the currently huge amount of information on the Web, Web mining methods that obtain useful

information and structures from the Web have been gained interest. We propose a novel Web mining method that

automatically extracts relational information among named entities from the Web. The basic idea is to cluster

similar pairs of named entities based on their contextual similarity on a Web document. Relational information

among named entityes is obtained from the result of clustering process. Our experiments conducting on entity pairs

of politicians and places achives clustering of the entity pairs with high recall and precision, and ﬁnd appropriate

relational information among the entities.

Key words

Information Extraction, Web Mining, Search engine, Entity pair model, Clustering

1. はじめに

近年のWebにおける情報の爆発的な増加を受けて，Webから有用な情報や構造を抽出するWebマイニングに関する研究が盛んに行われてきている．特に，検索エンジンを利用したWeb マイニング手法が注目されている．基本的な考え方は，検索エンジンにおけるヒット件数や検索結果のページを用いてある語やフレーズがどの程度Web上で用いられているかの統計情報を取得し有用な情報を抽出するというものである．検索エンジンを用いたWebマイニング手法は，Web全体を巨大なコーパスと見なした言語処理であり，Webマイニングのみならず自然言語処理やセマンティックWebなどさまざまな分野から多様な応用が研究されてきている．検索エンジンを用いたWebマイニングの一例として，エンティティの自動抽出があげられる．エンティティ抽出とは，あるWebページに出現する人名，地名や組織名などのエンティティをWeb上における出現パターンや頻度を元に自動で抽出するものである[1]∼[4]．また，人と人，組織と組織といったエンティティ間の関係，ネットワークをWebから抽出する研究も行われている．松尾らは，氏名のWeb上における共起情報から研究者間の関係をWebから自動的に抽出する手法を提案している[5]. また，同様の手法で金らは企業間の関係をWeb から抽出する手法を提案している[6] 近年の社会ネットワークへの関心の増大から，Web上における共起情報を用いてエ

(2)

ンティティ同士の関係を抽出する手法は大きく着目されており，他にもさまざまな研究がなされてきている[7]∼[10]．エンティティとエンティティのつながりが得られたときに，興味深いことは，その関係に関するさらなる情報である．松尾らは研究者間の関係を抽出する際に，その関係が共著，同所属など研究上でどのような関係にあるのかを判別している．企業間の関係抽出において金らは提携や訴訟などの関係を同定している．このように，関係を自動抽出する際に単に関係の強さだけでなく，その関係の背後にある情報も含めて抽出することで，関係構造だけでは浮かび上がってこない多様な意味づけと解釈を社会ネットワークに与えることできる．関係に関する情報はセマンティックWebにおいても重要である．セマンティックWebの語彙を表現するための枠組みである

RDF（Resource Description Framework）のメタデータのモ

デルは、トリプルと呼ばれる主語（subject）述語（predicate）目的語（object）の三つの要素でリソースに関する関係情報を記述する文からなる．トリプルは主語と目的語をノードとし述語をラベルとしたエッジで結ぶことでネットワーク構造としても表現される．例えば，主語と目的語をそれぞれ，人と組織といったエンティティすると，述語は「所属している」「社員である」といったエンティティ間のある関係をあらわす情報である．以上のように，社会ネットワーク，セマンティックWebといった現在のWebの流れにおいて，対象間の関係に関する情報は，その重要性が増してきている．本研究では，人と組織，人と地名，人と人といった，あるエンティティとエンティティの間の関係をあらわすような情報を関係情報として，それらの情報をWeb上からキーワードとして自動的に抽出する手法を提案する．エンティティ間の関係を表す情報とは，例えば政治家と地名というエンティテペアであれば，その政治家が元首，出身，選出など地名とどのような関係にあるかをあらわすものである．提案手法では同じ関係を持ったエンティティペアは同様の文脈でWeb上に表れるとの仮定に基づき，エンティティペアをクラスタリングすることで関係情報を抽出することを行う．抽出された関係情報は社会ネットワーク，セマンティック Webにおけるメタデータの自動生成，さらに情報検索や質問応答などへの応用が考えられる．以下，2章ではWebからの関係情報抽出の手法を述べる．3 章では実験について述べ，4章では評価を行う．5章において提案手法の有効性と限界について議論を行い，最後に6章においてまとめを行う．

2. Web

からの関係情報の抽出

関係情報の抽出は情報抽出タスクの一つとして， MUC(Message Understanding Conference)における Tem-plate Relation TaskやACE(Automatic Content Extraction) meetingsにおけるRelation Detection and Characterization などで扱われてきた．これらのタスクで対象とする関係とは人物や組織などのエンティティ（注 1）

間における所属，役割，位

（注 1）：ACE における固有表現抽出タスクでは Person, Organization,

Fa-置，Part-Whole，社会的関係を指すものであり，例えば，ACE

の関係抽出タスクにおいては場所の関係を表すlocated, near,

part-wholeや社会的関係を表すbusiness, familyや雇用関係を

表すexecutive, staﬀなどの関係が定義されている．例えば「日本の小泉純一郎首相は...」という記述に対しては，PERSON エンティティである「小泉純一郎」とGPEエンティティ（注 2）である「日本」との関係である「首相」がエンティティ間の関係を表すことになる． 2. 1 提案手法のアイデアあるエンティティとエンティティの関係情報をWebからどのように抽出できるだろうか．ここで，例として，政治家 (PER-SON)と地名(GRE)という二つのエンティティ間にある関係を抽出することを考えてみよう．政治家と地名での間には，その地名の出身，選挙区から選出された，その地名の首長，元首などさまざまな関係が存在する．これらの関係はエンティティとともにWeb上の文書に表れているはずである．エンティティ間の関係を情報抽出する際の単純な方法として，エンティティのペアがWebページ上で表れる箇所を調べて，関係を表すような情報を見つけるといったものが考えられる．表1は，”小泉純一郎AND日本”，”森善朗AND日本”，” 小泉純一郎AND 神奈川”，”森善朗AND石川”という4つの検索クエリーそれぞれに対して得られた検索結果の上位ページの文書から検索クエリーの近傍に出現する重要語を抽出した結果である．ここで，得られた重要語群は，検索クエリーである政治家と地名のエンティティペアが出現する文脈をbag of wordsで単純に表したものとみなせる．なお，重要語の抽出にはtf idfを用いてスコアリングを行った． ”小泉純一郎AND日本”と”森善朗AND 日本”という検索クエリーは，どちらも”首相”または”総理大臣”といった関係を含む政治家と地名のエンティティペアであるが，それぞれのエンティティペアに対して得られた重要語の中で共通している語を見てみると”首相”，”総理”，”内閣”といった関係を表す語が共通して含まれていることがわかる．また，”小泉純一郎AND神奈川”と”森善朗AND石川”は，どちらも政治家と選挙区という関連を持つエンティティペアであるが，こちらも重要語として”選挙”，”首相”，”候補”，”議員”といった関係を表すような語が共通して含まれている．一方，”小泉純一郎AND日本”と”小泉純一郎AND 神奈川”に対するそれぞれの重要語を見比べると，同一人物であるにもかかわらず”日本”と”神奈川”という，クエリーにおける地名の違いにより，異なる重要語が表れていることがわかる．以上のことから，Webからのエンティティ間のの関係情報の抽出において，「Web上に出現する文脈が類似しているエンティティのペアは類似した関係を持っている」という仮説を考えることができる．文脈の類似性が意味的な類似性に寄与するという同様の仮説は従来研究においても指摘されいている[11]. こ

cility, Location, GPE, Vehicle, Weaponのエンティティが定義されている．

（注 2）：GPE は Geo political entity であり地名を政治的な意味として用いられるものである．

(3)

表 1 ”小泉純一郎 AND 日本”，” 森善朗 AND 日本”，” 小泉純一郎 AND 神奈川”，

”森善朗 AND 石川” の各検索結果の上位ページから tf idf によって得られた重要語

Table 1 Keyword list obtained from the search results with a search query: ”Junichiro Koizumi AND JAPAN”, “Yoshiro Mori AND JAPAN”, “Junichiro Mori AND Kanagawa”, and “Yoshiro Mori AND Ishikawa”

クエリー tf idfによって抽出された重要語小泉純一郎 AND 日本病理藤原首相小泉光文社政治宰相参拝ページ, 総理バックス野郎, 商品内閣国民改革大臣ワルシャワアメリカ靖国靖国神社再生社会森善朗 AND 日本ラグビー首相会長招致大臣協会科学政権総理館長サッカーアフリカ世界宇宙競技ページスポーツ失言関連メディア毛利弘之敦子内閣理事小泉純一郎 AND 神奈川選挙首相横須賀候補つよし議員斉藤自民党三浦小泉民主党衆議院ページ関連強敵政治公認自由民主党一家総裁出馬補選地元同志森善朗 AND 石川一川保夫首相選挙自民奥田候補小松議員自民党祐士能美加賀金沢西村ページ新進回答松任公明党当選委員民主政治県議比例支配衆院開票の仮説に基づいて，類似した文脈で表れるエンティティのペアをまとめ，同じ関係を持つエンティティペアが共通して持つ重要語を関係を表す情報として抽出するというのが提案手法の基本的なアイデアである．この時，個別のエンティティのペアを対象に処理を行うのではなく，ペアの集合を扱うことにより得られる大局的な情報を用いる点が提案手法の重要な点である．以下では，このアイデアに基づくWebからの関係情報抽出の手法について具体的に述べていく． 2. 2 提案手法の詳細本研究で提案するWebからの関係情報抽出の手順は以下の通りである．（1）エンティティペアの集合を取得（2）各エンティティペアの文脈モデルを取得（3）エンティティペア間の文脈モデルの類似度を計算（4）類似度に基づきエンティティペアをクラスタリング（5）各クラスタから関係情報となるラベルを抽出図1は提案手法の手順を図示したものである．まず，関係抽出の対象とするエンティティのペア集合を取得する．例えば，人

物(PERSON)と組織(ORGANIZATION)や人物(PERSON)

と地名(GPE)などのエンティティのペアである．次に各エンティティペアを検索エンジンのクエリーとして検索をおこない，エンティティペアを含むWebページを取得する．取得したWebページの中でエンティティペアの出現する周囲の語を用いて，ペアの文脈ベクトルを作成する．各エンティティペアについて文脈ベクトルを作成し，文脈ベクトル間の類似度に基づいてクラスタリングを行う．クラスタリングの結果生成された各クラスターからラベルを抽出し，最終的にそのラベルをクラスターに属するエンティティペアの関係情報とする．先の仮説に基づけば，類似した文脈で表れるエンティティのペアは同一のクラスターに属し，そのクラスターの各ペアは同様の関係を持っているはずである．以下では，各手順の詳細について説明を行う． 2. 3 エンティティペア集合の取得関係抽出の対象とするエンティティのペアの集合は人物と組織，人物と地名のような同一種類のペアの集合とする．これは提案手法のアイデアに基づき，同一種類のエンティティペア集合から，同様の関係を持つエンティティペアをまとめていき関係を取り出すという処理を行うためである．そのためには，まず対象とするエンティティの判別を行う必要がある．エンティティの判別・抽出は自然言語処理の固有表現抽出タスクにおいて研究がなされたきた．近年では，固有表現抽出技術の精度が実用レベルまで向上してきており，抽出ツールを用いることで対象の文書から高い精度でエンティティの自動抽出を行うことが可能である．IREXプロジェクトの固有表現抽出タスクでは，8種類の表現，組織名，政府組織名，人名，地名，固有物名，日付表現，時間表現，金額表現，割合表現を定義しており，対応するツール[12]を利用することで文書集合から人物，地名，組織などのエンティティを抽出することができる．エンティティの判別はメタデータの自動アノテーションを目的にセマンティックWebの分野でも研究がなされており[1]∼ [4]，これらのエンティティ判別技術とともに，”同じ文に出現している”，”同じページに出現している”，”検索エンジンでで一定件数以上ヒットする”などの条件により関係抽出の対象とする人物と組織，人物と地名，人物と人物，組織と組織などといったエンティティのペアの集合を事前に作成しておく． 2. 4 エンティティペアモデルの取得エンティティペアを同士を類似度に基づきクラスタリングするために，エンティティペア集合の各ペアがWeb上に出現する文脈を何らかのモデルで表現する必要がある．Raghavanらは，テキストに出現する人名，地名や組織名といったエンティティを表現するためにentity languageモデルというものを提案している[13]．このモデルは，エンティティが出現する周辺語の統計的な分布によってエンティティを表現するものである．ここでは，このモデルをエンティティのペアに適用する．つまり，エンティティペアがある距離内で共起している時に，その間の語およびエンティティの前後の語を用いてエンティティペアの文脈を表現する．エンティティペアモデルを作成するために，エンティティ集合の各ペアを検索エンジンのクエリーとして検索を行う．例えば，人物と組織のエンティティペアを対象とする場合は，人物

(4)

<PER>-<GPE> 小泉純一郎-日本ブッシュ-アメリカ森善朗-日本・・・・ P1: c(小泉純一郎,日本) = {政治，政権，首相，…} P2: c(ブッシュ,アメリカ) = {大統領，政権，イラク} P3: c(森善朗,日本) = {ラグビー，総理，会長，…} …. P1 P3 … エンティティペア集合エンティティペアのコンテクストベクトル各ペアをWeb検索検索結果のページから重要語抽出エンティティペアのクラスタコンテクストベクトル間の類似度に基づいてクラスタリング _{ラベルの抽出} 関係情報 C1 C2 C3 C1:首相　C2:大統領．．．．図 1 Webからの関係情報抽出手法の概要図

Fig. 1 Extraction of relational information among named entities from the Web

名と組織名をAND検索する．この時，検索ヒット件数が，あらかじめ定めた閾値以下のエンティティペアはWeb上において出現が少ないと見なして処理から除くようにする．検索結果から上位のWebページを取得し，各Webページからエンティティペアがある語数以内で共起する箇所を抽出し，エンティティの間の語およびエンティティの前後の語をエンティティペアの文脈として取得する．語の品詞としては名詞，未知語を使用する．また，ストップワードとして低頻度および高頻度の語は除くようにする．エンティティペアe1− e2を含む文脈から取得した各語tに対して，tf idf (Term Frequency-Inverse Document Frequency) を用いて次の式で重み付けを行う． tf idf (t) = tf (t)· idf(t) ここで，tf (t)はe1− e2を含むすべての文脈における語tの出現頻度，idf (t)は全エンティティペアの文脈ベクトルの作成に用いたWebページの内，どれぐらいのWebページに語tが出現するかの尺度である．以上により，エンティティペアモデルは，ペアをなすエンティティe1,e2の文脈ベクトルC(e1, e2) として以下のように表される． C(e1, e2) ={t1, t2, ..., tk, ...} ここで，文脈ベクトルの要素となる語tkはtf idf (tk)により重み付けがなされている． 2. 5 エンティティペア間のクラスタリングとラベル抽出各エンティティペアの文脈ベクトルを用いて，ペアのクラスタリングを行う．クラスタリングを行う際のエンティティペア間の類似度は文脈ベクトルCi同士の内積 cos(Ci, Cj) = CiCj |Ci||Cj| によって求める．クラスタリングの手法は，生成すべきクラスター数が事前にわからないため階層化クラスタリングを用いる．エンティティペアをクラスタリング後，クラスター内のエンティティペアの文脈ベクトルに多く含まれているような語を，そのクラスターのラベルとして抽出する．その際に，文脈ベクトル作成の時と同様にtf idfを用いてラベルの重要度を決定する．ただし，この時のtfはクラスターにおける語の出現頻度を用いる．これは各クラスターに特徴的な語を，そのクラスターに属するエンティティペアの関係情報となるラベルとして抽出していることに相当する．

3. 実

験

提案手法を用いて，実際にWebから関係情報の抽出実験を行った．実験に用いたエンティティペアは，人物(PERSON) と地名(GPE)を対象とした．特に政治家と関連する地名のペアを使用し，”首相”や”議員”のように地名に対して人物が政治的な立場，役割，関わりをもったエンティティペアのデータを作成した．対象としたエンティティペアの総数は143であり，各ペアに対して正解データとして関係のラベル付けを行った．その関係の内訳は首相が22，大統領が17，知事が47，市長が 13，議員が44ペアであった．各エンティティペアをWeb検索（注 3）し，上位100件のWeb ページを用いて文脈ベクトルを作成した．各Webページからエンティティペアが含まれる文脈を取得する際に，2つのパラメータを用意した．一つはエンティティ間の語数n，もう一つはエンティティの前後の語数mである．文脈ベクトルの作成において，エンティティペアが語数n以内で共起する箇所を対象に，エンティティペアに挟まれるすべての語とエンティティの前後のm語を用いた．2章において示した表1は，実験で用いたエンティティペアとその文脈ベクトル要素である語の例を示している．クラスタリングには最長距離法を用い，生成するクラスターの数は事前に付与した正解ラベルの数である5つとした．表2 は，nを30，mを10とした時に各クラスターから抽出されたラベルを示しており，関係情報として重要度の高い順に左から並んでいる．（注 3）：検索エンジンには google を使用した

(5)

表 2 エンティティペアのクラスターから抽出した関係情報 Table 2 Relational Information obtained from a cluster of entity pairs

クラスターラベル (手動判別) クラスターから抽出した関係情報 1 市長市長知事府知事委員市民会長県知事開催日本共産党都知事 2 大統領大統領政権政治世界経済関連戦争選挙記事ページ 3 首相首相政権政治選挙記事大統領病理戦争重体ページ 4 知事県知事知事ページ会長市長関連県政委員サイト泉田 5 議員選挙議員自民自民党比例衆院民主党衆議院民主当選表 3 文脈ベクトルに使用する語とクラスタリングの性能

Table 3 Clustering performance in relation to the number of POS in a contextual vector

文脈ベクトルに使用する語 Precision Recall F尺度エンティティペアの前後 10 語および間 30 語まで 0.992 0.995 0.994 エンティティペアの前後 5 語および間 10 語まで 0.88 0.85 0.86 エンティティペアを含むページ全体 0.76 0.677 0.716

4. 評

価

まず，クラスタリングの結果についてPrecisionとRecallを用いた評価を行う．生成された各クラスタごとに，手動判別したクラスターのラベルと一致するクラスター内のエンティティペアを正解とし，クラスタclにおける正解ペアの数をNcorrect,cl，不正解であったペアの数をNincorrect,clとする．また，関係r ついて正解であったペアの数をNcorrect,r，関係rの正解ラベルがついてるペアの数をNtrue,rとする．この時，クラスタリングの結果のPrecision(P )とRecall(R)を以下のように求める． P = Σcl Ncorrect,cl Ncorrectmcl+ Nincorrect,cl , R = Σr Ncorrect,r Ntrue,r また，P とRからF尺度も同時に求める．図2はエンティティペアの文脈ベクトル作成時に用いる語数のパラメータであるnとmを変化させた時のクラスタリング結果のF尺度を表している．エンティティペア間の語数の上限であるnは30語，エンティティペアの両端の語数mは10 語とした時にもっともクラスタリング結果のF値が高いことがわかる．この時，表3に示すようにクラスタリングの結果はPrecisionおよびRecallともに99%を示している．文脈ベクトル作成に使用する語数の幅を増減させるとF値は減少する．ページ全体を対象とした場合は，エンティティペアの文脈とあまり関係のない語が含まれるようになるためクラスタリング結果の精度は大きく落ち込む．エンティティペアの文脈を適切にモデル化するには，使用する近傍の語数が大きく影響していることがわかる．つぎに表2を見ると，関係情報となる抽出されたラベルについて，各クラスターから抽出された重要度の高いラベルと正解ラベルはよく一致していることがわかる．しかし，抽出したラベルには関係情報とは関連のない一般的な語や他のクラスターのラベルが含まれているなどしているため，ラベルの重要度計算については今後改良を行う必要がある．また，ラベルの評価に関して概念距離や意味的な類似度を用いることで適切な関係情報が抽出できているかを定量的に評価を行えるようにする必要がある． 0 0.2 0.4 0.6 0.8 1 1.2 5 10 15 20 25 30 35 40 45 averaged F measure

window size (the number of POS)

window size between entities window size at sides of entities

図 2 文脈ベクトルに用いる語数とクラスターの F 尺度の関係

Fig. 2 The number of POS in a contextual vector vs. F measure of Clustering results

表 4 文脈ベクトルのスコアリングとクラスタリングの性能

Table 4 Clustering performance in relation to scoring methods of a contextual vector

文脈ベクトルのスコアリング手法 Precision Recall F尺度

tf idf 0.88 0.85 0.86

共起 0.338 0.225 0.27

表 5 文脈ベクトル間の類似尺度とクラスタリングの性能

Table 5 Clustering performance in relation to similarity measures between contextual vectors

クラスタリングの距離尺度 Precision Recall F尺度 cosine 0.88 0.85 0.86 ユークリッド 0.426 0.365 0.393

5. 議

論

提案手法には，検討すべきいくつかの項目が存在する．ここでは，文脈ベクトルのスコアリングとベクトル間の類似尺度について考えてみる．現在のところ，エンティティペアの文脈ベクトルはtf idf により語がスコア付けされている．しかしながら，語のスコアリ

(6)

ングは他にもさまざまな指標が考えられる．tf idfと並んで，重要語の抽出によく使われる指標として語の共起情報がある[10]．表4はエンティティペアと文脈中の語の共起を用いて文脈ベクトルの語をスコアリングした時と，tf idf を用いた時のクラスタリング結果の性能を比較したものである(ただし，nとmはそれぞれ10語,5語とし，類似尺度には内積を用いた)．スコアリングに共起を用いた場合は，クラスタリング結果の性能が非常に悪くなっている．エンティティペアと語の共起を考慮したことにより，各エンティティペアに特徴的な語に対して偏ってスコアが付けが行われたためである．文脈ベクトルの作成においては，エンティティペアの文脈を表す適切な一般語をよく拾うtf idfと非常に特徴的な語を拾う共起情報を組みあせたスコアリングを今後検討する必要がある．次に，エンティティペアのクラスタリングを行う際に用いて類似尺度について検討を行う．表5は類似尺度にユークリッド距離を用いた時と，内積を用いた時のクラスタリング結果の性能を比較したものである(ただし，nとmはそれぞれ10語,5 語とし，文脈ベクトルのスコアリングにはtf idf を用いた)．内積と比べると類似尺度にユークリッド距離を用いたものはクラスタリング結果性能が悪くなっている．内積，ユークリッド距離のほかにも類似尺度にはさまざまな指標が存在するため[13]，今後はクラスタリングおよび関係情報抽出のための適切な類似尺度の検討をおこなう．この他にも，エンティティペアモデルの作成に使用するWeb ページ数や生成するクラスター数の決定などの検討を行い．手法の改善を行っていく予定である．

6.

7. まとめ

本研究では，Webからの関係情報の抽出手法を提案した． Web上において出現する文脈が類似しているエンティティペアは類似した関係を持っているという提案手法の基本的な考え方である．この仮定の基づいて，Webから取得したエンティティペアモデルのクラスタリングを行い，クラスターからエンティティ間の関係を抽出するのが提案手法の特徴である．今後は，議論で述べたように手法の改善を行うとともに，多様なエンティティペアの種類に対して適用を行っていく．文献

[1] P. Cimiano, G. Ladwig, and S. Staab, “Gimme’ the con-text: Context-driven automatic semantic annotation with cpankow,” Proc. of the 14th World Wide Web Conference, 2005.

[2] P. Cimiano, S.Handschuh, and S. Staab, “Towards the self-annotating web,” Proc. of the 13th World Wide Web Con-ference, 2004.

[3] O. Etzioni, M. Cafarella, D. Downey, S. Kok, A. Popescu, T. Shaked, S. Soderland, D. Weld, and A. Yates, “Web-scale information extraction in knowitall(preliminary re-sults,” Proc. of the 13th World Wide Web Conference, pp.100-109, 2004.

[4] O. Etzioni, M. Cafarella, D. Downey, A. Popescu, T. Shaked, S. Soderland, D. Weld, and A. Yates, “Meth-ods for domain-independent information extraction from the web: An experimental comparison,” Proc. of the AAAI Conference, 2004. [5] 松尾豊，友部博教，橋田浩一，中島秀之，石塚満，“Web 上の情報からの人間関係ネットワークの抽出，”人工知能誌，vol.20， no.1，pp.46–56，2005. [6] 金英子，松尾豊，石塚満，“Web 上の情報を用いた企業間関係の抽出，”知識ベースシステム研究会, SIG-KBS，2005.

[7] P. Mika, “Flink:semantic web technology for the extraction and analysis of social networks,” Journal of Web Semantics, vol.3, no.2, 2005.

[8] A. Culotta, R. Bekkerman, and A. McCallum, “Extracting social networks and contact information from email and the web,” Proc. of CEAS, 2004.

[9] 原田昌紀，佐藤進也，風間一洋，“Web 上の key person の発見

と関係の可視化，”情処学研報, DBS-130/FI-71，2003.

[10] 森純一郎，松尾豊，石塚満，“Web からの人物に関するキーワー

ド抽出，”人工知能誌，vol.20，no.5，pp.337–345，2005. [11] G.A. Miller, and W.G. Charles, “Contextual correlates of

semantic similarity,” Language and Cognitive Processes, vol.6, no.1, pp.1-28, 1991.

[12] 工藤拓，松本裕治，“段階適用による日本語係り受け解析，”情処

学論，vol.43，no.6，pp.1834-1842，2002.

[13] H. Raghavan, J. Allan, and A. McCallum, “An exploration of entity models, collective classiﬁcation and relation de-scription,” Proc. of LinkKDD, 2004.

[14] E. Agichtein, and L. Gravano, “Extracting relations from large plain-text collections,” Proc. of the 5th ACM Interna-tional Conference on Digital Libraries (ACMDL00), pp.85-94, 2000.

[15] D. Zelenko, C. Aone, and A. Richardella, “Kernel methods for relation extraction,” Proc. of the Conference on Em-pirical Methods in Natural Language Processing, pp.71-78, 2002.

[16] T. Hasegawa, S. Sekine, and R. Grishman, “Discovering re-lations among named entities from large corpora,” Proc. of the Annual Meeting of Association of Computational Lin-guistics (ACL 04), 2004.

[7] [10] Web Web RDF Resource Description Framework subjectpredicate object Web Web Web Web Web 2 Web Web MUC(Message Understanding Confere

Web

からの関係情報の抽出

辻下

卓見

森

純一郎

石塚

満

†

東京大学工学部

〒 113–8656 東京都文京区本郷 7–3–1

††

東京大学大学院情報理工学系研究科

〒 113–8656 東京都文京区本郷 7–3–1

E-mail:

†{

tjstkm,jmori,ishizuka

}

@mi.ci.i.u-tokyo.ac.jp

あらまし 近年の Web における情報の爆発的な増加を受けて，Web から有用な情報や構造を抽出する Web マイニン

グに関する研究が盛んに行われてきている．本研究では，Web マイニングの一手法として，エンティティとエンティ

ティの間の関係をあらわすような情報を Web 上からキーワードとして自動的に抽出する手法を提案する．提案手法で

は同じ関係を持ったエンティティペアは同様の文脈で Web 上に表れるとの仮定に基づき，エンティティペアの出現文

脈を重要語でモデル化する．エンティティペアモデルをクラスタリングすることで，生成されたクラスターから関係

情報を抽出する．提案手法を用いた実験では政治家と地名のエンティティペアに対して適切な関係情報が抽出できる

ことを検証した．

キーワード 情報抽出，Web マイニング， 検索エンジン，エンティティペアモデル，クラスタリング

Extracting Relationships among Named Entities from the Web

Tsujishita TAKUMI

, Junichiro MORI

, and Mitsuru ISHIZUKA

†

Faculty of Engineering, University of Tokyo

Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8656 Japan

††

Graduate School of Information Science and Technology, University of Tokyo

Hongo 7–3–1, Bunkyo-ku,

Tokyo, 113–8656 Japan

E-mail:

†{

tjstkm,jmori,ishizuka

}

@mi.ci.i.u-tokyo.ac.jp

Abstract

With the currently huge amount of information on the Web, Web mining methods that obtain useful

information and structures from the Web have been gained interest. We propose a novel Web mining method that

automatically extracts relational information among named entities from the Web. The basic idea is to cluster

similar pairs of named entities based on their contextual similarity on a Web document. Relational information

among named entityes is obtained from the result of clustering process. Our experiments conducting on entity pairs

of politicians and places achives clustering of the entity pairs with high recall and precision, and ﬁnd appropriate

relational information among the entities.

Key words

Information Extraction, Web Mining, Search engine, Entity pair model, Clustering

1.

は じ め に

2.

Web

からの関係情報の抽出

3.

実

験

4.

評

価

5.

議

論

6.

関 連 研 究

7.

ま と め

あらまし近年の Web における情報の爆発的な増加を受けて，Web から有用な情報や構造を抽出する Web マイニン

キーワード情報抽出，Web マイニング，検索エンジン，エンティティペアモデル，クラスタリング

はじめに

関連研究

まとめ