• 検索結果がありません。

情報発信者の同定

ドキュメント内 WISDOM Web (ページ 167-172)

第 7 章 リンク解析 111

付録 9. A TSUBAKI API

10.1.7 情報発信者の同定

10.1.2節で見たように,情報発信構成に含まれる情報発信者にはサイト運営者と著者の2種類ある.本

章では情報発信者同定の基本的な枠組みを示し,その後その枠組みに基づくサイト運営者同定および著者 同定の手法について述べる.

10.1.7.1 情報発信者同定の枠組み

情報発信者同定を,Webページが与えられたときにそのWebページの情報発信者(サイト運営者,あ るいは著者)の名前を示す文字列をWebページあるいはその他の情報源から抽出する問題とする.その 他の情報源とは,他ページからのリンクに含まれるアンカーテキストやWHOISデータベースなどであ る.以下,情報源としては分析対象のWebページ,あるいは分析対象のWebページと同一サイトにある ページを用いることを想定する.

Webページの情報発信者を同定する問題は,Webからの情報抽出タスクの一種と考えられる.そのよ うなタスクで一般的な課題設定は,同一サイトからのページを訓練データに,同一サイト内ページの構造 の類似性を利用して抽出器を学習するというものである.しかし,情報発信者の同定で対象となるのは特 定のサイトではなく,不特定多数のサイトであり,同一サイト内のページの類似性を利用することができ

10.1 Webページの情報発信構成 155 ない.そこで,提案手法では,サイトに依存しない性質として,Webページの主要部と情報発信者名の 出現位置の関係に着目する.ページ主要部認識のアルゴリズムを導入し,サイト運営者同定ではフィルタ として,著者同定では分類器の素性として利用する.

情報発信者の同定は以下の手順でおこなわれる.

1. 情報発信者候補を抽出する対象となるWebページ集合の選択(サイト運営者同定の場合のみ)

2. Webページから情報発信者候補を抽出

3. 情報発信者候補から情報発信者を選択 以下,手順(2)および(3)について述べる.

■Webページからの情報発信者候補の抽出

情報発信者候補の抽出では,抽出対象として選択されたWebページから以下の手順で情報発信者候補 を抽出する.

1. 抽出対象ページ領域の選択 2. 抽出対象文の選択

3. 情報発信者候補の抽出

抽出対象ページ領域の選択では,情報発信者名が良く現れるページ領域とそうでないページ領域を認識 し,情報発信者候補を抽出する領域をフィルタリングするか,あるいは情報発信者選択時の素性として利 用する.情報発信者の名前がページの特定の領域に現れやすいという性質を持っている.特にサイト運営 者については,ページ上部のバナーや,ページ下部の著作権表示の中に良く出現する.抽出対象領域を選 択するのは,この性質を利用するためである.

抽出対象文の選択 抽出対象として選択された領域に含まれるテキストに対して,文に分割した上で特定 の条件を満たしたもののみを情報発信者候補の抽出対象とする.提案手法では以下のような条件を用いて いる.

• 文に含まれる助詞のうち「の」以外の助詞の割合がある閾値以下である.

• 形態素解析の結果人名,組織名,地名,組織名末尾,未定義語のいずれかが含まれる.

情報発信者名は多くの場合,単独の名詞句として出現する.一方,通常の文には,情報発信者ではない人 名や組織名などが多く現れる.この観察に基づき,助詞が多く含まれる通常の文を抽出対象から除外し,

名詞句のみから構成されるような文のうち,人名,組織名など情報発信者の名前として妥当な語を含む文 を抽出対象として残している.

情報発信者候補の抽出 抽出対象文に対して構文解析をおこない,文中に含まれる各文節から特定の条件 を満たす複合名詞を情報発信者候補として抽出する.具体的には,抽出対象文にKNP [9]による構文解 析を適用し,解析結果から一定のルールに従う形態素列を複合名詞*4として抽出する.更に,抽出された 複合名詞について次のような条件を満たすものだけを情報発信者候補として残す.

• 最後の形態素が以下の条件を満たす.

– 品詞が「人名」「組織名」である.

*4例えば,『文節内で連続する「名詞相当語」とラベル付けされた形態素列』など.

– 未知語である.

– 固有表現認識により人名あるいは組織名の一部として認識された.

• 固有表現認識により場所として認識された形態素を含まない.

■情報発信者の選択

情報発信者の選択では,前節までの方法で抽出された情報発信者候補群から一つを情報発信者として選 択し,最終的な出力とする.選択の方法として,情報発信者かどうかを分類する二値分類器を各候補に適 用して,そのスコアを情報発信者らしさとして扱い,候補をランキングして出力する.情報発信者を一つ だけ出力する場合には,ランクが1位の候補をそのページの情報発信者とする.

10.1.7.2 サイト運営者の同定

サイト運営者の同定は,基本的に前節で述べた枠組みに従っておこなわれる.ここでは,サイト運営者 同定に固有の処理として,同一サイト内の他のページからの抽出対象ページ集合の選択について述べ,ま た,サイト運営者候補抽出対象領域選択の際の工夫として,Webページの構造を利用した主要部認識の アルゴリズムについて述べる.

■抽出対象ページ集合の選択

サイト運営者の名前は分析対象ページのみならず,同一サイト内の他のページにも表示されていると考 えるのが自然である.例えば,多くのサイトでは「会社概要」や「プロフィール」といったサイト運営者 に関する情報が掲載されているページが設けられており,他のページからリンクが張られている.

サイト運営者同定では,分析対象ページに加えて,1) トップページ(toppage) を含む祖先ページ

(ancestor),2)特定の文字列(「会社概要」など)を含むアンカーテキストでリンクされているページを

抽出対象ページ集合に加えて,各文書からサイト運営者候補を抽出する.

■ページの主要部認識に基づく抽出対象領域選択

サイト運営者の名前はページの先頭あるいは末尾近くに記載されていることが多い.この性質を利用す るために,ページの主要部を認識した上で,主要部でないと判定された領域(ページ周辺部)を抽出対象 領域とする.

10.4にWebページの周辺部抽出アルゴリズムを示す.このアルゴリズムでは,まず,HTMLをDOM 木に変換し,body要素を起点として以下の処理を再帰的に適用する.子ノードについてそれぞれをルー トとする部分木に含まれるテキストの量のページ全体のテキスト量に対する割合を算出し,ある閾値以 上ならばページの主要部(10.5のMain Block)とみなす.主要部とされた以外のノードが含むテキスト は全て周辺部とみなされ,抽出対象となる.本体部分とされたノードに対してはMainBlockを再帰的に 適用する.MainBlockとなる子ノードを持たないノードに至った時点で,そのノードのテキスト量全体 に対する割合に基づいて,先頭と末尾に該当するノードを抽出対象として選択する( 10.5のUpperと Lower).

body要素に含まれるテキストに加え,head要素に含まれるテキストのうち,次にあげるものも抽出対 象とする:(1) title要素のテキスト,(2) meta要素のうち,name属性がauthor, description, keywords のいずれかであるもののcontent属性.

10.1 Webページの情報発信構成 157

Algorithm 10.1.1: ExtractPeriphery(d)

procedure MainBlock(n) P =φ

ln=TextLength(n) C←Children(n) main←φ

for each ci∈C

do















li←TextLength(ci) if li/ln > tm

then



main←ci exit loop if main exists

then







for each ci∈C/{main} do P ←P ∪Text(ci) P ←P∪MainBlock(main) else P ←P∪HeaderFooter(n) return (P)

main

body=Element(DOM,body) return (MainBlock(body))

10.4 ページ周辺部抽出アルゴリズム.

■サイト運営者の選択に用いる素性

サイト運営者候補の中からサイト運営者を選択するために,次の素性に基づく分類モデルを訓練データ より機械学習により構築する.用いる素性は,1)情報源全体における出現頻度 (TF),2)候補が出現する ページの頻度(DF),3)候補が出現する文書の種類(分析対象ページ(target),トップページ(toppage), 祖先ページ(ancestor),「会社概要」「プロフィール」など特定のアンカーテキストでリンクされたページ (about)),4)構成語の品詞属性(「組織名」,「組織名末尾」「人名」「地名」),5)先頭形態素・末尾形態素,

6)形態素数,7)ページ内位置,8)著作権表示由来か否か,などである.

10.1.7.3 著者の同定

著者同定も基本的には情報発信者同定の枠組みに従っておこなわれる.著者同定に固有の工夫として,

著者の選択に使用する分類モデルにページの主要部からの距離を用いている.以下,ページ主要部からの 距離について述べる.

<head>

<body>

<div>

<div>

<div>

<title>…</title>

<meta name=author … />

<meta name=description … />

Main Block

Upper

Lower

10.5 発信者名抽出領域の選択.網掛された部分が抽出対象領域.

■主要コンテンツからの距離

著者名は多くの場合,ページの主要部(記事など)の冒頭あるいは末尾に記されていることが多い.こ の性質を利用するために,著者らしさを判別する分類器の素性として,文書構造上での著者名候補と主要 コンテンツとの距離を示す尺度を導入する.

距離尺度を導入する前段階としてHTMLのDOMの平坦化をおこなう.DOMはHTMLの文書構造 を木構造として表現したモデルである.DOMの木構造を用いて距離尺度を定義することも可能である が,レイアウトのために深い入れ子構造を持つことが多く,表示されたときの近さとは必ずしも一致しな いという問題がある.HTMLをレンダリングした結果の座標情報などを用いれば,より正確な距離を定 義できるが,レンダリングには計算コストがかかり,大量のWebページを扱うには不向きである.そこ で,本研究ではDOMに含まれるHTMLのブロックレベル要素について,直接テキストを含むものを直 列化(DOMの平坦化)して,その要素列内での位置関係により距離を定義する.平坦化処理はDOMを 順序木と見なし,テキストを直接子どもに持つノードに対応するノードを取り出し並べることによりおこ なわれる.

10.6に平坦化の例を示す.10.6(a)が平坦化の対象となるHTMLの一部で,10.6(b)がそれを平坦化 した結果得られる要素列である.この例でDOM木上で要素間の距離を測る場合と平坦化により得られ る要素列上で距離を測る場合を比較してみる.まず,DOM木上でのパスで距離を測る場合であるが,

author nameとcontentを含む2要素間のパスはh1-div-table-tbody-tr-tdであり,距離は5である.

一方,同じ距離尺度においてcontentとcontent2 の距離は2となる.このHTMLをレンダリングして

ドキュメント内 WISDOM Web (ページ 167-172)