メインコンテンツ要素の推定機能

第 4 章個別の詳細記事抽出のための Web ページ分割手法

4.3 提案手法の詳細

4.3.2 メインコンテンツ要素の推定機能

本研究では，Webページ分割を行うための前処理として，Webページの中で投稿記事部分を含むHTML要素であるメインコンテンツ要素の推定を行う．本研究で対象とする電子掲示板などのWebページは，「同一ドメイン内の同一フォーマットのWebページのデザインはヘッダ，フッタ，やメニューなどが共通するという特徴」と「投稿内容などが含まれるメインコンテンツ部はWebページごとで異なるという特徴」がある．そのため本機能では，同一フォーマットのWebページにおけるWebページの差異を特定することでWebページ内のメインコンテンツ要素を推定する．複数のWebページの差異からメインコンテンツ要素を推定するためには，それぞれのWeb ページにおけるDOM構造の共通性を確認する必要がある．しかし，DOM構造を対象に処理を行った場合，DOM構造に含まれる各HTML 要素が処理の最小単位となる．そのため，図 4.10に示す<hr>タグと<br>タグで投稿記事が区切られたWebページなどでは，任意のHTML要素の子要素に属していないテキスト部分を処理する事ができず，HTML要素としてDOM構造の共通性が確認できない．

図 4.10 ＜hr＞タグと＜br＞タグのみで構成されるWebページ

そこで，本研究では，事前処理としてWebページに含まれる取得できないテキスト部分に対し，<text>タグを付与してDOM構造を構築（図 4.11）する．これにより，Webページに記述されている全ての内容を考慮した処理が可能であると考えられる．

図 4.11 ＜text＞タグを挿入した後のWebページ

(1) DOM構造の構築処理

本処理では，入力されたURLに対応するWeb ページの任意の親要素のどの子要素にも属していないテキスト部分に対して<text>タグを付与したDOM構造を構築する．本処理を事前に行うことで，通常のDOM構造では処理できなかったテキストをHTML要素として処理する事が可能である．本処理の詳細をAlgorithm 4.1に示す．

Algorithm 4.1 DOM構造の構築アルゴリズム Require:

//HTML要素nのHTMLソースを取得

InnerHtml(n)

//HTML要素nの子要素を取得

ChildElements(n)

//入力したHTML文字列からDOMを再構築

DomReconstruction(html) Ensure:

Function InsertTextElement(element)

//入力されたHTML要素に含まれる全体のHTMLソースを取得

textparent := InnerHtml(element)

//入力されたHTML要素の子要素のHTMLソース配列を構築

textchildren := {}

For each childelement in ChildElements(element) Do textchildren.append(InnerHtml(element))

End For

//全体のHTMLソースから子要素のHTMLソースを除去し //差分となるHTMLソース配列の取得

textdiff := textparent - textchildren

//全ての差分文字列に<text>要素を付与したHTMLソース配列を構築 text′diff := {}

For Each difference in textdiff Do

text′diff .append(” <text>” + difference + ”</text>”) End For

//構築した<text>要素を付与したHTMLソース配列と

//子要素のHTMLソースを結合し新しい全体のHTMLソースを構築 text′parent := textchildren + text′diff

//新たなHTML要素element′を構築し，

//element′に含まれる子要素に対し処理を実行 element′ := DomReconstruction(textparent′)

For Each childelement′ in ChildElements(element′) Do childelement′ := InsertTextElement(childelement′) End For

//<text>要素を付与したHTML要素を返却 Return element′

End Function

本アルゴリズムは，入力されたWebページPageiの見た目を構成する<body>タグ以下の各HTML要素に含まれるテキスト部分を特定し，特定したそれぞれのテキスト部分に対して<text>タグを挿入する処理である．本処理では，次に示す6つのステップを順次実行することにより，テキスト要素を挿入する．

STEP 1. 処理を行う最初のHTML要素として，WebページPageiに含まれる<body>タ

グを入力する．

STEP 2. 入力したHTML要素に含まれる全てのHTMLソースtextparentとその要素の全

ての子要素が保持するHTMLソース配列textchildrenを抽出する．

STEP 3. STEP 1 で抽出したtextparentの中で textchildrenに一致する箇所を探索し，一致していない全ての箇所に対して<text>タグを挿入する．

STEP 4. STEP 2において，<text>タグの要素内にHTML要素が存在する場合，HTML

要素の前後で<text>タグを分断する．

STEP 5. textchildrenと<text>タグを挿入したHTMLソースを元の状態に戻し，DOM構造を構築する．

STEP 6. STEP 2で入力されたHTML要素に含まれる<text>タグ以外の子要素が存在す

る場合，<text>タグ以外の全ての子要素を入力としてSTEP 2～STEP 6の処理を実行する．<text>タグ以外の子要素が存在しない場合，<text>タグが挿入された WebページをPage'iとして処理を終了する．

(2) メインコンテンツ要素の推定処理

本処理では，DOM構造の構築処理で<text>タグを挿入したPage'iからメインコンテンツ

要素elementmainを推定する．本研究で対象とするWebページには，「同一ドメイン内の同一

フォーマットのWebページのデザインはヘッダ，フッタ，やメニューなどが共通するという特徴」と「投稿内容などが含まれるメインコンテンツ部はWebページごとで異なるという特徴」がある．これらの特徴から，図 4.12 に示す通り，メインコンテンツ要素のみが，

そのページに投稿された投稿内容や投稿件数ごとに子要素数が異なり，それ以外の部分は同一となると考えられる．

図 4.12 メインコンテンツと投稿記事の関係

そのため，本処理では，複数のWebページPages' = { Page'1 , Page'2 , ..., Page'i }を対象として，各HTML要素が持つ子要素数の差からメインコンテンツ要素を推定する．本処理の詳細をAlgorithm 4.2に示す．

Algorithm 4.2 メインコンテンツ要素の推定アルゴリズム

Require:

//HTML要素nのDOM構造に<text>タグを挿入（Algorithm 4.1）

InsertTextElement(n)

//任意のPageiに含まれる全てHTML要素の中で最深のHTML要素の深さを取得 MaxElementDepth(Pagei)

//配列arrayに含まれる要素数を取得

Count(array)

//配列arrayに含まれる要素から重複を削除した配列を取得

Distinct(array)

//任意のPageiの階層kにある全てのHTML要素集合を取得 LevelElements(Pagei,k)

//HTML要素nに含まれるテキスト長を取得 TextLength(n)

Ensure:

Function ExtractMainElement(Pages) //初期化

k := 1

//Pages′の中で最深の階層kmaxを算出 kmax := 0

For Each Page′i in Pages′ Do

If kmax < MaxElementDepth(Page′i) Then kmax := MaxElementDepth(Page′i) End If

End For

//各Page′i における階層k の要素数からメインコンテンツを含む階層を推定

While k < kmax Do

//Page′iの階層kの子要素数を算出し，childrencountiを構築 childrencount := {}

For Each Page′i in Pages′ Do

childrencounti = Count(ChildrenElements(LevelElements(Page′i,k))) End For

//子要素の一致率がβを下回った場合，その時点の階層kをkmainとして定義 If Count(Distinct(childrencount))/Count(childrencount) < β Then

kmain := k Break End If

//kを加算して次の階層で再度処理を実行する k := k + 1

End While

//最終階層kmaxに達するまでkmainが決まらなかった場合 //kmain=1として処理を続行する

If k = kmax Then kmain := 1 End If

//Page′iの階層kmainにある各HTML要素間においてテキスト長が最長となる

//HTML要素elementikjを探索 textlengthkj := {}

For Each Pagei in Pages Do

For Each elementikj in LevelElements(Pagei,kmain) Do textlengthkj := textlengthkj + TextLength(elementikj) End For

End For

End Function

本アルゴリズムは，DOM 構造の中で画面上の表示内容を構成する最上位要素である

<body>タグを入力し，各階層において再帰的に処理を行う事によりメインコンテンツ要素を推定する一連の処理である．ここで，本処理における階層k とは，図 4.13 に示す DOM 構造における<body>タグからの深さである．

BODY要素

HTML要素

HTML要素 HTML要素

k=1 k=2

図 4.13 DOM構造における<body>タグからの深さ

また，階層kの位置にあるHTML要素は，任意のPageiの階層kに含まれる全てのHTML

要素elementikjを指す．本処理では次に示す5 つのステップを順次実行することによりメイ

ンコンテンツ要素を推定する．

STEP 1. 階層k = 1の位置にあるHTML要素として，Page'1 からPage'i までの各Web ページに含まれる<body>要素を入力する．

STEP 2. Page'iの階層kに存在する HTML要素集合の全ての子要素数 childrencountiを算出し，子要素数の一致率を算出する．

STEP 3. 子要素数の一致率が閾値βを上回っている場合，図 4.14に示す入力されたそ

れぞれのHTML要素の子要素集合を次の処理対象とし，STEP 2～STEP 3を実行する．子要素数の一致率が閾値βを下回った時点の階層 k をメインコンテンツ要素のある階層としてSTEP 4を実行する．また，全てのPagei の中で最深の階層であるkmaxに達した場合は，最上位の階層を設定する．

図 4.14 WebページにおけるDOM構造の階層

STEP 4. Page'i ，階層kにおける全てのHTML要素elementikjごとのテキスト長を図 4.15 に示す通り加算したtextlenghkjを算出する．

図 4.15 テキスト長の算出方法

STEP 5. 最大のtextlenghkjを持つelementikjをメインコンテンツ要素として処理を終了す

る．このとき，最大の要素が複数存在する場合は，その中でjが最大のelementikj

をメインコンテンツ要素とする．

ドキュメント内学位授与機関関西大学 (ページ 74-81)

第 4 章 個別の詳細記事抽出のための Web ページ分割手法

4.3 提案手法の詳細

4.3.2 メインコンテンツ要素の推定機能

第 4 章個別の詳細記事抽出のための Web ページ分割手法