• 検索結果がありません。

次ページリンク検出手法の評価

ドキュメント内 第 1 章 はじめに (ページ 45-48)

第 4 章 評価

4.3 次ページリンク検出手法の評価

リー全体の半分を超えるDOMノードのうち、最も小さいテキスト割合を持 つDOMノードを主コンテンツとみなす。この手法では主コンテンツとして 検出されるDOMノードはひとつである。一方、本研究のデータセットでは 正解ラベルのDOMノードは1つのウェブページ内に複数あり、1つのDOM ノードだけを主コンテンツとして判定すると再現率が低くなることが予想さ れる。そのため、Katoらの手法で検出したDOMノードの配下にある全ての DOMノードを主コンテンツとみなす手法をベースラインとする。これは、

主コンテンツがウェブサイト内のテキストの過半数を占めると仮定した考え に基づいている。

• 提案手法(正解の次ページリンクを使用)

3.3節で提案した手法。決定木、ランダムフォレスト、GBDT で学習した3 つのモデルを比較する。なお、「次ページリンクからの距離」の素性を抽出 する際には、次ページリンクの情報が必要だが、ここでは実験データに付与 された正解の次ページリンクの情報を用いる。

• 提案手法(次ページリンクからの距離素性なし)

提案手法で用いた素性のうち、「次ページリンクからの距離」の素性を使用 しないモデル。この素性の有効性を検証するために比較する。また、決定木、

ランダムフォレスト、GBDTで学習した3 つのモデルを比較する。

• 提案手法

3.3節で提案した手法。「次ページリンクからの距離」の素性を抽出する際、

訓練データでは正解の次ページリンクの情報を用いるが、テストデータでは 提案手法によって自動推定された次ページリンクの情報を用いる。

表 4.4: 次ページリンク検出モデルの実験結果

モデル 精度 再現率 F

ベースライン 0.474 0.844 0.607

決定木 0.679 0.731 0.704

ランダムフォレスト 0.818 0.692 0.750

GBDT 0.720 0.692 0.706

の中に存在するサンプルについて分類対象のクラス数が混合している程度を表す 指標である。

ノードiにおけるジニ不純度の定義を式(4.4)に示す。ノードiのジニ不純度を Gi、分類クラス数をC、分類クラスc∈ {1, . . . , C}に割り当てられている素性の 出現割合をfcと定義する。

Gi =

C

c=1

fc(1−fc) (4.4)

決定木の各ノードにおける分割前のジニ不純度から分割後のジニ不純度の減少 量は、分割の有効性を示す指標となる。この指標を利得といい、利得が最も大き くなるようノードを分割することを繰り返して決定木を学習する。ノードiを2つ のノードj,kに分割した場合の利得Iiの定義を式(4.5)に示す。ノードi,j,k内のサ ンプル数をWi,Wj,Wkとして、ジニ不純度をサンプル数で重みづけしている。

Ii =WiGi−WjGj−WkGk (4.5) 各素性毎に利得を決定木内で集計し、決定木内の全ての利得の合計値で割るこ とで、素性の利得を0から1の値に正規化する。正規化した利得が決定木におけ る素性の重要度となる。ランダムフォレストが生成するそれぞれの決定木におけ る素性の重要度を計算し、その平均値がランダムフォレストにおける素性の重要 度になる。本実験では、このように計算されたランダムフォレストにおける素性 の重要度を用いて素性の重要度を評価する。

図4.2は学習されたランダムフォレストにおける素性の重要度を示している。「次 ラベル」の素性の重要度が0.405と最も高い。この素性は「次」「NEXT」といった キーワードがリンクテキストに出現するかを表すものである。「次」「NEXT」「2」

といったキーワードだけで次ページリンクを検出するベースライン手法も、その

F値は0.607と比較的高い。次に重要度が高いのは、リンクテキストが1文字であ

るかを示す「1文字ラベル」の素性(0.210)である。リンクテキストが1文字のと き、数字や矢印などが多く、これらが次ページへのリンクであることを示唆する キーワードになっていると考えられる。その次に重要度が高い素性は、「ページ」

「PAGE」といったキーワードの有無を示す「ページラベル」の素性(0.177)であ

図 4.1: 提案手法による次ページリンク検出のPR曲線

る。これら3つの素性の重要度が高いことから、次ページへのリンクを示唆する キーワードが次ページリンクの検出に有効であることがわかる。

これらの素性に次いで重要度が高いのは「リンク出現回数」の素性である。次 ページリンクはページ送り部に複数回出現していることが多いことから、この素 性が有効に働いたと考えられる。一方で、「テキスト長」、「テキスト長の割合」、

「リンク長」、「リンク長の割合」の素性の重要度は相対的に低く、次ページリンク の特徴を顕著に表す素性ではないと考えられる。

次に、3.2.2.2で提案したLinkSimilarity素性の有効性を精査する。図4.2による

とLinkSimilarity素性の重要度は低い。しかし、この素性はページ送り部において

参照先URLが類似したリンクが密集していることを表すものであり、ページ送り の特徴を顕著に表すものと考えられる。そのため、LinkSimilarity素性自体の重要 性は低いが、他の素性と組み合わせることで次ページリンク検出の性能を大きく 向上させる効果を持っている可能性がある。これを検証するため、LinkSimilarity 素性を使用する分類器と使用しない分類器を学習し、両者を比較した。機械学習 アルゴリズムとして、表4.4でF値が一番高かったランダムフォレストを用いた。

結果を表4.5に示す。LinkSimilarity素性を用いることで、精度、再現率、F値が 向上することがわかった。F値の差は0.027ポイントとそれほど大きくはないが、

図 4.2: 次リンク検出モデルにおける素性の重要度

LinkSimilarity素性が次ページリンク検出に有効であることが確認された。

表 4.5: LinkSimilarity素性の有効性の評価(ランダムフォレスト)

LinkSimilarity素性 精度 再現率 F

有り 0.818 0.692 0.750

無し 0.810 0.654 0.723

ドキュメント内 第 1 章 はじめに (ページ 45-48)

関連したドキュメント