第 6 章 Web データ管理 67
6.5 分析対象ページの選択
6.5.7 不適格ページ:内容による判定
本節では,フィルタリング対象となる不適格ページの判別のための学習/評価用のデータ作成の基準を 記す.インターネット上には,様々な種別の様々な品質のWebページが存在する.その中で特に問題と なるのが,情報発信が主目的ではなく,営利を主目的として,低コストで自動生成されるページであり,
これらのページは不適格ページとして,情報分析の対象から削除する.代表的な情報分析の不適格ページ は以下のものである.
スパムページ 情報発信が主目的ではなく,アフィリエイトサイト等の特定ページへの誘導を目的として 自動生成されたページであり,かつ,検索エンジンのランキングを不当に上げることを主目的とし ていたり,ページの閲覧者が誤ってアフィリエイトへのリンクをクリックすることを主目的とした りするもの.ニュース記事,wikipedia,アマゾンのレビューなどを無断コピーして作成したペー
属性 ページ単位での 利用可能箇所 ページ中の テキスト量 文の数・長さ・密度・オリジナル度 図6.22の(4) テキスト内容 文体 助動詞,感動詞,終助詞,絵文字の種別と出現数
専門性(名詞) 病名,専門用語の出現数
具体性(固有名詞) 組織名,人名の出現数 高品質ページに出やすい単語 「検証」,「証明」等 低品質ページに出やすい単語 「死ね」,「おまえ」等 アダルトページに出やすい単語
高品質ページに出やすい構文を作る単語 意見,原因・理由,比較
ページの種別 ニュース,ブログ,商品販売,リンク集 ページ中の情報の有無 広告量 アフィリエイトサイトへのリンク数
連絡先 住所,電話番号,メールアドレス の有無
プライバシーポリシーの有無
メタ情報 ページランク (1)〜(4)
OutLinkの数 (2)〜(4)
ページのサイズ (2)〜(4)
更新日 現在の時間からの差 (2)〜(4)
URL 階層,長さ,クエリ (1)〜(4)
ジ,自動生成された意味のない文を含むページもスパムページに含む.ただし,アフィリエイト等 のリンクが複数あっても,ページのメインコンテンツが情報分析対象となるものはスパムページに 含まない.また,通常の商品販売ページもスパムページに含まない.
商品販売ページ 商品販売目的で,カタログ(商品DB)等から自動生成された商品リストなどを用いて,
商品を販売しているページ.商品販売ページであっても,商品についてのユーザのレビューを含む ページや,商品の効果などについて説明した情報を含むページは不適格ページには含まない.
地域情報ページ 住所や郵便番号などをキーとして,周辺のレストランの電話番号とレストランの種類な どの情報を自動生成して作成したページ.
ナビゲーションページ メニューページ,リンク集,検索結果のように,そのページ自体には分析対象と なるテキスト情報を含まずに,他ページへのナビゲートを目的としたページ.分析対象となる文が 少なく,サイト内のページへのリンクがメインであるサイトのトップページや,PDFなどへのリ ンクがメインの役所のお知らせページ等もナビゲーションページである.閲覧者の錯誤を利用する ことで,特定のページへ誘導するものはナビゲーションページではなく,スパムページである.
テキスト情報を含まないページ 写真集,TVの番組表,時刻表等の分析するべきテキスト情報を含まな いページ
6.5 分析対象ページの選択 93
6.5.7.1 人手による判定基準
人手による判定の基本的な基準して,Webページの情報発信目的と役割を用いる.情報発信目的につ いては以下の観点で分類する.
• 人・機械を錯誤させることを目的としたページ(=スパムページ)
• 商品販売を目的としたページ
• 上記以外の情報発信を目的としたページ また,Webページの役割は以下の観点で分類する
• 他ページへのナビゲーションが役割のページ
• コンテンツのページ
– 分析対象となるテキスト情報を含むページ – 分析対象となるテキスト情報を含まないページ
上記の基本分類で,スパムページ,ナビゲーションページ,分析対象となるテキスト情報を含まない ページを不適格ページとして判別した.なお,ナビゲーションページは,図6.22の「(1)新規URL追加」
や「(2)ページ収集」では,フィルタリング対象とならないため,他の不適格ページとは区別する必要が ある.さらに,商品販売を目的としたページは,数が多く,分析対象としての不適格度が高いため,細分 類して,各ページに対して以下の判別をした.
スパムページ 前述のスパムページの記述に当てはまるページ.情報発信が目的でなく,人や機械の錯 誤を利用した不当なページ.
商品販売目的ページ メインのコンテンツが商品販売を目的として作成されたページ.商品販売とは,
物品の販売だけでなく,有償で提供するレンタルやサービスなどを含む.
商品販売への誘導ページ 商品販売のために作成したページで,商品を販売ページへ誘導することが主 目的のページ.商品販売ページ,有料サービス,レンタル,実店舗等への誘導を行うページである.
情報分析対象のテキストが含まれれば,不適格ページではない.ムの可能性あり」とコメントに記 述する.
商品販売ページ 前述の商品販売ページの記述に当てはまるページ.価格や商品型番等の商品を販売する ための情報があり,対象ページだけを見て商品販売サイトであることが明確であるか,カートや注 文用フォームなどの購買行動をするための情報があれば「商品販売への誘導ページ」でなくて,「商 品販売ページ」とする.価格等が記述されていても,他サイトの商品販売サイトの情報(リンク)
ならば,商品販売への誘導ページである.商品販売ページであっても分析対象のテキストが含まれ れば,不適格ページではない.
ナビゲーションページ メインコンテンツがリンクであり,ナビゲーションを目的としたページ,リンク 集,メニューページ,検索結果など.
検索エンジン 不適格ページの数 適格ページの数 検索エンジンの取得ページ
TSUBAKI 320(29%) 774(71%) 上位1000件
Yahoo V1 204(19%) 858(81%) 上位1000件
Yahoo V2 174(16%) 900(84%) 上位300件
判別のための参考情報を以下に記す.
• 自動生成されていなくても,人の錯誤を利用しているページはスパムページとする.
• 他のページからコピーした文だけからなるページは不適格ページである.
• 商品カタログをコピーした文だけからなるページは不適格ページである.
• スパムページとは言えないが,商品販売ページへ誘導しているページは商品販売への誘導ページと する.
• 物品の販売でなく,情報やサービスの販売やレンタルを目的としていても,商品販売目的ページと する.
• 会議(催し物)の連絡などは,日時,タイトルのみのようなものは不適格ページとする.
• キーワードばかりで,文が1文しかないような場合は,多くの場合,不適格ページである.
• リンクが1つであっても,ページのメインが明らかにコンテンツページへのリンクならばナビゲー ションページとする.
6.5.7.2 検索結果中の不適格ページの割合
人手で不適格ページを判定した評価用データを元に,フィルタリング対象となる不適格ページが,Web 検索エンジン中にどの程度存在するかを調査した.
調査対象のWebページは,3種類のWeb検索エンジン(WISDOMで利用している「検索エンジン基 盤TSUBAKI」,「Yahoo!検索Web API V1」,「Yahoo!検索Web API V2」)で,100クエリの検索結果 の上位1000ページ(「Yahoo!検索Web API V2」は取得限界の上位約300ページ)を取得し,検索エン ジン毎にランダムに約1000ページを選択した.なお,検索クエリは,情報分析の入力を想定して,「コー ヒーは健康に悪い」,「赤ちゃんポスト」など,WISDOMで評価用に作成したクエリ,及び,WISDOM の運用で実際に入力されたクエリを用いた.評価者に不適格ページの基準として上述の判定基準を用いて 与え,不適格ページであるかないかの2値で判定した.
表6.6に検索エンジン毎の不適格ページの数と割合を示す.それぞれの検索エンジンにおいて,16%か ら29%の不適格ページが含まれていた.検索結果の上位のページは,ページランクが高い等,比較的品 質の高いページが多いはずであり,検索対象の全ページや収集ページには,この割合以上に不適格ページ があると考えられる.この調査により,分析対象ページの選択に不適格ページのフィルタリングが重要な ことが確認できた.
6.5 分析対象ページの選択 95