第 3 章 共起関係の抽出範囲を考慮した違法・有害情報フィルタリン
3.2 違法・有害情報フィルタリングの適用に関する調査と検討
3.2.3 違法・有害情報判定手法の処理方針の検討
(1) 処理方針の検討フロー
研究を進めるにあたり,図 3.4 に示すフローにて違法・有害情報判定手法の処理方針を 検討した.
図 3.4 違法・有害情報判定手法の処理方針の検討フロー
検討フローでは,まず,Webページごとに「語句の特徴を学習する手法」の適応を検討 した.次に「ウィンドウサイズを考慮せずに固定し語句の共起関係の特徴を学習する手法」
の適用を検討した.そして,これらの手法を検討した結果明らかになった課題を基に,「ウ ィンドウサイズをブロック単位とし,語句の共起関係の特徴を学習する手法」について検 討した.
各検討過程について,次に詳述する.
(2) 語句の特徴を学習する手法
メールのスパムフィルタリングに活用されるベイジアンフィルタをWebページの有害判 定に使用する場合について検討する.
ベイジアンフィルタは,有害度が高いページと低いページで使用される語句の出現回数 の違いを特徴として語句ごとに有害確率を学習し,実際の判定に活用する手法である.こ のため,十分な学習が実施できていれば,語句に基づくWebページの有害判定が可能であ ると考えられる.しかし,Web 上では隠語や言い換え表現など,文脈によって語句に新し い意味を付与して使用する記述が見られるようになったため,語句単位の有害確率を基に した手法では,Webページの有害度を適切に評価できないと考えられる.
以上より,語句単位での特徴を学習する手法では,Webページの有害度を評価するには 不適であることが分かった.そこで,複数の語句の共起関係をひとつの単位として,有害 確率を算出する手法について検討した.
(3) ウィンドウサイズを考慮せずに固定し語句の共起関係の特徴を学習する手法
第3.2.3項(2)と同様,ベイジアンフィルタをWebページの有害判定に使用する場合につ
いて検討する.異なる点は,有害確率を算出する特徴を語句単位ではなく複数の語句の共 起関係から算出する点である.語句間の共起関係を特徴として学習することで,隠語や言 い換え表現などの問題に対処可能となる.
語句の共起関係に基づいて違法・有害情報の特徴を算出する手法では,一般的に学習用 に入力したデータに含まれる全ての語句間の共起関係を学習する.しかし,Web ページの データには,ヘッダ,フッタやメニューなどの情報も含まれるため,これらがノイズとな って適切に語句の共起関係の特徴を学習できないことが考えられる.
以上より,語句の共起関係の特徴を単純に学習する手法では,Web ページの有害度を評 価するには不適であることが分かった.そこで,語句の共起関係の特徴を学習する範囲(ウ ィンドウサイズ)を限定する手法について検討した.
(4) 結論
ベイジアンフィルタをWebページの有害判定に活用する場合,語句単位では隠語や言い 換え表現などの有害確率を適切に評価できない問題があった.そこで,語句間の共起関係 を基に有害確率を評価する手法について検討したが,Web ページ全体を対象として語句の 共起関係を算出した場合,ヘッダやフッタ,およびメニューなどの項目に含まれる語句が ノイズとなって,適切な共起関係を学習できないことが想定される.そこで,これらの課 題に対応するため,本研究では,Web ページからヘッダ,フッタ,メニュー,メインコン テンツのテキスト情報や表などの細分化された複数の領域(以下,「ブロック」)を抽出し,
そのブロックをウィンドウサイズとする手法を提案する.
提案手法では,ヘッダやフッタ,メインコンテンツなどをそれぞれブロックとして抽出 できるため,共起関係の抽出範囲が限定され,不適切な共起語が抽出される問題を解決で きると考えられる.また,Web ページから抽出したブロックを用いることで抽出される共 起語の数も削減できる.100種類の単語が含まれるWebページから10個のブロックを抽出 し,各ブロックに10種類ずつ単語が含まれた場合を例として共起語の組合せ数を試算する と,従来手法において2つ組の共起語,3つ組の共起語数はそれぞれ4,950件(100C2),161,700 件(100C3)となるのに対して,本提案手法では450件(10C2・10),1,200件(10C3・10)とな り,抽出される共起語数を大幅に削減できることがわかる.このことから,共起関係にあ る単語の組合せ数が膨大となる問題も解決できると考えられる.
Webページからブロックを抽出する手法としては,主として次に示す2つの手法が考え られる.
Webページ内のテキストの内容に基づき抽出する手法
本手法では,Webページ内に含まれるテキストの特徴に基づきブロックを抽出する.主 として,テキストセグメンテーション[63]技術などを用いてWebページの文章から内容ごと のブロックを抽出する.
Webページを見た目に基づき抽出する手法
本手法では,Webページの各HTML要素の画面上での位置に基づきブロックを抽出[64]
する.例えば,ヘッダ,フッタ,メニュー,メインコンテンツ,メインコンテンツ内の記 事や画像など,Webページのレイアウト構造に従ってWebページからブロックを抽出する.
「Webページ内のテキストの内容に基づき抽出する手法」では,一般的に文章に着目し てWebページからブロックを抽出する.そのため,メニュー部やヘッダ部などの主として 単語や画像のみで構成される部分については,正しく抽出できないと考えられる.一方,
「Web ページを見た目に基づき抽出する手法」では,Web ページの見た目に基づき抽出す るため,メニュー部や,メインコンテンツ部など,Web ページのデザインに従って複数の ブロックを抽出できる.このことにより,メインコンテンツ以外に含まれるWebページの 特徴も正しく抽出できると考えられる.そのため,本研究では,「Webページを見た目に基 づき抽出する手法」を用いてWebページからブロックを抽出する手法を提案する.
本提案手法について,次節にて詳述する.