違法・有害情報判定手法の処理方針の検討

第 3 章共起関係の抽出範囲を考慮した違法・有害情報フィルタリン

3.2 違法・有害情報フィルタリングの適用に関する調査と検討

3.2.3 違法・有害情報判定手法の処理方針の検討

(1) 処理方針の検討フロー

研究を進めるにあたり，図 3.4 に示すフローにて違法・有害情報判定手法の処理方針を検討した．

図 3.4 違法・有害情報判定手法の処理方針の検討フロー

検討フローでは，まず，Webページごとに「語句の特徴を学習する手法」の適応を検討した．次に「ウィンドウサイズを考慮せずに固定し語句の共起関係の特徴を学習する手法」

の適用を検討した．そして，これらの手法を検討した結果明らかになった課題を基に，「ウィンドウサイズをブロック単位とし，語句の共起関係の特徴を学習する手法」について検討した．

各検討過程について，次に詳述する．

(2) 語句の特徴を学習する手法

メールのスパムフィルタリングに活用されるベイジアンフィルタをWebページの有害判定に使用する場合について検討する．

ベイジアンフィルタは，有害度が高いページと低いページで使用される語句の出現回数の違いを特徴として語句ごとに有害確率を学習し，実際の判定に活用する手法である．このため，十分な学習が実施できていれば，語句に基づくWebページの有害判定が可能であると考えられる．しかし，Web 上では隠語や言い換え表現など，文脈によって語句に新しい意味を付与して使用する記述が見られるようになったため，語句単位の有害確率を基にした手法では，Webページの有害度を適切に評価できないと考えられる．

以上より，語句単位での特徴を学習する手法では，Webページの有害度を評価するには不適であることが分かった．そこで，複数の語句の共起関係をひとつの単位として，有害確率を算出する手法について検討した．

(3) ウィンドウサイズを考慮せずに固定し語句の共起関係の特徴を学習する手法

第3.2.3項(2)と同様，ベイジアンフィルタをWebページの有害判定に使用する場合につ

いて検討する．異なる点は，有害確率を算出する特徴を語句単位ではなく複数の語句の共起関係から算出する点である．語句間の共起関係を特徴として学習することで，隠語や言い換え表現などの問題に対処可能となる．

語句の共起関係に基づいて違法・有害情報の特徴を算出する手法では，一般的に学習用に入力したデータに含まれる全ての語句間の共起関係を学習する．しかし，Web ページのデータには，ヘッダ，フッタやメニューなどの情報も含まれるため，これらがノイズとなって適切に語句の共起関係の特徴を学習できないことが考えられる．

以上より，語句の共起関係の特徴を単純に学習する手法では，Web ページの有害度を評価するには不適であることが分かった．そこで，語句の共起関係の特徴を学習する範囲（ウィンドウサイズ）を限定する手法について検討した．

(4) 結論

ベイジアンフィルタをWebページの有害判定に活用する場合，語句単位では隠語や言い換え表現などの有害確率を適切に評価できない問題があった．そこで，語句間の共起関係を基に有害確率を評価する手法について検討したが，Web ページ全体を対象として語句の共起関係を算出した場合，ヘッダやフッタ，およびメニューなどの項目に含まれる語句がノイズとなって，適切な共起関係を学習できないことが想定される．そこで，これらの課題に対応するため，本研究では，Web ページからヘッダ，フッタ，メニュー，メインコンテンツのテキスト情報や表などの細分化された複数の領域（以下，「ブロック」）を抽出し，

そのブロックをウィンドウサイズとする手法を提案する．

提案手法では，ヘッダやフッタ，メインコンテンツなどをそれぞれブロックとして抽出できるため，共起関係の抽出範囲が限定され，不適切な共起語が抽出される問題を解決できると考えられる．また，Web ページから抽出したブロックを用いることで抽出される共起語の数も削減できる．100種類の単語が含まれるWebページから10個のブロックを抽出し，各ブロックに10種類ずつ単語が含まれた場合を例として共起語の組合せ数を試算すると，従来手法において2つ組の共起語，3つ組の共起語数はそれぞれ4,950件（100C2），161,700 件（100C3）となるのに対して，本提案手法では450件（10C2･10），1,200件（10C3･10）となり，抽出される共起語数を大幅に削減できることがわかる．このことから，共起関係にある単語の組合せ数が膨大となる問題も解決できると考えられる．

Webページからブロックを抽出する手法としては，主として次に示す2つの手法が考えられる．

 Webページ内のテキストの内容に基づき抽出する手法

本手法では，Webページ内に含まれるテキストの特徴に基づきブロックを抽出する．主として，テキストセグメンテーション[63]技術などを用いてWebページの文章から内容ごとのブロックを抽出する．

 Webページを見た目に基づき抽出する手法

本手法では，Webページの各HTML要素の画面上での位置に基づきブロックを抽出[64]

する．例えば，ヘッダ，フッタ，メニュー，メインコンテンツ，メインコンテンツ内の記事や画像など，Webページのレイアウト構造に従ってWebページからブロックを抽出する．

「Webページ内のテキストの内容に基づき抽出する手法」では，一般的に文章に着目してWebページからブロックを抽出する．そのため，メニュー部やヘッダ部などの主として単語や画像のみで構成される部分については，正しく抽出できないと考えられる．一方，

「Web ページを見た目に基づき抽出する手法」では，Web ページの見た目に基づき抽出するため，メニュー部や，メインコンテンツ部など，Web ページのデザインに従って複数のブロックを抽出できる．このことにより，メインコンテンツ以外に含まれるWebページの特徴も正しく抽出できると考えられる．そのため，本研究では，「Webページを見た目に基づき抽出する手法」を用いてWebページからブロックを抽出する手法を提案する．

本提案手法について，次節にて詳述する．

ドキュメント内学位授与機関関西大学 (ページ 34-37)

第 3 章 共起関係の抽出範囲を考慮した違法・有害情報フィルタリン

3.2 違法・有害情報フィルタリングの適用に関する調査と検討

3.2.3 違法・有害情報判定手法の処理方針の検討

第 3 章共起関係の抽出範囲を考慮した違法・有害情報フィルタリン