Web ページの信頼性の自動推定
†
福島 隆寛
* 1・内海 彰
* 2本論文では,Web ページに記載されている情報の信頼性(Web ページの信頼性)を,その Web ページ やそこに含まれているテキストのさまざまな特徴から推定する手法を提案する.提案手法は,信頼性判断 に影響を与える各特徴が推定対象のWeb ページで成立しているかどうかを自動判定する処理と,成立する と判断された特徴からそのWeb ページの信頼度を求める処理から構成される.どのような特徴が信頼性判 断に影響を及ぼすかについては,アンケート調査を実施して,68 個の特徴と Web ページの信頼性への影 響度を得た.本研究では,それらのうちの 40 個の特徴(信頼性の尺度)の成立を自動判定する手法を開発 した.また信頼度を計算する手法として,影響度の総和を取る方法と Support Vector Machine を用いた機 械学習により信頼度を求める手法を開発した.そして,評価実験を通じて,信頼性の尺度の判断処理の有 効性と信頼できる/信頼できないページの二値分類に対する提案手法の有効性を確認した. キーワード:WWW,Web ページの信頼性 情報源から同じ情報が得られればその情報内容はまず
1.はじめに
正しいだろうというような判断を行うことができる インターネット(Webページ)上には,既存のマスメ が,このような判断の自動化も現在の言語処理技術で ディアでは扱われないような多様性に富む情報が数多 は容易ではない.そこで本研究では,信頼できそうな く存在し,それらの中から必要な情報を収集・選別す Webページ製作者が発信する情報は信頼できるとの仮 るために多くの検索エンジンが開発されるなど,情報 説を立てて,個々のWebページが信頼できる情報を記 源としてインターネットが有用であることは明白であ 載していそうかどうかをそのWebページのさまざまな る.しかし一方で,誰もが簡単にWebページで情報を 特徴から判断することによって,情報の信頼性を推定 発信できるため,Webページに記載されている情報は することを考える. 既存のマスメディアが提供する情報に比べて信頼性が Webページやインターネット上の情報の信頼性に関 乏しいと認識されているのも現状である.したがっ する既存研究の多くは,Webページやサイトのどの特 て,Webページに記載された情報の信頼性を容易に知 徴がユーザの信頼性判断に影響を与えるかを調査する ることは,情報源としてのインターネットの有用性を 研究である.最も有名なのは,1 9 9 9 年に行われた 向上させ,情報収集をより便利にするために重要であ Foggらの調査研究[2,3] である.この研究ではアメ る.さらに,大量かつ刻々と増え続けるWebページの リカとフィンランドに住む約1500人からのアンケー 中から信頼できる情報を人手で選別するのに大変な労 ト調査を通じて,Webサイトの信頼性判断に影響する 力がかかることを考えると,Webページに記載された 特徴を分析している.さらに,ユーザがWebページの 情報の信頼性を自動推定する技術の開発が望ましい 信頼性を判断するためのツールとしてWEIと呼ばれる [8]. 評価基準も提案されている[10] .これらの調査結果は 一般的に,情報の信頼性つまり情報の真偽を確かめ Webページの信頼性を自動推定する上で大変に有用で ることは人手でも簡単ではない.Webページに記載さ あるが,Foggらの結果が日本人ユーザの信頼性判断 れている情報の真偽をシステムが自動的に知ることは にそのまま当てはまるかどうかは不明である.(実際 さらに困難である.人間の場合には,複数の独立した に彼らの調査でもアメリカ人とフィンランド人の間に† Automatic Estimation of Web Page Credibility 判断の違いがあることが明らかになっている.)なお Takahiro FUKUSHIMA and Akira UTSUMI
Foggらの調査結果が日本のユーザでも成り立つかど *1 電気通信大学大学院電気通信学研究科システム工学専攻
Department of Systems Engineering, The University of Electro- うかの調査が内田[12] によって行われているが,信頼 Communications
性判断の元となる評価尺度の選定に日本人ユーザの判 *2 電気通信大学電気通信学部システム工学科
Department of Systems Engineering, The University of Electro- 断は反映されていない.
存研究としては,ヴェラヤサンら[14]や中島ら[5] の 研究が挙げられる.しかし前者は信頼度の計算方法の 概要(指針)が述べられているだけであり,実際に実装 や評価は行われておらず,その手法の有効性は全くわ からない.後者の研究は,Weblogの記載情報に基づ いてWebページの信頼度(トラスト値)を算出する手法 を提案しているが,定量的な評価は行われておらず, かつWeblogで参照・評価されていないWebページの 信頼性は判定できない点で汎用性に欠ける.また, RDF情報の信頼性[9] やWebページ上の医療情報の信 頼性[7]など,対象を限定した自動推定の研究もある が,これらの手法も汎用性に欠ける. 信頼性を直接推定するものではないが,Googleの PageRank[6] やTeoma(現Ask.com1 )のSubject-Spe-cific Popularityなどの検索結果のランキングを計算す るアルゴリズムは,間接的にWebページの信頼度を計 算していると見なすことができる.これらのアルゴリ ズムは「良いWebページから多くリンクされているほ ど,そのページの良さが高くなる」という考え方に基 づいて各Webページの「良さ」を測定する.よって,良 いページは信頼性の高いページであると仮定するなら ば,Webページの良さがそのページの信頼度を間接的 に反映していることになる.しかし,これらのランキ ングアルゴリズムは大規模なWebページ集合が必要で あり,推定対象のWebページだけの情報から信頼性を 推定することはできない. そこで本研究では,推定対象のWebページの情報の みから簡単に信頼性を推定する手法を提案する.この 手法は関連する(リンク先やリンク元の)Webページの 集合を必要とせず,ジャンルや情報内容に依存しない 汎用的な手法である.方法論自体は言語や文化に依存 しないが,実際に実装する信頼性推定法は日本語の Web ページを主な対象とするので,日本人ユーザを 対象としたWebページの信頼性判断の調査を独自に行 い,その結果を用いて信頼度の計算手法を提案する. 本論文の以下では,まず2章で日本人を対象にして実 施したWebページの信頼性判断に影響を及ぼす特徴の 調査を紹介する.次に3章で,この調査結果を用いた Webページの信頼性の推定手法を提案する.そして4 章で,人手で作製した正解データに基づく本手法の評 価実験とその結果について述べる.
2.信頼性に影響を与える要因の調査
2.1 調査方法 本調査は,W e b ページから観測可能でかつW e b 1 http://search.ask.com/ ページの信頼性に影響を与える要因の決定と,それら の要因がどのくらいWebページの信頼性に対して影響 を及ぼしているか(影響度)についての評定アンケート の2段階に分けて実施した. 信頼性に影響する要因を決定する作業では,まず信 頼性に影響を与えそうなWebページの特徴・属性を, Foggらの調査研究[2] で用いられた項目や,WEB 版 マーフィーの法則2,ホームページ作成上の注意3, ユーザのためのWebデザイン4等のWebサイトから大 量に収集した.さらに,大学生・大学院生5名に対し て実施した質問紙調査(信頼性に影響を与えると思わ れる特徴の列挙)の結果も用いた.以上により収集さ れた特徴に対して,質問紙調査には参加していない日 本人大学院生5名がブレーンストーミングを行い,同 じ内容を表す複数の特徴をまとめたり,全く信頼性に 無関係な特徴を除いたりして,信頼性に影響を与える と思われる68個の要因を決定した.これらの要因を表 1に示す.なお,太字で書かれている要因は3章で提 案する信頼性の自動推定手法で用いる要因を示してい る. 次に,これら68個の各要因の信頼性に対する影響度 の評定アンケートを行った.アンケートは1ヶ月間の 期限を設けてWeb上で行い,期間中であればアンケー トに時間制限を設けなかった.アンケートでは各要因 ごとに影響度を7段階(3: 「信頼性を高くする」, -3:「信頼性を低くする」)で評定したもらった.要因 の評定順は参加者ごとにランダムに決定した.アン ケートの参加者は68名の日本人の大学生・大学院生で あり,そのうちの36名にはWebの利用経験等の個人 に関する属性(性別,年齢,Web使用歴,週当たりの Web使用時間,電子商取引の回数,Web サイト製作 経験)も回答してもらった.これらの参加者属性の分 布を表2に示す. 2.2 調査結果 68 個の要因の影響度の平均評定値を,表1の各文 末の括弧内に示す. 参加者属性の違いによってこれらの評定値に相違が あるかどうかを調べるために,表2の各属性データを 基準にして参加者を2グループに分け,両グループ間 の平均評定値の相関係数を算出した.使用した属性と グループは,性別(男性,女性),年齢(最も年齢の低 い参加者から昇順に10名[平均18.8歳],最も年齢の高 い参加者から降順に10名[平均21.5歳]),Web使用歴 2 http://sagisou.sakura.ne.jp/̃sakuchin/kazumi/07/74.html 3 http://www.tohoho-web.com/wwwpoint.htm 4 http://nekoshiki.poke1.jp/index.html 240Vol.19 No.3
表1 信頼性に影響を及ぼす 68 個の要因とその影響度 (最もWeb使用歴の低い参加者から昇順に10名[平均 表2 調査アンケート参加者の属性 2.9年],最も使用歴の高い参加者から降順に10名[平 均6.6年]),週当たりのWeb使用時間(1-5時間,15 時間以上),電子商取引の回数(0回,15回以上), Webサイト製作経験(有,無)である.各属性における 参加者2グループ間の相関係数は,性別0.91,年齢 0.90,Web 使用歴0.85,週当たりのWeb使用時間 0.90,電子商取引の回数0.89,Webサイト製作経験 0.93といずれも1に近く,明らかな相違は見られな かった.この結果から,個人の属性の違いが本調査結 果に重大な影響を及ぼさなかったと言える.
しかし,個々の要因の影響度では,いくつかの差異 が見られた.2グループ間で影響度に1以上の差が あったのは,要因(24)の「実世界の物理的住所や電話 番号,電子メールアドレスを表示していて管理者と連 絡が取れる」のみであり,「年齢」,「Web使用歴」,「週 当たりのWeb使用時間」,「電子商取引の回数」の各属 性に基づくグループ間で差異が見られた.以前から Web をよく利用する年齢の高い参加者はこの尺度を 高く評価し,最近Webを利用し始めた年齢の低い参加 者は低い評価を与えていた.
3.Web ページの信頼性の自動推定手法
2章の調査で得られた68個の要因の中には,その成 立/不成立が明らかに自動的に推定不可能であるもの も少なくない.例えば,要因(3) の「顧客の質問に迅速 に答えてくれる」はそのWebページの情報だけからは 判断不可能であるし,実際に迅速さの測定を行うわけ にもいかない.したがって本研究では,68個の要因の うち,そのページの情報だけから自動推定が可能であ ると思われる40個の要因(表1において太字で示され ている要因)について,その成立/不成立を自動判定 する手法を開発する.そして,それらの結果を用いて Webページの信頼度を計算する手法を提案する.な お,本論文のこれ以降では,これらの40個の要因のこ とを信頼性の尺度と呼ぶ. Webページの信頼度を計算する手法を以下に示す. 1.推定対象のWeb ページに対して,40個の信頼 性の尺度のそれぞれが成立しているかどうか を,表3に示す処理により判定する.(なお, 表3には後述する頻出尺度の処理方法しか示し ていない.) 2.上記の手順で成立すると判定された信頼性の尺 度の総合値として,Webページの信頼度を計算 する.個々の尺度から総合値を計算する方法は いろいろ考えられるが,本研究では最も単純な 方法である影響度の総和を信頼度とする方法 (総和法)と,尺度の成立/不成立と全体の信頼 度の関係を機械学習で求める方法を考える.機 械学習法には,多くの分類問題で優れた汎化性 表3 頻出する信頼性の尺度の成立判断手法 242Vol.19 No.3
能を持つ手法であSupport Vector Machine [1,13] (以下,SVM)を用いる(SVM法).な お,SVMは二値分類のための判別関数を学習 する手法であるが,判別関数によって表される 分離平面からの距離を考えれば,信頼度の算出 に容易に拡張できる. なお,SVM法は教師付き学習による手法であるの で,厳密な意味では信頼性の自動推定法とは言えな い.しかし,いったん判別関数を学習しておけば,そ れを用いて信頼性を判断する処理自体は自動であるの で,本論文ではSVM法も含めて信頼性の自動推定手 法と呼ぶことにする.
4.評価
本研究では,信頼性の尺度の成立/不成立の判断処 理の妥当性とWebページの信頼性の推定手法全体の妥 当性について評価実験を行う. 4.1 信頼性の各尺度の成立判断手法の評価 4.1.1 方法 本節では,40個の尺度のうち,特にその判定精度が 信頼性推定の性能に大きな影響を与えると思われる頻 出尺度について,その成立/不成立の判定処理の評価 を行う. 頻出尺度の選択は以下の手順で行った.形態素解析 システム「茶筌」の辞書からランダムに500語をクエリ として選び,それらのクエリを用いてGoogle で検索 を行い,計4 7 7 1 ページを取得した.これらの取得 ページのうちの1000ページ以上がシステムで成立す ると判断された尺度(表3の14尺度)を頻出尺度として 選択した.これらの頻出尺度のうち,(18),(35), (36),(48) の4尺度については定義から明らかに100 %の精度で同定可能であるため評価対象からは除外し た.さらに,(12) と(29) の2尺度についても判断に大 きな個人差があるため評価対象から除外した.結果と して,(5),(14),(17),(24),(30),(53),(64), (66) の8尺度を評価対象として選択した. これらの尺度について,提案手法による判断と人手 による判断(正解)を比較した.正解データは各尺度ご とにその尺度が成立するページを30ページ,成立しな いページを30ページ,合計60個のWebページ(8尺度 でのべ480ページ)を用意した.これらの正解データ は,Googleを利用して得られたWebページ集合を人 手で観察し,尺度の成立/不成立を決定することに よって生成した. 4.1.2 結果 各尺度の評価基準には,以下に示す再現率,適合 率,およびそれらの調和平均であるF値を用いた. 適合率(P)=提案手法が成立すると判断した正解ページ数 提案手法が成立すると判断したページ数 再現率(R)=提案手法が成立すると判断した正解ページ数 正解(人手で成立すると判断した)ページ数 2PR F値= P +R 評価結果を表4に示す.全体として良好な結果であ り,特に尺度(5)と(66) 以外の6尺度については,再 現率,適合率ともに高く,F値も0.8以上となった. したがってこれらの尺度の判断処理は有効であると言 える.一方,尺度(5) や尺度(66) については,悪い結 果ではないが,他の尺度に比べて性能が劣った.これ は,パターンマッチングによる情報ソースの記述(引 用,参考文献)の同定がうまくいっていないことが主 原因と考えられる.よって,引用や参考文献の抽出パ ターンをより精緻化することが必要である. 表4 頻出する尺度の成立判断の再現率,適合率,F 値 4.2 Webページの信頼性の推定手法の評価 本節では,各Webページを信頼できるページか信頼 できないページかのどちらかに分類する二値分類問題 を用いて,3章で提案した手法を評価する. 4.2.1 正解データ 二値分類問題の正解データを作成するために,まず 100 件のWeb ページを収集した.それらの収集および 作成方法は以下の通りである. ・信頼度が未知であるWeb ページ70件:形態素解 析システム「茶筌」の辞書からランダムで抽出した単語70個をクエリとしてGoogleで検索を行い, 得られたWebページの中からランダムに70 個の Webページを選択した. ・信頼度の高いWebページ10件:6個の単語をク エリとしてGoogleで検索された10ページ,合計 60ページに対して,大学生・大学院生8名による 信頼度の5段階評定(5:信頼できる,1:信頼 できない)を行い,平均評定値が4以上のW e b ページの中から10ページを選択した. ・信頼度の低いWebページ10件:上記の評定実験 において平均評定値が1.5以下のWebページの中 から10ページを選択した. ・信頼度の高いWebページの信頼度を減少させるよ うに改変したWebページ5件:前述した信頼度の 高いWebページの中から5ページを選択し,「全 ての非テキスト要素に等価なテキスト情報を付加 している」などの信頼性に正の影響を及ぼす要因 を除去し,「文法の間違いやタイプミスがある」な どの信頼性に負の影響を及ぼす要因を追加して, 新たなW e b ページを作成した.なお,各W e b ページに対して15個の要因の改変を行った. ・信頼度の低いWebページの信頼度を増加させるよ うに改変したWebページ5件:前述した信頼度の 低いWebページの中から5ページを選択し,信頼 性に正の影響を与える要因を追加し,信頼性に負 の影響を与える要因を除去して新たなWebページ を作成した.なお,各Webページに対して15個 の要因の改変を行った. 正解データに信頼度が未知であるWebページ70件 の他に,信頼性が既知であるWebページを30件加え たのは,明確に信頼度の高い/低いページを確実に正 解データに含めたかったという理由の他に,信頼度が 未知であるWebページを収集するのに用いたクエリと は異なるクエリによって収集したWebページを含める ことによって,内容に依存しない信頼性の判定が可能 かどうかを調べたかったからである. これらの100件のWebページに対して大学生7名に よるアンケートを実施した.アンケートの参加者は実 際に各Webページをブラウザを用いて閲覧して,その Webページが信頼できるかどうかの二値分類を行っ た.そして,過半数(4名以上)の参加者が信頼できる と分類したWebページを信頼できるページの正解,そ れ以外のページを信頼できないページの正解とした. この結果,信頼できるWebページの正解は56ページ となった.その内訳は,信頼度が未知であるWebペー ジ48件,信頼度の高いWebページ7件,信頼度の低 いWebページの信頼度を増加させるように改変した Webページ1件であった.よって,信頼度を増加させ るように改変したWebページ以外はほぼ意図どおりに 人手で判断されたと言え,これらは内容(書かれてい る内容が共通するなどの情報)からではなく,本研究 で自動処理の対象とするような表層的な情報から人間 が信頼度を判断できることを示している.逆に,信頼 度の低いページの信頼度を増加させるように改変した ページがあまり意図どおりに判断されなかったのは, 内容自体の信頼性に問題があったためと考えられる. 4.2.2 方法 前節で述べた正解データに対して,提案手法(総和 法とSVM法)による二値分類を行った.総和法では, ある閾値以上の信頼度を信頼できるページ,それ以外 を信頼できないページと分類した.分類基準となる閾 値は,評価対象の100ページに対して計算された信頼 度の最小値から最大値までを範囲として0.1刻みで閾 値の値を変動させ,それらの値の中で最も良い分類性 能を達成した(F値が最も高かった)値(0.2) とした. SVM 法では,正解データを用いて,40個の信頼性 の尺度に対応する40 次元の二値ベクトル(尺度が成立 すれば1,しなければ0)で表現されたWebページの 特徴ベクトルから,そのページが信頼できるか信頼で きないかを学習し,その結果を用いて学習していない Webページの二値分類を行った.評価実験では,100 件の正解データを5分割して,そのうちの4グループ (80件)を学習データとして用い,残りの1グループ (20件)をテストデータとして学習結果による二値分類 を行うという学習・テストのサイクルを,すべてのグ ループがテストデータとなるように5回繰り返した. SVMの学習においてカーネル関数として用いた多項 式関数[1] の次数dはd=1とd=2でそれぞれ実験を 行った.コストパラメタC(ソフトマージン法におけ る誤識別の度合をどれだけ考慮するかの決める重み) については,0.001刻みでCの値を変動させ,それら の値の中で最も良い分類性能を達成したC=0.766(d =1),C=0.070(d=2) を用いた. さらに比較対象として,GoogleのPageRankを用い て二値分類を行った.総和法と同様に,ある閾値以上 の信頼度を信頼できるページ,それ以外を信頼できな いページと分類した.分類基準となる閾値は,評価対 象の100ページのPageRankの値の最小値から最大値ま でを範囲として1.0刻みで閾値の値を変動させ,それ らの値の中で最も良い分類性能を示した(F値が最も 高かった)値(1.0) とした.なお,Webページの改変の 際にPageRankの値に影響を与えるようなリンクの出 入に関する情報は変更していないので,改変したWeb
Vol.19 No.3
244ページのPageRankとして,改変前のWebページの PageRank値を利用した. 改変したWebページ10件は他の正解データと異な り,従属関係が存在するため,正解データに偏りが生 じている可能性がある.そのため改変ページ10件を取 り除いた90件の正解データに対して,適合率,再現 率,F値を用いた総和法とPageRank 法の比較も行 なった.分類基準となる閾値は,上記と同様の手法を 用いて求めた.結果,総和法の値は(0.2),PageRank 法(1.0 ) となった. 4.2.3 結果 二値分類の評価基準として,4.1.2節と同様に再現 率,適合率,F値を用いた.これらの基準による各手 法の評価結果を表5に示す.なお,この表における SVM法の適合率,再現率,F値は5回のテストの平 均値である. 表5の評価結果は以下のようにまとめられる. ・本研究の 提案手法(総和法と S V M 法)の結果を PageRank法の結果と比較すると,総和法とSVM 法のF値が共にPageRank法のF値を上回ってい る.さらに,本手法がPageRankの計算に必要な 他のページ(リンク元のページ)の情報を必要とし ない簡潔な方法であるということを考えあわせる と,本手法はWebページの信頼性の判断に有効か つ実用的であると言える. ・総和法とSVM法を比較すると,SVM法のほうが F値が若干高くなった.この違いは,個々の信頼 性の尺度が総合値としてのWebページの信頼度に どのように影響を与えるかの違いと考えることが できる.これについては次節で考察する. ・SVM法における多項式関数の次数dの違いによる 差はほとんど見られなかった.次数が2のときに は2つの信頼性の尺度の組み合わせも1つの異な る素性と見なして二値分類していることを考えれ ば,この結果はWebページの信頼性判断に信頼性 の尺度の組み合わせを考慮することがあまり必要 ないことを示している. 表5 二値分類における再現率,適合率,F値 4.2.4 正解データの種類別の結果 正解データの種類別に二値分類の結果を見ていく と,総和法において,信頼度の高いWebページは10 件中8件(人手でも信頼度が高いと判断された7件を 含む)が信頼できるページと判定され,信頼度の低い Webページは10件中10件が信頼できないページと判 定された.このように信頼性が既知のページの多くが 正しく判定されたことは,相対的な内容以外の情報か ら信頼度を絶対的に推定する本提案手法の有効性を示 していると考えられる. 改変したWeb ページ10件については,信頼度を減 少させるように改変したWebページ5件全てが信頼で きるページと誤って判定された.一方,信頼度を増加 させるように改変したWebページ5件全てが信頼でき るページと判定された.(すなわち人手でも信頼でき ると判定された1件が正答となった.)よって,改変 ページ10件を取り除いた90件を用いて実験を行った 場合のほうが,100件を用いた実験の場合よりも良い 結果となった.(総和法で,100件の場合0.73に対し, 90 件の場合は0.77,PageRank法でも100件で0.72に対 し,90件で0.75となった.)この結果は,依存関係に ある改変前のWebページと改変後のWebページを共 に正解データに含めても結果に偏りがなかった(不当 に良い評価とならなかった)ことを示している. 4.2.5 要因選択による信頼性判断の影響 本節では,調査で得られた68個の要因の中から40 個の要因を選択したことによって,信頼性判断の性能 がどのくらい影響を受けるかを分類実験を通じて調 べ,本手法の有効性を議論する. 本分類実験では,要因選択の影響を明確にするため に,4.2.1節で用いた100件の正解データの中から,ア ンケートの参加者7名全員の判断が一致した20ページ (全員が信頼できると判定したページ17ページからラ ンダムに選択した10ページと全員が信頼できないと判 定した10ページ全て)を正解データとして用いた.な お,これらの中には信頼性を改変したページは含まれ ていなかった. これらの正解データに対して,3章で提案した自動 化可能な40個の要因を用いた総和法,64個の要因を 利用した総和法(人手による判断も不可能であるとい う理由から尺度(3),(10),(11),(39)の4要因は除 いた),PageRank法の各手法を用いて二値分類を行っ た.自動化していない24個の要因については,大学院 生1名が各Webページをブラウザを用いて閲覧して, その尺度が成立するかどうかを判断したデータを用い た.総和法およびPageRank法による二値分類は4.2.2
節で述べた方法で行った.すなわち,ある閾値以上の 信頼度(PageRank値)を信頼できるページ,それ以外 を信頼できないページと分類し,閾値は,計算された 信頼度(PageRank値)の最小値から最大値までを範囲 として0.1刻みで閾値の値を変動させ,それらの値の 中で最も良い分類性能を達成した値(40要因の総和法 3.3, 64 要因の総和法10.1,PageRank 法2.0)とした. 表6に分類実験の結果(再現率,適合率,F値)を示 す.総和法(40要因),総和法(64要因)のF値がともに PageRank法のF値を上回った.総和法(40要因)と総 和法(64要因)を比較すると総和法の(64要因)のほうが F値がやや高くなった.やはり全ての要因を用いたほ うが性能は高くなると言えるが,それほど大きな性能 劣化もなく,かつ自動化可能であることを考えると総 和法(40要因)が有効かつ実用的であると言える. 表6 要因数の違いによる二値分類結果の比較 4.2.6 SVM による信頼性判断に有効な尺度の分析 SVMで学習された分類器において,どのような尺 度が信頼できる/信頼できないWebページの判断に有 効かを分析することができる.分析方法の詳細は参考 文献[4,11] に譲るが,簡単に言うと,学習された判 別関数における係数の大きさを個々の尺度の影響の大 きさと見なすことができる.分析結果として,多項式 関数の次数d が1と2の場合について,信頼できる ページと信頼できないページの判断にそれぞれ有効な 素性を上位10個づつ示したのが表7である.なお,表 中の太字の部分は表3の頻出尺度を表している. 表7の結果と表1のアンケート調査による影響度を 比較すると,影響度の高い頻出尺度の多くが信頼でき るページの判断に有効な素性に含まれている(特にd =1のときの尺度(5),(12),(14),(18)) など整合 する部分も少なくないが,全体として両者の結果はあ まり一致していない.一部の頻出尺度(例えば(17)) や その他の尺度(例えば(19) や(63)) の結果が正反対であ る.(アンケート調査では信頼度にプラス/マイナス に影響するのに対し,SVMでは信頼できない/信頼 できるページの判断に有効となっている.) 調査結果と学習結果があまり整合しなかった原因を いくつか考えることができる.まず考えられるのは, 表7 SVM によって得られた信頼できる Web ページ/信頼できない Web ページの分類に有効な素性 (a)次数d =1の場合
Vol.19 No.3
(b)次数d =2の場合 246アンケート調査で行ったようなWebページの個々の特 徴(尺度)がページの信頼性に与える影響を判断するこ とと,Webページそのものを観察して信頼性を判断す ることは同じではないかもしれないということであ る.例えば,ユーザの意見やレビューが掲載されてい る(尺度(19)) ことは確かに信頼性を高める要因であろ うが,個々のWebページの信頼性を判断するときの材 料としてこのような要因を考える(気付く)ことはあま りないかもしれない.Webページの信頼性を判断する のにCookie (尺度(22)) や機能しないリンク(尺度 (64)) の可能性をすべてチェックするわけではないで あろう.また,Webページの信頼性を情報統合モデル のような個々の総和で判断しているのではなく,ゲ シュタルトモデルのようにページ全体を通して信頼性 を判断しているとも考えられる.また,個々の尺度の 解釈の違いも原因のひとつになるかもしれない.例え ば,(56)の「ほとんど新しいコンテンツが追加されて いない」という尺度を考えると,更新する必要のある 情報を扱う場合には更新をしないということは信頼性 を低くする要因であるが,そもそも更新する必要のな い(内容が変化しない)情報の場合には逆に内容を追加 しないことが信頼性にプラスに影響することもあり得 る.このような判断のぶれが両者の結果の違いに影響 を及ぼした可能性もある.さらに,重大な原因として 学習事例の少なさ(学習に用いたのは100ページ中の 80ページ)は当然考えられる.特に頻出尺度以外の尺 度の場合,その尺度が成立する数少ない事例の二値判 断がその尺度の影響度と一致していない場合,上述し たような不整合は十分に起こり得る.より有効な結果 を導くためには,学習事例のさらなる収集が今後の研 究で必要になってくるであろう. 最後に表7におけるd=1とd=2のときの結果を 比較すると,2つの尺度の組み合わせによる素性はあ まり出現しておらず,尺度の組み合わせを考えること が特に信頼性判断に影響を与えないという表5の結果 と一致する.ただし,学習データの分布の偏り具合に よっては,実際に尺度の組み合わせの考慮の必要性の 有無に関わらず次数d=1とd=2の間に違いが観察 されない可能性も考えられる.したがって,この点か らも学習事例のさらなる収集が今後の研究で必要に なってくるであろう.
5.おわりに
本研究では,日本のユーザがWebページの信頼性を 判断するのに注目するWebページの特徴をアンケート 調査を通じて明らかにし,その結果を元にしてWeb ページの信頼性を自動推定する手法を提案した.提案 する手法は,信頼性判断に関与するWebページの特徴 の自動識別と,その結果を用いたWebページの信頼度 計算の二つの処理から構成される.前者の処理につい ては,特に多くのWebページで観察される特徴(信頼 性の尺度)に対して自動識別の評価実験を行い,良好 な結果を得た.また,Webページを信頼できるか信頼 できないかに分類する二値分類問題に対して,提案手 法,特にWebページの特徴から二値分類を行う分類器 をSVMによって構成する手法が有効に働くことを示 した. 本研究の手法はWWWに関するさまざまなシステム に応用可能である.例えば,検索エンジンによる検索 結果のうち信頼できるWebページのみをフィルタリン グして表示する(もしくは信頼できるページを強調し て表示する)ような検索支援システムが考えられる. また,信頼できるWebページを優先的に処理すること によってWebマイニングシステム(例えばWWWを知 識源とした質問応答システム)の性能を向上させたり することも可能であると思われる.今後は,提案手法 のさらなる精緻化を行うとともに,これらの応用シス テムの開発に取り組んでいきたい. 謝辞 本論文の執筆にあたり,数多くの有益なコメントを 頂きました査読者の方々に感謝の意を表します. 参 考 文 献[1] Cristianini, N. and Shawe-Taylor, J.:An Introduction
to Support Vector Machines, Cambridge University
Press(2000) .大北剛(訳):サポートベクターマシ ン入門,共立出版(2005).
[2] Fogg, B.J., Kameda, T., Boyd, J., Marshall, J., Sethi, R . , S o c k o l , M . , a n d T r o w b r i d g e , T . : S t a n f o r d - Makovsky Web Credibility Study 2002:Investigating What Makes Web Sites Credible Today, A Research Report by the Stanford Persuasive Technology Lab & Makovsky & Company, Stanford University(2002). (Available at www.webcredibility.org).
[3] Fogg, B.J., Marshall, J., Laraki, O., Osipovich, A., Varma, C., Fang, N., Paul, J., Rangnekar, A., Shon, J., Swani, P. and Treinen, M.: What makes a Web site credible? A report on a large quantitative study,
Pro-ceedings of ACM SIGCHI Conference on Human Factors in Computing Systems, pp. 61-68, New York:
ACM Press(2001). [4] 平尾努,磯崎秀樹,前田英作,松本裕治:S u p p o r t Vector Machine を用いた重要文抽出法,情報処理学 会論文誌,Vol. 44,No. 8,pp.2230 - 2243(2003). [5] 中島伸介,竹原幹人,日野洋一郎,舘村純一,原良憲, 田中克己:blog 解析に基づく Web 情報検索の信頼性 向上技術,人工知能学会第6回セマンティックウェブ
とオントロジー研究会,SIG- SWO- A401- 05(2004). [11] 鈴木大介,内海彰:Support Vector Machine を用いた [6] Page, L., Brin, S., Motwani, R. and Winograd, T.: The 文書の重要文節抽出-要約文生成に向けて-,人工知 PageRank citation ranking: Bringing order to the Web, 能学会論文誌,Vol. 21,No. 4,pp.330 - 339(2006). Technical report, Stanford University(1998).(http: [12] 内田勇介:Web サイト内の情報の信頼性に影響を与 //www-db.stanford.edu/back-rub/pageranksub.ps). える要素,慶應義塾大学文学部卒業論文(2002). [7] Pandolfini, C., Impicciatore, P. and Bonati, M.: Par- [13] Vapnik, V.: The Nature of Statistical Learning
ents on the Web:Risks for quality management of Theory, Springer - Verlag(1995).
cough in children, Pediatrics, Vol.105,No.1,e1 [14] ヴェラヤサン・ガネサン,山田誠二:Web ページの相
(2000). 対信頼度,第 18 回人工知能学会全国大会論文集,3F1
[8] 相良毅,井口誠,藤本和則:Web Trust 研究動向,人 - 05(2004).
工知能学会誌,Vol. 21,No. 4,pp.430 - 437(2006). (2006年10月13日 受付) [9] Shiraishi, N.: The RDF trust model using RDF book- (2007年1月15日 採録)
mark and its application, P a p e r p r e s e n t e d a t
WWW2004 Workshop on Content Labeling - Techni- [問い合わせ先]
cal and Socio - Cultural Challenges and Solutions 〒182-8585 東京都調布市調布ケ丘1-5-1
(2004). 電気通信大学電気通信学部システム工学科 [10] 鷲見克典,四谷あさみ:調べる目的で利用する情報源 内海 彰 としての Web サイトに対する評定尺度の作成と信頼 TEL:042-443-5258 性および妥当性の検討,情報処理学会論文誌,Vol. FAX:042-443-5258 45,No. 3,pp.1032 - 1040(2004). E-mail:[email protected] 248
Vol.19 No.3
著 者 紹 介 あきら 福島 ふくしま 隆寛 たかひろ [非会員] 内海 うつ み 彰[非会員] 1982年生.現在電気通信大学大学 1965年生.1993年東京大学大学院 院電気通信学研究科システム工学専攻 工学系研究科情報工学専攻博士課程修 博士課程前期在学中.自然言語処理の 了.博士(工学).東京工業大学大学院 研究に従事. 総合理工学研究科助手,講師を経て, 2000年から電気通信大学電気通信学 部システム工学科助教授.言語やその 周辺を対象とした認知科学や言語情報 処理の研究に従事.日本認知科学会, 人工知能学会,言語処理学会,日本語 用論学会,Cognitive Science Society 等各会員.
Automatic Estimation of Web Page Credibility
by
Takahiro FUKUSHIMA and Akira UTSUMI
Abstract:
This paper proposes a computational method for estimating Web page credibility based on the properties of a Web page or its text. The proposed method consists of two processes: the process of judging whether a given Web page has each of the properties influencing Web page credibility and the process of assessing the degree of Web credibility using the properties judged to be possessed by the given Web page. Concerning what properties really influence people’s judgment of Web page credibility, we conducted a questionnaire survey and obtained 68 properties and their degree of influence on credibility. We then developed a method for judging the presence or absence of 40 properties. As a method for assessing the degree of Web credibility, we also developed an aggregative method (i.e., calculating the sum of the degree of influence) and a machine learning method using Support Vector Machine (SVM). We then conducted an evaluation experiment for binary classification of credible or incredible Web pages and verified the effectiveness of the proposed method.
Keywords:WWW, Web credibility Contact Address:Akira UTSUMI
Department of Systems Engineering, The University of Electro- Communications
1 - 5 - 1 Chofugaoka, Chofushi, Tokyo 182 - 8585, JAPAN TEL : 042 - 443 - 5258
FAX : 042 - 443 - 5258 E - mail :[email protected]