• 検索結果がありません。

WISDOM Web

N/A
N/A
Protected

Academic year: 2021

シェア "WISDOM Web"

Copied!
273
0
0

読み込み中.... (全文を見る)

全文

(1)

独立行政法人

情報通信研究機構

知識処理グループ

情報信頼性プロジェクト

― Web

の健全な利活用を目指して ―

(2)

情報分析システム

WISDOM

—Web

の健全な利活用を目指して

独立行政法人 情報通信研究機構

知識処理グループ

(3)
(4)

i

まえがき

計算機・計算機ネットワークの進展に伴い,Web上での情報・知識の流通・集積が膨大となり,これが 人々の生活の判断基準を与え,国家の政策,企業の経営方針までも左右しはじめている.Web上の情報を 利用する際の大きな問題は,それらが必ずしも信頼できるものばかりでないという点にある.情報の信頼 性の判断は,人間にとっても簡単なことではなく,計算機によって自動化することはきわめて難しい.し かし,情報を収集・組織化・相対化し,さまざまな観点から眺められる情報分析システムを構築すること で人間の判断を支援することはできる.本書では,2006∼2010年度に独立行政法人情報通信研究機構で 行われた研究開発プロジェクトの成果である情報分析システムWISDOM(http://wisdom-nict.jp/) について,その背景,分析基盤,分析技術等を紹介する.

執筆者一覧

1章 はじめに 黒橋禎夫 2章 WISDOMの構成 赤峯享・加藤義清・河原大輔・森井忠史・ 口弘志・乾健太郎・黒橋禎夫 3章 関連研究 加藤義清・川田拓也・乾健太郎 4章 計算機基盤 加藤義清・ 口弘志 5章 クローラ 加藤義清・森井忠史・ 口弘志・赤峯享・河原大輔 6章 Webデータ管理 赤峯享・加藤義清・新里圭司・柴田知秀・河原大輔・森井忠史・木村俊文 乾健太郎・黒橋禎夫 7章 リンク解析 レオン末松豊インティ・木俵豊 8章 クエリ解析 河原大輔 9章 検索エンジンTSUBAKI 新里圭司・河原大輔・黒橋禎夫 10章 発信者分析 加藤義清・乾健太郎・黒橋禎夫 11章 評価情報分析 中川哲治・川田拓也・森井律子・乾健太郎・黒橋禎夫 12章 主要・対立・対比文分析 河原大輔・柴田知秀 13章 フロントエンドの処理フロー 赤峯享・西村晃・レオン末松豊インティ 14章 ユーザインターフェイス レオン末松豊インティ・赤峯享・西村晃・村里英樹・木俵豊 15章 ユーザ評価 川田拓也・赤峯享・河原大輔・加藤義清・レオン末松豊インティ 16章 おわりに 黒橋禎夫

(5)
(6)

iii

目次

まえがき i 目次 iii

I

WISDOM

概要

1

第1章 はじめに 3 第2章 WISDOMの構成 9 2.1 概要. . . 9 2.2 分析基盤 . . . 10 2.2.1 構築の方針. . . 10 2.2.2 構成と処理. . . 11 2.3 分析エンジン . . . 13 2.4 WISDOMフロントエンド. . . 14 第3章 関連研究 15 3.1 情報の信頼性 . . . 15 3.2 情報の発信者に基づく信頼性判断 . . . 17 3.2.1 発信者の意図に対する期待としての信頼 . . . 17 3.2.2 発信者の能力に対する期待としての信頼性 . . . 18 3.3 情報の外観的特徴に基づく信頼性判断 . . . 18 3.4 情報の評判に基づく信頼性判断 . . . 19 3.5 情報の意味内容に基づく信頼性判断 . . . 21 3.6 深い言語処理に基づく情報信頼性分析の支援へ . . . 22

II

部 情報分析基盤

23

第4章 計算機基盤 25 4.1 計算機基盤の構成 . . . 25 4.1.1 計算クラスタ . . . 25 4.1.2 共有ストレージ . . . 27

(7)

4.1.3 データベースサーバ . . . 28 4.1.4 ネットワーク . . . 28 4.2 電力供給と冷却. . . 29 4.2.1 計算機基盤の電力と発熱量 . . . 29 4.2.2 無停電電源装置 . . . 29 4.2.3 計算機基盤の冷却 . . . 30 4.3 利用状況 . . . 30 第5章 クローラ 33 5.1 クローラの動作原理 . . . 33 5.2 WISDOMのクローラ . . . 33 5.2.1 処理の概要. . . 34 5.2.2 クローラの種別 . . . 37 5.3 クローラの運用. . . 40 付録 5.A クローラの実装 . . . 42 5.A.1 システム構成 . . . 42 5.A.2 URLデータベース . . . 43 5.A.3 クロール制御プロセス . . . 47 5.A.4 データベース処理プロセス群 . . . 48 5.A.5 データベースアクセスモジュール . . . 48 5.A.6 クロールモジュール . . . 54 付録 5.B フィルタリング . . . 61 5.B.1 概要 . . . 61 5.B.2 URLフィルター. . . 62 5.B.3 クロールフィルター . . . 62 付録 5.C URLの正規化 . . . 64 5.C.1 動作仕様 . . . 64 第6章 Webデータ管理 67 6.1 はじめに . . . 67 6.2 文書ID . . . 68 6.3 データ形式の概要 . . . 69 6.4 Web標準フォーマット. . . 70 6.4.1 日本語文の抽出 . . . 72 6.4.2 Web標準フォーマットデータの構築 . . . 75 6.4.3 Webページの構造解析 . . . 76 6.4.4 言語解析 . . . 82 6.5 分析対象ページの選択 . . . 87 6.5.1 課題 . . . 87 6.5.2 選択の方針. . . 88

(8)

目次 v 6.5.3 品質によるページの選択 . . . 88 6.5.4 段階的選択とフィードバック . . . 89 6.5.5 分析対象ページの多様性 . . . 89 6.5.6 WISDOMでの実装 . . . 90 6.5.7 不適格ページ:内容による判定 . . . 91 6.5.8 不適格ページ:Near Duplicateページの判定 . . . 95 6.5.9 サイト情報DB . . . 95 6.6 検索インデックスの更新 . . . 96 6.6.1 インデックスの配置 . . . 96 6.6.2 インデックスの更新処理 . . . 96 6.6.3 運用 . . . 97 付録 6.A クロールデータ/文書データ管理仕様書 . . . 98 6.A.1 概要図 . . . 98 6.A.2 データプール間の接続 . . . 98 6.A.3 クロールデータプール . . . 99 6.A.4 文書データプール . . . 103 6.A.5 TSUBAKIデータ . . . 108 第7章 リンク解析 111 7.1 はじめに . . . 111 7.2 関連研究 . . . 112 7.3 Webスパム. . . 113 7.3.1 コンテンツスパム . . . 113 7.3.2 リンクファーム . . . 114 7.3.3 なりすまし. . . 114 7.4 スパムの抽出方法 . . . 115 7.4.1 フレームワーク . . . 115 7.4.2 密な接続を持つサブグラフ . . . 117 7.4.3 蝶ネクタイ理論 . . . 117 7.4.4 KCORE . . . 117 7.4.5 偏向ページランク . . . 119 7.5 性能評価 . . . 119 7.5.1 ベンチマークのデータセット . . . 119 7.5.2 ベースライン手法 . . . 120 7.5.3 データセットの蝶ネクタイ構造 . . . 120 7.5.4 KCoreとその影響 . . . 120 7.5.5 スパム判定. . . 122 7.6 スパム判定の応用 . . . 123 7.7 まとめ . . . 124

(9)

III

部 情報分析技術

125

第8章 クエリ解析 127 第9章 検索エンジンTSUBAKI 129 9.1 TSUBAKIの構成 . . . 129 9.2 インデキシング. . . 130 9.2.1 概要 . . . 130 9.2.2 タームファイルの作成 . . . 131 9.2.3 タームファイルのマージ . . . 134 9.2.4 タームファイルのバイナリ化 . . . 134 9.2.5 タイトル,URL,文書頻度データベースの構築 . . . 135 9.3 検索. . . 135 9.3.1 検索の流れ. . . 135 9.3.2 クエリ処理. . . 135 9.3.3 文書のスコアリング . . . 137 9.3.4 スニペットの生成 . . . 138

付録 9.A TSUBAKI API . . . 140

9.A.1 検索結果の取得方法 . . . 140 9.A.2 キャッシュされたWebページおよび標準フォーマット変換済みデータの取得方法 141 第10章 発信者分析 145 10.1 Webページの情報発信構成 . . . 146 10.1.1 Webの情報の発信者 . . . 146 10.1.2 情報発信構成 . . . 147 10.1.3 情報発信者クラス . . . 148 10.1.4 情報発信タイプ . . . 149 10.1.5 情報発信構成の妥当性 . . . 152 10.1.6 情報発信構成の応用 . . . 152 10.1.7 情報発信者の同定 . . . 154 10.2 情報発信者の専門性分析 . . . 159 10.2.1 Webページ情報発信者の専門性分析 . . . 160 10.2.2 実験 . . . 161 10.2.3 議論 . . . 165 10.2.4 関連研究 . . . 166 10.2.5 おわりに . . . 167 第11章 評価情報分析 169 11.1 はじめに . . . 169 11.2 評価情報とは . . . 169 11.2.1 評価対象 . . . 170

(10)

目次 vii 11.2.2 評価表現の種類 . . . 172 11.2.3 評価対象とトピックとの関連性 . . . 173 11.3 評価情報タグ付きコーパス. . . 174 11.3.1 コーパス仕様 . . . 175 11.3.2 タグ付け時の注意事項 . . . 176 11.3.3 コーパスの評価 . . . 176 11.4 評価情報の抽出. . . 177 11.4.1 評価情報抽出の流れ . . . 177 11.4.2 評価表現の抽出 . . . 178 11.4.3 評価保持者の同定 . . . 178 11.4.4 評価タイプの分類 . . . 179 11.4.5 評価極性の分類 . . . 179 11.4.6 関連度の計算 . . . 180 11.4.7 評価表現のクラスタリング . . . 180 11.5 性能評価 . . . 180 11.6 関連研究 . . . 181 第12章 主要・対立・対比文分析 183 12.1 概要. . . 183 12.2 関連キーワードの抽出 . . . 184 12.2.1 キーワードの抽出 . . . 185 12.2.2 キーワード蒸留による関連キーワードの抽出 . . . 185 12.2.3 同義異表記のキーワードのマージ . . . 187 12.2.4 不適切な部分キーワードの削除 . . . 188 12.2.5 包含関係にあるキーワードのマージ . . . 189 12.3 主要・対立・対比文の抽出. . . 189 12.3.1 述語項構造の抽出 . . . 190 12.3.2 主要・対立・対比文の同定 . . . 191 12.3.3 評価実験 . . . 192 12.3.4 関連研究 . . . 195 12.4 まとめ . . . 195

IV

WISDOM

フロントエンド

197

第13章 フロントエンドの処理フロー 199 13.1 概要. . . 199 13.2 分析API . . . 201 13.3 キャッシュ . . . 202 13.4 ブラウザとサーバ間の通信. . . 202

(11)

13.5 構成と運用 . . . 202 付録 13.A API関数仕様 . . . 203 13.A.1 TSUBAKI(検索) . . . 203 13.A.2 スニペット取得 . . . 205 13.A.3 関連キーワード . . . 206 13.A.4 主要・対立. . . 207 13.A.5 意見・評価. . . 208 13.A.6 発信者 . . . 209 13.A.7 外観 . . . 210 13.A.8 専門性 . . . 211 第14章 ユーザインターフェイス 213 14.1 概要. . . 213 14.2 全体の方針,設計思想 . . . 213 14.2.1 画面の構成. . . 214 14.2.2 分析結果画面の構成 . . . 214 14.2.3 結果内容の構成 . . . 215 14.2.4 タブの表示. . . 216 14.3 レポート . . . 216 14.3.1 注目ポイント . . . 217 14.3.2 主要・対立・対比文 . . . 220 14.3.3 関連キーワード . . . 220 14.3.4 意見の分布. . . 220 14.3.5 情報発信者の分布 . . . 220 14.3.6 主な発信者・主な意見 . . . 220 14.4 主要・対立文 . . . 221 14.5 意見・評価 . . . 222 14.6 原因・対策 . . . 223 14.7 検索結果 . . . 224 14.8 分析結果ナビ . . . 225 14.9 専門性の高い発信者 . . . 227 14.10 ソフトウェア構成 . . . 227 第15章 ユーザ評価 229 15.1 はじめに . . . 229 15.2 評価実験の目的. . . 229 15.3 評価実験の方法. . . 230 15.3.1 概略 . . . 230 15.3.2 アンケートシステム . . . 231 15.4 アンケート項目と結果 . . . 231

(12)

目次 ix 15.4.1 実験協力者の属性項目 . . . 231 15.4.2 既存の検索エンジンとの比較 . . . 233 15.4.3 総合評価 . . . 235 15.5 操作ログの分析. . . 236 15.6 自由トピックの分析 . . . 237 15.7 考察. . . 238 第16章 おわりに 239 発表一覧 243 参考文献 249

(13)
(14)

I

(15)
(16)

3

1

はじめに

Webはまさに情報・知識の宝庫である.ニュース,天気予報,時刻表,店の営業時間やアクセス方法, 学校案内,施設案内,さらにはチケット予約やネットバンキングなどのWebサービス.Web普及以前の 生活が思い出せないほど我々の生活はWebに依存している. 検索としてみた場合,このようなWeb情報の利用では存在することを知っている,あるいは存在する ことが予想されるページ/サイトを見つけることが目的となる.このような検索は誘導型(Navigational) 検索とよばれ,既存のリスト型の検索エンジンが有効に働く. しかし,Web上の情報はこのようなものだけではない.一般の人々の意見や体験,専門家の研究成果 や解説,公的機関の発表など,従来は入手することが簡単でなかった,あるいは明示的に存在しなかった 多様な情報がWeb空間に日々蓄積されている.これらの情報が人々の生活の判断基準を与え,企業の経 営方針,国家の政策までも左右しはじめている. このような情報の利用は,そもそも何を調べたいかが明確でない場合も含め,さまざまな抽象度があり える.たとえば,漠然と「子育ての問題点を調べたい」という場合もあれば,「子供の体力低下について 知りたい」,「子供の体力低下に対する有効な対策を知りたい」,「○○という運動器具が安全で効果がある か知りたい」場合もある.このような検索は調査型(Informational)検索とよばれる.既存の検索システ ムはその調査の入口にはなるが,その答えは検索結果の上位のページに存在するとは限らず,ユーザが労 力をかけて多くのページを自ら調べなければならないのが現状である. 調査型検索の場合のさらに大きな問題は,そのような検索要求に対するWeb上の情報が必ずしも信頼 できるものばかりでないという点にある.Webでは情報発信のコストが非常に小さいため,誤り・勘違 いの情報が確認なく発信されることがあり,さらにはデマ,詐欺的なもの,それらの伝播もある. 情報の信頼性を判断すること,特にあるひとつの情報だけをみて判断することは人間にとっても簡単な ことではない.関連する情報を収集したうえで,それらを総合し,最終的に自分の常識に照らして判断を 行っている.この「判断」を計算機で自動化することはきわめて困難であるが,関連する情報の収集と統 合を自動化し,人間の判断を支援することは可能である.すなわち,情報を収集・組織化・相対化し,さ まざまな観点から眺められるシステムを構築するのである.現在のWebの利用状況では,本来信頼性に 欠ける情報をぱっと信じてしまうことも十分にありえる.情報を相対化するシステムは今後の健全な社会 のための基盤であるともいえる. このような背景から,情報通信研究機構(NICT)では2006年度から「情報の信頼性評価に関する基盤 技術の研究開発」プロジェクト(通称:情報信頼性プロジェクト)を推進した.情報の信頼性評価を支援

(17)

             分析トピック: 「電動歯ブラシは歯に良い」                図1.1 情報分析システムWISDOMの分析例

(18)

5

計 算 機 基 盤

254 ノード, 1124 コア, 1 P B W I S D O M フロントエンド 情 報 分 析 エ ン ジ ン 情 報 分 析 基 盤 Webデータ管理 選 択 選 択 (   ) 1. 2 ( ) (  ) 10 T S U B A K I リ ン ク 解 析 クエリ解析 発信者分析 主要・対立・対比文分析 発信者 DB Web 評 価 情 報 分 析 図1.2 情報分析システムWISDOMのシステム構成 するためには,与えられた課題についての背景的知識,事実,論点・対立点,意見分布などを的確に抽出 する必要がある.そのためには,文,文章の構造を捉え,その性質や関係を抽出し,同じ意味の別表現, ある表現の多義性なども理解する必要がある.さらに,情報の発信者が誰であるか,その人・組織の専門 性も信頼性評価の重要な側面であり,その把握のためには人名・組織名等の固有表現認識に加えて,文書 の総合的解析を必要とする.このような観点から,本プロジェクトでは自然言語処理をその中心的技術基 盤と考え,これを高度化していくことでWeb情報の組織化を行うことを主眼としている. 本プロジェクトでは,情報信頼性評価の軸として次の3つのものを考えている. 1. 情報内容の信頼性 2. 情報発信者の信頼性 3. 情報外観の信頼性 これらの観点から人間の情報信頼性評価を支援すべく,情報の解析・組織化を行うシステムを構築して おり,これを情報分析システムWISDOMと名づけている*1.図1.1に分析課題「電動歯ブラシは歯に良 い」に対するWISDOMの分析,図1.2にWISDOMのシステム構成を示す.

WISDOMは,分析課題が与えられると検索エンジンTSUBAKI(9章) *2 を用いてWeb検索を行い,

トップN 件のWebページを取得する(N は通常1000 件).次に,そのページ群に対していくつかの処

理を同時並行で行う.ひとつは主要・対立表現の抽出(12章),もうひとつは評価情報の解析(11章)であ

る.さらに,各ページに対して事前に解析されている情報発信者を収集し,その分布などを計算する(10

章).

*1Web Information Sensibly and Discreetly Ordered and Marshalled.

*2 TSUBAKIは科学技術研究費特定領域「情報爆発時代に向けた新しいIT基盤技術の研究」(2006-2010;領域代表 喜連川

(19)

6 第1章 はじめに

                   

           図1.3 意思決定の過程とその支援 WISDOMでは,これらの解析結果をいくつかのタブで切り替えて閲覧できる(14章).一番左の「レ ポート」タブは分析全体の要約であり,この中ではまず主要・対立文および重要キーワードを示してい る.これによって,分析課題に関連する重要項目を鳥瞰図的に眺めることができる.右上の棒グラフは 1000件のページ中で分析課題に関連する肯定的・否定的意見の全体的分布と発信者クラス(企業,業界 団体,学会など)ごとの分布を示している.その下の円グラフは1000件のページの発信者クラスの分布 を示しており,カーソルを合わせると具体的な発信者名を見ることができる.画面下部には,発信者クラ スごとの主な発信者,肯定・否定意見の一覧が表示される.さらに,この画面中のさまざまな要素がより 詳細な情報へのリンクになっている(ある主要・対立表現を含むページ一覧,ある発信者クラスのページ 一覧,肯定・否定意見のページ一覧など). WISDOMの他のタブは次のような内容をもっている.「主要・対立文」タブは,1000ページ中の主要・ 対立文の一覧と,そのいずれかを含むページ一覧を示す.「意見・評価」タブは評価情報解析の結果の一 覧で,評価情報を賛成/反対,利点/欠点,要望・提言に分類し,それぞれの情報を含むページ一覧を示 す.「原因・対策」タブは自然現象や社会現象について,原因,現状,影響,対策の情報を抽出して表示す る.「検索結果」タブはTSUBAKIの検索結果であり,TSUBAKI のもつ尺度によって分析課題に関連 するページをランキングしている.この中では,発信者クラスごとに検索結果を絞り込むことができ,た とえば政府・行政が発信したページだけの一覧を見ることができる. また,WISDOMの分析結果から各ページへのリンクをたどると,「分析ナビ」というウィンドが開き, その右側にもとのページのキャッシュを表示し,左側にはページの発信者,ページ中で述べられている意 見の一覧,同一発信者の他のページ一覧,さらに,各ページの住所,電話番号などの連絡先,プライバシ ポリシの有無,広告の量,画像の量など(これらを情報外観とよんでいる)が表示される. このようなWISDOMの機能によって人々のWeb利用がどのように支援されるかをみている.すでに

(20)

7 述べたように,Webを用いた情報探索では,目的が曖昧な状態からはじまり,検索を繰り返すことで知 りたい情報を明確にしていく場合も少なくない[1, 2].また,情報を獲得するだけでなく,その情報を分 析し,それに基づいて意思決定を行うこともある.Simonら[3]によると,意思決定の過程は,まず新た な行為を必要とする状況を設定し,可能な行為の代替案を見いだし,その中から行為を選択する過程とみ なされる. Webで情報を探索しながら行う意思決定も,同様に図1.3に示すような過程で捉えられる.まず,段階 (0)はユーザが漠然とした願望や興味を持つ段階で,例えばユーザが「歯周病は怖いらしいがよく知らな い」と感じている状態である.この段階では,百科辞典的な知識によって「歯周病は歯垢が原因の一つで ある」といった情報を提供することなどが有用で,Wikipediaや現状の検索エンジンの利用がかなりの程 度有効である.WISDOMでは,トピックがWikipediaの見出し語である場合にその定義文を表示する 機能があり,またTSUBAKIの上位にランクされるページにも有用なページが多い.次に,段階(1)は ユーザが願望や要求を満たす解決候補を探す段階で,例えば,「歯垢を効率的に落としたい」というユーザ に対しては「電動歯ブラシ」や「フッ素洗口」などが解決候補となる.WISDOMでは,トピックと関連 する重要キーワードを表示する機能や,対策を示す言明を提示する機能がこの段階のユーザを支援する. WISDOMによる情報分析が特に有効であるのは段階(2), (3)に対する支援である.段階(2)は解決候 補の利点や欠点に関する情報収集を行う段階で,例えば,「電動歯ブラシ」についての分析では,「電動歯 ブラシ」に関するWeb上の多様な意見を抽出し整理することによってユーザを支援する.段階(3)は, 段階(2)で収集した情報の真偽や信頼性を判断する段階で,WISDOMは情報の発信者や,全体の中での 位置づけ(多数派か少数派かなど)を解析し,情報を集約・組織化をして提示することを行う.意見を多 く含むページ,発信者ごとの意見の傾向の違いを表したグラフ,発信者ごとの代表的な意見の一覧などに よってユーザの情報把握が容易になり,意思決定過程の段階(2), (3)が有効に支援される. このように,WISDOMは与えられた課題についてWeb上の情報を組織化し,さまざま観点から情報 を相対化して閲覧することを可能とするシステムである.このような機能によって,ユーザの情報信頼性 の判断,さらには意思決定をかなりの程度支援できると考えている.表1.1に,WISDOMでの分析が有 効であると考えられるトピック(クエリ)とその分析動機の一例を示す.なお,WISDOMはWeb上で 一般に公開しており,以下のURLで利用することができる. http://wisdom-nict.jp/ 本書では,情報分析システムWISDOMの分析基盤,分析技術,フロントエンド,さらにユーザ評価結 果について述べる.

(21)

表1.1 WISDOMの分析例 分析クエリ(トピック) 分析動機 利用物・行為 バイオエタノールは環境に良い バイオエタノールは環境に良いとよく言われるが,手 放しで受け入れられるのか,メリットだけではなくデ メリットはないのか.様々な意見を比較してバイオエ タノールを使用するか検討したい. ホメオパシーの効果 ホメオパシーについてニュースで流れていた.ホメオ パシーには効果があるのか.どの様な発信者がホメオ パシーに効果があると言っているのか知りたい. 緑茶はピロリ菌に効く 普段飲むお茶はほうじ茶が良いと思って飲んでいる が,緑茶はピロリ菌に効くと聞いて本当に効果がある なら緑茶も日常的に飲みたい. 抗菌加工 色々な製品に施されているが,どれだけ効果があるの か,あるいは人体へ悪影響がないのか知りたい. AEDは難しい 最近,学校や駅など至る所でAEDを見かけるが,利 用目的や使い方などはおぼろげにしか知らない.専門 家でないと使えないイメージもあるが,実際一般人で も簡単に使えるのか分析したい. 人工甘味料 ゼロカロリー製品に使用されている人工甘味料の安全 性について調べてみる. 昼寝の仕事に対する影響 昼休みは午後の作業に集中できる様に昼寝をしている が,本当に効果があるのか知りたい. 牛乳のカルシウムは吸収がよくない 牛乳のカルシウムは吸収がよいと思っていたが,そう ではないと市役所で言われたので確認したい. 定期借家契約を終了する 自宅マンションの定期借家契約を終了するか,再契約 するかの決断をする必要があり.その場合の問題点/ 注意などを調べる. LEDの費用対効果 LEDを購入した場合にどの程度で元がとれるのか. 制度・政策 裁判員制度 日本でも裁判員制度が施行された.裁判員にはどの様 な問題点があるのか,また,日本の司法制度にとって どの様なメリットがあるのか分析したい. インフレターゲット デフレ脱却にインフレターゲット政策を実施すべきだ という意見がある一方で,インフレターゲットは有効 ではないという意見もある.それぞれの立場がどのよ うな根拠に基づいているのかについて調べたい. 消費税は逆進性がある 消費税増税に関して,消費税には逆進性があると言わ れているが,はたして本当なのか知りたい. 高速道路の無料化 高速道路が無料化になって嬉しい反面,財源等問題も あると聞く.問題点を整理し,次に選挙に行く時の判 断材料にしたい. 大阪都構想 最近議論されているが,これによりどのような効果が 見込まれるのか,またそれはどのくらい信頼できるの かを知りたい. 自然/社会現象・ 出来事 猛暑による景気への影響 猛暑になると消費が促進され,景気に好影響を与えると聞いた事があるが,本当にそうなのか知りたい. 黄砂 日本に飛来する黄砂は,環境への影響も指摘されてい る.その原因と,どういう影響があるのか調べたい. 医師不足 医師不足が叫ばれて久しいが実感はない.現状でどの 程度深刻なのか,その原因は何なのか知りたい.引っ 越しの際などに参考にしたい. 東海地震 東海地震は発生すると言われつつ30年以上たったと ニュースで聞いたが,東海地震に関してどのような議 論があるのか知りたい(本当に起こるのか,予知でき るのかなど).

(22)

9

2

WISDOM

の構成

2.1

概要

本章では,情報分析システムWISDOMのシステム構成について説明する.WISDOMのシステムの 全体構成を(図2.1)に示す.WISDOMは,以下に示す情報分析基盤と情報分析エンジンとWISDOM フロントエンドを統合して構築されており,商用検索エンジンの検索結果などを利用せずに,全てのモ ジュールをNICT内で構築し,運用している. 情報分析基盤 クローラ インターネット上からWebページを収集する.ページの更新間隔や重要度を考慮し て,10億ページ超の日本語Webページを効率的に収集する(5章). Webページ管理 クロールデータプール中の約10億の収集ページから,URLの階層,ページラ ンク等のメタ情報を用いて情報分析に適した約2億ページを選択する,選択されたページに 対して,形態素解析や構文解析等を行い,言語解析結果付与したXML形式のデータをWeb ページと合わせて文書データプールに保存する.文書データプール中の約2億ページから,文 数や単語の出現頻度等のテキスト情報も用いて分析対象データの1.2億ページを選択する (6 章). リンク解析 収集したWebページからリンク情報を抽出し,各ページの人気度を示すページラン クを求める.また,不自然なリンク構造を持つサイトをスパムサイトとして抽出する.これら の情報は,Webページ管理でのページ選択等で利用される (7章). 情報分析エンジン 検索エンジンTSUBAKI ユーザが入力した分析クエリから,クエリと適合した上位N件(通常 1000件)のWebページを検索する (9章). 情報発信者分析 文書データプール上のWebページ集合から,そのページの発信者と企業,行政, 個人匿名などの発信者クラスを抽出する(10章). 評価情報分析 検索結果のWebページから,評価情報(意見)を抽出し,肯定,否定の分類など を行う(11章). 主要・対立・対比文分析 検索結果のWebページに多く出現する主要文と,主要文と対立・矛盾 する文を抽出する(12章). WISDOMフロントエンド

(23)

計 算 機 基 盤

254 ノード, 1124 コア, 1 P B W I S D O M フロントエンド 情 報 分 析 エ ン ジ ン 情 報 分 析 基 盤 Webデータ管理 選 択 選 択 (   ) 1. 2 ( ) (  ) 10 T S U B A K I リ ン ク 解 析 クエリ解析 発信者分析 主要・対立・対比文分析 発信者 DB Web 評 価 情 報 分 析 6 章 5 章 14 章 9 章 7 章 8 章 12 章 10 章 11 章 4 章 [ 第Ⅳ部 ] [ 第Ⅲ部 ] [ 第Ⅱ部 ] フロントエンド 図2.1 WISDOMのシステムの全体構成 ユーザインタフェース ユーザが入力した分析課題に対して,各分析エンジンが抽出した「誰が」 「どう主張/どう評価」しているかの情報を整理し,ユーザが多角的な観点で対話的に情報を 閲覧することを可能にする(14章).

2.2

分析基盤

分析基盤部は必ずしもWISDOMの分析エンジンやフロントエンドに特化したものでなく,汎用的な Webページの収集・管理・検索インデックスの作成を行っており,他の分析アプリケーションでも利用可 能である.WISDOMの分析基盤部は,(1)10億ページのwebページを更新収集すること,(2)収集ペー ジから選択した約2億ページに形態素解析,同義表現解析,構文解析結果を付与したデータを作成するこ と,(3)1.2億の検索対象ページに対して検索エンジン基盤TSUBAKIを用いた検索が常時可能であり, 上位の分析アプリケーションで上記の言語解析結果のデータを利用可能にしていること,(4)クラスタ計 算機上に分散配置したインデックスやデータを利用することでスケーラブルな構成になっていることを特 徴としている.

2.2.1

構築の方針

Web情報分析などのアプリケーションは,実ユーザの利用からフィードバックを得て,改良を行うこ とが重要である.一般ユーザに分析アプリケーションを利用してもらうためには,最近話題になった出来 事など様々な分析課題に対応でき,かつ,常時サービスが利用できることが必要である.一方,情報分析 技術の研究開発者側の観点としても,特定の閉じたドメインだけでなく多くのトピックで評価することは 重要である. また,テキスト分析において,表記が異なるが意味が同じ表現を同一視したい,分析精度を高めるため

(24)

2.2 分析基盤 11 に単語間の係り受け関係を使いたいなどの要望がある.これらは個々の分析アプリケーションに依存しな い共通のものであり,基盤の部分で吸収するのが効率的である. したがって,WISDOMでは以下の方針で収集・検索基盤部を構築した. • 特定の話題だけでなく任意の話題を扱える規模のWebページを,最近のものも含めて,検索対象 とする. • 検索対象のWebページを追加する際にも,検索サービスを止めずに,常時利用できる. • HTMLファイルにアクセスできるだけでなく,HTMLファイルからテキスト情報を抽出して,文 に分割し,形態素,構文解析,同義表現解析を行い,その解析結果もアクセス可能にする. 日本語に限定したとしても,インターネット上には少なくとも数百億規模のWebページが存在する. 上記の方針を満たし,これらの全てのページを対象とするには,あまりに莫大な計算機資源が必要とな り,現実的ではない.大規模収集・検索基盤の課題は,利用可能な計算機資源とページ規模のバランスを とることである.特に,計算コストが高く,しかも,大量のディスクアクセスが発生する言語解析やイン デックス作成部が問題となる.また,最初にページ規模を確定して,それに合わせて必要な計算機資源を 準備することは困難である.したがって,更に以下を方針とした. • ページ収集は検索対象の数倍から10倍程度の規模で行い,その中から質の高いページを選択して, 言語解析,検索インデックスの作成を行い,検索対象とする. • ページ規模の拡大を計算機の追加によって実現できるようにスケーラブルな構成にする.

2.2.2

構成と処理

WISDOMでは,252ノード(1ノード当り4cpu cores,メモリ8GB,ローカルディスク1.5TB∼2TB)

のクラスタ計算機と200TBのファイルサーバを用いて研究開発を行った.この計算機基盤上に構築した 情報分析システムWISDOMの構成と処理フローを図2.2に示す. 上記の構成での処理の概要を以下に述べる.収集・登録時は以下の手順で動作する. 1. 新規・更新クローラ,深度クローラ,RSSクローラの3種類のクローラを用いて,インターネット 上のWebページを収集し,収集ページをクローラデータプールに登録する.新規・更新クローラ はメインのクローラであり,未収集の新規URLのページの収集,及び,収集済みページの更新収 集を行う.収集の際にページの更新間隔や重要度からページの最適な収集間隔を推定することで, 数十億ページ規模のURLに対して,効率的なページ収集を実現している.また,RSSクローラは RSSフィードからページ収集を行い,深度クローラは,ニュースサイトなどの特定の重要サイトを トップページから一定の深さで集中して収集する.これにより,重要ページのタイムリーな収集を 実現している. 2. 収集したWebページから,分析目的に合った質の高いページを分析対象として選択し,メタ情報 抽出・文区切り解析,形態素解析・同義表現解析・構文解析を行い,解析結果をWeb標準フォー マットと呼ばれるXML形式で文書データプールに出力する.WISDOMでは高速化のために,各 ページの解析は70ノードで分散して実行し,文書データプールも70ノードのローカルディスク上 に分散配置している.

(25)

                                                                                                         図2.2 WISDOMの構成と処理フロー 3. オフライン分析として,クエリに依存しない静的な情報抽出を行う.WISDOMでは,リンク解 析,情報発信者の抽出,広告や連絡先などの外観情報の抽出を行っている. 4. Web標準フォーマットから分析対象データを選択して検索インデックスを作成する. 分析時は以下の手順で動作する. 1. WebアプリケーションであるWISDOMフロントエンドは,分析課題のクエリが与えられると, 検索APIを呼び出し,上位N件のページIDの集合を返却する. 2. オンライン分析エンジンは,検索結果のページIDからWeb標準フォーマットを取得し分析を行 い,分析結果を返却する.WISDOMでは,分析課題のクエリに依存する主要・対立・対比文の分 析,評価情報(意見)の分析などの分析処理を同時並列に行っている. 上記のような構成で,ページ規模の拡大をノードの増強で対応できるようにするために,検索インデッ クス,及び,Webページ標準フォーマットデータは全てローカルのディスクに100万ページ単位で分散 して配置している.登録処理や検索/分析処理の際に,これらのデータに対して,小さな単位でランダム に大量のディスクアクセスが発生する.そのため,ファイルサーバ上のデータに,通常のNFSを用いて

(26)

2.3 分析エンジン 13 利用すると,単一のノードからのアクセスでも極端にアクセス速度が低下する.さらに,複数ノードから 同時アクセスが発生すると,致命的にアクセス速度が低下する.したがって,スケーラブルな構成にする ためには,ページ規模の拡大に伴って,ファイルサーバへのアクセスが拡大しない,上記のような分散配 置が必要である. 前述の計算機基盤で,実際に運用を行ってきた経験からすると,随時インデックスやデータの更新行い ながら,常時検索/分析サービスを停止せずに運用し,かつ,各エンジンの独自性能評価などを同時に行 う場合,この規模の計算機基盤を用いても,数億ページ程度が限界であった.一方,収集に限っては10 億ページ程度の収集は可能である. ページ収集については,5章クローラに詳細を記す.また,収集ページから検索インデックス作成まで のデータ管理,及び,分析対象ページの選択方法の詳細については,6章Webデータ管理に記す.

2.3

分析エンジン

WISDOMは,分析課題に対して,「誰が」「どう主張/どう評価」しているかの情報を整理し,ユーザ が多角的な観点でWeb情報を閲覧することを可能にする.「誰が」を分析するのが情報発信者分析あり, 「どう主張/どう評価」を分析するのが,評価情報分析と主要・対立・対比文分析である.以下,各分析 エンジンの特徴を簡潔に示す.各分析エンジンについての詳細は,第2部の分析技術に詳細を記す. 情報発信者分析 Webページの情報発信者とは,ページに含まれる情報の内容や,情報の公開に責任を 持つ人物や組織であると考える.そのため,WISDOMでは,サイト運営者のみならず,ページ著 者を考慮した分類モデルを用いて,Webページから発信者と,企業,行政,匿名個人等の発信者ク ラスを抽出した.匿名のブログのような人間にとっても判定困難なページを除いて,約80%の高 精度で発信者の認識を実現している.さらに,与えられたトピックに対して専門性の高い発信者を 自動判別する技術を開発し,WISDOM上で専門性の高い発信者の情報にアクセスすることを可能 にした. 評価情報分析 Webのテキスト情報から肯定・否定意見を自動抽出し,提示する.評価情報としては, 「私はパンが好きだ」のような主観的な表現だけでなく,「この食品は発がん作用を促進する」,「買っ て3 日後に壊れた」などの客観的な表現で記述されている評価情報も重要である.WISDOMで は,従来抽出することが困難であった多様な評価情報の抽出を実現するために,評価情報を付与し たコーパスを作成し,形態素情報や係り受け情報を元に,隠れ変数をもつ条件付き確率場を用いた 機械学習方式を技術開発した.この新規方式を用いて評価極性の判断を行うことで,既存研究の精 度を上回る85%の精度を実現した.また,評価情報のクラスタリングを行うことで,同様の意見 をマージし,代表的な意見を優先して表示可能にするなどの技術改良を行った. 主要・対立・対比文分析 情報内容の組織化として,与えられたトピックに関する主要・対立表現を抽 出し,提示する.主要表現とは,与えられたトピックに対するWebページ集合に対して,高頻度 に出現する言語表現のことであり,これに対して対立表現とは述語項構造の主要表現に対立,矛盾 する言語表現のことを示す.WISDOMでは,「ゆとり教育」というトピックに対して,従来技術 では抽出することが困難であった「ゆとり教育で学力が向上した」のような少数の対立意見の抽出 が可能である.

(27)

2.4 WISDOM

フロントエンド

ユーザインタフェースは,ユーザが入力した分析課題に対して,各分析エンジンが抽出した「誰が」「ど う主張/どう評価」しているかの情報を整理し,対話的にユーザが多角的な観点で情報を閲覧することを 可能にする. WISDOM では複数の分析エンジンから得られた情報を整理するため,タブ形式での表示とし,ユー ザーの使いやすさを考慮して直感的に操作できる統一されたインターフェイスで実装されている.また, WISDOMでは深い言語解析を用いた分析処理を行うため,レスポンスに関する課題がある.一般に10 秒以上はユーザの注目が薄れるため,全ての分析が完了する前に,なんらかの形でユーザへのフィード バックを行うことが重要である.そのために,WISDOMでは画面の各項目ごとに非同期で処理の実行・ ポーリングを行い,処理が完了したものから表示するように実装されている.詳細については,13 章 WISDOMフロントエンドに記す.

(28)

15

3

関連研究

WISDOMはユーザの入力するクエリに対して関連するWeb情報を,情報の発信者や情報内容といっ

た多角的な観点から組織化し,提示することによって,ユーザの情報の信頼性判断を支援するシステムで

ある.これまでにもWeb情報の信頼性についてはFoggら[6]が,人がどのようにWebページの信頼性

を判断しているのか考察しており,Web情報の信頼性を自動判定する手法も研究されている.また,Web 検索における情報の組織化は次世代Web検索の大きな方向性であり,検索結果を分類するようなサイト も公開され始めている.本章では,Web情報の信頼性判断に関連する研究や技術を紹介し,その中での 「情報を組織化することによって信頼性判断を支援する」というWISDOMのアプローチの意義について 述べる.

3.1

情報の信頼性

Webはテレビや新聞など既存のメディアとは異なり,誰もが自由に発信できるという特徴を持つ.一 方で,情報の匿名性の高さ故に,Webを情報源として利用する場合にはその信頼性が常に問題となって きた.現状では,人間が玉石混淆のWeb情報から有用かつ信頼できる情報を選り分けるには,高い判断 能力が要求される.では,現実にはどのようなWeb情報が信頼性が高いと判断されているのであろうか. FoggとTseng[5]は計算機の出力について利用者がどのように受け止めるかという意味での情報の信頼 性について論じている.この場合,情報の発信者は計算機で,計算機の出力が信頼性を判断する対象とな る情報にあたる.Foggらは計算機についての信頼性について,利用者がその出力をどのように受け止め るかという観点から,次の4つの型に分類している. 仮定された信頼性(presumed credibility) 情報を受け取り手が,信頼する対象についての「一般的な想 定 (general assumptions)」に基づいて決定される信頼性.「デフォルト値としての『一般的信頼 (general trust)』([31], p.42)」に基づいた信頼性と言える. 評判に基づく信頼性 (reputed credibility) 第三者の報告に基づいて受け止められる信頼性.例えば,あ るコンピュータ雑誌の,XYZ社のソフトウェアが非常に優れているというテスト結果についての 記事を読むことによって,XYZ社のコンピュータ関連製品の品質を信頼するような場合にあたる.

表面的な信頼性(surface credibility) 単純な検査(simple inspection)に基づいて判断される信頼性.例

えば,表紙で本についての評価を下したり,Webページの見た目のデザインでその信頼性を判断

(29)

経験に基づく信頼性 (experience credibility) 直接の経験に基づいて判断される信頼性.

この分類は,人間が信頼性を判断する様式を分類したものといえる.Foggらは後にこれらの概念をさら

に整理し,情報の信頼性は主として“trustworthness” と“expertise”を元に判断されるとした[6].Web

ページの場合,情報源やサイトポリシーが明示されているか,専門家の情報が参照されているか,などが 信頼性判断の指標になる.

一方,武田[28]はページの信頼性について,信頼性を推定するのに利用する情報という観点で分類を

行っている.まず,情報は5W(who, what, where, when, why)で規定されるとし,それらに加えてWeb

の特徴として情報についての情報(それを武田は「評判 (reputation)」と呼んでいる)も,情報を規定 するものに含めている.このうち,「何を(内容)」,「誰が(情報提供者)」,「コンテキスト(where, when, whyで規定される情報)」,「評判」の4つに大きく分類して,ページの信頼性を整理している. ページの内容に基づく信頼性 内容として記述されている事実の真偽に基づく信頼性. ページのコンテクストに基づく信頼性 ページの記述・公開のコンテクストに基づいて判断される信頼 性.公開されているサイト,公開日時,電子署名などの有無などがコンテクストの例として挙げら れる. ページの評判に基づく信頼性 ページを利用している他のユーザの情報に基づく信頼性.PageRank など. エージェントの信頼に基づく信頼性 著者に対する信頼 (trust)に基づいて計られる信頼性. Riehら [17]は大学生を対象に信頼性判断の認知的なプロセスと戦略について考察している.それに よると,人間が情報の信頼性を判断するプロセスには予測的判断 (predictive judgement) と評価的判断 (evaluative judgement) の二種類があるとされる.予測的判断は情報検索をどこから始めるか目星を付 ける段階で,信頼できそうな情報源を探す過程である.例えば,Webのない時代では,身近に実在する 教師や医師などの専門家が信頼できそうな情報源の一つとして挙げられる.一方,評価的判断は情報源を 査定した後にその情報を評価する段階で,情報のおもしろさや関連性,信頼性を評価する段階とされる. さらに,理解が不十分なまま情報を受け入れたり,評価的判断の後で矛盾する情報に出会ったりした場合 は,現在の判断を確認するために初めの信頼性判断をやりなおすこともある.信頼性判断は予測的判断と 評価的判断を繰り返し判断する過程であるとする.このように情報の信頼性判断は批判的思考も含めて複 雑な認知的営みであることが指摘されている. こうした調査や分析のいずれもが示唆することは,情報の信頼性がさまざまな要因の組み合わせからな る複合的な問題であるということである.情報の信頼性は情報の真偽や正確さと等価ではない.もし,情 報の真偽や正確さが分かっているのであれば,その情報の信頼性を問題にする必要はそもそもないであろ う.むしろ,情報の信頼性とは,情報の真偽や正確さそのものは分からないが,それを推定するために利 用するものであると言える.つまり,ある主体にとって,ある情報に含まれている内容が真実であるか, どれくらい正確であるかの信念を形成するのに利用される様々な特性のことを指すと考えられる. 以下では,こうした調査・分析をもとに,(1)発信者に基づく信頼性,(2)情報の外観的特徴に基づく信 頼性,(3)情報の評判に基づく信頼性,(4)情報の意味内容に基づく信頼性,の4つの観点から信頼性判 断の関連研究・技術を整理する.

(30)

3.2 情報の発信者に基づく信頼性判断 17

3.2

情報の発信者に基づく信頼性判断

情報の信頼性を評価する上で,情報の発信者の性質は重要な要因の一つである.発信者と情報の信頼性 は,発信者への信頼から情報の信頼性が導出されるという関係にある.発信者に対する信頼は,意図に対 する期待と能力に対する期待から構成される.以下,それぞれについて既存の試みを概観する.

3.2.1

発信者の意図に対する期待としての信頼

意図に対する期待としての信頼とは,信頼の対象となっている主体(信頼対象)について,基本的に悪 意を持っておらず,(例え可能であっても)自分を搾取しないだろうという,人間性や行動傾向に対する

期待である.被験者を使った調査でも,たとえばWebサイトのジャンルNews,e-commerce,個人の中

ではNewsサイトが最も信頼性が高く,個人サイトが最も低い[4]といった結果が得られている.もちろ

ん実際には,ジャンルごとの信頼性のような粒度の荒い評価では十分でない.サイトごと,あるいは発信 者ごとに信頼性を評価する枠組みが求められる.ここではそうした試みの代表的な方向性とて,社会ネッ トワークに基づいて信頼を計算するアプローチを紹介する.

Richardsonら[16]は,利用者の信頼関係のネットワーク(Web of Trust)を利用して,情報の信頼性

を計算する手法を提案している.この研究では,個々のユーザについて,ある情報についてどれだけ信用 しているかという信用度(Belief)と,他のユーザをどれだけ信頼しているかという信頼度(Trust)を用 いてWeb of Trustをモデル化している.ある情報についての信用度を計算するときに,直接知っている (信頼度の値を与えている)ユーザだけでなく,直接は知らないが,信頼しているユーザが信頼している ユーザといった形で,信頼関係ネットワークの上でパスが存在するユーザ全ての信用度を考慮して計算す る(経路代数アプローチ).

Golbeck ら [8] は,人についての情報を表現するためのメタデータスキーマ FOAF

(Friend-of-a-friend)*1を拡張して,人に対する信頼度を9段階で表現している.そうして表現されたユーザ間の信頼 ネットワーク上でのユーザ間のパスを考慮して,最大・最小容量法,最長・最短法,加重平均法などに よって,任意のユーザの信頼度を計算する手法を提案している. これらの研究では,ユーザの他のユーザに対する信頼度をユーザ自信が相互に評価する枠組みを仮定し ている.しかし,近年のデータマイニング技術をWebに適用して,Web情報から現実の社会ネットワー クを抽出しようという試みも始まっている.森らは[32]は,そのようにして抽出された社会ネットワーク に対して,ネットワーク分析手法を適用することにより,ネットワーク上の2者間の信頼関係を推定する 手法を提案している. 以上,社会ネットワークの観点から情報発信者の信頼度,更には情報の信頼度を計算する手法に関する 研究について紹介した.この種の研究では,信頼を1次元の変数として扱う場合が多く,意図に対する 期待としての信頼を考えた場合,十分でない可能性がある.発信者の意図は,商品を売ろうとしている のか,アフィリエートで収入を得るために広告を出しているのか,政治的なプロパガンダが目的なのか 等々,極めて多様な軸があり,単純な1次元の数値に落とすことによる情報の損失は明らかである.この ような発信者の多様な意図をどのように表現し,計算に取り込むかは今後取り組むべき課題である. *1http://www.foaf-project.org/

(31)

3.2.2

発信者の能力に対する期待としての信頼性

発信者の信頼性を構成するもう一つの要素は,発信者の能力に対する期待としての信頼である.発信者 が医者であれば,医学的知識に関しての情報は信頼できる,といったように,個々の発信者の知識,専門 性,経験といったものに対する評価に基づいて,発信者にある程度の能力があることを期待し,発信され る情報が信頼される.以下,発信者の情報発信履歴に基づいて発信者の信頼性を評価する研究について紹 介する. Mohan は ,情 報 の 発 信 履 歴 に 基 づ き 発 信 者 の 信 頼 性 を 評 価 す る 手 法 を 提 案 し て い る [11]. PageRank[13]などリンク構造に基づいてページの重要度を計る手法では,新鮮な情報はたとえ重要で あっても,リンクの少ない初期の期間は高い評価が得られない.Mohanの提案する手法では,後に重要 だと知られる情報を,その重要性が広く認知される前に取り上げたサイトを養育者(nurturer)と定義し, 過去の養育者としての実績を測定することで,養育者として評価の高いサイトが取り上げる情報に高い重 要度を与える.この手法では,新しい情報の重要度を評価できる先見性という能力についての期待を評価 していると言える. 山本らは,地域の口コミ情報サイトにおける投稿者の信頼性について,投稿者が過去にどの場所につい ての情報を投稿したかを指標に信頼性を評価する手法を提案している[30].過去に情報を投稿したことの ある場所の分布に基づいて,いわば投稿者の「地元」がどこであるかを推定し,新規に投稿された情報の 場所と投稿者の「地元」の距離を元に,情報の信頼度を算出する.これは,「地域の情報については『地 元』の人がよく知っている」という仮定に基づき,「よく知っている」という能力に対する期待としての 信頼を評価したものだと言える. ブログの信頼性を専門性の観点から判定する手法もいくつか提案されている.Rubinら [18] はブロ

ガーの4つのprofile factor: (1) the blogger’s expertise, (2) blogger’s trust worthness, (3) information

quality, (4) Appeals of a personal nature に基づく信頼性評価の枠組みを提案している.Weerkamp

ら [26]はRubinら[18]の指標を土台に,ブログテキストの絵文字(emoticon) やスペルミスの頻度や記 事の長さなどを信頼性の指標とみなしてブログの信頼性の推定を行っている. こうした多面的な角度からの発信者の信頼性評価を一般のWebサイト/ページで実現するにはまだ多 くの課題が残っている.たとえば,サイト/ページの発信者を同定し,そのジャンル(報道サイト,行政 機関,病院など)を特定する作業をWeb全体に対して行うといった課題さえ,ほとんど研究がないのが 現状である.これに対しWISDOMでは,まず発信者の同定とそのクラス分類を自動化するところから 始め,他の分析情報と組み合わせることによって,ユーザからのクエリに対する発信者の専門性を動的に 推定する機能を実現している.

3.3

情報の外観的特徴に基づく信頼性判断

人間は情報の信頼性について,その中身を詳しく吟味せずとも,ある程度表面的な特徴から判断するこ とが可能である.例えば,過度に派手なデザインであったり,どこから読んでいいのか分からないような レイアウトであったり,誤字脱字が多かったり,文体や言い回しなどが不適切だったり,様々な外観的皮 相的特徴からその情報には信頼性が無いと判断できる.たとえば,Sillenceら[19]が更年期障害の治療法 について意思決定を迫られている女性を被験者として行った実験では,被験者らが不要なWebページを

(32)

3.4 情報の評判に基づく信頼性判断 19 棄却するのにページの外観的特徴を手がかりにしていることが示されている. 人間が見れば分かるような外観的特徴に基づく信頼性を,機械が自動的に情報の信頼性を評価する意味 はあるだろうか?この場合,一つ一つのページについて,ユーザに信頼性の有無を提示する意義はあまり ない.むしろ,大量の情報の中から信頼性の高い情報を探そうとするような場合にこのような技術は重要 になってくる.つまり,利用者が全ての情報を一々見るのが不可能な時に,一次的なフィルタリングに外 観的特徴による信頼評価を用いるのである.外観的特徴による信頼性評価は,フィルタリングのための特 徴量の一つとして,他の評価手法とは異なる観点を与えるという意味で,有効であると期待される. Foggら[7]は,人がどのようなWebサイトを信頼性があると判断するのかについて,大規模な調査を 行っている.彼らは信頼性(credibility)を情報そのものに備わる性質ではなく,情報を受け取る利用者が

「知覚する品質(perceived quality)」であると定義している.その上で,Webサイトの様々な要素がWeb

サイトの利用者が知覚する信頼性にどのように影響を与えるのかを調査している.調査では,まず300の

調査項目から始め,複数回の予備調査を経て信頼性に関して重要なものとして51項目に絞り込んだ.つ

ぎに,各項目の相関分析に基づき以下の7つの尺度に分類している.調査の後,各項目の相関分析に基づ

いて,(1)現実世界感(real-world feel scale),(2) 使いやすさ(ease of use scale),(3) 専門度(expertise

scale),(4) 信頼度(trustworthiness scale),(5)オーダーメード度(tailoring scale),(6) 商業的度合い

(commercial implications),(7)アマチュア度(ammateurism scale),の7つの尺度に分類している.

各尺度に含まれる項目としていくつか例をあげると,現実世界感には「問い合わせにはすぐに回答がく る」や「組織の所在地を明記している」などの項目が,信頼度には「信用できるサイトからリンクされてい る」や「情報の内容について方針を明記している」などの項目が含まれる.この調査の結果は,Webサイ トのデザイナーに対して信頼されるサイトを作成するためのガイドライン[20] としてまとめられている. 外観的特徴に基づいてWebページの信頼性を自動判定する研究も進められている.Velayathan[24]ら は,情報の信頼度を評価する上で,ページのトポロジー,ドメイン名,ページのデザインや表現,アクセ ス時間,サーバの情報などを利用することを提案している.福島ら[33]は,Foggらの調査結果に基づい て,各調査項目に対応する自動処理方法を実現,組み合わせることによりページの信頼性を自動判定する 手法を提案している.Wassmerら [25]は医療系のサイトを対象に,信頼性の自動推定を行っている.信 頼性の測定にはサイトのcredentials,広告,デザインを手掛かりにしている. 本節の冒頭で述べたように,外観的特徴に基づく信頼性評価は大量の情報を選別するための一次フィル ターとして有効であると期待されるが,この種の研究はまだ十分に手がつけられておらず,今後の展開が 期待される.

3.4

情報の評判に基づく信頼性判断

評判とは,あることがらについて人々が持っている意見のことを指す.つまり,ここでいう「情報の評 判に基づく信頼性評価」とは,ある情報について人々が持っている意見を利用して,情報の信頼性を評価 するための方法ということになる. Web上の情報の特徴は,ハイパーリンクにより情報(ページ)がつながって,ネットワーク構造をな していることにある.このハイパーリンクを一種のページについての評判だと捉え,ページの重要度を計

算するのに利用したのがGoogle*2のPageRank[13]アルゴリズムである.PageRankアルゴリズムでは,

(33)

重要度の高いページからリンクされているページの重要度は高いというアイデアに基づいて,ページの

重要度を算出している.GoogleではPageRankの結果に基づき,検索結果のランキングを行っている.

PageRankで計算されるページの重要度は,評判に基づいた信頼性評価の一種だと言える.

他に情報の評判を利用する方法として,直接ユーザから情報についての評判を集めて利用することが

挙げられる.Slashdot*3では,モデレーションシステム(moderation system)によりユーザからの評判

を利用してコメントの評価およびフィルタリングを行っている.Slashdotは様々な(コンピュータ技術

関係に偏っているがそれに限らない) ニュースについて,掲示板で自由に議論ができるサイトである.

モデレーションシステムでは,モデレータ(moderator)に選ばれたユーザが,個々のコメントについて

「参考になる(informative)」「すばらしい洞察(insightful)」「おもしろおかしい(funny)」「フレームの餌

(flamebate)」などの肯定的/否定的評価を行い,それに応じてコメントにポイントが加算/減算される 仕組みになっている.一般のユーザは,指定した閾値以上のポイントのコメントのみを表示することがで きるので,モデレータの評価に基づいてコメントをフィルタリングすることが可能である.ユーザから情 報についての評判を集めてランキング等に利用するサイトとしては,他にdigg*4,reddit*5などがある. また,投票によるブログのランキングを行うサイト*6もある. 評判に基づく信頼性判断についても考慮すべき問題がいくつかある.まずは,ネットオークションから 考えよう.現在のネットオークションの多くは,出品者あるいは落札者を評価する何らかのシステムを導 入している.これは情報についての信頼性ではないが,評判による信頼性判断の問題点を考える上で参考 になる.例えば,Yahoo!オークション*7では,取引終了後に,出品者と落札者がお互いに相手を「非常に 良い」「良い」「どちらでもない」「悪い」「非常に悪い」の5段階で評価を行う.Resnickら[15]このよう なオークションサイトにおける評価システムの問題として,ユーザが提供する評判について,肯定的な評 価に大きく偏っていることを指摘している.その理由の一つとして,オークションサイトにおける評価シ ステムが相互的であり,仕返し(悪い評価を与えると,その仕返しとして悪い評価を与えられる)を恐れ て,よほどのことがない限り肯定的な評価を残すためであると説明している.Traupmanら[23]は,こ の評価の偏りのために「普通の参加者」と「極めて素晴らしい参加者」の区別ができないという問題を指 摘し,EM法により参加者の信頼性を推定する手法を提案している.今後,情報について評判を情報の信 頼性を評価するための基盤として利用することを考えるときに,オークションサイトにおけるのと同様な ユーザ同士の社会的な要因の評判へ影響を考慮する必要が出てくるであろう. 別の問題としては評判情報の表現力が挙げられる.これまで見てきた評判情報はおおよそ肯定か否定と いう一つの対立軸で表現されている.Slashdotの場合は多少形容詞の多様性はあるものの,最終的に集 計するときには肯定的な形容詞であれば+1点,否定的な形容詞であれば−1点として計算している.し かし,情報の信頼性は,本稿でも4つの要素を挙げているように,本来,様々な要因を勘案して総合的に 判断する必要がある.情報に対する評判を表現する段階で肯定-否定の1次元の軸に落とすことは,途中 の過程での様々な判断に関する情報が失われることを意味する.結果,集約された評判も,評価対象の情 報について正確に反映しなくなる可能性がある.事実,先に述べたオークションサイトにおける評価シス テムではそのようなことが起きている.肯定-否定にとどまらず,より豊かな表現力をもった評判情報に *3http://slashdot.org/(日本語版,http://slashdot.jp/). *4http://digg.com/. *5http://reddit.com/(日本語版,http://ja.reddit.com/)

*6Blog Ranking (http://blog.with2.net/)など.

表 1.1 WISDOM の分析例 分析クエリ(トピック) 分析動機 利用物・行為 バイオエタノールは環境に良い バイオエタノールは環境に良いとよく言われるが,手 放しで受け入れられるのか,メリットだけではなくデ メリットはないのか.様々な意見を比較してバイオエ タノールを使用するか検討したい. ホメオパシーの効果 ホメオパシーについてニュースで流れていた.ホメオ パシーには効果があるのか.どの様な発信者がホメオ パシーに効果があると言っているのか知りたい. 緑茶はピロリ菌に効く 普段飲むお茶はほうじ茶が良
図 4.2 計算機基盤の外観
表 5.2 URL データベース構成 データベースシステム MySQL 5.0.45 ストレージエンジン InnoDB データベース名 crawl テーブル名 url URL テーブル feed list RSS フィードテーブル host ホスト名テーブル ( 未使用 ) 表 5.3 URL テーブル id UNSIGNED BIGINT AUTO INCREMENT PRIMARY KEY 自動インクリメントによる主キー.URL ID として全システムを通して使用される. url TEXT INDEX(
表 6.1 Web 標準フォーマットのタグセット
+7

参照

関連したドキュメント

このような背景のもと,我々は,平成 24 年度の 新入生のスマートフォン所有率が過半数を超えると

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

1 か月無料のサブスクリプションを取得するには、最初に Silhouette Design Store

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

Oracle WebLogic Server の脆弱性 CVE-2019-2725 に関する注 意喚起 ISC BIND 9 に対する複数の脆弱性に関する注意喚起 Confluence Server および Confluence

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

すべての Web ページで HTTPS でのアクセスを提供することが必要である。サーバー証 明書を使った HTTPS

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と