第 3 章 関連研究 15
3.6 深い言語処理に基づく情報信頼性分析の支援へ
人は,Webに限らず,メディアや書籍,家族や知人など,さまざまな情報源から収集した情報を参考 にしながらさまざまな問題について意思決定するということを絶え間なく行っている.合理的な意思決定 を行うためには,収集した情報を鵜呑みにするのではなく,信頼できる情報かどうかを確かめる必要があ る.これには,情報の受け手が先入観や興味・関心に依拠せずに,賛否双方の立場から多角的に検討した り,異なる情報源の間の整合性を確認したりする批判的な情報分析作業が必要になる[27, 9].しかし,ほ とんどの人にとってこれは決して簡単な作業ではない.
まず,先入観を取り払って,偏りなく情報に接するのは誰でも簡単にできることではない.発信者の信 頼性が情報の信頼性に影響することは上で見たとおりだが,その一方で,たとえば大学教授の言説をその 肩書きゆえに無批判に信じてしまったというような経験は誰にでもあるだろう[1, 22].また,情報の裏を とるにはさまざまな情報源から情報を集め,整合性を吟味する必要があるが,多忙な日常の中でそれに要 する多大な時間を見つけるのも容易でない.個々の情報の発信者を同定し,その主張を理解し,さらには 発信の意図(たとえば,営利目的のページかどうか)まで推測しながら,何十何百のページを調べる必要 があるとすれば,それは一般のWebユーザにはほとんど不可能である.しかし,本章で見てきたように,
既存の技術やサービスはいずれもこうした情報分析作業の支援をはじめから意図していないか,あるいは 極一部の作業を部分的に手助けするにすぎない.
これに対し,対象とするWebページの種類を限定せず,集めた情報を多角的に整理・分析し,ユーザ による情報信頼性の判断のプロセス全体を支援することを意図して設計されたのがWISDOMである.
WISDOMは,深い言語処理によって,(i) Webページの外観的要素,(ii) Webページの発信者に関する
情報,(iii) 評価情報や主要対立文などのページ内容,の3つの観点からWeb情報を集約し組織化する.
これによって,既存の検索サービスでは難しかった情報の多角的分析が可能になり,合理的な意思決定を 促すことができると我々は考えている.WISDOMは,これまでの信頼性判定システムとは異なり,個々 のWeb 情報の信頼性を自動判定することは意図しない.そうではなく,多様な情報源からの情報収集と 多角的分析を深い言語処理技術によって自動化することより,情報の信頼性に対するユーザの批判的判断 を支援することが,我々がWISDOMを設計した目的である.
第 II 部
情報分析基盤
25
第 4 章
計算機基盤
WISDOMのように10億ページ規模でのWebページの収集,管理,検索,分析を実現するには,それ
を支える計算機資源が必要となる.WISDOMは総CPUコア数が1000を超える計算クラスタ,および 1PBを超える総記憶容量(共有ストレージ分として300TB超)により構成される計算機基盤の上で運用 されている. 計算機基盤は2007年3月に162ノードの計算クラスタと100TBのストレージという構成 で運用を開始し,その後各種の設備増強を経て現在の構成に至っている.
この章では,WISDOMが運用されている計算機基盤について述べる.
4.1 計算機基盤の構成
図4.1に計算機基盤の構成を示す.計算機基盤は計算クラスタ,共有ストレージ,データベースサーバ,
管理サーバおよびネットワークにより構成される.計算機基盤の利用目的は,大規模Webページデータ の収集,管理,言語解析,索引作成,検索,および情報分析である.図4.2は計算機基盤の外観である.
この写真に写っているのは,Thin Nodeクラスタの一部とメイン共有ストレージである.以下,計算機 基盤の各構成要素について説明する.
4.1.1 計算クラスタ
計算クラスタはThin, Medium, Fatという構成の異なる3種類のノードにより構成されている.表 4.1に計算ノードの仕様を示す.
Thin Nodeクラスタは計算機基盤の主力となる計算クラスタである.WISDOMを構成するモジュー
ルの大半はThin Nodeクラスタ上で稼働している.特に重要なモジュールは,検索サーバ,インデック ス生成,文書データプール,クローラである.Thin Nodeクラスタの特徴として,一般的なHPCクラス タと比べたときに比較的大容量のローカルディスクを有していることである.検索サーバ,インデックス 生成などのWebデータの処理の特徴として,
• 処理量が大規模であること
• 多くの処理はデータ並列性が高いこと
が挙げられる.多くのデータをローカルに配置することにより,共有ストレージアクセスのオーバーヘッ
ィ ⟬ 䜽 䝷 䝇 䝍
䝯 䝰 䝸
ඹ ᭷ 䝇 䝖 䝺 䞊 䝆
䝛䝑 䝖 䝽 䞊 䜽
䝕 䞊 䝍 䝧 䞊 䝇 䝃 䞊 䝞
㽢
⟶ ⌮ 䝃 䞊 䝞 ➼
図4.1 WISDOMの計算機基盤の構成
4.1 計算機基盤の構成 27
図4.2 計算機基盤の外観
ドを低減させ,データ並列性を最大限活かすことが可能となる*1 .我々はプロジェクトを進める中でロー カルディスクの重要性を認識し,導入当初は1ノードあたり500GBであったローカルディスクを,ノー ドあたり最大2TBまで拡張し,データ量の増加に対応してきた.
Medium Node は Thin Nodeの計算能力を保管する目的で導入された.比較的大きなメモリ容量
(72GB)とローカルストレージ容量 (6TB)が特徴となっている.用途は汎用計算の他に,メモリ容量の
大きさを利用して,クローラのプロキシや,URL ID解決サーバなどに利用されている.
Fat Nodeは大容量のメモリ(144GB)を搭載した計算ノードである.2ノードあり,その間はInfiniband で接続されている.用途は汎用計算の他に,非常に大量のメモリが必要となるリンク解析などに利用され ている.
4.1.2 共有ストレージ
計算機基盤の共有ストレージは計算機クラスタのデータ共有に主たる役割を果たす高速大容量のメイン ストレージと,主にバックアップ用途のサブストレージから構成される.
*1 データ並列性を最大限利用するためには処理を実行する計算クラスタの計算ノードにいかに効率よくデータを供給し,また 処理結果を出力するかが問題となる.一般的なHPC用計算クラスタでは共有ストレージからのデータ読み出しと書き込み が想定されており,計算ノードのローカルストレージはそれほど大きく取られていないことが多い.大量のデータを共有ス トレージに置いて処理をしようとすると,処理開始時には計算ノードからの読み出し要求が,処理終了時には計算ノードか らの書き込み要求が,同時に大量発生することになり,共有ストレージの性能がボトルネックとなってしまう.そのため,
WISDOMの計算機基盤では一般的な計算クラスタに比べて比較的大きなローカルディスク容量(1.5〜2TB)を確保して
いる.このことにより,計算ノードにデータを分散配置すること可能となり,共有ストレージの性能に影響を受けることなく 大量データの並列処理が可能となる.
Thin Medium Fat
ノード数 240 10 2
CPU (周波数) Intel Xeon 5160 (3.0GHz) Intel Xeon 5570 (2.93GHz) ← プロセッサ数/コア数/総コア数 2 / 4 / 960 2 / 8 / 80 2 / 8 / 16
メモリ(規格) 8GB (DDR2-667) 72GB (DDR3-1066) 144GB (DDR3-1066)
ローカルHDD容量 1.5 or 2TB 6TB 1.9TB
HDD規格 SATA 7200RPM ← ←
RAID構成 なし RAID 5 ←
ネットワーク 1000Base-T×2 1000Base-T×4 1000Base-T×4, Infiniband
メインストレージは200TBのデータ領域を分散ファイルシステムGPFSで構成し,2台のGPFSサー バから計算クラスタ全体に対してNFSでエクスポートしている.各サーバは8本のGbEのリンクアグ リゲーションによりコアスイッチと接続されており,計算クラスタとは合計で16Gbpsの帯域を確保して いる.メインストレージはユーザのホームディレクトリの他,クロールしたWebページのデータの保管 に利用している.
サブストレージはメインストレージを補完するもので,比較的小容量(10〜20TB)のNASを複数設 置している.
4.1.3 データベースサーバ
データベースサーバは,ストレージとしてSSDを搭載したサーバであり,データベースをSSD上の ファイルシステムに配置することによるデータベースの高速化を目的として導入された.WISDOMのク ローラは,MySQLによりURLデータを管理している.当初は,HDD上のファイルシステムに配置し て運用していたが,管理するデータサイズが大きくなるにつれてデータベースへのアクセス速度の低下が 顕著となり,クローラ全体の性能のボトルネックとなった.データベースサーバの導入により,データ ベースの速度が10倍程度改善し,データサイズの拡大に対応することができた.
4.1.4 ネットワーク
4.1.4.1 ノード間接続
計算機基盤が想定する処理は主にデータ並列性が高いことから,ノード間通信の帯域やレイテンシはそ れほど要求されず,ノード間接続にはGigabitEthernetを採用している.
計算クラスタ,共有ストレージおよびデータベースサーバは全て,2台のコアスイッチに収容されて いる.コアスイッチには,HP社のProcurve 5412zlを採用している(表4.2).2台のコアスイッチ間は
10GbEで接続されている.
表4.2 HP Procurve 5412zlの仕様
項目 仕様
ポート数 1000BASE-T 264 port, 10GBASE-SR 4 port
スイッチファブリック速度 691.2Gbps