Microsoft Word - EMC Isilon HDFSサポートホワイトペーパー2012Feb.doc

(1)

ホワイトペーパー

EMC Isilon スケールアウト NAS による

Hadoop ストレージ環境の構築

要約

このホワイトペーパーでは、EMC Isilon スケールアウト NAS によってエンタープライズがHadoop データ分析ワークフローを導入する方法について詳細に説明します。ここではコアアーキテクチャの関連コンポーネントを紹介するとともに、進化するビッグデータの分析ワークフローのストレージ要件を満たすうえで、シンプルさを保ちつつ、信頼できるビジネスの洞察を迅速かつ効率的に得るIsilon と Hadoop の併用の利点を明らかにしていきます。 2012 年 2 月

(2)

Copyright © 2012 EMC Corporation. All Rights Reserved. EMC Corporation は、この資料に記載される情報が、発行日時点で正確であるとみなしています。また情報は予告なく変更されることがあります。この資料に記載される情報は、「現状有姿」の条件で提供されています。EMC Corporation は、この資料に記載される情報に関する、どのような内容についても表明保証条項を設けず、特に、商品性や特定の目的に対する適応性に対する黙示の保証はいたしません。このドキュメントで説明されているいかなるEMC ソフトウェアの使用、コピー、配布に関しても、適切なソフトウェアライセンスが必要です。

最新のEMC 製品名については、EMC.com で EMC Corporation の商標を参照してください。

VMware は、米国およびその他の国における VMware, Inc.の登録商標または商標です。他のすべての名称ならびに製品についての商標は、それぞれの所有者の商標または登録商標です。

(3)

Isilon のアーキテクチャ... 8 OneFS オプションモジュール ... 9 Isilon の Hadoop 接続 ... 10 シンプル ... 11 効率性 ... 12 柔軟性 ... 13 信頼性 ... 14 ファイルシステムジャーナル ... 15 ノード/デバイス障害に対するプロアクティブな対応 ... 15 Isilon のデータ整合性 ... 16 プロトコルのチェックサム ... 16 ダイナミックセクタ修復 ... 16 Mediascan ... 16 IntegrityScan ... 16 データの高可用性 ... 17 ビジネスの継続性 ... 17 まとめ ... 21 Isilon について ... 21

(4)

はじめに

企業は、急増する大量データ「ビッグデータ」の保存や管理に始終、対応を迫られています。データの計算能力の拡大に合わせてディスクドライブの容量も拡大を続けていますが、ビッグデータを分析して貴重な洞察を得るためのツールは、このようなデータの急増に追いついていません。既存の分析アーキテクチャは高価で処理速度が遅すぎることが知られており、維持や管理がきわめて難しいことも明らかになっています。 Hadoop は、企業が保有するデータセットから貴重な洞察を短時間で得られるように設計されているオープンソースの革新的な大規模データ分析エンジンです。 MapReduce および HDFS（Hadoop Distributed File System）という 2 つの主要コンポーネントで構成されています。MapReduce は、複数のノード上でジョブを並列処理し、大規模データセットから結果を高速で取得する分散タスク処理フレームワークです。またHDFS は、Hadoop 計算ファームが分析に必要な入力データすべてと、MapReduce ジョブによって生成される出力データのすべてを格納する、分散ファイルシステムです。 Hadoop はスケールアウトという原則に基づいて構築されています。汎用ハードウェアのクラスタ上で動作するインテリジェントなソフトウェアを使用して、貴重な洞察を迅速に、かつ低コストで提供します。Hadoop がビッグデータの分析に最適なのは、この分散並列型のタスク処理エンジンのおかげです。さまざまなビッグデータのストレージニーズに対し、企業は今まで同様、EMC Isilon スケールアウトNAS（Network Attached Storage）に期待を寄せています。OneFS は Isilon スケールアウト NAS のオペレーティングシステムであり、クラスタを形成する複数ノード上で実行される分散ファイルシステムでもあります。OneFS はハードウェアをスケールアウトするという観点に加えて、管理もスケールアウトできるように設計されており、大規模なシステムであっても従来のストレージシステムの管理に必要な人員と同程度の人員で管理できます。OneFS には自己修復、および自己管理のための機能が組み込まれており、ストレージ管理の複雑さを解消し、管理負荷を劇的に軽減できるようになっています。また、OneFS は並列処理するように設計されているため、複数のハードウェアユニットに分散されて主要なシステムサービスが実行されます。その結果、OneFS はインフラストラクチャの拡張にとともに、すべての次元で仮想的に拡張できるようになっており、今日のようにデータが急増したりワークフローが変化する状況下においても、同じように機能し続けます。柔軟性に富み、インフラストラクチャやデータ容量の需要の変化だけでなく、進化するワークフローにも適応可能で、シンプルでかつ使いやすいEMC Isilon スケールアウトNAS は、ビッグデータ分析ワークフローソリューションにおける Hadoop 向けストレージとしてきわめて魅力的な選択肢となります。

Hadoop ソフトウェアの概要

Hadoop は、企業が保有するデータセットから企業活動に結び付く貴重な洞察を短時間で得られるように設計された、革新的なオープンソースのビッグデータ分析エンジンです。Hadoop の主要コンポーネントは、以下のとおりです。

(5)

Hadoop MapReduce: 計算ノードで構成されるクラスタ上の大規模データセットに対してジョブを並列処理し、結果を高速で取得する分散タスク処理フレームワークです。 Hadoop HDFS（Hadoop Distributed File System）: Hadoop による分析に必要なすべてのデータを格納する分散ファイルシステムで、Hadoop 計算ファームによって使用されます。MapReduce はもともとコンピューティングパラダイムとして Google によって開発されたものですが、Hadoop は Yahoo により MapReduce の実装として構築され、オープンソースとして公開されています。

Hadoop MapReduce

Hadoop MapReduce はコード作成が容易なアプリケーション用のソフトウェアフレームワークで、汎用の計算ノードで構成される大規模クラスタ上で大量データを並列処理します。 MapReduce フレームワークの構成要素は、以下のとおりです。 JobTracker（ジョブトラッカ）: ジョブやコンポーネントタスクのスケジュール設定、モニタ、管理をするマスターで、クラスタノードごとに1 つ存在します。 TaskTracker（タスクトラッカ）: JobTracker に指示されたジョブに必要なタスクコンポーネントを実行します。各スレーブクラスタノードごとに1 つ存在します。 MapReduce ジョブ（クエリ）は複数のマップタスクで構成されており、クラスタ全体で完全に並列分散処理されます。MapReduce はマップの出力をソートします。この出力は、タスクを減らすために入力として使用されます。ジョブの入力と出力は両方とも、HDFS を使用して計算ノードのクラスタ全体にわたって格納されます。MapReduce はタスクのスケジューリングやモニタリングを行い、失敗したタスクの再実行を管理します。 Hadoop クラスタでは、一般に MapReduce 計算ノードと HDFS（HDFS ストレージ層）は同じノード上に存在します。MapReduce はこの構成により、データがすでに存在するノード上のタスクを効率的にスケジューリングすることで、クラスタ内にあるデータの移動にかかるネットワークのボトルネックを回避します。このような仕組みで、計算層はHDFS 層上のデータの存在場所を整理して、重要な洞察を効率的に引き出します。

Hadoop は Java で記述する必要がありますが、MapReduce アプリケーションは Java 以外の言語でも記述可能です。MapReduce アプリケーションは特定のジョブに関して Hadoop Streaming インターフェイスを使用して、実行可能ファイルを mapper や reducer に指定します。

Hadoop 分散ファイルシステム

HDFS はクラスタ内の複数のノードにまたがるブロックベースのファイルシステムであり、ファイルとしてユーザデータを格納します。ユーザやアプリケーションがファイルやディレクトリを操作（作成、名前変更、移動、削除）できるように、従来の階層の形でファイルを表示します。また、MapReduce フレームワークでアプリケーションを実行する際に使用できるように、Streaming インターフェイスも表します。HDFS はハードリンクやソフトリンクの設定をサポートしておらず、特定のブロックを検索

(6)

したり、ファイルを上書きすることはできません。またプログラムによるアクセスが必要なため、ファイルシステムとしてマウントすることもできません。HDFS の通信はすべて、TCP/IP プロトコル上に階層化されます。 HDFS の主要コンポーネントは、以下のとおりです。 NameNode（ネームノード）: 単一のマスターメタデータサーバで、各ファイル、ファイルの場所、ファイル内の全ブロック、およびそれらが存在するDataNodes のインメモリマップを所有します。 DataNode（データノード）: 読み取り/書き込み要求を提供し、NameNode の指示によりブロックの作成、削除、複製を行います。各スレーブクラスタノードに1 つ存在します。 HDFS は、MapReduce ジョブの実行前にすべてのデータが存在するストレージ層です。 HDFS はブロックミラーリングを使用して Hadoop クラスタにデータを分散し、複数の計算ノードのローカルデータとして保護します。デフォルトのブロックサイズは 64 MB で、デフォルトでは 3 面（3x）で複製されます。

Hadoop のディストリビューション

Apache Hadoop はオープンソースで、Apache Foundation（apache.org）によって管理されています。その他のすべてのディストリビューションは、Apache Hadoop を基に構築、拡張されたものです。現在利用できる一般的なHadoop ディストリビューションには以下のものがあります。 ● Apache Hadoop ● Cloudera CDH3 ● Greenplum HD

● Hortonworks Data Platform

ここに挙げたものが今日利用できるHadoop のすべてではありません。これらはディストリビューションの一部です。Hadoop ディストリビューションの完全なリストは、以下を参照してください。 http://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support

Hadoop エコシステム

Hadoop エコシステムコンポーネントは Hadoop スタック上に実装され、追加の機能を提供して分析ワークフローを有効にするアドオンコンポーネントです。Hadoop エコシステムにおける主なオプションには、以下のものがあります。 ● Hive: HDFS に格納されたデータに対する、SQL に似たアドホックのクエリインターフェイスです。 ● HBase: HDFS 上に配置される、ランダム読み取り/書き込み可能な列指向の高パフォーマンス構造化ストレージシステムです。 ● Pig: 並列コンピューティング用のハイレベルデータフロー言語、および実行フレームワークです。

(7)

● Mahout: Hadoop を使用する拡張可能なマシン学習アルゴリズムです。 ● R（RHIPE）: 大規模な複合データセットに対する統計分析用の分割および再結合機能を提供します。ここに挙げたものはHadoop エコシステムを構成するコンポーネントの一部です。 Hadoop の全コンポーネント

Hadoop のアーキテクチャ

以下の図は、Hadoop 計算クラスタで実行される Hadoop のコアコンポーネントのアーキテクチャを示したものです。この計算環境では、一般に以下の処理が行われます。 1. HDFS レイヤにデータを取り込みます。 2. MapReduce を使用してデータを計算、または分析します。 3. Hadoop の全体的なワークフローに合わせて、HDFS やその他のインフラストラクチャに結果を格納、またはエクスポートします。上の図ではNameNode が環境内に 1 つしかなく、もし NameNode に障害が発生した場合、Hadoop 環境全体が利用できなくなるおそれがあります。 エコシステム

R (RHIPE) Pig Mahout Hive HBase

コアコンポーネント Map Reduce-計算層 （ジョブスケジューリング/実行） HDFS-ストレージ層 （Hadoop 分散ファイルシステム） JobTracker、

DataNode、TaskTracker DataNode、TaskTracker DataNode、TaskTracker

Hadoop NameNode Ethernet

(8)

EMC Isilon OneFS の概要

OneFS は、従来のストレージアーキテクチャの 3 つの層（ファイルシステム、ボリュームマネージャ、RAID）を 1 つの統合ソフトウェア層に組み合わせたもので、Isilon ストレージクラスタ上で実行される単一のインテリジェントな分散ファイルシステムを形成します。 OneFS はファイルシステム、ボリュームマネージャ、保護機能をインテリジェントな単一の分散システムに統合これは革新的な OneFS の中核であり、エンタープライズ環境でスケールアウト NAS の活用を可能にしています。OneFS はスケールアウトの基本原則（インテリジェントソフトウェア、汎用ハードウェア、分散アーキテクチャ）に基づいています。OneFS は単なるオペレーティングシステムではなく、データをIsilon ストレージクラスタに格納する際に基盤となるファイルシステムでもあります。

Isilon のアーキテクチャ

OneFS は、複数の Isilon ノードに対し専用の機能を提供します。複数のノードで単一のクラスタを構成します。ノードはラックマウント型のアプライアンスで、メモリ、 CPU、1 ギガビットまたは 10 ギガビットのネットワークインターフェイス、NVRAM、低遅延のInfiniband インターコネクト、ディスクコントローラ、ストレージメディアを搭載しています。つまり、クラスタを構成する各ノードは、ストレージ機能に加えてデータ処理機能も備えています。現在のところ、Isilon のクラスタは最小構成の 3 ノードから最大 144 ノードまで拡張できます。ノードにはいくつかのモデルがありますが、いずれも単一のクラスタに組み込むことができます。ノードはモデルによって、容量に対するスループットやIOPS が異なります。 OneFS では、単一のシステムに含むことができるノード数に理論上制限はありません。ノードをクラスタに追加すると、ディスク、キャッシュ、CPU、およびネットワーク容量が総量として増加します。OneFS は、構成するハードウェアを全体として活用するため、各ハードウェアの単純な合計よりも大きな容量を利用できます。RAM は単一のコヒーレントキャッシュにグループ化され、クラスタ上の I/O はどの部分であっても、キャッシュされたデータを（キャッシュされた場所を問わず）利用できます。NVRAM もグループ化され、電源故障時にも高スループットで安全に書き込みできます。スピンドルとCPU が集約化されると、1 つのファイルへのアクセスであっても、複数ファイルへ ファイルシステム ボリュームマネージャ RAID

(9)

のアクセスであっても、クラスタが拡大するにつれて、スループット、容量、IOPS が増加します。クラスタのストレージ容量は、単一のファイルシステム内で最小 18 テラバイト（TB）から最大 15.5 ペタバイト（PB）まで拡張できます。 EMC Isilon のノードは、機能に応じていくつかのモデルに分類されます。 ● S シリーズ: IOPS を重視したアプリケーション ● X シリーズ: 大量の同時処理と高スループットのワークフローを実現 ● NL シリーズ: プライマリストレージ水準のアクセス性能とテープ並みのコストを実現 ● パフォーマンスアクセラレータ: 容量と独立して性能を拡張 ● バックアップアクセラレータ: 高速かつ拡張性に優れたバックアップ/リストアを提供企業環境に設置されるOneFS のコンポーネントこの図は、ソフトウェア、ハードウェア、ネットワーク接続が企業環境内で連携している、完全なアーキテクチャを表しています。複数のサーバで完全に分散された単一のファイルシステムを提供しており、負荷、容量およびスループットに基づくニーズの変化に応じて、柔軟に拡張できるようになっています。

OneFS のオプションモジュール

OneFS には、お客様のニーズに合わせて利用できるアドオンのソフトウェアモジュールが提供されています。各モジュールの名称と概要は、以下のとおりです。 SnapshotIQTM_{- シンプルで拡張性と柔軟性に優れたスナップショットによるローカル} データの保護 SmartConnectTM_{- ポリシーベースのデータアクセス、フェイルオーバと負荷分散によ} る高可用性の実現 SmartQuotasTM_{- クラスタストレージのクォータ管理とシンプロビジョニング} クライアント/アプリケーション層 Isilon ストレージ層 Windows、Linux、UNIX および Apple クライアント NFS、CIFS、 FTP、HTTP 標準的なギガビット Ethernet 層 クラスタ間通信 Infiniband または GigE 層

(10)

SynclQTM_{- 高速かつ柔軟なファイルベースの非同期データレプリケーション} SmartPoolsTM_{- 複数のディスク階層を使用したデータ管理と、ファイルの属性に基づ} く情報ライフサイクル管理（ILM）ポリシーの適用 SmartLockTM_{- 思いがけない削除に対するポリシーベースの保存および保護} InsightIQTM_{- トレンドやホットスポットを特定できる強力でシンプルな分析プラット} フォームで、主要クラスタの統計情報を提供各ソフトウェアモジュールの詳細については、それぞれのデータシートをご覧ください。

Isilon の Hadoop 接続

HDFS の通信はすべて TCP/IP プロトコル上に階層化されるため、Isilon では HDFS 層は OneFS の Over-the-wire プロトコルとして統合されています。この統合により、 Hadoop のコアコンポーネントにおいても、あるいはエコシステムコンポーネントにおいても、Hadoop アーキテクチャを構成するネイティブなパーツとしてスケールアウトNAS プラットフォームを活用できます。その結果、Hadoop ワークフロー全体で、シンプルかつ柔軟性、信頼性、効率性に優れたOneFS を活用できるようになります。

Hadoop（コンピュータ層）に接続した Isilon スケールアウト NAS（ストレージ層）

上の図は、Isilon スケールアウト NAS を Over-the-wire プロトコル（HDFS）経由で Hadoop 計算クラスタに統合したアーキテクチャを示しています。このアーキテクチャでは、Isilon スケールアウト NAS が企業の Hadoop ワークフローにおいて主要な Hadoop 要素となっています。また、Hadoop ワークフローの 2 つのコアコンポーネントを分離できるようになっています（計算層である MapReduce と、ストレージ層である HDFS）。今日、利用可能なネットワーク帯域幅は劇的に増加しており、OneFS は根本的に分散並列処理向けに構築されているため、共有型のスケールアウトストレージモデルを活用して、Hadoop によるデータ分析ワークフローを実現できます。以下の図は、Isilon スケールアウト NAS を活用した、Hadoop のすべてのコアコンポーネントとエコシステムコンポーネントの詳細を示したものです。

R (RHIPE) Pig Mahout Hive _HBase JobTracker TaskTracker

NameNode DataNode

HDFS

(11)

Hadoop 環境で動作する Isilon スケールアウト NAS と Hadoop の全コンポーネント

EMC Isilon OneFS は、単一ファイルシステムと単一のグローバルネームスペースを 15 PB にスケールアウトできます。また、この容量で同時スループットを 85 GB/s まで拡張できます。Hadoop ワークフローの要件に合わせて、OneFS では直線的に容量とパフォーマンスを拡張できます。詳細については、specsfs2008 のベンチマーキングの結果をご覧ください（www.spec.org）。

以降のセクションでは、Hadoop ワークフローで EMC Isilon スケールアウト NAS を活用する利点について、詳しく紹介します。

シンプル

EMC Isilon の OneFS では、ディスクプールのラック管理、ファイルシステムのプロビジョニング、最適なデータ保護メカニズムの適用に必要な複雑な作業が完全に不要となります。データはいつでもアクセス可能であり、さまざまな障害に対して保護されています。Hadoop を簡単に利用できるため、自社のデータを余すところなく活用し、ビジネスを推進する洞察を得ることに集中できます。Hadoop をフル活用し、Hadoop エコシステムのストレージインフラの管理に時間を浪費することなく、主要な傾向を明らかにすることで、ビジネスに役立つ新たな機会を見極めることができます。 Isilon ストレージの拡張は、通常 60 秒未満で完了します。既存のクラスタへのノードの追加は、ラックへの設置後、電源投入時にボタンを押すだけなので簡単です。この「クラスタへの結合」プロセスにより、追加された容量はすぐに利用可能になり、新たなノードにも適切なバージョンのOneFS と設定が適用されます。すぐに利用可能となる追加容量に加え、バックグラウンドジョブの実行により、作業負荷がIsilon クラスタ全体に均等に再配分されるため、データのホットスポット発生を回避できます。このような容量拡張はすべて、スケールアウトストレージがオンラインのままで行われ、ネットワークに影響を及ぼさずにMapReduce ジョブが実行されます。HDFS プロトコルに加え、OneFS では以下のプロトコルもサポートされています。 ● NFS ● CIFS/SMB R (RHIPE) Pig Hive HBase Mahout JobTracker TaskTracker OneFS ネットワーク 複数の 10 G インターフェイス NameNode DataNode MapReduce-演算層 (ジョブスケジューリング/実行) HDFS-ストレージ層

(12)

● FTP ● HTTP ● iSCSI ● REST Isilon HDFS の実装は、OneFS と HDFS クライアント間の軽量化プロトコル層です。標準の POSIX で格納されたファイルは Isilon クラスタのファイルシステムと互換性を保っているため、上記のプロトコルを使用してHadoop ワークフローで使うデータを簡単に取得したり、Hadoop から得られた重要な洞察をデータ分析ワークフローの他のコンポーネントにエクスポートできます。EMC Isilon スケールアウト NAS に格納済みのデータであれば、OneFS で Hadoop 計算ファームを指定するだけです。Hadoop ワークフローに対して、時間やリソースを浪費する負荷配分作業を行う必要はありません。OneFS により、Hadoop 環境の HDFS 層を検証済みのファイルシステムとして使用できます。

Isilon スケールアウト NAS により Hadoop ワークフローがシンプルになります

効率性

OneFS は、Isilon クラスタの容量利用率が 80% 以上になるように設計されており、 Hadoop データ分析ワークフローにおける効率性を高めます。ファイルシステムに存在する各ブロックに 3 面のミラーリングを使用する従来の Hadoop アーキテクチャに比べて容量利用率に優れ、ROI や TCO を最適化します。たとえば、12 PB の Hadoop データを格納したい場合、データの格納にデフォルトの 3 面ミラーリングを使用する従来の Hadoop クラスタでは、36 PB 以上の物理容量が必要になります。しかし、同じ Hadoop データ 12 PB をデータ保護をしたうえで OneFS に格納した場合、約 16PB の物理容量で済みます。結果として、設備投資コストが大幅に削減され、管理対象のインフラストラクチャもシンプルになります。 単一のネームスペース、単一のボリューム 仮想化

(13)

Isilon による設備投資コストの削減には、運用が容易で管理が簡単になるだけではなく、環境面での利点もあります。Isilon のノードは容量が高密度になるため、従来型ではストレージの直接接続でたとえば36 PB となる Hadoop クラスタの稼働に必要な電力は、Isilon クラスタでは 16 PB の電力需要で賄えます。必要なラックスペースも同様に少なくなります。Isilon クラスタでは、このような追加のコスト削減効果もあります。

Isilon スケールアウト NAS を Hadoop 環境の共有ストレージ層として使用すると、 Hadoop 計算ファームを集約して最小化できるという利点もあります。ストレージに関連する HDFS のすべてのオーバヘッドを Isilon にオフロードすることによって、 Hadoop 計算ファームはローカルストレージを管理、保護しながらデータ分析を実行する代わりに、分析ジョブをより効率的に実行できます。Hadoop 計算ファームにおけるこれらのHDFS 関連の全タスクの実行を軽減することによって、OneFS では既存のHadoop コンピュータインフラストラクチャを活用してデータ分析ワークフローのその他のタスクを実行し、Hadoop 計算ファームの設置面積を削減できます。Hadoop で得られた主要な洞察をデータ分析ワークフローの他の部分に提供し、共有ストレージを他の標準プロトコルからアクセス可能にすることで、データ分析ワークフロー全体が強化されます。このようなストレージの集約化によって、データ分析ワークフロー全体が合理化され、設備投資や運用コストが大幅に削減されます。

柔軟性

直接接続されたストレージを使用する従来のHadoop クラスタでは計算層とストレージ層が緊密に結合しており、一方だけを拡張することはできません。そのため、計算能力が十分であってもストレージ容量が不足した場合、Hadoop クラスタ全体を拡張する必要があります。拡張に伴い、計算インフラストラクチャとともにネットワークインフラストラクチャも追加することになります。全体の利用率という点で効率性や柔軟性で不利な方法です。 Hadoop の計算層とストレージ層を切り離すことによって、必要に応じて柔軟にストレージや計算能力を個別に拡張できます。成長に合わせて投資するというこのような柔軟なアーキテクチャによって、必要なときに必要なもののみを購入できるため、 Hadoop の複合的な環境をより効率的に活用できます。その結果、OneFS で小規模の導入から開始し、Hadoop ストレージ層の同時スループットを必要に応じて最大 85 GB/s までスケールアウトできます。

Hadoop のストレージのニーズに対して OneFS を使用することの主な利点は、Apache Hadoop に準拠しているということです。Hadoop データ分析ワークフローで使用する Hadoop ディストリビューションを柔軟に選択できます。EMC Isilon スケールアウト NAS は、以下の Hadoop ディストリビューションでテスト済みです。

● Apache Hadoop 0.20.203 ● Apache Hadoop 0.20.205 ● EMC Greenplum HD 1.1

(14)

信頼性

Hadoop 分析に対する投資効果を最大限に高めるため、企業は復元力の高いビッグデータストレージインフラストラクチャを必要としています。Isilon スケールアウト NAS および OneFS オペレーティングシステムは、データ資産を保護し、可用性の高いデータ環境を実現するために、信頼性の高いインフラストラクチャと強力なデータ保護を提供します。従来の Hadoop クラスタでは、ハードウェア層でデータを保護するために HDFS 層でのミラーリング技術とともにカスタムのサブブロック CRC チェックサムを使用しており、冗長データが発生していました。その結果、規模が拡大するにつれてコストがかさんでいきます。 Isilon のデータ保護は OneFS のファイルシステムレベルで実装され、ハードウェアの RAID コントローラには依存していません。この方法であれば、市場の状況やハードウェアの性能進化に合わせて新しいデータ保護スキームを追加できるという利点があります。保護がファイルレベルで適用されるため、新しい保護機能やパフォーマンススキームを利用するにあたって、OneFS ソフトウェアだけをアップグレードすれば対応できます。 OneFS はパリティの保護計算に、広く実証済みであるリードソロモン符号アルゴリズムを使用しています。ファイルレベルで適用される保護により、データの復元は迅速で効率的に実行されます。I ノード、ディレクトリ、およびその他のメタデータは、参照するデータブロックと同じ、または上位のレベルで保護されます。すべてのデータ、メタデータおよび前方誤り訂正（FEC）ブロックが複数のノードにストライプされるため、専用のパリティドライブは必要ありません。この 2 つの方法により単一障害点およびボトルネックを回避し、ファイルの再構築を高度に並列化されたプロセスで実行可能にします。現在のところ、OneFS では最大 4 つのコンポーネントの同時障害に対する保護を提供しており、N+1 から N+4 のパリティ保護レベルを使用できます。単一のノード障害による影響は個別のディスクに起こる障害と同レベルに、またノード全体でスペクトルのもう一端における障害のように最小限に抑制されます。 OneFS は複数のハイブリッド保護スキームもサポートしています。これには N+2:1 と N+3:1 も含まれ、それぞれ 2 ドライブの障害または 1 ノードの障害、3 ドライブの障害または1 ノードの障害からデータを保護します。これらの保護スキームは、各ノードに数テラバイトレベルの SATA ドライブが最大 36 台搭載されるような、高密度のノード構成では特に有用です。この場合、複数ドライブに障害が発生する可能性はノード全体に障害が発生する可能性をはるかに上回ります。ファイルが「保護レベルを超える」など、複数のデバイスで同時に障害が発生するという起こりそうにない状況でも、OneFS は可能な限りすべてを再保護し、Isilon のクラスタのログに個々のファイルに関するエラーを報告します。

(15)

OneFS のハイブリッドパリティ保護スキーム（N+M:x）ファイルシステムジャーナルすべてのIsilon ノードにはデュアルバッテリバックアップ型の 512 MB NVRAM カードが搭載され、ノードのファイルシステムジャーナルを保護します。各ジャーナルはOneFS によって安定したストレージとして使用され、突然の停電やその他の突発的な出来事から書き込みトランザクションを保護します。ジャーナルはファイルシステムの一貫性を保護し、充電は最大3 日間持続します。Isilon クラスタの各メンバーノードは NVRAM コントローラを備えているため、OneFS ファイルシステム全体が完全にジャーナル化されます。ノード/デバイス障害に対するプロアクティブな対応

OneFS、または SmartFail によって検出された ECC エラーが特定のしきい値に達したドライブは事前予防的に取り除かれ、そのドライブのデータは自動的に再構築されてクラスタの別の場所に配置されます。SmartFail とその後の修復プロセスはいずれも完全に自動化されており、管理者が介入する必要はありません。OneFS はデータをファイルレベルで保護するため、不整合やデータ損失は使用できないデバイス、障害のあるデバイスに分離され、残りのファイルシステムが損なわれることなく利用可能です。 OneFS は高度に分散化されたアーキテクチャ上に構築されており、複数のノードの CPU、メモリ、スピンドルを活用して、高度に並列化された効率的な方法で障害の発生したドライブからデータを再構築できます。Isilon のストレージシステムは特定のドライブの速度に影響されず、OneFS はドライブの障害から非常にすばやくリカバリが可能で、この効率性はクラスタサイズに比例して向上します。そのため、Isilon クラスタ内の故障したドライブは、数時間から数日を要するハードウェアRAID ベースのストレージデバイスの再構築に比べてきわめて迅速に、数分から数時間程度で再構築されます。さらに、OneFS には専用の「ホットスペア」ドライブは必要ありません。ノード1 ノード2 ノード3 ノード4 ノード5 パリティ パリティ パリティ パリティ パリティ パリティ パリティ パリティ パリティ データストライプ データストライプ データストライプ データストライプ

(16)

Isilon のデータ整合性

ISI Data Integrity（IDI）は、32 ビットの CRC チェックサムを介してファイルシステム構造を破損から保護するOneFS プロセスです。ファイルおよびメタデータの両方について、すべてのIsilon ブロックでチェックサム検証が使用されています。メタデータチェックサムは、メタデータブロック自体に含まれており、ファイルデータチェックサムはメタデータとして保存され、参照整合性が維持されます。すべてのチェックサムはイニシエータによって再計算され、ノードはすべての要求時に特定の読み取りを実行します。再計算されたチェックサムが保存されたチェックサムと一致しない場合、 OneFS はシステムアラートを生成し、イベントをログに記録、対応するパリティブロックを取得してクライアントに返し、疑わしいデータブロックを自動的に修復しようとします。プロトコルのチェックサム

ブロックとメタデータに加えて、OneFS はRemote Block Management（RBM）プロトコルデータに対してもチェックサム検証を提供します。RBM はバックエンドクラスタの相互接続用にIsilon が開発した、RPC ベースのユニキャストプロトコルです。RBM プロトコルのチェックサムは、Infiniband ハードウェアチェックサムに加えてネットワーク層で提供され、故障したハードウェアコンポーネントや他の障害の発生状態を示すハードウェアコンポーネントの検出、および分離に使用されます。ダイナミックセクタ修復 OneFS は、不良ディスクセクタを回避し、ファイルシステムによって良好データが再書き込み先にリダイレクトされる、DSR（ダイナミックセクタ修復）機能を備えています。OneFS が正常動作中にブロックの読み取りに失敗すると、DSR が起動します。 DSR は消失データを再構築し、そのドライブ上の別の場所またはノード内の別のドライブにデータを書き込みます。この操作により、ブロックの後続の読み取りが失敗するのを避けることができます。DSR は完全に自動化されており、エンドユーザに対して完全に透過です。ディスクセクタのエラーおよびCRC の不一致では、ドライブの再構築プロセスとほぼ同じプロセスが使用されます。 Mediascan OneFS における MediaScan の役割は、ディスクのセクタをチェックすることと、セクタ ECC エラーの発生時にディスクドライブがエラーを修復するように DSR メカニズムを起動することです。MediaScan は OneFS の一部として実装され、事前に設定したスケジュールに基づいて自動的に実行されます。影響が少ないバックグラウンドプロセスとして設計されているため、MediaScan は完全に分散され、Isilon 独自の並列アーキテクチャの利点をフル活用できます。 IntegrityScan ファイルシステム全体の不整合を調べるIntegrityScan も OneFS のコンポーネントです。各ブロックを系統的に読み取り、関連付けられているチェックサムを検証します。従来の「fsck」形式のファイルシステム整合性チェックツールとは異なり、IntegrityScan はクラスタを完全に実行したままで動作するように設計されており、ダウンタイムは発生しません。IntegrityScan によってチェックサムの不一致が検出された場合、システムアラートが生成され、syslog に書き込まれます。OneFS はエラーの疑いのあるブ

(17)

ロックの修復を自動的に試行します。

データの高可用性

直接接続されたストレージを使用する従来のHadoop クラスタで、あらゆるファイルシステムの名前空間を操作するのは単一のNameNode だけです。Isilon ストレージでは、すべてのIsilon ノードが NameNode 要求または DataNode 要求に応答できます。 Hadoop 計算クライアントがファイルの要求を Isilon に送信するたびに、その要求は別の Isilon ノードのアドレスに送信されます。Hadoop 環境ではクラスタ内のすべての Isilon ノードが NameNode および DataNode になります。これにより、複数の Hadoop 計算ノードで実行される複数の mapper タスクや reducer タスクから複数の Isilon ノードに I/O の負荷分散が実行されます。OneFS はこのように、従来の Hadoop クラスタに存在する単一障害点を解消し、負荷分散を可能にします。

Isilon SmartConnect モジュールは、Hadoop 計算クライアントに対してダイナミックなフェイルオーバとフェイルバックをサポートすることにより、データの高可用性を実現します。ノードに障害が発生した場合、MapReduce ジョブに関連する進行中の読み取りや書き込みはすべてIsilon クラスタの別ノードに渡され、MapReduce ジョブまたはタスクは中断することなく処理を完了します。この処理は、SmartConnect Zone 名を Hadoop core-site.xml 設定ファイルの設定パラメータ、および Isilon クラスタのダイナミックIP アドレスとして使用することによって可能になります。SmartConnect Zone 設定の詳細については、Isilon のユーザガイドを参照してください。この機能は、 HDFS ストレージ層を提供する Isilon OneFS で Hadoop MapReduce ジョブを実行している際に障害が発生しても、継続的なデータの可用性と負荷分散を提供します。

ビジネスの継続性

OneFS には、企業環境におけるビジネスの継続性を確保するために欠かせない、信頼性の高いデータバックアップソリューションを提供する、堅牢なメカニズムが備わっています。Isilon の SnapshotIQ は、OneFS 内のすべてのディレクトリやサブディレクトリの読み取り専用のポイントインタイムコピーを取得します。このコピーは高速なローカルバックアップとして機能します。OneFS スナップショットは拡張性が高く、作成にかかる時間は通常1 秒未満です。ファイルシステムの活動レベル、サイズ、コピーされるディレクトリのサイズにかかわらず、パフォーマンスのオーバヘッドはほとんどありません。またファイルの変更されたブロックは、スナップショットのアップデート時に保存されるため、スナップショットストレージが高い効率性で利用できます。ユーザは各ファイルシステムのディレクトリ下にある非表示のディレクトリ /.snapshot を経由して、使用可能なスナップショットにアクセスできます。Isilon SnapshotIQ は、クラスタ上に無制限のスナップショットを作成することもできます。スナップショットの間隔を細分化してRPO 時間枠を向上できるため、他の大多数のスナップショット実装に比べて、非常に大きな利点があります。

(18)

SnapshotIQ を使用したユーザ主導のファイルリカバリ SnapshotIQ には、失われたファイルや破損したファイルをユーザ自身がリカバリできる利点に加えて、ファイルシステムへの影響を最小限に抑えつつバックアップする方法も備わっています。スナップショットからのバックアップを起動するにはいくつかの利点があります。最も大きな利点は、読み取り専用スナップショットから直接バックアップを実行するため、ファイルシステムを停止する必要がないということです。その結果、開いているファイルのロックの競合という問題が回避され、ユーザはバックアップジョブの実行中にもデータにフルアクセスできます。 SnapshotIQ はクラスタ上のスナップショットの最新バージョンをポイントするエイリアスも自動で作成します。バックアップが常にそのエイリアスを参照するようにすれば、バックアッププロセスが容易になります。定義上、スナップショットはポイントインタイムコピーであるため、スナップショットからのバックアップにより、ファイルシステムまたはサブディレクトリの一貫性が維持されます。このプロセスは、NDMP バックアップジョブの一部としてスナップショットを作成する NDMP スナップショット機能を使用し、バックアップの完了後にそのスナップショットを削除することで、さらに合理化できます。OneFS では、広く普及した NDMP （ネットワークデータ管理プロトコル）のサポートにより、バックアップおよびリストア機能を利用できます。NDMP は主要なデータバックアップ製品との互換性を提供する、オープンな標準プロトコルです。Isilon は NDMP のバージョン 3、および 4 の両方をサポートしています。OneFS NDMP モジュールには、以下の機能があります。 ● NDMP を使用した完全/増分バックアップおよびリストア ● ダイレクトアクセスリストア（DAR/DDAR）、単一ファイルリストア、3 方向バックアップ ● 任意のシステムへのリストア ● ACL（アクセス制御リスト）へのシームレスな統合、代替データストリームおよびエンドユーザファイルの削除ファイルのリストア

(19)

リソースフォーク ● 選択的なファイルリカバリ ● レプリケーション後のバックアップスナップショットと NDMP はローカルな障害に対する理想的なソリューションですが、致命的な障害や自然災害などへの備えは、第二の選択肢として地理的に離れている場所にデータセットをコピーするほうがより適切です。Isilon SyncIQ モジュールは、広範な RPO（目標復旧地点）および RTO（目標復旧時間）を解決する、高パフォーマンスの非同期レプリケーションを提供します。これにより、インフラストラクチャのコストと、災害発生時のデータ損失の可能性との最適なトレードオフを決定できます。SyncIQ は複製されたファイルシステムにハードリミットを設けないため、データの増加に伴って線形的に、マルチペタバイトの範囲で拡張できます。

SyncIQ を使用した、ローカルまたは地理的に離れた Isilon OneFS クラスタへの Hadoop データのレプリケーション

SyncIQ は、短距離または長距離のレプリケーション用に、LAN または WAN のどちらの接続でも容易に最適化されるため、サイト固有の、または地域的な災害の両方からデータを保護できます。さらに SyncIQ は、クラスタストレージのパフォーマンスと効率性を活用するように設計された、高度に並列化されたポリシーベースのレプリケーションアーキテクチャを採用しています。そのため、総スループットは容量に比例して増加され、拡張データセット全体で RPO が一貫して保持されます。従来の Hadoop ストレージ実装における課題は、HDFS ストレージ層の一部として EMC Isilon を導入することで解決できます。以下に要点を示します。

従来のHadoop ストレージ実装 EMC Isilon ストレージ実装

専用のストレージインフラストラクチャ - Hadoop での利用に限定されるスケールアウトストレージ - 複数のアプリケーションとワークフローに接続 SynclQ によるパラレルレプリケーション プライマリクラスタ DR クラスタ

(20)

単一障害点 - NameNode が単一障害点になる単一障害点なし - 分散した NameNode エンタープライズレベルのデータ保護なし - スナップショット、レプリケーション、バックアップがないエンドツーエンドのデータ保護 - SnapshotIQ、 SyncIQ、 NDMP バックアップ非効率なストレージ利用 - 3 面ミラーでデータ保護業界随一のストレージの利用効率 - 使用率 80%以上拡張性がない - ストレージと計算リソースを切り離せない柔軟な拡張性 - 計算リソースとストレージを別々に拡張手動でのインポート/エクスポート - プロトコルのサポートなしマルチプロトコル - 業界標準プロトコル - NFS、CIFS、FTP、HTTP、HDFS

(21)

まとめ

Hadoop は、企業のビッグデータから貴重な洞察を得るために必要な時間やリソースを劇的に削減する、革新的な分析エンジンです。このホワイトペーパーで詳述したように、EMC Isilon スケールアウト NAS および Isilon OneFS オペレーティングシステムは、Over-the-wire プロトコルとして HDFS 層を利用することで、大きな利点をもたらします。この統合により、Hadoop のコアコンポーネントにおいても、エコシステムコンポーネントにおいても、スケールアウトNAS プラットフォームを Hadoop アーキテクチャのネイティブな構成要素として活用できるようになります。また、Hadoop ワークフロー全体でシンプルさ、柔軟性、信頼性、効率性に優れたOneFS を活用できます。HDFS を統合することで業界標準の Apache Hadoop ディストリビューションと Isilon を組み合わせたビッグデータ分析ソリューションを容易に展開し、強力で効率性と柔軟性に優れたビッグデータストレージと分析環境を構築できます。このアプローチにより、直接接続されたストレージを使用し、リソースを大量に消費する複雑な従来のHadoop 導入上の課題が解消されます。Isilon スケールアウト NAS は進化するビッグデータ分析ワークフローの要件を満たすためのシンプルさを保ちつつ、 Hadoop 環境のデータ保護を強化し、信頼性を高める、復元力の高いストレージインフラストラクチャを提供します。

Isilon について

Isilon は EMC の一部門で、スケールアウト NAS のグローバルリーダーです。ストレージではなくデータの管理を望む企業にパワフルでシンプルなソリューションを提供しています。Isilon の製品は規模にかかわらず導入、管理、拡張が容易です。従来のエンタープライズストレージとは異なり、Isilon は将来的にストレージが増えたり、よりパフォーマンスが必要になったり、ビジネスニーズが変化してもシンプルなまま運用できます。Isilon は企業のストレージに対する考え方を変革しようとしています。考え方を変えることによって、お客様はより優れた、より簡単な方法を見つけることができるようになります。詳細についてはwww.isilon.co.jp をご覧ください。

Microsoft Word - EMC Isilon HDFSサポート ホワイトペーパー2012Feb.doc