• 検索結果がありません。

ラボ検証レポートエグゼクティブサマリー ビッグデータワークフローにおける EMC Isilon の主要機能を IDC が検証 1. マルチプロトコル機能 2. 可用性 3. セキュリティとコンプライアンス. 運用の合理化 共有 モバイル 分析 表面化 アーカイブ バッチ クラウド アクション IDC

N/A
N/A
Protected

Academic year: 2021

シェア "ラボ検証レポートエグゼクティブサマリー ビッグデータワークフローにおける EMC Isilon の主要機能を IDC が検証 1. マルチプロトコル機能 2. 可用性 3. セキュリティとコンプライアンス. 運用の合理化 共有 モバイル 分析 表面化 アーカイブ バッチ クラウド アクション IDC"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

EMC Isilon による支援

|

2016 年 3 月

ウト

データ レイク基盤

ビッグデータ

インフラストラクチャ構築の基本機能

(2)

ビッグデータ

ワークフローにおける EMC Isilon

の主要機能を

IDC が検証

1. マルチ プロトコル機能

2. 可用性

3. セキュリティとコンプライアンス

4. 運用の合理化

IDC の見解

EMC Isilon は実に操作しやすく、 拡張性と効率性に優れた EDLP (エンタープライズ データ レイク プラット

フォーム) であるとIDC は考えています *。 IDC によって、 データ レイクをベースにした共有ストレージ モデ

ルはエンタープライズ クラスのサービス レベルを実際に提供できるだけでなく、 Hadoop ワークロード専用の COTS (商用オフ ザ シェルフ) ストレージよりもパフォーマンスに優れていることが実証されました。

* EMC Isilon スケールアウト データ レイクは OneFS 分散ファイル システムをベースとする EDLP (エンタープライズ データ レイク プ ラットフォーム) です。

エグゼクティブ

サマリー

共有 アーカイブ モバイル クラウド アクション 表面化 分析 バッチ

(3)

機能と検証の概略

EMC Isilon スケールアウト データ レイクは、マルチ プロトコルのデータ取得に理想的なプラットフォー ムです。 これは、 データを生成するワークロードに最も近いプロトコルを使用して、 データ レイクに 高速かつ確実にデータを取り込むことが要求されるビッグデータ環境に欠くことのできない機能です。 OneFS では、 NFSv3、 NFSv4、 SMB2.0、 SMB3.0、 HDFS を使用したデータの取得が可能です。 これにより、 プラットフォームが複雑なビッグデータのワークフローに非常に適したものになります。

検証プロセス

この検証のため、 EMC Isilon スケールアウト データ レイクは、 NFSv3、 SMB3.0、 HDFS を使用して、

Hadoop クラスターからアクセスする構成をとりました。 HDFS と NFS アクセスは、 Hadoop DAS クラスター のマスター ノードを使用して設定しました。 大容量ファイル (Wikipedia wiki データ、 10GB) のダウンロー ドがシミュレートされました。 ファイルは圧縮したままの状態です。 ファイルにはHDFS を介して継続的にア クセスして分析し、 NFS を介して EMC Isilon スケールアウト データ レイクにコピーしました。 SMB3.0 を介 したアクセスも行い、 HDFS と NFS を介してそれぞれ読み取りと書き込みを行いました。

注 :

• Isilon OneFS は DNS ゾーン委任を使用し、 次に DNS ラウンド ロビンを使用して受信接続のバランシングを 行います。 • HDFS はこのような機能を備えていないため、 データ ノードが停止した場合にジョブが失敗します。 障害として マークされたノードは、HDFS コールでバイパスされます。

検証 :

NFS、 SMB、

HDFS で同時データ取得

IDC は、 OneFS プラットフォー

ムの堅牢なマルチプロトコル

データ取得機能を検証しまし

た。 検証には、 プロトコル間で

ユーザーのアクセス権限を保持

するプラットフォームの機能も含

まれます。

4

(4)

IDC の推論

EMC Isilon スケールアウト データ レイクを使用すると、 ビジネスのワークフローを簡単に構築できるように なります。 その理由は次のとおりです。 • (特定のアプリケーション レベルの変更を必要とする Hadoop メカニズムではなく) 現在既知のファイル プ ロトコル メカニズムを使用できる。 • パフォーマンス最適化機能により、 一元的なストレージ リポジトリを使用した、 エンタープライズ規模のデー タ ストレージ / 分析に理想のプラットフォームとなる。 • ネイティブ プロトコルを使用することで、インプレース分析が可能になり (移行が不要)、データ ワークフロー が迅速化され、 インサイトを得るまでの時間が短縮される。

堅牢なマルチ

プロトコルのデータ取得機能

で、

EMC Isilon スケールアウト データ レイク

プラットフォームに構築されたデータ

レイクへ

のビッグデータ

ワークフローの構築が簡単に

プロ

トコルのデータ取得機能

機能

なぜそれが重要なのか

NFS (v3、 v4)、

SMB (2.0、 3.0)、 HDFS

ローカルやディレクトリ ベースの各種ユーザーによるマルチ

プロトコルの同時読み取り

/ 書き込みアクセスにより、 ビッグ

データ ワークフローの同時処理が可能になる

(5)

注 :

• EMC Isilon スケールアウト データ レイクは SSD ベースのキャッシュによる構成で、Hadoop DAS クラスター

は10k RPM SAS ドライブによる構成です。

• IDC は内部 SSD を使用することで、 Hadoop DAS クラスターのパフォーマンスが著しく向上する可能性が

機能と検証の概略

EMC Isilon スケールアウト データ レイクは、 Hadoop クラスターがローカル (内部) ストレージを介して HDFS にアクセスするのではなく、 OneFS を介して HDFS にアクセスするため、 優れた読み取り / 書き込 みパフォーマンスを提供します。

検証プロセス

この検証のため、 次の3 種類のベンチマーキング テストを行いました : TeraGen、 TeraSort、 TeraValidate。

TeraGen は、 シーケンシャル ライト パフォーマンスを測定します。 TeraSort は読み取り / 書き込み混合の

テストに優れたベンチマークを提供します。TeraValidate は読み取りパフォーマンスのベンチマークを提供

します。 各スクリプトの結果は、 前掲の表のとおりです。 Hadoop データ レイク クラスターは HDFS を使

用してAPI 経由で EMC Isilon スケールアウト データ レイクにアクセスし、 Hadoop DAS クラスターは

HDFS にローカルにアクセスしました。 両方の Hadoop クラスターの 「Tera」 ジョブに渡されるパラメーター として、 それぞれ同じ値が使用されました。 この構成で、EMC Isilon スケールアウト データ レイクは書き 込みが約3 倍、 読み取り / 書き込みおよび読み取りは 1.5 倍以上高速です。 同様に、 ネットワーク アク セスでありながら、 10GbE リンクは読み取りと書き込みにおいて帯域幅 (MB/ 秒) の大幅な改善が見ら れます。

検証 : データ

レイクの

HDFS パフォーマンス

IDC は、 Hadoop ディストリビューションで提供される一般的な Hadoop ベンチマーク ジョ

ブを使用した

DAS/EDLP のパフォーマンス プロファイルを検証しました。

合計 (秒) MB/ 秒 合計 (秒) MB/ 秒 合計 (秒) MB/ 秒 594.652 1,681.66 1558.159 641.78 353.112 2,831.96 1652.761 605.05 2405.953 415.64 547.05 1,827.99

TeraGen

TeraSort

TeraValidate

Hadoop データ レイク クラスター Hadoop DAS クラスター

(6)

注 :

• Hadoop DAS クラスターの 1 台のデータ ノードに NFS ゲートウェイをインストールし、 マスター ノードにマウントし ました。Hadoop のネイティブの NFS 機能は、 システムの NFS デーモンではなく、 Java ベースのユーザー プロセ スにより提供されます。 • Isilon の NFS 読み取りパフォーマンスは読み取りヒット (フラッシュ ベースの L3 キャッシュ) のため大きく向上する のに対し、 Java の NFS 実装ではキャッシュ機能が制限されます。

機能と検証の概略

OneFS の SmartFlash L3 キャッシュ機能は、 EMC Isilon スケールアウト データ レイクにおけるマルチ

プロトコルのデータ取得プロセスでプロトコルのパフォーマンス (読み取り/ 書き込みパフォーマンス) を維 持するのに役立ちます。 データの取得時に分析ワークロードを休止することも、 取得/ 分析プロセスをシリ アライズすることもできないビッグデータ環境において、 これは重要な機能です。 また、 絶えず更新されて いるファイルに分析ワークロードが実行される環境では、 読み取り/ 書き込みパフォーマンスが重要です。

検証プロセス

この検証のため、 UNIX の 「dd」 コマンドを使用してブロックのセットをファイルに書き込み、 続いてこれらの ブロックを読み取りました。 (このテストでは、UNIX の 「dd」 コマンドを使用して、 10 GB 相当のゼロを含む ファイルの書き込み/ 読み取りをシーケンシャルに行いました。) これらのテストを、 EMC Isilon スケールアウ ト データ レイクと Hadoop DAS クラスターから NFS マウントされたファイル システムに対して実行しました。 テストの結果は、上にまとめたとおりです。EMC Isilon スケールアウト データ レイクでは書き込みパフォーマン スが4.2 倍、 読み取りパフォーマンスが 37 倍高速です。

検証 : マルチ

プロトコルの

データ取得時の

NFS パ

フォーマンス

IDC は、 ネイティブ NFS

デーモンや

L3 キャッシュ

など、

OneFS プラットフォー

ムの最適化により、

EDLP

NFS パフォーマンスが

Hadoop DAS クラスターよ

りも大幅に高速になるこ

とを検証しました。

Hadoop NFS の読み取り / 書き込みパフォーマンス

Hadoop データ レイク クラスター Hadoop DAS クラスター NFS 書き込み 合計 (秒) MB/ 秒 34.4362 290.39 145.816 68.58 NFS 読み込み 合計 (秒) MB/ 秒 10.3208 968.92 381.847 26.19

(7)

IDC の推論

EMC Isilon スケールアウト データ レイクのキャッシュと SSD ベースの階層化機能は、 プロファイルが

混在する共有Hadoop 環境に最適なパフォーマンスのプラットフォームとなります。 また、 最適な容量

のストレージがもたらす経済性により、 後処理したデータを別階層にアーカイブする必要がなくなります。 Hadoop のコンカレント データ ストリームを処理できる EMC Isilon スケールアウト データ レイクは、

仮想化Hadoop ワークロードに適しています。

エンタープライズ

データ レイク プラットフォー

ムでは標準の

DAS 構成よりも Hadoop ワー

クロード

パフォーマンスが大幅に向上

主なテスト結果 : マルチ

プロトコルのワークロード

パフォーマンス

機能

なぜそれが重要なのか

共有データ レイク プラット

フォームの

HDFS 読み取り /

書き込みパフォーマンス

マルチ プロトコルのデータ取

得時の

NFS パフォーマンス

共有データ レイクに接続された Hadoop クラスターの優れた

パフォーマンスは、

Map/Reduce オペレーションを著しく向

上させ、 ビッグデータのワークフローの効率化につながる。

エンタープライズ環境のタスクを迅速化でき、後続のオペレー

ションまでのレーテンシーを最小に抑えることができる

SmartFlash L3 キャッシュによりマルチ プロトコルのデータ

取得時の読み取り

/ 書き込み性能が増すことで、 パフォー

マンスが向上

(8)

機能と検証の概略

EMC Isilon スケールアウト データ レイクは、 クラスターからのデータの供給を妨げることなく、 1 つ以上の 同時コンポーネント障害に耐えるように設計されています。 分散RAID (リード ソロモン エンコーディング、 必要に応じてミラーリング) 機能があります。 ディスク障害などのコンポーネント障害が発生すると、 OneFS はボリューム全体でなく、 障害の影響を受けるファイル データのみを復元します。 さらに、 メタデー タとinode も、 クラスターのすべてのノードに分散されながら、 ノード レベルのミラーリングによって保護さ れるため、 ディスク レベルの障害によってパフォーマンスが低下することはほとんどありません。

Isilon OneFS の高可

用性 (ディスク

レベル障害

からのリカバリ)

IDC は、 シングルノードのディスク障害がクラスターに目立つ影響を与えないことを検証し

ました。 さらに、 ドライブの交換操作がシームレスに行え、 管理オーバーヘッドがほとんど

なく、 エンタープライズ

ディスク ストレージ システムと違いはありません。 これは、 ディス

クの交換プロセスに手間と時間がかかる

DAS と対照的です。

(9)

検証プロセス

この検証のため、 EMC Isilon スケールアウト データ レイクで 「smartfail」 ユーティリティを使用してディス

ク障害をシミュレートしました。 「smartfail」 プロセスは、 「障害」 ドライブのすべてのデータがクラスターの

別のドライブに安全に移行されるまで実行されます。 「smartfail」 の実行が完了すると、 ドライブのステー

タスが 「REPLACE」 に変わり、 ドライブを安全に取り外すことができます。 これは、 ドライブの故障、 また

はドライブを物理的に置き換える状況と似ていますが、 これらの場合、 システムは自動的にチェックを行い、

クラスターの同じノードにある別のスペア ディスクにブロックをレプリケートしてバランスをとります。 同様に、

Hadoop DAS クラスターのディスク障害も標準の UNIX コマンドを使用してシミュレートしました (いずれか

のワーカー ノードでこのドライブのファイル システム構成を強制的にアンマウントする操作を含みます)。 Isilon OneFS では、 データ冗長性をファイル / ファイル タイプ レベル、 ディレクトリ レベル、 またはディス ク プール レベルで設定できます (デフォルトは +2.1 で、 2 つのドライブまたは 1 台のノードの障害が許 容されます)。 管理者によりクラスターの保護レベル (データの損失に至るまでに許容されるディスク/ ノー ドの同時障害発生数) が指定されます。 OneFS はこの設定に対し、 適宜データをストライピングして対応 します。 ハードウェア障害が発生するか、 管理者が保護レベルを変更したときは、 FlexProtect ジョブが必 要に応じてストライプを再構築します。 (FlexProtect ジョブの優先度も必要に応じて変更できます。) 低い 保護レベルを選択すると使用できる容量が増えますが、 同時にデータ損失のリスクも増します。

検証 :

Isilon OneFS の高可

用性 (ディスク

レベル障害か

らのリカバリ)

前のページからの続き

4

(10)

機能と検証の概略

Isilon OneFS のデータ保護は、 ノード内のコンポーネント障害 (ディスク障害など) だけでなく、 ノー ド レベルの障害にも対応しています。 デフォルトで、 OneFS はパフォーマンスを損なうことなく、 単 一のノード障害から回復できます。 また、 パラメーターの構成により、 ノード障害に対するデータ レ イクの耐障害性を高めることができます。

Isilon OneFS レイクの

高可用性 (ノード

レベル障害

からのリカバリ)

IDC は、 シングルノードの障害がクラスターに目立つ影響を与えないことを検証しました。

また、 クラスターからのノードの削除と再び追加する操作がシームレスに行えます。 この場

合も、

Hadoop DAS クラスターのノードの削除と追加プロセスの方が、 データ レイクよりも

はるかに煩雑な作業となりました。

(11)

検証プロセス

この検証のため、 EMC Isilon スケールアウト データ レイクの正常なノードのうち 1 台の電源をオフにして、 ノード障害をシミュレートしました。 ノードをシャットダウンすると、 そのノードで構成されたIP アドレスが別 のノードにフェイルオーバーされることが確認されました。 さらに、 デフォルトではノードのシャットダウン時 に、OneFS はオフライン ノードが一時的にメンテナンス状態にあるものとして、クラスターのレプリケーション / バランシング プロセスを開始しないことが確認されました。しかし、クラスターの再構築プロセス(クラスター のレプリケーション/ バランシング プロセス) は、 ノードの 「smartfail」 を開始することでシミュレートしまし た。 同様に、 Hadoop DAS クラスターで 1 台のノードの電源をオフにして障害をシミュレートしました。

EMC Isilon スケールアウト データ レイクと比べ、Hadoop クラスターは多くの時間を要しました (データ ノー

ドがdead と判断されるまでに 10 分間)。 この間、 クラスターがジョブを送り続けた障害ノードはエラーを

返しました。 ノードが 「dead」 とマークされると、Hadoop クラスターは自動でクラスターの再構築 / 再バラン

シング プロセスを開始しました。

どちらのシミュレーションでも、 ノードの障害発生中と発生後に、 Hadoop データ レイクと Hadoop DAS ク

ラスターでTerasort ジョブを実行しました (Teragen を先に使用して、 ソート用にデータセットを配置しまし た)。 確認された結果は、 次の表のとおりです。

検証 :

Isilon OneFS レイク

の高可用性 (ノード

レベル

障害からのリカバリ)

前のページからの続き

Terasort (MB/ 秒) ベースラインに対する割合

ベースライン (Isilon 4 ノード)

642

100%

1 ノードの smartfail 実行中

429

67%

1 ノードの smartfail 後

507

79%

ベースライン (DAS 6 ノード)

416

100%

1 ノード障害からの再バランシング中

123

29%

1 ノード障害からの再バランシング後

356

86%

4

(12)

IDC の推論

EMC Isilon スケールアウト データ レイクは、 ほとんどのエンタープライズ ストレージ プラットフォームに即 した堅牢なデータ可用性と保護を提供します。 さらに、 特に再構築プロセスの前後で、 コンポーネントとノー ド レベルの障害によるパフォーマンスの目立った低下がありません。 これらの障害からのリカバリ プロセ スもシームレスに、 リソースを大きく消費することなく行えます。 これは、 コモディティ コンポーネントで構成 された標準のHadoop クラスターに見られる制約とオーバーヘッドとは明らかに対照的です。

注 :IDC は EMC Isilon スケールアウト データ レイクのサイト レベルの保護と復元性の機能は検証してい

ませんが、 これらの機能がデータ レイクに不可欠であることを認めています。

ポリシー

ベースの高可用性はデータ レイク

のエンタープライズ導入に必須の機能

機能

主な利点

なぜそれが重要なのか

ディスク障害からの

リカバリ

ノード レベル障害か

らのリカバリ

ノード内のコンポーネント障害発

生時に通常の運用を妨げない

シングルノードの障害発生時に

通常の運用を妨げない。 再構築

プロセスにおけるパフォーマンス

の低下は限定的

EMC Isilon スケールアウト デー

タ レイクの運用における復元性

の向上

組み込み型の保護機能により、

データの整合性、 取得、 アクセ

スを維持しながら秒単位のリカバ

リが可能

(13)

注 :

• 検証はローカル認証を使用して行われましたが、 アクセス ゾーンは、 NIS、 LDAP、 Active Directory などの他のメカ ニズムでも機能します。 • アクセス ゾーンはユーザー レベルでの分離を提供するため、 分離が必要な各クラスターのユーザーごとに一意の UID/GID が必要です。 システム ゾーンもユーザーの分離に使用できます。 ただし、 一貫性と対称性のため、 それぞ れの分離ドメインに別個のアクセス ゾーンを作成しました。 • 2 つのアクセス ゾーンの間でデータを共有するための唯一の正式なメカニズムがシンボリック リンクであり、 これによ り、 開始側のアクセス ゾーンから別のアクセス ゾーンの共有ターゲット ディレクトリへの参照パスが提供されます。 • 異なるアクセス ゾーンのユーザーに適切な読み取り、書き込み、実行権限を許可するためにファイル権限は重要です。

機能と検証の概略

アクセス ゾーンは、 クラスター アクセスを論理的に区分化してリ ソースを自己完結型ユニットに割 り当てるための方法です。 これ は、Isilon OneFS のマルチテナン ト機能の重要な要素で、 OneFS クラスターを複数の認証/ アクセ ス ゾーンに分ける論理的な分離 とメカニズムを提供します。

検証プロセス

この検証のため、 Isilon クラスターに (システム ゾーンに加えて) 2 つのアクセス ゾーンを追加して構成しま した。 各アクセス ゾーンは、 HDFS を介してアクセス可能な、 2 つの別々の (UID/GID が競合しない) ユーザー リストとデータセットで構成されました。 それぞれのゾーンにアクセスするため、 2 つの独立した Hadoop クラスターが構成されました。 また、一方のアクセス ゾーンからもう一方へのソフト リンク(UNIX シン ボリック リンク) を作成して、 アクセス ゾーン間のデータ共有も検証しました。

検証 : アクセス

ゾーンとアク

セス制御リスト

4

IDC は、 異なる (ローカル) 認証ドメインとデータセッ

トを含む

2 つの別々の Hadoop クラスターがアクセス

ゾーンにより完全に分離されることを検証しました。 ま

た、 アクセス ゾーン間のデータ共有も検証しました。

(14)

IDC の推論

EMC Isilon スケールアウト データ レイクはビッグデータのワークロード向けに高度で統合されたスケーラブ ルなストレージを提供します。 また、複数のビッグデータ ワークロード (Hadoop クラスター) で同一のデー タセットを操作しながら、 論理的に分離されたデータセットとユーザーの間でアクセスを制限するための分 離機能を提供することで、 多数のデータ コピーを最適に扱う効率的なメカニズムを実現します。

EMC Isilon スケールアウト データ レイクは複

数のビッグデータ

ワークロード (Hadoop) に

安全なマルチ

テナント環境を提供。 共有スト

レージ

モデルは詳細な制御と共有機能を実現

なマルチ

テナンシー

機能

特定の機能

なぜそれが重要なのか

アクセス ゾーンとア

クセス制御リスト

独立した

Hadoop クラスター

から同じ

Isilon クラスターの

異なるリソース (区分化され

た ユ ー ザ ー と デ ー タ セ ッ ト )

にアクセスが可能

共 有

/ 統 合 デ ー タ レ イ ク の

データを論理的に分離

参照リンクとファイル

/ ディレ

クトリ権限に基づき、

2 つ以

上のアクセス ゾーン間で選択

的にデータを共有

2 つ以上のクラスター間で 1 つの

データセットを共有

(15)

注 :

• 大規模な環境では、UID/GID が競合する可能性を避けるために、 セキュリティと ID 管理を一元化できる LDAP やActive Directory などのディレクトリ サービスが推奨されます。 • ローカルSMB ユーザーはファイル権限を変更できますが、 ディレクトリのユーザー参照ができないため、 認証さ れたユーザーの変更はできません。 • セキュリティ強化のため、Kerberos を使用できます。

機能と検証の概略

EMC Isilon スケールアウト データ レイクは、 複数のローカルおよびディレクトリ ベースの認証および許可 スキームを提供します。安全なマルチ テナントのコア コンポーネントには、ローカルおよびディレクトリ ベー スのユーザー/ グループに安全な認証および許可メカニズムを提供する機能があります。

検証プロセス

この検証は、 前述の安全なマルチ テナントの検証の延長として行われました。 この検証のため、 それぞれ のアクセス ゾーンに 4 つの別々のユーザーとグループが作成されました。 UID と GID は、EMC Isilon スケー ルアウト データ レイクで NFS が正しく機能する組み合わせとしています (SMB と HDFS はユーザー名 / パ スワードの組み合わせを使用します)。NFS のユーザー アカウントからファイルを作成し、 SMB と HDFS を 介して同じユーザー アカウントと異なるユーザー アカウントからアクセスしました。 各種のプロトコルでこの手 順を繰り返し、 読み取りおよび書き込みアクセスを行いました。

検証 : ユーザー

レベルの認証と許可

IDC は、 EMC Isilon スケールアウト データ レイ

クが提供する統合されたユーザー

レベルの認

証と許可を検証しました。 ユーザー

レベルの権

限は、

NFS、 SMB、 HDFS などのプロトコル間

で維持されます。

(16)

機能と検証の概略

SmartLock は、 OneFS プラットフォームの重要なセキュリ ティ機能です。 特に、 安全でコンプライアンス (SEC 17a/4) に準拠したエンタープライズ データ レイク プラット フォームを導入するために使用されます。SmartLock には、 エンタープライズ (Secure) とコンプライアンス (Locked) のセキュリティ レベルがあります。次の 2 つの動作コンポー ネントがあります。 • クラスター全体の管理アクセスを制限する機能

• ファイルやディレクトリのWORM (Write Once,

Read Many) 属性を制御する機能

SmartLock のコンプライアンス モードはクラスター全体の

設定で、 これを有効にすると、root ユーザー アカウントが

ロックされます (初期構成時に設定が可能)。 すべてのタ スクは、 「compadmin」 (compliance administrator の短 縮形) と呼ばれる特別なユーザー アカウントのみが実行で き、監査用にコマンドが記録されます。このユーザーは、コン プライアンスに準拠したプリビレッジド ユーザーとして、 事 前設定されたコマンドのみを実行できます。 WORM 機能に関しては、 リソース レベルで 2 つのモードの 設定が可能です。 「エンタープライズ モード」 の WORM フ ラグは、 ディレクトリごとのWORM 属性を設定しますが、 「compadmin」 ユーザーは保存期間が終わる前にファイルを 削除することができます。 「コンプライアンス モード」 の WORM フラグを設定した場合、 保存期間の終了前にファイ ルやディレクトリの削除はできません。 WORM モードは、 異 なるプロトコルにも適用され、バイパスすることはできません。 ファイルの登録は、 任意のプロトコルを使用して行うか、 OneFS クラスター ノードでローカルに行うことができます。

Smart Lock

Sec 17a/4 準拠)

IDC は、 OneFS プラットフォーム

のエンタープライズ

モードとコンプ

ライアンス

モードを検証しました。

また、 クラスター全体にコンプライ

アンス

モードを設定したときの

compadmin ユーザーの制限を検

証しました。 さらに、

Hadoop ワー

クロードに対するエンタープライズ

とコンプライアンスの

WORM モー

ドも検証しました。

(17)

注 :

• SmartLock フラグはディレクトリ レベルで設定が可能です。各ディレクトリは独自の SmartLock 権限のセッ

トを持ちます。

• ファイルの保存には3 つの設定方法があります。 特定の期間アクセスがない場合にファイルをロックでき

ます。 変更権限を持つ任意のユーザーは、 すべての書き込み権限を削除できます。 最後に、 ファイル にアクセス時間 (UNIX の atime) を設定して、 手動で WORM フラグをトリガーできます。

• デフォルトの保存期間 : 管理者は、 ファイルがロックされる期間を指定できます。 保存期間の終了後は、 ファイルは削除のみ可能で、 権限の変更はできません。 • 有効にしたSmartLock を無効にするには、 クラスターの再フォーマットが必要です。

検証プロセス

この検証では、OneFS クラスターの仮想インスタンスが使用されました (注を参照)。 初期化プロセスでコン プライアンス オプションを選択し、 許可されたすべてのタスクを実行するため 「compadmin」 の使用を強制 しました(sudoers ファイルを使用)。 2 番目のステップはコンプライアンスの日付設定です。 これはクラスター ノードでハードウェア ベースのコンプライアンス クロックを有効にする 1 度限りの操作です。 その後で、 読み 取り専用の権限を検証するためのユーザー アカウントを作成しました。 次のステップで、 ディレクトリを作成

してWORM 属性を設定しました (「worm domain」 オプションを使用、 「compliance」 フラグを有効化、

「default-retention」 フラグを 1 日に設定)。 SmartLock のコンプライアンス テストでは、 すべてのユーザー の書き込み権限を削除してファイルがロックされたことを検証しました。 ただし、 UNIX の 「アクセス時間」 の 設定 (書き込み権限を削除する前のアクセス時間) により、 明示的に書き込みロックの有効期限 (ここでは デフォルトで1 日) を設定できます。 この間、 NFS または HDFS からの読み取りが可能になります (書き込 みは不可)。

検証 :

Smart Lock

Sec 17a/4 準拠)

前のページからの続き

4

(18)

どのプロトコルでもデータの機密性と整合

性を維持する能力とともに、 統合セキュリ

ティはエンタープライズ

データ レイク プラ

ットフォームに不可欠の属性

ティとコンプライアンス

IDC の推論

EMC Isilon スケールアウト データ レイクは、 データ レイク全体に統合されたセキュリティ ファブリックを提 供します。 これによってビッグデータ環境にエンタープライズ クラスの GRC (ガバナンス、 規制、 コンプラ イアンス) 機能が提供されます。

機能

特定の機能

なぜそれが重要なのか

ID ベースの権限

SmartLock

(Sec 17/a4 準拠)

複数のプロトコル (SMB、

HDFS、NFS) で 「1 ユーザー、

1 ID」 によるアクセス統合

論理的な分離、 権限ベースの

分離

コンプライアンス準拠の環境で

管理者

/ プリビレッジド ユー

ザーを制限

ファイル

/ ディレクトリに WORM

属性を設定することで、

Hadoop ユーザーによる削除と

更新を禁止

HDFS、 NFS、 SMB で動作するマ

ルチ プロトコル ACL

コンプライアンス準拠の環境でファイ

ル レベルのセキュリティとデータの

整合性を維持

コンプライアンス準拠の環境でプリ

ビレッジド ユーザーが実行できるコ

マンドの数を制限

コンプライアンス準拠の環境で

WORM ファイル レベル セキュリティ

とデータの整合性を維持

(19)

注 :

• クラウド プールには追加のハードウェアは不要です – ライセンス対象機能です • CloudPools と SmartPools は、 同じポリシー エンジンを使用しています • クラウドに置かれたファイルは、 ローカルでスタブ化され、 ユーザーにはオンライン ファイルのように見えます • SmartPools は、 CloudPools の必須ライセンスです

機能と検証の概略

Isilon OneFS では、 クラスター内のデータを管理することができ、 その管理をクラウドに拡張することが可 能です (OneFS 8.0 を使用)。 この機能はストレージ プールとして知られ、 管理者は、 ローカルのクラス ター全体で共通のファイル ポリシーを適用し、 そのポリシーをクラウドに拡張することができます。

検証 : ストレージ

プール

Storage Pool は、 3 つのコンポーネントで構成されてい

ます。

1. SmartPools – クラスター内のデータ階層化

2. CloudPools – ク ラ ス タ ー と ク ラ ウ ド 間 の デ ー タ

階層化

3. File Pool Policies – ローカルおよび外部における

データ管理のためのポリシー エンジン

SmartPools と CloudPools は、 2 つの階層化エンジン

です。 一方、ファイル

プール ポリシーは、階層間でデー

タを管理するポリシー エンジンです。

(20)

機能と検証の概略

SmartPools は、 「パフォーマンスが最適化された」 ク ラスター ノードと「容量が最適化された」クラスター ノー ドの間でのファイルの移動を可能にすることによって、 クラスター内におけるデータ管理を合理化します。 こ れによりファイルの移動がポリシーに基づいて自動的 に実行されるので、 管理オーバーヘッドが大幅に合理 化されます。 CloudPools では、 Isilon クラスターを、 パブリック ク ラウド、プライベート クラウド(オブジェクト API による)、 またはリモートIsilon クラスターに階層化することがで

きます。 CloudPools は、 EMC ECS、 Amazon S3、

Microsoft Azure、 リモート Isilon クラスター (リモート アクセス ノード) をサポートしています。

– ストレージ プール

ステップ

1/2 – SmartPools と CloudPools

Isilon クラスターおよびクラウド内における

ポリシーベースのデータ配置)

注 :

• CloudPools と SmartPools は、 同じポリシー エンジンを使用しています • クラウドに置かれたファイルは、 ローカルでスタブ化され、 ユーザーにはオンライン ファイルのように見 えます

• パブリック クラウドの場合、お客様が、Amazon や Microsoft などのパブリック クラウド IaaS プロバイダー

と何らかの関係を持っていることが必要です。

• ファイルがクラスター内のどこに置かれても、 ユーザーにはローカル ファイルやオンライン ファイルに

見えます。 それらのファイルはすべて、 同じグローバル ネームスペースに属しているからです。

IDC は、 OneFS における SmartPools の実

装を検証しました。 また、

CloudPools の作

成プロセスも検証しました。 同プロセスのス

テップは、 (

1) クラウド ユーザー アカウント

の作成と (2) 論理コンテナーの選択 (「ク

ラウド

プール」 の作成) の 2 つです。

(21)

検証プロセス

SmartPools では、 管理者が、 データの移動に関する共通のファイル ポリシー (ファイル プール ポリ シー) を、 クラスター内 (SmartPools を使用)、 およびクラスターとクラウドの間 (CloudPools を使用) に適用できます。 クラスター内 (SmartPools を使用)、およびクラスターとクラウドの間 (CloudPools を使用) におけるデー タの移動に関するファイル プール ポリシー。

評価

– ストレージ プール

ステップ

2/2 – ファイル プール ポリシー

4

注 :

• ファイル プール ポリシーは、 SmartPool ポリシーであるか、 CloudPool ポリシーであるかを問わず、 同じ方 法で実行されます • ファイル プール ポリシーは、 スケジュールに基づいて適用することも、 (ポリシーを実行するか、 1 つのファ イルをアーカイブすることによって) コマンド ラインから手動で適用することも可能です • ファイルがクラウドに階層化されると、 そのファイルはスタブ化されます。 一方、 クラスター内で階層化される と、 ネームスペース内に再配置されます

IDC は、 ファイル プール ポリシー

の作成を検証しました。 ファイル

プール

ポリシーとは、 各種クラス

ター構成、 クラスター、 クラウドの

間におけるデータの階層化を可能

にするポリシー

エンジンです。

(22)

クラスター内や、 クラウドとの間のデータ管理

の合理化は、 エンタープライズ

データ レイク

プラットフォームの重要な機能特性です。

主なテスト結果 :

データ管理の合理化

IDC の推論

EMC Isilon スケールアウト データ レイクは、 データ レイク全体に統合されたデータ階層化スキームを提供 します。IT 管理者は、 この機能を使用して適切な階層へのデータ配置を自動化することによって、 インフ ラストラクチャを適切なサイズにすることができます。

機能

特定の機能

なぜそれが重要なのか

SmartPools

CloudPools

ファイル プール ポリ

シー

クラスター内におけるデータ管

理の階層化

クラスターとクラウド間における

データ管理の階層化

ローカル (クラスター内)、 お

よびクラスターとクラウドとの間

におけるデータ管理のための

ポリシー エンジン

パフォーマンスが最適化されたクラ

スター ノードと容量が最適化された

クラスター ノードの間における階層

化にとって必須

ハイブリッド クラウドの実装と、 低コ

ストな (クラウド) 階層へのアーカイ

ブ データの配置にとって必須

クラスターおよびクラウド内でのデー

タ移動の自動化にとって必須

(23)

検証テスト環境

IDC はノース カロライナ州にある EMC のラボで検証を実施しました。 ストレージ

テスト環境は

Isilon クラスターと Hadoop クラスターで構成されました。 次の表は

テスト環境の概略を示しています。

注 :

• すべてのHadoop コンピューティング ノードは vSphere クラスター上で仮想化されました。 • 物理サーバー (vSphere ホスト) ごとに 1 台の仮想マシンを使用し、 仮想化の副次的影響を最小限に抑えま した。 • すべてのHadoop ノードは、 物理サーバー (vSphere ホスト) の内蔵ディスク リソースにアクセス可能か、 または10GbE ネットワーク接続を介してデータ レイクにアクセス可能でした。

• VMware Big Data Extensions を Hadoop ノードに使用しました (VMware Big Data Extensions は、 自動化さ

れたビッグデータ プロビジョニング / 管理ソリューションです)。 これにより、 管理者は Hadoop および HBase クラスターを導入して一元的な管理が可能です。 機能 コンポーネント 構成 検証の詳細 (ある場合) EDLP (エンタープライ ズ データ レイク プラッ トフォーム) Hadoop データ レイク のコンピューティング 専用クラスター Hadoop DAS クラス ター SMB アクセス スクリプト サーバー 4 ノードの Isilon X410 クラスター 7 ノードの Hadoop クラスター 7 ノードの Hadoop クラスター Windows 2008 R2 Server Linux 各4U X410 ノードの構成 : デュアル Intel Xeon CPU、 64GB RAM、 未フォーマット時 57.7 TB (総 クラスター サイズ 231TB)、 3.2TB SSD、 2x1GbE、 2x 10GbE SFP 1 台のマスター ノードと 6 台のワーカー ノード (各ワーカー ノードの構成 : 16 Xeon 2.8GHz CPU (32 論理 CPU)、 64GB RAM、 8 台の 10K RPM 300GB HDD)、 Cloudera Hadoop ディストリビュー ション (CDH5) 1 台のマスター ノードと 6 台のワーカー ノード (各 ワーカー ノードの構成 : 16 Xeon 2.8GHz CPU (32 論理 CPU)、 64GB RAM、 8 台の 10K RPM 300GB HDD)、 Cloudera Hadoop ディストリビュー ション (CDH5) テスト用に2 つのオンボード 10GbE NIC を使用。 2 つのア クセス ゾーンを 2 つのサブネッ ト プールにマップして IP ベース の分離を提供 Name node を構成して NFS データストアにアクセス。 ベンチ マーク テスト用に YARN を使用 Name node を構成して NFS データストアにアクセス。 ベンチ マーク テスト用に YARN を使用 Hadoop でアクセス ゾーンに使用するものと同じユーザー名で構成 – 両テスト共通 Hadoop でアクセス ゾーンに使用するものと同じユーザー名で構成 – 両テスト共通

(24)

データ レイクは、 エンタープライズ環境のあらゆるビッグデータ ワークフローで利用することが望まれま す。 複数のワークロードのストレージを1 つの共有ストレージ プラットフォームに統合することで、 購入 者はコストと環境の複雑さを軽減して、 ビッグデータを効率のよい、 俊敏で、 拡張性の高いものへと変 えることができます。 さらに、 データ レイクは Hadoop ワークロードのパフォーマンス要件に応えるだけ でなく、 これを信頼できるエンタープライズ クラス ストアとして利用する他のワークロードのニーズにも応 えます。 IDC は、 EDLP をエンタープライズ ストレージ インフラストラクチャ戦略の中核に置くべきであると考えて います。 ビジネスでさまざまなソースのデータを整理し、 これをさまざまな組織単位で利用できる情報の 集まりに変換していく中で、 多様なワークロードを同時に処理できる企業規模のデータ レイクを確立する ことが求められるのは間違いありません。 このようなデータ レイクは、 既存のワークロードを可能にする とともに、 新しいアプリケーションとワークロードをシームレスにサポートするための将来の保証となるで しょう。

結論として、 EMC Isilon は、 ほとんどのビッグデータ Hadoop ワークロード向けにエンタープライズ クラ

スのビッグデータを構築するための基盤となる、 マルチ プロトコル アクセス、 可用性、 セキュリティといっ た必須の属性を備えています。

IDC の検証方法

このラボ検証レポートは、 IDC がサプライヤー チームと協力して行った広範な検証プロセスをまとめたものです。 IDC は、 サプライヤーの機器、 施設、 構成を利用して、 検証を行いました。 すべてのテストは、 1 名以上の IDC アナリストを伴い実施されました。 本レポートは、 IT プロフェッショナルやビジネスの意思決定者がレポートで検証された製品やサービスの機能につ いて詳細に調査する際に、 推論やインサイトを簡単に活用できるように構成されています。 しかし、 このレポートは 実践的なテスト プランや検証作業を詳しく伝えることを目的としたものではありません。 多くの企業が製品やサービ スの購入を決める前に行う評価プロセスに代わるものではありません。 このため、 このレポートは製品のすべての機能に関する包括的な文書ではなく、 製品の特長や機能、 従来の環境 と比べた場合のパフォーマンス、 Hadoop ワークロードの問題を解決しようとする企業にこれらの機能がもたらす価 値といったことを強調する簡潔な文書となるよう意図されています。 最後に、 本レポートはスポンサー付きのドキュメントですが、 IDC がその製品、 サービス、 スポンサーであるサプ ライヤーを推薦するものではありません。 IDC の見解は独自のものであり、 本書の発行によって影響を受けるもの ではありません。

アドバイス

参照

関連したドキュメント

断面が変化する個所には伸縮継目を設けるとともに、斜面部においては、継目部受け台とすべり止め

特に、その応用として、 Donaldson不変量とSeiberg-Witten不変量が等しいというWittenの予想を代数

Windows Hell は、指紋または顔認証を使って Windows 10 デバイスにアクセスできる、よ

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの

荒天の際に係留する場合は、1つのビットに 2 本(可能であれば 3

すべての Web ページで HTTPS でのアクセスを提供することが必要である。サーバー証 明書を使った HTTPS

【大塚委員長】 ありがとうございます。.