• 検索結果がありません。

 単一障害点(SPOF)の解決

 次世代フレームワーク

MapReduce2(YARN)の搭載

 フェデレーションサポートでよ り大規模化に対応

進化 CDH4

2012年6月~

進化 CDH5

2013年6月頃登場 (?!)

進化

 リアルタイムクエリ「Impala」

の搭載

 HA機能の強化・完全化

 セキュリティ強化 等

※予定情報

Cloudera Manager 3

Cloudera Manager 4

 高度な運用管理、システム監視 機能のサポート

 システム一元管理機能の強化と

ダウンロード数 [CDH]

8,000超/月 [Cloudera Manger]

更なる関連 プロジェクト追加 や品質向上 等

4.4 Hadoopの進化

4. Hadoop動向と活用事例

 Hadoop基礎機能の利活用

 大量データを利用可能なフレームワークへの期待

 ペタバイト級データを実際に利活用しているメジャー企業の実績

 数千ノードまで拡張可能なスケールアウト性

 ハードウェア・ソフトウェアとの高い親和性

 多種H/Wでの稼働実績、多様なS/Wとの接続性

 OSSとしてのHadoopの魅力

 グローバルで利活用可能な共通基盤としての期待

 世界の何処でも共通基盤化できる(グローバル展開・ディザスタリカバリ等)

 世界の誰もが開発・保守できる (維持保守の低コスト化 等)

 オープンソースに対する意識の変革

 品揃え・機能の充実、品質の高まりに対する認知度向上

スケールアウトで 大容量化&高速化

4.5 Hadoopの活用事例 ~利用者共通の目的

4. Hadoop動向と活用事例

 金融機関での事例

サイトのアクセス統計は取得し ているが、実操作の動線や離 脱状況・理由が把握できない 現システムに手を加えず(

ログ強化やビーコン埋込み等)、

データ分析で、効果あるサー ビス施策やサイト改修をしたい

背景 対応 今後

ユーザ操作の実動線とパターン、

離脱箇所や滞在時間を可視化

非定型ログをHadoopで全走査でクレンジングし、

ユーザ毎の操作をレコード生成。

実動線レコードとは別に、動線のパターン化、

離脱箇所特定、画面毎の滞在時間を算出し、

分析した事実情報を二次分 析し新たな知見発掘へ - 他データとの相関分析 - 機械学習などの数理分析 ログ収集などの安全、且つ 確実な自動化

- Flume(CDH)の利用

即時利用・結果取得可能な アドホック分析の実現 - Imapala(CDH)の利用

日立ソリューションズの技術

 金融機関の「最高レベルの機密デー タ」を保持する高機密度システム構築

A B C X Y Z

D

正常系

●パターン①

●パターン②

20user[25%]

10user[12%]

●パターン③ ●パターン④ 離脱系

80

user

40

user

45

user

12

user

15

user

15

user

23

sec

10

sec

52

sec

11

sec

9

sec

9

sec

4.6 Hadoopの活用事例 ~個別事例①~

通信機器からの大量ログを長期間確実に 保持したい

- 毎時250GBを4ヵ月

保管した大量ログの検索・マッチングを高速 に実施したい

- 最大1PBytes 4. Hadoop動向と活用事例

 通信事業での事例

背景 対応

日立ソリューションズの技術

 Hadoopを多クラスタ構成で構築、運用

 JP1を利用したジョブ制御、稼働監視 などの運用管理

Hadoopを大規模ストレージとして利用し データの冗長性を担保

Hadoopの多クラスタ構成により、障害時も24 時間365日の確実なデータ保管を実現 240nodes/クラスタ(1,000nodes超/全クラスタ) の超大規模な並列分散処理環境により高速 処理を実現

【参考:処理時間】

15TBのログ全件検索と50GBのログマッチング:40分

技術的ポイント

 100nodes以下でも、パラメタ設計な どは独特の技術やノウハウが必要

 100nodesを超えると、システム設計 にまで及ぶ課題やノウハウが出現

4.7 Hadoopの活用事例 ~個別事例②~

セキュリティ事故防止のため、インターネット 接続先サイトの規制を行っているが、各種の 見直しをしたい

- ネット情報利用の重要性・利便性と セキュリティ規制のバランス確保 - 運用部門と実利用部門のコスト低減 4. Hadoop動向と活用事例

 日立社内活用例

背景 対応

利用状況を分析し、規制解除の自動化、適正な 判断をスピーディに実現

【利用者部門】

情報量増加による業務効率改善

規制解除などの事務作業低減

【運用部門】

自動化による人為的ミス解消

規制解除に関する各種事務作業の低減 分析データを利用した、情報漏洩事故やコンプラ イアンス違反の検知・予兆の実現

膨大なデータに含まれる、様々なノイズを Hadoopで高速にクレンジングすることで、分析 精度を向上

膨大なデータ蓄積・集計基盤としてHadoopを 活用

【参考:処理時間】

数十台のWebサーバのアクセスログ 1週間分を 60分以内にクレンジング/集計

利用側

蓄積 集計 分析 分析 見直し

レポート 状況 収集

運用側

サイト 利用

4.8 Hadoopの活用事例 ~個別事例③~

4. Hadoop動向と活用事例

 Cloudera Manager関連

 Hadoopクラスタの新規構築・スケールアウト、運用で非常に便利

 長時間画面を眺めての作業、1台1台の操作からの解放

 設定・変更時のヒューマンエラーを解決

 GUIならではの可視性の高い性能/稼働監視、容易な操作性

 使いこなすにはコツとノウハウが必須!

 機能追加・改善ペースが速い

 豊富な機能 ≒ 多くのパラメタと設計が必要

日立ソリューションズの技術

 実運用レベルでの利活用実績と経験

 Cloudera Manager V4.1.2の全パラメタ(約800項目)調査による裏付けある活用

 Free版/Enterprise版のリソース設計、システム設計のノウハウ

4.9 Hadoopの活用事例 ~その他~

4. Hadoop動向と活用事例

ノーチラス・テクノロジーズ社「Asakusa Framework」によるバッチ高速化

 Asakusa Frameworkは、ノーチラス・テクノロジーズ社が開発するオープンソースで、

Hadoopを利用したバッチ開発向けの「開発フレームワーク」

 バッチ処理に特化した機能・ツールが一体となり、バッチ開発の敷居を下げ、

開発効率を容易に向上可能

 データモデル設計/データ・処理フロー設計/RDB連携ツール

 バッチ処理向けの各種テンプレート、テスト支援ツール 等

 日立ソリューションズでは、

2013年3月にノーチラス・テクノロジーズ社と販売代理店契約を締結。

<Asakusa Frameworkの位置付け>

業務バッチ向け

AsakusaFW

バッチ開発

フレームワーク

Hadoopコア

統計・分析向け

Hive SQL

Pig

スクリプト系

MapReduce(

並列実行

FW)

Hadoop基盤活用で、I/O分 散や並列処理を実現

複雑なMapReduceをJava でフル開発をせず業務 バッチ実装が可能

4.10 Hadoopを利用したバッチ処理高速化

4. Hadoop動向と活用事例

Asakusa Frameworkの機能と特長

 現バッチサーバ上の特定の長時間ジョブを短時間化する事に最適

 バッチシステム刷新に比べ低コスト、最小限の影響範囲で導入可

 並列処理可能なバッチ、且つRDBMSでI/Oネックの場合に効果大

 Hadoopの理解、複雑なMapReduce開発が不要

<Asakusa FW利用時の一般的システム構成例>

【Hadoop】

【Hadoop】

Masterノード AsakusaFW

[実行エンジン]

バッチ実行サーバ

処理対象 テーブル

RDBMS

処理結果 テーブル

③ジョブ起動

②AsakusaFWが

DBの対象データ取得、

Hadoop上へ分散格納

①バッチ実行

【Hadoop】 【Hadoop】

Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]

Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]

Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]

⑤結果格納

④並列ジョブ起動

4.11 Asakusa Framework概要

4. Hadoop動向と活用事例

 小売業での活用事例

売価還元法 個別原価法 法対応(IFRS)

Keywords  従来システムは売価還元法の為、日毎/商品毎の利益算出困難

⇒ 個別原価法での日次処理は、計算量1,000倍超であり スケールアップ対処が困難

 一方で、各種法対応の必須の課題

⇒ 低コスト(HW, SW, 開発費)、早期導入の必要性

100~500GB 50+店舗, 10,000+商品 3,000+仕入先

規模

 商品グループ単位の月次原価管理、個別単品単位での 日次原価計算(個別原価法)を実現

 利益状況をリアルタイムに可視化でき、経営判断スピードが向上

 Asakusa Framework利用による開発効率とコストの確保 ポイント

 これまでのシステム面での制約の払拭、更には新たな業務バッチ追加も可能となる Hadoop&AsakusaFW

4.12 Asakusa Frameworkの活用事例(1)

4. Hadoop動向と活用事例

原価計算 クラウド基盤

Keywords  経済状況・市況により変動が大きくなった仕入先/仕入額の影響 で、従来の一部商品での原価計算ではリスク大

⇒ 全商品のアクチュアル原価算出は時間も、コスト面も困難

5~10GB 110万アイテム

規模

 毎日4時間の原価計算が20分に短縮

Amazon Web Serviceを利用し、環境立上げ・データ転送・バッチ実行・結果 転送・環境クローズの総時間が20分(オンプレの1/10コスト)

 長時間ジョブの切り離しで既存DBサーバの負荷軽減

 短時間ジョブとクラウド基盤で障害時の不安払拭

 製造・卸販売での活用事例

ポイント

 バッチ高速化は、決して高価なシステムと開発、運用でしか解決できない事ではない

 実データが大量でなくとも、処理データ件数が大量であれば、並列処理による効果は 十分にある

Hadoop&AsakusaFW

4.13 Asakusa Frameworkの活用事例(2)

4. Hadoop動向と活用事例

電力システム 改革

スマートメータ のデータ活用

Keywords  スマートメータの導入により、検針データが大幅に増加する一方で 活用可能なデータ量が増大

⇒ データは1,440倍(1

回/月

→1

回/30分

)となり、大量データ向けの 蓄積基盤、高速な分散処理基盤が必要

⇒ 各種顧客サービスの向上を実現する、柔軟な拡張性が必要

 新システムでは、新技術活用と共に効率的なシステム開発も課題

⇒ 高効率(低コスト)な開発手法やフレームワーク技術が必要

800万顧客 115億件 108TB/3年

規模

電気事業での活用事例

■(ご紹介)九州電力殿の取組み(2009~)

 スケールアウト可能な分散蓄積と分散処理可能な処理基盤

 高効率なバッチ開発フレームワーク

Hadoop&AsakusaFW

分散バッチ開発標準としてAsakusa Frameworkを採用

Asakusa Frameworkの学習・教育含めても開発工数が1/2以下で高効率と評価

文書管理システムにおけるHadoop/Asakusa Frameworkの適用検証を実施

4.14 Asakusa Frameworkの活用事例(3)

関連したドキュメント