単一障害点(SPOF)の解決
次世代フレームワーク
MapReduce2(YARN)の搭載
フェデレーションサポートでよ り大規模化に対応
進化 CDH4
2012年6月~
進化 CDH5
2013年6月頃登場 (?!)
進化
リアルタイムクエリ「Impala」
の搭載
HA機能の強化・完全化
セキュリティ強化 等
※予定情報
Cloudera Manager 3
Cloudera Manager 4
高度な運用管理、システム監視 機能のサポート
システム一元管理機能の強化と
ダウンロード数 [CDH]8,000超/月 [Cloudera Manger]
更なる関連 プロジェクト追加 や品質向上 等
4.4 Hadoopの進化
4. Hadoop動向と活用事例
Hadoop基礎機能の利活用
大量データを利用可能なフレームワークへの期待
ペタバイト級データを実際に利活用しているメジャー企業の実績
数千ノードまで拡張可能なスケールアウト性
ハードウェア・ソフトウェアとの高い親和性
多種H/Wでの稼働実績、多様なS/Wとの接続性
OSSとしてのHadoopの魅力
グローバルで利活用可能な共通基盤としての期待
世界の何処でも共通基盤化できる(グローバル展開・ディザスタリカバリ等)
世界の誰もが開発・保守できる (維持保守の低コスト化 等)
オープンソースに対する意識の変革
品揃え・機能の充実、品質の高まりに対する認知度向上
スケールアウトで 大容量化&高速化
4.5 Hadoopの活用事例 ~利用者共通の目的
4. Hadoop動向と活用事例
金融機関での事例
サイトのアクセス統計は取得し ているが、実操作の動線や離 脱状況・理由が把握できない 現システムに手を加えず(
ログ強化やビーコン埋込み等)、
データ分析で、効果あるサー ビス施策やサイト改修をしたい
背景 対応 今後
ユーザ操作の実動線とパターン、
離脱箇所や滞在時間を可視化
非定型ログをHadoopで全走査でクレンジングし、
ユーザ毎の操作をレコード生成。
実動線レコードとは別に、動線のパターン化、
離脱箇所特定、画面毎の滞在時間を算出し、
分析した事実情報を二次分 析し新たな知見発掘へ - 他データとの相関分析 - 機械学習などの数理分析 ログ収集などの安全、且つ 確実な自動化
- Flume(CDH)の利用
即時利用・結果取得可能な アドホック分析の実現 - Imapala(CDH)の利用
日立ソリューションズの技術
金融機関の「最高レベルの機密デー タ」を保持する高機密度システム構築
A B C X Y Z
D
正常系
●パターン①
●パターン②
20user[25%]
10user[12%]
●パターン③ ●パターン④ 離脱系
80
user40
user45
user12
user15
user15
user23
sec10
sec52
sec11
sec9
sec9
sec4.6 Hadoopの活用事例 ~個別事例①~
通信機器からの大量ログを長期間確実に 保持したい
- 毎時250GBを4ヵ月
保管した大量ログの検索・マッチングを高速 に実施したい
- 最大1PBytes 4. Hadoop動向と活用事例
通信事業での事例
背景 対応
日立ソリューションズの技術
Hadoopを多クラスタ構成で構築、運用
JP1を利用したジョブ制御、稼働監視 などの運用管理
Hadoopを大規模ストレージとして利用し データの冗長性を担保
Hadoopの多クラスタ構成により、障害時も24 時間365日の確実なデータ保管を実現 240nodes/クラスタ(1,000nodes超/全クラスタ) の超大規模な並列分散処理環境により高速 処理を実現
【参考:処理時間】
15TBのログ全件検索と50GBのログマッチング:40分
技術的ポイント
100nodes以下でも、パラメタ設計な どは独特の技術やノウハウが必要
100nodesを超えると、システム設計 にまで及ぶ課題やノウハウが出現
4.7 Hadoopの活用事例 ~個別事例②~
セキュリティ事故防止のため、インターネット 接続先サイトの規制を行っているが、各種の 見直しをしたい
- ネット情報利用の重要性・利便性と セキュリティ規制のバランス確保 - 運用部門と実利用部門のコスト低減 4. Hadoop動向と活用事例
日立社内活用例
背景 対応
利用状況を分析し、規制解除の自動化、適正な 判断をスピーディに実現
【利用者部門】
情報量増加による業務効率改善
規制解除などの事務作業低減【運用部門】
自動化による人為的ミス解消
規制解除に関する各種事務作業の低減 分析データを利用した、情報漏洩事故やコンプラ イアンス違反の検知・予兆の実現膨大なデータに含まれる、様々なノイズを Hadoopで高速にクレンジングすることで、分析 精度を向上
膨大なデータ蓄積・集計基盤としてHadoopを 活用
【参考:処理時間】
数十台のWebサーバのアクセスログ 1週間分を 60分以内にクレンジング/集計
利用側
蓄積 集計 分析 分析 見直し
レポート 状況 収集
運用側
サイト 利用
4.8 Hadoopの活用事例 ~個別事例③~
4. Hadoop動向と活用事例
Cloudera Manager関連
Hadoopクラスタの新規構築・スケールアウト、運用で非常に便利
長時間画面を眺めての作業、1台1台の操作からの解放
設定・変更時のヒューマンエラーを解決
GUIならではの可視性の高い性能/稼働監視、容易な操作性
使いこなすにはコツとノウハウが必須!
機能追加・改善ペースが速い
豊富な機能 ≒ 多くのパラメタと設計が必要
日立ソリューションズの技術
実運用レベルでの利活用実績と経験
Cloudera Manager V4.1.2の全パラメタ(約800項目)調査による裏付けある活用
Free版/Enterprise版のリソース設計、システム設計のノウハウ
4.9 Hadoopの活用事例 ~その他~
4. Hadoop動向と活用事例
ノーチラス・テクノロジーズ社「Asakusa Framework」によるバッチ高速化
Asakusa Frameworkは、ノーチラス・テクノロジーズ社が開発するオープンソースで、
Hadoopを利用したバッチ開発向けの「開発フレームワーク」
バッチ処理に特化した機能・ツールが一体となり、バッチ開発の敷居を下げ、
開発効率を容易に向上可能
データモデル設計/データ・処理フロー設計/RDB連携ツール
バッチ処理向けの各種テンプレート、テスト支援ツール 等
日立ソリューションズでは、
2013年3月にノーチラス・テクノロジーズ社と販売代理店契約を締結。
<Asakusa Frameworkの位置付け>
業務バッチ向け
AsakusaFW
バッチ開発フレームワーク
Hadoopコア
統計・分析向け
Hive SQL
系Pig
スクリプト系MapReduce(
並列実行FW)
Hadoop基盤活用で、I/O分 散や並列処理を実現
複雑なMapReduceをJava でフル開発をせず業務 バッチ実装が可能4.10 Hadoopを利用したバッチ処理高速化
4. Hadoop動向と活用事例
Asakusa Frameworkの機能と特長
現バッチサーバ上の特定の長時間ジョブを短時間化する事に最適
バッチシステム刷新に比べ低コスト、最小限の影響範囲で導入可
並列処理可能なバッチ、且つRDBMSでI/Oネックの場合に効果大
Hadoopの理解、複雑なMapReduce開発が不要
<Asakusa FW利用時の一般的システム構成例>
【Hadoop】
【Hadoop】
Masterノード AsakusaFW
[実行エンジン]
バッチ実行サーバ
処理対象 テーブル
RDBMS
処理結果 テーブル
③ジョブ起動
②AsakusaFWが
DBの対象データ取得、
Hadoop上へ分散格納
①バッチ実行
【Hadoop】 【Hadoop】
Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]
Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]
Asakusa開発 バッチアプリ AsakusaFW [ライブラリ]
⑤結果格納
④並列ジョブ起動
4.11 Asakusa Framework概要
4. Hadoop動向と活用事例
小売業での活用事例
売価還元法 個別原価法 法対応(IFRS)
Keywords 従来システムは売価還元法の為、日毎/商品毎の利益算出困難
⇒ 個別原価法での日次処理は、計算量1,000倍超であり スケールアップ対処が困難
一方で、各種法対応の必須の課題
⇒ 低コスト(HW, SW, 開発費)、早期導入の必要性
100~500GB 50+店舗, 10,000+商品 3,000+仕入先
規模
商品グループ単位の月次原価管理、個別単品単位での 日次原価計算(個別原価法)を実現
利益状況をリアルタイムに可視化でき、経営判断スピードが向上
Asakusa Framework利用による開発効率とコストの確保 ポイント
これまでのシステム面での制約の払拭、更には新たな業務バッチ追加も可能となる Hadoop&AsakusaFW
4.12 Asakusa Frameworkの活用事例(1)
4. Hadoop動向と活用事例
原価計算 クラウド基盤
Keywords 経済状況・市況により変動が大きくなった仕入先/仕入額の影響 で、従来の一部商品での原価計算ではリスク大
⇒ 全商品のアクチュアル原価算出は時間も、コスト面も困難
5~10GB 110万アイテム
規模
毎日4時間の原価計算が20分に短縮
Amazon Web Serviceを利用し、環境立上げ・データ転送・バッチ実行・結果 転送・環境クローズの総時間が20分(オンプレの1/10コスト)
長時間ジョブの切り離しで既存DBサーバの負荷軽減
短時間ジョブとクラウド基盤で障害時の不安払拭
製造・卸販売での活用事例
ポイント
バッチ高速化は、決して高価なシステムと開発、運用でしか解決できない事ではない
実データが大量でなくとも、処理データ件数が大量であれば、並列処理による効果は 十分にある
Hadoop&AsakusaFW
4.13 Asakusa Frameworkの活用事例(2)
4. Hadoop動向と活用事例
電力システム 改革
スマートメータ のデータ活用
Keywords スマートメータの導入により、検針データが大幅に増加する一方で 活用可能なデータ量が増大
⇒ データは1,440倍(1
回/月→1
回/30分)となり、大量データ向けの 蓄積基盤、高速な分散処理基盤が必要
⇒ 各種顧客サービスの向上を実現する、柔軟な拡張性が必要
新システムでは、新技術活用と共に効率的なシステム開発も課題
⇒ 高効率(低コスト)な開発手法やフレームワーク技術が必要
800万顧客 115億件 108TB/3年
規模
電気事業での活用事例
■(ご紹介)九州電力殿の取組み(2009~)