日立ソリューションズのビッグデータビジネス
~Hadoopソリューションとビッグデータ利活用~
株式会社 日立ソリューションズ
ビッグデータビジネス推進センタ
吉田 行男
Prowise Business Forum
in Tokyo 第65回Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
ビッグデータについて
1.1
1. はじめに
ビッグデータというキーワード
IT業界のキーワードとして、2010年頃から注目を浴び始めた『ビッグデータ』
一方で、本質が掴み難く、バズワードと捉えられているのも現実
約3年経った現在も、「ビッグデータとは何か?」、「これまでの分析と何が違う
のか?」といった議論が交わされ、
「当社にはビッグデータは存在しない」として、まだまだ重要視されない状況
や動向観察の企業も少なくない
ビッグデータについて(2)
1.2
1. はじめに
データの利活用には、
これまでのようにベンダーやSIerだけでは困難
ユーザ企業と一体となった戦略的推進が必要なビジネス
日本企業には、
データ活用の4強(*)に負けない、休眠データが沢山
ある
*…Google, Amazon, Facebook, Apple
ビッグデータから得られる価値は何か?
ビッグデータを活用する意義
ビッグデータには、様々な定義や技術もあるが、
今、企業が業種やデータ規模を問わず、
取り組む意義が高いテーマ
ITシステムのハードウェア、ソフトウェアがコモディティ化した現在、差別化や
優位性の確保には
『データ主役時代』
になっている
分析してみなければ分からないというのも事実
仮説を立て検証するデータ分析もあるが、大量データを機械学習などによ
る分析で
『データが語る事実』
が得られる事もある
後者は、トライして初めて分かる事、そして
論理的な根拠が無い事も
ある
Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
ビッグデータ市場動向
2.1
2. 市場動向と近況
ビッグデータの市場動向
国内ビッグデータ技術/サービス市場は黎明期、今後の成長率も高い
ビッグデータの認知度、実活用メリットや手法の理解はまだまだ低い
ビッグデータ市場規模 2011年度 1,900 億円 2020年度 1 兆円 (億円) CAGR 21.0% (2011年~2020年) 出典:矢野経済研究所 ビッグデータ市場に関する調査結果2012 動向調査 認知度 ビッグデータ活用 の検討 ビッグデータ活用 ITシステム導入済 国内企業1,050社 情報システム部門 56.8 % 業務部門 31.1 % 13.6 % 2.6 %ビッグデータの定義・特徴
2.2
2. 市場動向と近況
ビッグデータの定義と特徴
Volume (容量):
従来の技術による処理量を超えた
大容量データ
Variety (種類):
画像/音声/ログなど非構造化データ
Velocity (頻度・スピード):
データ生成/分析の高速化、リアルタイム化
Value (価値):
分析&利活用で経済的価値が発生
ビッグデータの特徴 【データ容量の増加】 【データ種類の多様化】 定型データ 構造化データ 画像/映像データ 非固定長データ 固定長データ 【データ発生頻度・ スピードの高速化】 非構造化データ 手入力データ 定期発生データ センサデータ 【価値】 データ分析から 発見、創出
ビッグデータの課題的特徴
プライバシーなどのコンプライアンス:
各種情報の組合せによって、個人特定などが可能な情報が生成される
分析データの取り扱い:
データ分析する際に、利用するデータは自社データのみでない事も多い
また、分析されたデータをマネタイズするのは自社のみではない事もある
OSSの市場動向
2.3
2. 市場動向と近況
OSS導入実績調査
Linux Foundation SI Forumが実施した
2011年度オープンソースソフトウェア導入実績調査から
① 調査概要
調査期間
: 2012/3~2012/4
調査対象期間 : 2011年度(2011/4~2012/3)
参加企業(8社) :
•株式会社日立製作所(日立Grは、日立で纏めて回答)
•株式会社アシスト
•日本電気株式会社/NECソフト株式会社
•日本電信電話株式会社/株式会社NTTデータ
•デル株式会社
•東芝ソリューション株式会社
•日本ヒューレット・パッカード株式会社
•富士通株式会社/株式会社PFU
OSSの市場動向
2.4
2. 市場動向と近況
全体概況
分 野 結 果 OS / Distribution Android、Debian、Ubuntuなどが導入され、OS利用の多様化が進行 導入実績多数 : CentOS, Fedora, Android, Debian, Ubuntu等 導入実績あり : LKST, openSUSE, Vine Linux仮想化 / クラウド 「クラウドビジネス」との融合により、大規模な仮想化環境の導入が必要 クラウドインフラの費用を圧縮するためOSSのツールへの移行が進展
導入実績多数 : KVM, Xen, OpenStack
導入実績あり : oVirt, VirtualBox, CloudStack, QEMU等 DB・関連ツール 昨今のクラウド・ビッグデータビジネスの影響を色濃く反映 Hadoopの導入実績の増加に合わせ、関連ツール類も増加 導入実績多数 : PostgreSQL、MySQL 導入実績あり : CDH、memcached
クラウド/仮想化/ビッグデータ関連OSSの導入実績が急速に進んでいる
本年度、検証実績があるCloudForms、CloudFoundryなどは、来年は導入
実績が予想される
OSSの市場動向
2.5
2. 市場動向と近況
最も積極的に投資が進む分野でOSSの活用が活発
「クラウド」「ビッグデータ」
分野
OSSツール
導入実績社数
クラウド
OpenStack
3
CloudStack
2
Eucalyptus
3
ビッグデータ Apache Hadoop
4
Apache Hbase
5
ITのトレンドはOSSが主導し、ベンダが追従する
Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
日立ソリューションズのビッグデータ事業取り組み
3.1
3. ビッグデータ事業への取り組み
全社活動に向けて「ビッグデータビジネス推進センタ(2012年12月)」を設立
「専任者+各事業部(企画部門)兼任者」で構成し、
ビッグデータ事業の推進強化により、お客様への高付加価値の提案を実現
社内事業戦略を策定、事業計画立案、人財強化・育成
社内/社外との連携強化と活用
お客様への高付加価値ソリューション提案
お 客 様
連携 日立ソリューションズ (+日立ソリューションズグループ) ビッグデータ ビジネス推進センタ オープンソース 技術開発センタ 各営業本部 各事業本部 日立ソリューションズ連
携
日立 製作所 日立 システムズ・
・
・
連携 日立グループ 連携 社外 パートナー 企業日立ソリューションズのOSS関連事業取り組み
3.2
3. ビッグデータ事業への取り組み
日立ソリューションズは早くからOSSに積極的に取り組んできています
時 期 概 要 2000~ MIRACLE LINUXサポート及びLinuxサーバ構築サービスを開始 2004/04 「OSSサポートサービス」を提供開始2005/01 日本OSS推進フォーラム参画 → IPA OSS iPediaに評価結果を公開 –05/上:JBossクラスタ評価,05/下:Tomcatクラスタ及びMySQLスケ ーラビリティ評価,06/下:Geronimo評価
2005/07 Linux(OSS)コンソーシアム参画
2006/05 OSDL(現Linux Foundation) SI Forum に参画
–06,07,08,09,10,11年度 『OSSミドルウェア/ツール調査』実施 2008/06 OBCI(オープンソースビジネス推進協議会)参画
2009/02 レッドハット社とアドバンスド・ビジネス・パートナー契約締結 2010/04 OSSソリューションビジネス推進センタを設立
2010/07 Black Duck Software社とパートナー契約締結
2012/02 レッドハット社とJBoss プレミア・ビジネス・パートナー契約締結 OSCA(Open Standard Cloud Association)参画
日立グループとの連携
3.3
3. ビッグデータ事業への取り組み
日立グループとして、超上流~システム構築までビッグデータの利活用ビジ
ネスを推進中。
ビッグデータの 発生源見えなかったものが
見えてくる
新しい視点で
価値を発見できる
「今」から「未来」を
予測できる
生まれる価値1
2
3
ビジネス
シナリオ
IT
ビジョン 仮説 事業モデル分析
分析技術 分析人財 分析ツール ビッグデータ 利活用基盤 データ収集 デバイス サーバ・ ストレージ・ クラウドイノベイティブ・アナリティクス
日立ソリューションズは主にIT(システム構築)が強み
日立グループとの連携
3.4
3. ビッグデータ事業への取り組みヒューマン
ビッグデータ
人の状態や行動に関する データを利活用 Solution 1マシン
ビッグデータ
モノの稼働情報に関する データを利活用 Solution 2スマートインフラ
ビッグデータ
生活や社会を表す データを利活用 Solution 5マーケット
ビッグデータ
リアルな市場を表す データを利活用 Solution 4ロケーション
ビッグデータ
位置情報や空間の データを利活用 Solution 3 人間行動測定用センサー ライフ顕微鏡 専用テクノロジー ・・・ AirSence SmartMODULE 専用テクノロジー ・・・ AirLocation 専用テクノロジー CoreExplorer 専用テクノロジー GeoMation 専用テクノロジー
日立グループとして5つの分野でビッグデータの利活用ビジネスを推進
この中に日立ソリューションズの独自技術を適用
Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
Hadoopがもたらすパラダイムシフト
4.1
4. Hadoop動向と活用事例 ●エンタープライズ向け サーバ、ストレージ ■高価なシステム 大量データの取り扱いには、高価な システム環境構築が必須 ■高度な技術 専用ソフトウェアと高度な分析手法 などスペシャリストが必須 エンタープライズ向け 専用ソフトウェアハードウェア
ソフトウェア
汎用ソフトウェア オープンソース ソフトウェア従来
Hadoopにより、これまで敷居の高かった大量データの分析が
どこでも、誰でも、どんな規模からでも実現可能になります
●ミッドレンジ向け サーバ、ストレージ ●コモディティサーバ、 ストレージ 商用ソフトウェア CPUやHDDの性能が飛躍的に 向上し、高機能なPCが廉価で OSS利用のノウハウの高まりに よって、敬遠傾向から、積極的 ■コモディティ化システム 高価な機器、大規模な設備が無くと も、PB級のデータが取り扱える ■オープンでグローバルな技術 世界中の誰でも入手、利用できる技 術やノウハウで、高度な分析も大量 Hadoopによる パラダイムシフトHadoopの動向
4.2
4. Hadoop動向と活用事例
Hadoopの利用機能と利用シーン(ニーズ)の変化
HDFS MapReduce Hadoopコアコンポーネント+
スケールアウト可能な分散ファイルシ
ステム(HDFS)と、
並列処理実行(MapReduce)による
トライアル的な利用中心
並列処理を容易に操作する為、
Hive Pig 一部のHadoop関連プロジェクト HDFS MapReduce Hadoopコアコンポーネント+
Hive Pig 各種Hadoop関連プロジェクト Flume Sqoop HBase・
Zookeeper・
・
変化
実データ分析による、ビジネス活用の
開始
データ収集や視覚化などのシステム
設計を含めた各種プロジェクト利用
実運用レベルでの活用に向けた、信
Cloudera社のCDH/Cloudera Enterprise
4.3
4. Hadoop動向と活用事例
Cloudera社について
Apache Hadoopの商用ディストリビューションを開発・提供している企業
Hadoopの開発者 Doug CuttingがCloudera社のチーフアーキテクト
Hadoopビジネスで最も有名な企業であり、
Cloudera社のCDHやCloudera Enterpriseは世界中で最も多く利用されている
日立ソリューションズでは、
CLOUDERA ENTERPRISE
THE PLATFORM FOR BIG DATA 管理ソフトウェア
&サポート ClouderaManager ClouderaSupport CDH
CDH
(Cloudera's Distribution including Apache Hadoop)
OSS
100% Open Source
HBase MapReduce MapReduce2
Hive Pig Impala ZooKeeper Flume Sqoop Oozie Hue Mahout Whirr HDFS ClouderaEnterprise(Core) ClouderaEnterprise(RTD) ClouderaEnterprise(RTQ)
Hadoopの進化
4.4
4. Hadoop動向と活用事例
進化が続くHadoop(CDH/Cloudera Enterprise)の動向
CDH3 2011年4月~
単一障害点(SPOF)の解決
次世代フレームワーク
MapReduce2(YARN)の搭載
フェデレーションサポートでよ
り大規模化に対応
進化
CDH4 2012年6月~進化
CDH5 2013年6月頃登場 (?!)進化
リアルタイムクエリ「Impala」
の搭載
HA機能の強化・完全化
セキュリティ強化 等
※予定情報 ClouderaManager 3 Manager 4Cloudera
高度な運用管理、システム監視
機能のサポート
システム一元管理機能の強化と
ダウンロード数 [CDH] 8,000超/月 [Cloudera Manger]
更なる関連
プロジェクト追加
や品質向上 等
当日スライド
公開情報
Hadoopの活用事例 ~利用者共通の目的~
4.5
4. Hadoop動向と活用事例
Hadoop基礎機能の利活用
大量データを利用可能なフレームワークへの期待
ペタバイト級データを実際に利活用しているメジャー企業の実績
数千ノードまで拡張可能なスケールアウト性
ハードウェア・ソフトウェアとの高い親和性
多種H/Wでの稼働実績、多様なS/Wとの接続性
OSSとしてのHadoopの魅力
グローバルで利活用可能な共通基盤としての期待
世界の何処でも共通基盤化できる(グローバル展開・ディザスタリカバリ等)
世界の誰もが開発・保守できる
(維持保守の低コスト化 等)
オープンソースに対する意識の変革
品揃え・機能の充実、品質の高まりに対する認知度向上
スケールアウトで
大容量化&高速化
Hadoopの活用事例 ~個別事例①~
4.6
4. Hadoop動向と活用事例
金融機関での事例
サイトのアクセス統計は取得し ているが、実操作の動線や離 脱状況・理由が把握できない 現システムに手を加えず( ログ強化やビーコン埋込み等)、 ログの分析で、効果あるサー ビス施策やサイト改修をしたい 背景 対応 今後 ユーザ操作の実動線とパターン、 離脱箇所や滞在時間を可視化 非定型ログをHadoopで全走査でクレンジングし、 ユーザ毎の操作をレコード生成。 実動線レコードとは別に、動線のパターン化、 離脱箇所特定、画面毎の滞在時間を算出し、 WEBアプリからアクセス可能なHBaseに格納。 今回の分析した事実情報を 二次分析し新たな知見発見 - 他データとの相関分析 - 機械学習などの数理分析 ログ収集などの安全、且つ 確実な自動化 - Flume(CDH)の利用 即時利用・結果取得可能な アドホック分析の実現 - Imapala(CDH)の利用日立ソリューションズの技術
銀行所有の「最高レベルの機密デー
タ」を保持する高機密度システム構築
A B C X Y Z D 正常系 ●パターン① ●パターン② 20user[25%] 10user[12%] 離脱系 ●パターン③ ●パターン④80user 40user 45user
12user
15user 15user
23sec 10sec 52sec 11sec 9sec 9sec
当日スライド
公開情報
通信機器からの大量ログを長期間確実に 保持したい - 毎時250GBを4ヵ月 保管した大量ログの検索・マッチングを高速 に実施したい - 最大1PBytes
Hadoopの活用事例 ~個別事例②~
4.7
4. Hadoop動向と活用事例
通信事業での事例
背景 対応日立ソリューションズの技術
Hadoopを多クラスタ構成で構築、運用
JP1を利用したジョブ制御、稼働監視
などの運用管理
Hadoopを大規模ストレージとして利用し データの冗長性を担保 Hadoopの多クラスタ構成により、障害時も24 時間365日の確実なデータ保管を実現 240nodes/クラスタ(1,000nodes超/全クラスタ) の超大規模な並列分散処理環境により高速 処理を実現 【参考:処理時間】 15TBのログ全件検索と50GBのログマッチング:40分技術的ポイント
100nodes以下でも、パラメタ設計な
どは独特の技術やノウハウが必要
100nodesを超えると、システム設計
にまで及ぶ課題やノウハウが出現
当日スライド
公開情報
セキュリティ事故防止のため、インターネット 接続先サイトの規制を行っているが、各種の 見直しをしたい - ネット情報利用の重要性・利便性と セキュリティ規制のバランス確保 - 運用部門と実利用部門のコスト低減
Hadoopの活用事例 ~個別事例③~
4.8
4. Hadoop動向と活用事例
日立社内活用例
背景 対応 利用状況を分析し、規制解除の自動化、適正な 判断をスピーディに実現 【利用者部門】 情報量増加による業務効率改善 規制解除などの事務作業低減 【運用部門】 自動化による人為的ミス解消 規制解除に関する各種事務作業の低減 分析データを利用した、情報漏洩事故やコンプラ イアンス違反の検知・予兆の実現 膨大なデータに含まれる、様々なノイズを Hadoopで高速にクレンジングすることで、分析 精度を向上 膨大なデータ蓄積・集計基盤としてHadoopを 活用 【参考:処理時間】 数十台のWebサーバのアクセスログ 1週間分を 蓄積 集計 分析 見直し 分析 状況 収集 サイト 利用Hadoopの活用事例 ~その他~
4.9
4. Hadoop動向と活用事例
Cloudera Manager関連
Hadoopクラスタの新規構築・スケールアウト、運用で非常に便利
長時間画面を眺めての作業、1台1台の作業から解放されます
環境設定・変更でのヒューマンエラーを最小限にできます
Cloudera Managerだけが補完する機能(*1)も見逃せない
*1…安全バルブと呼ばれるXXX
GUIでの操作・確認は使い手を選びません
使いこなすにはコツが必要
機能追加・改善ペースが速いです
できる事が多い分、パラメタも多く、リソース設計も必要です
要メンテ
日立ソリューションズの技術
多くのCloudera Manager利用実績・経験
Cloudera Manager V4.xの全パラメタxxx個を調べ、実運用で活用
Enterprise版でのリソースを加味したシステム設計が可能
当日スライド
公開情報
Hadoopを利用したバッチ処理高速化
4.10
4. Hadoop動向と活用事例
ノーチラス・テクノロジーズ社「Asakusa Framework」によるバッチ高速化
Asakusa Frameworkは、ノーチラス・テクノロジーズ社が開発するオープンソースで、
Hadoopを利用したバッチ開発向けの「開発フレームワーク」
バッチ処理に特化した機能・ツールが一体となり、バッチ開発の敷居を下げ、
開発効率を容易に向上可能
データモデル設計/データ・処理フロー設計/RDB連携ツール
バッチ処理向けの各種テンプレート、テスト支援ツール
等
日立ソリューションズでは、
2013年3月にノーチラス・テクノロジーズ社と販売代理店契約を締結。
<Asakusa Frameworkの位置付け>
業務バッチ向け AsakusaFW バッチ開発 フレームワーク Hadoopコア 統計・分析向け Hive SQL系 スクリプト系Pig MapReduce(並列実行FW) Hadoop基盤活用で、I/O分 散や並列処理を実現 複雑なMapReduceをJava でフル開発をせず業務 バッチ実装が可能Asakusa Framework概要
4.11
4. Hadoop動向と活用事例
Asakusa Frameworkの機能と特長
現バッチサーバ上の特定の長時間ジョブを短時間化する事に最適
バッチシステム刷新に比べ低コスト、最小限の影響範囲で導入可
並列処理可能なバッチ、且つRDBMSでI/Oネックの場合に効果大
Hadoopの理解、複雑なMapReduce開発が不要
<Asakusa FW利用時の一般的システム構成例> 【Hadoop】 【Hadoop】 Masterノード AsakusaFW [実行エンジン] バッチ実行サーバ 処理対象 テーブル RDBMS 処理結果 テーブル ③ジョブ起動 ②AsakusaFWが DBの対象データ取得、 Hadoop上へ分散格納 ①バッチ実行 【Hadoop】 【Hadoop】 Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] ⑤結果格納 ④並列ジョブ起動Asakusa Frameworkの活用事例
4.12
4. Hadoop動向と活用事例
小売業での活用事例①
売価還元法 個別原価法 法対応(IFRS)Keywords
従来システムは売価還元法の為、日毎/商品毎の利益算出困難
⇒ 個別原価法での日次処理は、計算量1,000倍超であり
スケールアップ対処が困難
一方で、各種法対応の必須の課題
⇒ 低コスト(HW, SW, 開発費)、早期導入の必要性
100~500GB 50店舗超 1万超の商品 3千超の仕入先規模
商品グループ単位の月次原価管理、個別単品単位での
日次原価計算(個別原価法)を実現
利益状況をリアルタイムに可視化でき、経営判断スピードが向上
Asakusa Framework利用による開発効率とコストの確保
製造・卸販売での活用事例②
原価計算 クラウド基盤Keywords
経済状況・市況により変動が大きくなった仕入先/仕入額の影響
で、従来の一部商品での原価計算ではリスク大
⇒ 全商品のアクチュアル原価算出は時間も、コスト面も困難
5~10GB規模
毎日4時間の原価計算は20分に短縮
長時間ジョブの切り離しで既存DBサーバの負荷軽減
実行はAmazonWebServiceの20分利用(コストはオンプレの1/10)
当日スライド
公開情報
Asakusa Frameworkの活用事例
4.13
4. Hadoop動向と活用事例
九州電力殿での検証開始
基幹系バッチ 料金計算Keywords
スマートメーター導入に伴い、検針データが大幅増加するため、
大量データ、高速なバッチ処理が必要
⇒ 検針データが1,440倍(1回/月⇒1回/30分)
スケールアウトが容易なデータストアと分散バッチ処理の必要性
九州電力殿で事前評価(2010~2012年)
九州電力殿、日立、ノーチラス・テクノロジーズ社で、
協同検証を2012.12より開始。
AsakusaFWの学習時間を含めても、開発工数が1/2以下で高効率
4億レコード(37GB)を対象とした処理検証で高速化可能を確認
OracleDB
1台
123時間
Hadoop 5台
21時間
当日スライド
公開情報
Contents
1.はじめに
2.市場動向と近況
3.ビッグデータ事業への取り組み
4.Hadoop動向と活用事例
5.まとめ
日立ソリューションズの製品・ソリューション紹介
5.1
5. まとめ ビッグデータ 利活用の カテゴリ マシンビッグデータ (モノの稼動情報データ) ロケーションビッグデータ (位置情報/空間情報データ) マーケットビッグデータ (リアルな市場データ) スマートインフラビッグデータ (生活/社会インフラデータ) 情報制御連携環境提供 空間情報データ解析のクラウドサービス、 ロケーションデータ解析サービス ヒト・モノ・カネを最適化するサービス センサーデータ解析サービス、 ログ解析による予兆検知 ビッグデータ 利活用の 共通プラット フォーム提供 データ分析ツール/ノウハウのご提供 ⇒Business Objects、CoreExplorer、 SPSS、QlickView、Dr.Sum 他 導入支援 分析ツール提供、 データ分析サービス提供 ビッグデータ利用基盤提供 データ・アナリティクス・マイスター活動 ⇒ビジョン構築~活用シナリオ策定~実用化 検証等、お客様のデータ利活用推進を支援 大量データ分散処理環境のご提供 ソリュー ション ソリュー ション
日立ソリューションズとして以下の2つの観点でビジネスを創出
データの分析/利活用による新たな(経済的)価値を創出
大量データ処理/高速処理を実現し、これまで対応できなかった顧客課題
を解決するソリューションを提供
日立ビッグデータソリューションカタログ(抜粋)
5.2
Hadoop関連ソリューションの紹介
5.3
5. まとめ