オープンソース「超」入門
株式会社 日立ソリューションズ
オープンソース技術開発センタ
2013/08/02
自己紹介
【経歴】
入社当時は、金融端末のソフトウェア開発に従事。
2000年頃より、Linux/OSSのビジネス開発を担当。
2012年より、オープンソース技術開発センタ センタ長
【現在の業務】
OSSを活用するビジネスのための支援
• 新しい技術/OSSの発掘・評価検証
• ビジネス・ソリューションの立ち上げ支援
• 現在特にフォーカスしている領域
【社外活動】
OSSコンソーシアム 副会長 兼 クラウド部会リーダ
オープンソースビジネス推進協議会(OBCI)理事(セミナー担当)
Linux Foundation SI Forum リーダ
他
クラウド
クラウドの運用自動化 (CloudStack, OpenStack, …) 仮想デスクトップ (VERDE, RHEV-D ,…)業務バッチ処理基盤
既存COBOL資産の活用 (OpenCOBOL)目次
1. オープンソース(OSS)とは?
2. オープンソースの状況
1. オープンソース(OSS)とは?
1. 自由な再頒布が出来ること
2. ソースコードを入手できること
3. 派生物が存在でき、派生物に同じライセンスを適用できること
4. 差分情報の配布を認める場合には、同一性の保持を要求してもかまわない
5. 個人やグループを差別しないこと
6. 適用領域に対する差別をしないこと
7. 再配布において追加ライセンスを必要としないこと
8. 特定製品に依存しないこと
9. 同じ媒体で配布される他のソフトウェアを制限しないこと
10.技術的な中立を保っていること
■ OSI(※1)が定めるオープンソースの定義
※1・・Open Source Intiative(オープンソース文化の啓蒙を目的に設立された国際NPO法人)
ポイント
・ オープンソース ≠ 著作権を放棄されたソフトウェア
・ ソースコードがインターネット等で公開されている
ソースコードを公開し、世界中の技術者が同じソフトウェアの開発に
取り組むことで、機能・品質を継続的に向上していくことができる
1-3 オープンソースの目的
■ なぜ、ソースコードを公開するのか?
ポイント
オープンソースの目的はソフトウェアの機能・品質の向上
世界中の利用者達
世界中の開発者達
改良
公開
フィードバック
品質向上
オープンソース
機能向上
統合ベンダ
ユ
ー
ザ
開発コミュニティ
Linuxカーネル
ドライバ
GNUソフト
ライブラリ
コマンド
アプリケーション
ソフトウェア
(ApacheなどのOSS)
ディストリビュータ
デ
ィ
ス
ト
リ
ビ
ュ
ー
シ
ョ
ン
イ
ン
ス
ト
ー
ラ
他
非Linuxマシン
日本語フォント/
オフィススイート等の
商用ソフトウェア
運用管理ソフト等の
商用ソフトウェア
ISV
動作確認済み
商用ソフトウェア
PFベンダ
ハ
ー
ド
ウ
ェ
ア
動
作
確
認
済
み
マ
シ
ン
SIer
業
務
ア
プ
リ
構
築
シ
ス
テ
ム
■ 関連組織・団体の全体像
1-4 オープンソース関連組織・団体の全体像(2)
(出典:日本OSS推進フォーラム「オープンソースソフトウェアが開発コミュニティからユーザに届くまでの仕組み」より作業役割(例)
①
②
③
④
⑤
ディストリビュー
ションの作成
ユーザ ディストリ ビュータ ディストリ ビュータ ディストリ ビュータ ディストリ ビュータターゲットマシン
へのインストール
ユーザ ユーザ PFベンダ (ディストリ ビュータ) PFベンダ (SIer) 総合ベンダターゲットマシン
での動作確認
ユーザ ユーザ ユーザ PFベンダ (SIer) 総合ベンダ様々な機器やソ
フトウェアを利用
したシステムの提
案
ユーザ ユーザ ユーザ SIer 総合ベンダシステム構築・
評価
ユーザ ユーザ ユーザ SIer 総合ベンダ運用時の問題切
り分け等
ユーザ ユーザ ユーザ SIer (ユーザ) 総合ベンダ (ユーザ)① ② ③ ④
⑤
開発コミュニティ/開発企業
ユーザ
総
合
ベ
ン
ダ
SIer
PFベンダ
ディストリビュータ
ポイント
ユーザが自己責任の範囲を選択することが可能
■ 開発コミュニティ以外によるサポート提供形態
「オープンソース・コミュニティ」
一般的な「コミュニティ」は、「共同体、集団、地域社会」
特定のオープンソース・ソフトウェアの開発や普及活動を行うことを目的と
した、人々の集まり
開発コミュニティ
– オープンソースを開発するコミュニティ
(例)Seasarプロジェクト、Ruby開発コミュニティ
– 企業がコミュニティを主導する場合もある
(例)MySQL(Oracle)、JBoss(RedHat)
ユーザーコミュニティ
– オープンソースを利用するにあたり、情報交換を行ったり、日本
語ドキュメントの作成を行ったりするコミュニティ
(例)日本JBossユーザ・グループ、日本MySQLユーザ会、
日本PostgreSQLユーザ会、日本JasperServerユーザ会
1-6 オープンソースは大丈夫?
オープンソースは品質が悪い?
誤解です。
むしろ、商用製品よりも品質が高いケースもあります。
大規模システムへの導入実績も豊富です。
オープンソースは実は高い?
誤解です。
利用ノウハウがない場合は、有償サポートサービスを活用することで、リスクを低減
しつつ、確実にソフトウェアコストを削減できます。
オープンソースを扱えるエンジニアがいない?
誤解です。
商用製品を扱えるエンジニアであれば、オープンソースも簡単に扱えます。
ソースコードレベルのサポートは、有償サポートサービスのご利用をお勧めします。
オープンソースは自己責任?
様々な有償サポートサービスがあります。有効に活用しましょう!
■ オープンソースの3つ(+1)の誤解
2-1 国内市場動向
国内ソフトウェア市場動向
・ 2010年の国内ソフトウェア市場は2兆1,337億2,300万円。売上額1位はマイクロソフト(シェア
18.3%)、2位は富士通(10.0%)、IBMと日立が同率3位(6.9%)
・ 2011年の国内ソフトウェア市場は2兆1,235億800万円、
前年比成長率マイナス0.5%
。
2011年5月時点の予測から7.6ポイント上方修正
・ 公共/教育向けやメインフレーム向けで震災の影響を強く受けるも、事業継続面からのインフラ
補強や企業のグローバル対応の加速が成長材料
・ 2010年~2015年の年平均成長率は2.5%、2015年市場規模は2兆4,168億9,700万円と予測。
2013年には2008年時ピークの2兆2,572億8,000万円を超える見込み
国内オープンソースソフトウェア利用実態
・ ユーザー企業におけるオープンソースソフトウェア(OSS)の最大メリットは
コスト削減
・ ソリューションプロバイダーの30%以上は
OSSプロジェクトが増加
傾向
・ OSSの使用実績の多さが
ITビジネス売上高の増加
に繋がっている
・
サポートに対する懸念やエンジニア不足
の課題を業界挙げて解決していくことが必要
出典:IDC「国内オープンソースソフトウェア利用実態調査結果」 出典:IDC「国内ソフトウェア市場動向および予測」Linux Foundation SI Forumが実施した
2012年度オープンソースソフトウェア導入実績調査から
① 調査概要
調査期間:2013/5 ~ 2013/6
調査対象期間:2012年度(2012/4~2013/3)
参加企業(8社) :
•
株式会社日立製作所(日立Grは、日立で纏めて回答)
•
株式会社アシスト
•
日本電気株式会社/NECソフト株式会社
•
日本電信電話株式会社/株式会社NTTデータ
•
デル株式会社
•
東芝ソリューション株式会社
•
日本ヒューレット・パッカード株式会社
•
富士通株式会社/株式会社PFU
2-2 OSS導入実績調査(3)
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
仮想化・クラウド系の
ツール活用の本格化
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)
DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
分散ファイルシステム、
オブジェクトストレージ
の分野で事例が。
2-2 OSS導入実績調査(3)
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
クラウドとの親和性が
高いツールが活用
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)
DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
業務領域での活用も
進む
2-2 OSS導入実績調査(3)
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
DB領域の動きが激しい。
MariaDB,MongoDBの躍進
分類 導入実績多数 (4社以上) 導入実績あり (2社~3社) 仮想化、クラウド Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula ファイル DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS Samba 管理、運用 analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios 業務アプリ JBoss jBPM Asakusa MosP SugarCRM 分類 導入実績多数 (4社以上) 導入実績あり (2社~3社)
DB,関連ツール Apache Hadoop Apache Derby Berkley DB infiniDB Community
Edition Firebird Dbunit HBase EclipseJDO iBATIS MariaDB memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query
Browser SQLite pgAdmin
phpMyAdmin phpPgAdmin その他 Apache Lucene Jubatus
Apache Solr Ludia Namazu Rabbit MQ OpenPNE
ビッグデータ領域での
検索系も活発に
(*)代表的なOSSの一覧
カテゴリ
OSS
OS
Linux、FedoraCore、CentOS、Android、openSUSE、Debian
仮想化
KVM、Xen
ネットワーク
DHCP、Asterisk、OpenSSH、OpenSSL、Squid、BIND
セキュリティ
FreeRADIUS、OpenSSH、OpenSSL
ファイルサーバ
Samba、NFS、WebDAV、Samba SWAT
運用、管理
Hinemos、MRTG、OpenLDAP、OpenSSO、Zabbix
開発、テスト
Hibernate、Perl、PHP、RubyStruts、eXo Platform
DB、関連ツール
Apache DB、OpenOLAP、MySQLPostgreSQL
Web、APサーバ
Apache、Jboss、Tomcat、zimbra、eXo Platform
Desktop
Firefox、openoffice.org、Thunderbird
代表的なOSSの一覧
OSSはたくさんの種類があり、上記は代表的なOSSの一部。
Linuxの普及促進団体であるThe Linux Foudationが、安心して活用できるオープンソースソフト
ウェアとして、現時点で選別しているものだけでも約400種類存在。
Apache Ant
Python
Dbunit
PukiWiki
Apatche
Samba
Eclipse WTP
qmail
BIND
Squid
fml
qpopper
CentOS
Apache Struts
GanttProject
RRDTool
CVS
Subversion
gimp
Seasar (S2DAO)
Eclipse
Apache Tomcat
Hibernate
Selenium
FedoraCore
Trac
Apache Jakarta
sendmail
Firefox
vsftpd
Apache Log4J
SQLite
Apache JMeter
Xen
MRTG
swatch
MySQL
rsync
MySQL
Administrator
Thunderbird
OpenLDAP
ab (apacheBench)
Nagios
Tortoise SVN
OpenSSH
analog
Namazu
Ubuntu
OpenSSL
Apache XML
NET-SNMP
Ultra Monkey
Perl
bonnie
Openoffice.org
VNC
PHP
Bugzilla
OpenOLAP
webmin
Postfix
CACTI
OpenPNE
WIRESHARK
PostgreSQL
Courier-IMAP
pgAdmin III
Xoops
2-3 オープンソースの利用状況
■ 各業界の「トップ企業グループ」での利用状況
業種
利用しているオープンソース
大手銀行、地銀、信用金庫
Tomcat / JBoss 他
大手証券会社
JBoss / MySQL 他
大手自動車メーカー
PostgreSQL 他
大手自動車部品メーカー
Apache / Tomcat / JBoss / OpenAM / Liferay 他
大手電子機器メーカー
Tomcat / JBoss / MySQL / OpenAM / Liferay 他
大手家電メーカー
Tomcat / Subversion / OpenAM 他
大手化学メーカー
Tomcat / PostgreSQL 他
通信会社
Tomcat / JBoss / OpenLDAP 他
電力会社、電力会社グループ企業
JBoss / PostgreSQL / OpenAM / Liferay 他
大手流通業
Apace / JBoss / Liferay 他
大手商社
JBoss / MySQL 他
大手メディア企業
JBoss / MySQL 他
大手システムインテグレーター
各種OSS 事例多数
■ OSからミドルウェア、業務アプリケーションの領域へ
オペレーティングシステム Linux Webサーバー Apache アプリケーションサーバー Tomcat / JBossAS データベース MySQL / PostgreSQL シングルサインオン OpenSSO ポータル Liferay Bi Jaspersoft CRM SugarCRM ERP Compiere / ERP5 オフィススイート OpenOffice スマートフォン用 プラットフォーム Androidアプリケーション
領域
ミドルウェア領域
オペレーティング
システム
サーバ領域
端末領域
情報家電向けLinux1.ビッグデータ時代の到来
1.1. 大容量化・多様化するデータ
1.2. 未活用情報に眠る価値
ビッグデータの市場動向
国内ビッグデータ技術/サービス市場は黎明期、今後の成長率も高い
ビッグデータの認知度、実活用メリットや手法の理解はまだまだ低い
ビッグデータ市場規模
2011年度
1,900 億円
2020年度
1 兆円
(億円)CAGR 21.0%
(2011年~2020年)
出典:矢野経済研究所 ビッグデータ市場に関する調査結果2012動向調査
認知度
ビッグデータ活用
の検討
ビッグデータ活用
ITシステム導入済
国内企業1,050社
情報システム部門 56.8 %
業務部門 31.1 %
13.6 %
2.6 %
出典:IDC Japan 2012年 国内ビッグデータテクノロジー/サービス市場 需要動向分析2.2 ビッグデータの定義・特徴
2. 市場動向と近況
ビッグデータの定義と特徴
Volume (容量):
従来の技術による処理量を超えた
大容量データ
Variety (種類):
画像/音声/ログなど非構造化データ
Velocity (頻度・スピード):
データ生成/分析の高速化、リアルタイム化
Value (価値):
分析&利活用で経済的価値が発生
ビッグデータの特徴
【データ容量の増加】 【データ種類の多様化】 定型データ 構造化データ 画像/映像データ 非固定長データ 固定長データ 【データ発生頻度・ スピードの高速化】 非構造化データ 手入力データ 定期発生データ センサデータ 【価値】 データ分析から 発見、創出
ビッグデータの課題的特徴
プライバシーなどのコンプライアンス:
各種情報の組合せによって、個人特定などが可能な情報が生成される
分析データの取り扱い:
データ分析する際に、利用するデータは自社データのみでない事も多い
また、分析されたデータをマネタイズするのは自社のみではない事もある
1.1. 大容量化・多様化するデータ
1.2. 未活用情報に眠る価値
◎大規模非構造データ対応の分散処理フレームワーク
- Hadoop (
HDFS/HBase/Pig/Hive 等)
- 日立グリッドバッチ (
uCosminexus Grid Processing Server)
◎NoSQLデータベース
Key-value-Store、ドキュメント/カラム/グラフ型指向
データ量
組み込み SQLバッチ 処理 蓄積検索 (OLTP) 処理 XML 検索 処理 リアルタイム 処理 文書、メール、 非定形データ 蓄積・分析処理 画像 検索 処理 データ 収集・分析 処理 バッチ 処理RDB
(SQL)
RDB
画像, 地図,
XML検索
RDB
クラスタ
DWH,
BI,
ETL
ストリーム
データ処理
(uCosminexus Stream Data Platform)COBO
L
バッチ
並列
DB
(SQL)
データ蓄積
や
文字列分析
分散コンピューティング
技術の適用領域
ストリームデータ
処理技術の領域
1.3.1 ビッグデータをささえる新技術と従来技術の関係
大量データの分析のための、分散コンピューティング技術やストリームデータ
処理技術が新領域として出現
1.3. ビッグデータを活用するテクノロジー
多様化するニーズを網羅する日立の技術と適用分類
継続的に流れるデータを瞬時に
分析・ 処理
基幹でも対応できる高い可用性、
障害の局所化
大量の処理依頼に対するリアル
タイムレスポンス
基幹バッチを高速化・大容量化
をしたい
既存のバッチを高速化したい
バッチ処理の大幅な時間短縮
Hadoop
(オープンソース)
膨大なデータを分析したい
OSSを活用し、安価な分析シス
テムを作りたい
ログデータ等の非構造化データ
の高速な分析
OSSで構成しライセンス料安い
グリッドバッチ
(uCosminexus Grid
Processing Server)
ストリームデータ処理
(uCosminexus Stream
Data Platform)
ニーズ
技術・製品
特徴
情報系
基幹系
リアルタイム処理
バッチ処理
ストリーム
データ
処理
グリッドバッチ
Hadoop
2.Hadoopとパラダイムシフト
2.1 Apache™ Hadoop™概要
米Google社の大規模計算技術を基にオープンソース化(Apache)
大量データを効率的に分散処理するためのJavaソフトウェア基盤
サーバを大量に並べ、並列処理を行うことで高速計算や
スケールアウトの容易性を実現
国内外の多くの企業が積極的に利用
とは
スケールアウトにより高速化
大規模データ分析の 従来の課題: (1)時間内で計算する (2) 並列処理の枠組み(3)データの可用性向上 (Hadoop Distributed FileSystem) HDFS Hadoop MapReduce
GFS
( Google File System ) Google MapReduce 米Yahoo! :世界最大規模でHadoopを利用 (25,000台、82PBデータ、3年分のログ分析を20分で処理) Facebook :巨大ストレージと分析基盤に利用 (36PBのデータ保存、1日約90TBのデータ処理) VISA :不正カード利用分析実施 (340TBの分析が1ヵ月から13分に短縮) JP Morgan :拡張可能ストレージと分析基盤に利用 (RDMSの費用削減) 楽天 :会員向けレコメンデーションに利用 (4,000万会員、2億件の分析が5日間から5時間に短縮)
HDFS(Hadoop Distributed File System)
⇒ 複数のサーバのHDDを1つの巨大なボリュームに見せる分散ファイルシステム
MapReduce
⇒ 複数のマシンでの並列処理を実現するフレームワーク
2.1 Apache™ Hadoop™概要
Hadoopの主なソフトウェアコンポーネント
2.1.2 HDFS, MapReduceの構成
従来の処理方式
Hadoopの処理方式
データ
処理結果
処理プログラム
データを自動的
に分割し、
分散配置を行う
マスター
サーバ
HDFS
Map
Reduce
Map
Reduce
Map
Reduce
処理結果
並列分散処理を
行うプログラム
データ
ディスク
I/Oが
ボトル
ネックと
なる
ディスクI/O
が分散される
複数のサーバで 1つの論理FSを 構成大量データを全件走査するバッチ処理
数値に加え、文字列の処理や、マルチメディア処理まで対応可能
テラバイト/ペタバイト クラスの大量データの分析処理
大量データの情報系システム(レポート業務が基幹業務の場合は除く)
データ量が増大するシステム(サーバ追加でスケールアウト可能)
大量データから価値情報を見つけるBI的な使い方(Hive/Pigの利用)
小さいサイズ/件数のデータ処理(実行する前処理のオーバーヘッドがある)
トランザクション処理(RDBのようなトランザクション処理機能はない)
データを分割し個々処理した場合に結果が同じにならない分析処理
データへランダムアクセスする処理
リアルタイム処理やクイックレスポンスが求められるもの
基幹システムや情報系システムの信頼性を求められるバッチ
データ規模だけでなく、システム要件/業務要件も考慮が必要
◎ Hadoopに適しているもの
× Hadoopに適さないもの
2.Hadoopとパラダイムシフト
2.1 Apache™ Hadoop™概要
●エンタープライズ向け サーバ、ストレージ
■高価なシステム
大量データの取り扱いには、高価な
システム環境構築が必須
■高度な技術
専用ソフトウェアと高度な分析手法
などスペシャリストが必須
エンタープライズ向け 専用ソフトウェアハードウェア
ソフトウェア
汎用ソフトウェア オープンソース ソフトウェア従来
Hadoopにより、これまで敷居の高かった大量データの分析が
どこでも、誰でも、どんな規模からでも実現可能になります
●ミッドレンジ向け サーバ、ストレージ ●コモディティサーバ、 ストレージ 商用ソフトウェアCPUやHDDの性能が飛躍的に
向上し、高機能なPCが廉価で
容易に手に入れられる時代
OSS利用のノウハウの高まりに
よって、敬遠傾向から、積極的
な活用傾向へ転換している
■コモディティ化システム
高価な機器、大規模な設備が無くと
も、PB級のデータが取り扱える
■オープンでグローバルな技術
世界中の誰でも入手、利用できる技
術やノウハウで、高度な分析も大量
データの取り扱いも可能
Hadoopによる
パラダイムシフト
6時間間隔
情報配信より大量なデータを対象に…
Hadoopを利用することで、より大量なデータを短時間で
処理可能となり、新しい価値が生まれます
15分間隔12時間
レポート作成 処理2.2 Hadoopがもたらすパラダイムシフト
2.2.2 Hadoop利用により得られる価値
よりリアルタイムに…
より多様なデータを対象に…
BtoC/ネット、センサ等の
社外情報への利用拡大
分析対象データ
範囲の拡大
1年分
10年分
グラフ
動画
文書
メール
月次⇒日次作成へ社外
社内
30分
1日4回配信⇒ 15分おきの配信へRDB
SNS情報 Web公開 情報 センサ 情報
Hadoopの利用機能と利用シーン(ニーズ)の変化
HDFS
MapReduce
Hadoopコアコンポーネント
+
スケールアウト可能な分散ファイルシ
ステム(HDFS)と、
並列処理実行(MapReduce)による
トライアル的な利用中心
並列処理を容易に操作する為、
一部の関連プロジェクトの利用
Hive
Pig
一部のHadoop関連プロジェクト
HDFS
MapReduce
Hadoopコアコンポーネント
+
Hive
Pig
各種Hadoop関連プロジェクト
Flume
Sqoop
HBase
Zookeeper
・
・
・
変化
実データ分析による、ビジネス活用の
開始
データ収集や視覚化などのシステム
設計を含めた各種プロジェクト利用
実運用レベルでの活用に向けた、信
頼性・可用性設計
4.3 Cloudera社のCDH/Cloudera Enterprise
4. Hadoop動向と活用事例
Cloudera社について
Apache Hadoopの商用ディストリビューションを開発・提供している企業
Hadoopの開発者 Doug CuttingがCloudera社のチーフアーキテクト
Hadoopビジネスで最も有名な企業であり、
Cloudera社のCDHやCloudera Enterpriseは世界中で最も多く利用されている
日立ソリューションズでは、
2012年10月にCloudera株式会社と販売代理店契約を締結。
CLOUDERA ENTERPRISE
THE PLATFORM FOR BIG DATA
管理ソフトウェア
&サポート
Cloudera
Manager
Cloudera
Support
CDH
CDH
(Cloudera's Distribution including Apache Hadoop)
OSS
100% Open Source
HBase MapReduce MapReduce2
Hive Pig Impala ZooKeeper Flume Sqoop Oozie Hue Mahout Whirr HDFS ClouderaEnterprise(Core) ClouderaEnterprise(RTD) ClouderaEnterprise(RTQ)
進化が続くHadoop(CDH/Cloudera Enterprise)の動向
CDH3
2011年4月~
単一障害点(SPOF)の解決
次世代フレームワーク
MapReduce2(YARN)の搭載
フェデレーションサポートでよ
り大規模化に対応
進化
CDH4
2012年6月~
進化
CDH5
2013年6月頃登場 (?!)
進化
リアルタイムクエリ「Impala」
の搭載
HA機能の強化・完全化
セキュリティ強化 等
※予定情報
Cloudera
Manager 3
Cloudera
Manager 4
高度な運用管理、システム監視
機能のサポート
システム一元管理機能の強化と
容易性向上
ダウンロード数
[CDH]
8,000超/月
[Cloudera Manger]
4,000超/月
更なる関連
プロジェクト追加
や品質向上 等
4.5 Hadoopの活用事例 ~利用者共通の目的~
4. Hadoop動向と活用事例
Hadoop基礎機能の利活用
大量データを利用可能なフレームワークへの期待
ペタバイト級データを実際に利活用しているメジャー企業の実績
数千ノードまで拡張可能なスケールアウト性
ハードウェア・ソフトウェアとの高い親和性
多種H/Wでの稼働実績、多様なS/Wとの接続性
OSSとしてのHadoopの魅力
グローバルで利活用可能な共通基盤としての期待
世界の何処でも共通基盤化できる(グローバル展開・ディザスタリカバリ等)
世界の誰もが開発・保守できる (維持保守の低コスト化 等)
オープンソースに対する意識の変革
品揃え・機能の充実、品質の高まりに対する認知度向上
事例・問題解決・各種ノウハウが多く、容易に入手可能
スケールアウトで
大容量化&高速化
金融機関での事例
サイトのアクセス統計は取得し
ているが、実操作の動線や離
脱状況・理由が把握できない
現システムに手を加えず(
ログ強化やビーコン埋込み等)、
データ分析で、効果あるサー
ビス施策やサイト改修をしたい
背景
対応
今後
ユーザ操作の実動線とパターン、
離脱箇所や滞在時間を可視化
非定型ログをHadoopで全走査でクレンジングし、
ユーザ毎の操作をレコード生成。
実動線レコードとは別に、動線のパターン化、
離脱箇所特定、画面毎の滞在時間を算出し、
WEBアプリからアクセス可能なHBaseに格納。
分析した事実情報を二次分
析し新たな
知見発掘へ
- 他データとの相関分析
- 機械学習などの数理分析
ログ収集などの安全、且つ
確実な自動化
- Flume(CDH)の利用
即時利用・結果取得可能な
アドホック分析の実現
- Imapala(CDH)の利用
日立ソリューションズの技術
金融機関の「最高レベルの機密デー
タ」を保持する高機密度システム構築
高可用・高信頼システムの構築
A
B
C
X
Y Z
D
正常系
●パターン①
●パターン②
20user[25%] 10user[12%]離脱系
●パターン③ ●パターン④
80user 40user 45user
12user
15user 15user
23sec 10sec 52sec
11sec
9sec
通信機器からの大量ログを長期間確実に
保持したい
- 毎時250GBを4ヵ月
保管した大量ログの検索・マッチングを高速
に実施したい
- 最大1PBytes
4.7 Hadoopの活用事例 ~個別事例②~
4. Hadoop動向と活用事例
通信事業での事例
背景
対応
日立ソリューションズの技術
Hadoopを多クラスタ構成で構築、運用
JP1を利用したジョブ制御、稼働監視
などの運用管理
国内トップクラスの大規模クラスタ構築
Hadoopを大規模ストレージとして利用し
データの冗長性を担保
Hadoopの多クラスタ構成により、障害時も24
時間365日の確実なデータ保管を実現
240nodes/クラスタ(1,000nodes超/全クラスタ)
の超大規模な並列分散処理環境により高速
処理を実現
【参考:処理時間】
15TBのログ全件検索と50GBのログマッチング:40分
技術的ポイント
100nodes以下でも、パラメタ設計な
どは独特の技術やノウハウが必要
100nodesを超えると、システム設計
にまで及ぶ課題やノウハウが出現
オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved.