© 2001-2010 Skyarch Networks Inc. All rights reserved.
2010/11/30 System Management Forum 2010 Autumn
Hadoop が切り拓く
企業のデータ活用
代表取締役社長 江戸達博
株式会社スカイアーチネットワークス
アジェンダ
1. 注目の技術Hadoop 2. Hadoopの魅力
–
株式会社リッテル–
取締役最高技術責任者 清田陽司3. Hadoopサービスのご紹介
© 2001-2010 Skyarch Networks Inc. All rights reserved.
自己紹介
氏名 江戸 達博 (えど たつひろ)
役職 (株)スカイアーチネットワークス 代表取締役社長
生年月日 1976年1月16日(34歳) twitter @kururimoge
趣味 子育て、旅行、スポーツ
経歴 1998年、大学卒業後、SIer企業に入社 営業、技術、サービス企画などの職を経験 2001年、スカイアーチネットワークス設立
© 2001-2010 Skyarch Networks Inc. All rights reserved.
© 2001-2010 Skyarch Networks Inc. All rights reserved.
会社
概要
会社概要
社名 所在地 設立 代表 社員数 資格
株式会社スカイアーチネットワークス
(英文社名:
Skyarch Networks Inc.
)港区南麻布4-11-21ラウンドクロス南麻布4F 2001年7月12日
代表取締役社長 江戸達博 56名
ISO/IEC 20000 ISO/IEC 27001 プライバシーマーク
マイクロソフト認定パートナー
© 2001-2010 Skyarch Networks Inc. All rights reserved.
事業内容
クラウド ホスティング
フルマネージド サービス 他社提供
レンタルサーバー ハウジング
■ データセンター運用代行
環境設備:お客様用意
■ レンタルサーバー運用代行
環境設備:お客様用意
■ クラウド運用代行
環境設備:お客様用意
■ フルマネージド・ホスティング
環境設備:スカイアーチネットワークス
© 2001-2010 Skyarch Networks Inc. All rights reserved.
サポート範囲
クラウド(IaaS) クラウド運用代行
コアビジネス
ビジネスプロセス
コンテンツプロバイダー コンテンツプロバイダー コンテンツ
インフラ
アプリケーション
コンテンツプロバイダー
(プログラマーが兼任など)
ミドルウェア
スカイアーチ OS
ハードウェア
クラウド事業者 クラウド事業者 ネットワーク
データセンター
最も注力 したい部分
© 2001-2010 Skyarch Networks Inc. All rights reserved.
運用実績
z
取引社数150社z
ウェブサービス系z
基幹系株式会社講談社 株式会社博報堂
株式会社スクウェア・エニックス 株式会社トーセ
–
ECサイト–
オンラインゲーム–
待ち受け画像–
占い–
動画・メール配信–
着メロ/着うた–
デコメール–
キャンペーンサイト–
予約システム–
ブログ–
SNS–
コーポレートサイト–
グループウェア–
情報ポータルサイト–
予約システム 等–
Active Directory–
Log–
Internet Information Services–
DHCP–
DNS–
ファイルサービス–
セキュリティ制御–
運用管理サービス 等© 2001-2010 Skyarch Networks Inc. All rights reserved.
注目の技術
Hadoop
肥大化する企業データ
z
企業のデータの増加率は、年間「約57%」×1.5
×1.5
×1.5
時間 データ容量
バッチ処理の時間は長くなるばかり
…
この大量のログを活用できないのかなぁ
…
[引用]IDC Japan Directions 2007 Tokyo
© 2001-2010 Skyarch Networks Inc. All rights reserved.
世界が「Hadoop」に注目!
z
分散処理技術「Hadoop」z
検索数が上昇[引用]Google トレンド: hadoop(2010/11/29時点)
© 2001-2010 Skyarch Networks Inc. All rights reserved.
–サイト概要
•915万人/月のユーザーが利用
•30代女性の3人に1人 –処理
•検索データを地域別、週別、月別で見れる
劇的な効果!
z
[処理時間]7,000時間 30時間© 2001-2010 Skyarch Networks Inc. All rights reserved.
© 2001-2010 Skyarch Networks Inc. All rights reserved.
有名企業が続々採用!
z
「Hadoop」採用企業国内 海外
「What’s Hadoop?」
Hadoopのエキスパートに聞いてみましょう
z
[株式会社リッテル]–
東京大学 産学連携ベンチャー企業–
日本語で初めてHadoopセミナーを実施–
Hadoopに関する執筆記事多数z
最高技術責任者東京大学情報基盤センター 学術情報研究部門 特任講師 清田陽司 氏
© 2001-2010 Skyarch Networks Inc. All rights reserved.
Hadoopの魅力
Hadoop の魅力
株式会社リッテル 最高技術責任者 清田 陽司
( 兼 東京大学情報基盤センター 学術情報研究部門 特任講師 )
Twitter: @kiyota_yoji
System Management Forum 2010 Autumn
2010
年11
月30
日自己紹介
清田 陽司 ( きよた ようじ ) Twitter: @kiyota_yoji
2004
年 京都大学大学院情報学研究科博士課程修了 その後、東京大学情報基盤センターにて情報検索アプリケーションに関する研究に取り組む
2007
年より株式会社リッテルの設立に参画し、テキス トマイニング、インターネットサービス、図書館向け検 索サービスなどの研究開発に携わる2007
年頃より研究用途での大量データ処理にHadoop
を利用し、そのノウハウを生かした活動を行っているCopyright© 2010 Littel corporation. All Rights Reserved. 19 19 Copyright© 2010 Littel corporation. All Rights Reserved.
株式会社リッテル(http://www.littel.co.jp/)
■所在地 東京都文京区本郷7-3-1
東京大学アントレプレナープラザ405
■創立 2007年(平成19年)4月2日
■資本金 1億円
■役員 代表取締役会長 水谷治朗 代表取締役社長 和田憲治
専務取締役 中塚寛幸
取締役CTO 清田陽司
監査役 奥村眞吾
■取引銀行 三菱東京UFJ銀行本郷支店
■所属団体 (社)日本図書館協会
■主な取引先 東京大学・東京電機大学
同志社大学・東邦大学・郵便局
株式会社 電通・株式会社 野村総合研究所 NTTデータほか
Copyright© 2010 Littel corporation. All Rights Reserved. 19
会社概要
平成22年
東京都信用金庫協会 主催の
優良企業として表彰
Agenda
• What’s Hadoop
• Hadoop の使いどころ
– RDBMS
、分散KVS
との使い分け• 導入の壁
• 解決策
Hadoop とは
ファイルシステムと バッチ処理システムの
統合に価値がある!
分散ファイルシステム
分散バッチ処理システム
Hadoop が解決する課題 (1)
• HDD 転送速度
HDD
の容量増加>>
読み書き速度の増加• 2TBytes
の読み出しに数時間→大量の
HDD
を並べて処理• サーバ間のデータ共有
ストレージ
(NFS
やSAN)
がボトルネックになる→データは動かさず、処理プログラムをコピー
Hadoop が解決する課題 (2)
• 障害発生率
サーバの数が増えるほど障害発生率は上昇
• 1000
台のクラスタの障害発生率は?→ソフトウェア的に障害発生に対処する仕組み
Hadoop を理解するポイント
インフラとして理解する
• シンプルなインタフェース+複雑な中身
–
ブラックボックスとしてとらえる• なくてはならない存在
–
なぜ必要とされているかを理解する• 現実的な「割り切り」
–
○○という機能がない理由を理解するひねる
水が出る
水を捨てる 課金
蛇口
流し 請求書
ひねる
水が出る
水を捨てる 課金
蛇口
流し
請求書 メータ
検針 料金集計
システム
メータ 水道管 配水施設 浄水施設 取水施設
河川
ダム 水漏れの
防止
水質の管理 水位の管理 水圧の
コントロール
水利権の調整 渇水への対処 発電・治水との
調整など
インタフェース 中身
マン ホール
下水
管 沈砂池 沈殿池
河川 詰まりの防止
メンテナンス
除砂
汚泥処理
消毒施設
水質の管理
Hadoop
スレーブサーバ#N Hadoop
スレーブサーバ#2 Hadoop
スレーブサーバ#1
Hadoop
マスタサーバHDFS
API
Map Reduce
API
NameNode
デーモンJobTracker
デーモン
DataNode
デーモンTaskTracker
デーモン
子JVM map/reduce
子JVM map/reduce
HDFS
ストレージ ファイルの書き込み ファイルの 読み込み ファイルの 管理
(
複製、移動、削除、
…)
DataNode
デーモンTaskTracker
デーモン
子JVM map/reduce
子JVM map/reduce
HDFS
ストレージDataNode
デーモンTaskTracker
デーモン
子JVM map/reduce
子JVM map/reduce
HDFS
ストレージ・ ・
・
バッチ処理 ジョブの投入 バッチ処理 ジョブの 状態取得 バッチ処理 ジョブの 管理
(
キャンセル、優先度 設定、
…)
インタフェース 中身
データブロックの送受信
NameNode
への状態通知HDFS
の全体統括データブロックの管理 異常発生時の復元処理
Map
タスク/Reduce
タスクの起動JobTracker
への状態通知バッチ処理ジョブの進行状況管理
Map
タスク/Reduce
タスクの割り振り 異常発生時のバックアップタスク実行指示Hadoop のインタフェースと中身
ブラックボックスとしてとらえる
• インタフェースはシンプル
–
ファイルシステム系(HDFS) –
ジョブ管理系(MapReduce)
• 中身はイメージで理解する&伝える
–
ファイルシステム系とジョブ管理系が複雑にから みあっている•
お互いが連携していることがHadoop
の価値– 1
台のマスタサーバ+多数台のスレーブサーバなぜ必要とされているか
• 定型処理 → 非定型処理 への流れ
–
処理すべきデータ量の増大–
スケール・アウトが必然• 存在の「空気」化
–
水道や電気を使っていることを普段から意識して いる人はいないHadoop の使いどころ
• Hadoop は何ができて、何ができないのか?
• RDBMS との使い分けは?
情報インフラとしての RDBMS
• ブラックボックス化
–
あらゆるデータ操作をSQL
で標準化• トランザクション処理
–
複数ユーザによる読み書きが発生する環境で データの矛盾発生を防ぐcf.
銀行口座間の資金移動• インデックス
–
指定されたデータを一瞬で検索RDBMS の課題
• データ処理のニーズの変化
–
定型処理から非定型処理へ• スケールアウトしづらい
– CAP
定理定型処理と非定型処理
•
定型処理–
給与計算、売上集計、伝票処理など–
人間が介在しない完全な自動化が可能–
厳密さが求められる–
データ量はせいぜいGbytes
オーダー•
非定型処理–
統計データ作成、検索、データ・マイニングなど–
人間の介在が必要–
厳密さよりカバレッジ重視(
データ量が重要)
–
データ量はTbytes
~Pbytes
オーダーになり得るブリュワーの CAP 定理
Eric Brewer @ UCB が 2000 年に提唱
以下の 3 つのシステム要件を同時に満たすのが 不可能であることを証明
• C: Consistency ( 一貫性 ) → トランザクション
• A: Availability ( 可用性 ) → 耐障害性
• P: Partition Tolerance ( 分割耐性 ) → スケール・
アウト性
RDBMS: CA を満たすが P を満たさない
Hadoop, 分散 KVS: AP を満たすが C を満たさない
Hadoop
クラスタ(バッチ処理)RDBMS
分散
KVS
アプリケーションサーバ(リアルタイム処理)分散ファイル・システム
(HDFS)
スレーブ・サーバーのハードディスクを束ねて構成
ログファイル
ユーザインタフェース
リアルタイム処理要求 応答
外部入力ファイル 外部出力ファイル
Hadoop が効果を発揮する用途例
• 検索インデックスの生成
• 大量のテキストデータの継続的解析
–
ブログからの急上昇ワード抽出• 時空間上のバスケット解析
– Web
アクセスログを用いたマイニング–
地図情報マイニングブログからの急上昇ワード抽出
• クローリングしたブログを 1 時間ごとに解析し、
急上昇ワードを抽出
• 変化率を計算するため、莫大なデータを毎時 処理する必要がある
• Hadoop クラスタ規模
– DataNode 3
台(QuadCore CPU)
• 数十 Gbytes のデータを 20 分ほどで解析
Trend Navigator
時空間上のバスケット分析
( 例 1) あるキーワードで検索してから 10 分以内 に訪れた URL を抽出
キーワード 検索
ページ 訪問
時空間上のバスケット分析
( 例 2) A 社のコンビニから半径 500m 以内にある 他社のコンビニを全て抽出
( 例 3) 都内で開催されたコンサート会場近辺で 携帯からサイトにアクセスした顧客を抽出 RDBMS では処理が難しい
→ MapReduce で効率的に処理可能!
Hadoop 導入の壁
• Hadoop クラスタ運用のノウハウ
–
ハードウェア選定–
ネットワーク構成–
メンテナンス• MapReduce ロジック開発のコスト
• 効果が出るかどうかわからない
処理ロジックの実装
• MapReduce の直接実装
–
習熟するまでが大変–
コスト高–
自由度が大きい• Hive などのメタ言語利用
–
習熟は楽–
コスト安–
自由度が小さい解決策
• Hive による開発
– SQL
とほぼ同様の言語でロジック記述可能• クラウドサービスによるお試し運用
– Amazon EC2
– Hadoop
データセンターHadoopDVD 教材
•
満員御礼となった第1
回「実践Hadoop
セミナー」を収録したDVD
を 販売しております。•
約5
時間にも及ぶ映像では、初歩的なクラウドコンピューティング の概念から、企業に導入する際のシステム設計まで網羅した初めて
Hadoop
に触れる方でも理解できる充実した内容となっております。
•
特典として、ネームノード・データノードの各VM
イメージが付属し ているので、すぐにHadoop
分散環境を構築する事ができます。• 2010
年6
月18
日「東京大学アントレプレナープラザ」にて収録
•
講習DVD
:3
枚組特典
DISC
:Name Node
、Data Node
各VM
イメージ セミナーで使用したスライド(PowerPoint
ファイル)•
価格:98,000
円(税込)Copyright© 2010 Littel corporation. All Rights Reserved. 44
Copyright© 2010 Littel corporation. All Rights Reserved. 45
•
第2
回「Hadoop
実践セミナー」では、Hive
の登場した背景やHive
の特性といった解説や、簡単なHiveQL
により実習など、実務指 向のセッションで構成する予定です。•
また、セミナー終了後に懇親会を企画しております。当日スピー カーを担当した者や、弊社で実際にHive
と格闘している技術者も 出席いたしますので、奮ってご参加ください。•
日程:12
月10
日(金)13
:00
~17
:30
場所: 東京大学産学連携プラザ
2
階会議室•
講師: 最高技術責任者 清田陽司、専務取締役 中塚寛幸
…
他若干名•
参加費:52,500
円(税込) (同一企業2
人目からは31,500
円)※前回のセミナーに参加された方は、
31,500
円(税込)※「
Hadoop
セミナーDVD
」をご購入された方は、31,500
円(税込)懇親会に参加される方は別途
5,000
円~
Hadoop
クラスタの真価を引き出すDWH
ミドルウェアHive
のエッセンス~まとめ
• Hadoop のメリット
–
新しいインフラなのでわかりにくくて当然!–
詳しい仕組みよりも、具体的な利用方法を• できることとできないことをきちんと区別する
–
他のソリューションで十分なケースもたくさんある–
既存手法と組み合わせることで問題解決可能• 埋もれているニーズはまだたくさんある
– Hive
の活用はニーズの掘り起こしにつながる© 2001-2010 Skyarch Networks Inc. All rights reserved.
Hadoopサービス
Hadoopサービス一覧
1. 検証 Hadoop 無料コンサルティング
Hadoop データセンター
( Coming Soon… )
2. 導入 理解 Hadoop DVD
トレーニング Hadoop プライベートセミナー 3. 調達 外部構築 Hadoop Rack
( Coming Soon… )
プライベートクラウド構築 自社構築 Hadoop DVD
レンタル Hadoop データセンター
( Coming Soon… )
Hiveロジック設計 Hadoop コンサルティング
4. 運用 クラウド運用代行
z
Hadoop活用をワンストップで対応© 2001-2010 Skyarch Networks Inc. All rights reserved.
z
Hadoop活用をワンストップで対応 Hadoopサービス一覧1. 検証 Hadoop 無料コンサルティング
Hadoop データセンター
( Coming Soon… )
2. 導入 理解 Hadoop DVD
トレーニング Hadoop プライベートセミナー 3. 調達 外部構築 Hadoop Rack
( Coming Soon… )
プライベートクラウド構築 自社構築 Hadoop DVD
レンタル Hadoop データセンター
( Coming Soon… )
Hiveロジック設計 Hadoop コンサルティング
4. 運用 クラウド運用代行
© 2001-2010 Skyarch Networks Inc. All rights reserved.
「Hadoopデータセンター」概要
z
Hadoop環境のタイムシェアリングで効果を検証z
共同サービス© 2001-2010 Skyarch Networks Inc. All rights reserved.
「Hadoopデータセンター」特徴
z
安価–
開発・調達・サポートコスト不要–
タイムシェアリングz
簡単–
開発不要–
SQLライクなHive採用© 2001-2010 Skyarch Networks Inc. All rights reserved.
「Hadoopデータセンター」検討中のお客様
z
アクセス解析ASP–
アクセスログ解析z
マーケティング会社–
POSデータz
レコメンデーションエンジン提供–
アクセスログ解析z
情報通信技術の研究開発–
ログデータ© 2001-2010 Skyarch Networks Inc. All rights reserved.
「Hadoopデータセンター」利用フロー
z
お申込みから1週間程度で利用可能お申込み 無料コンサルティング NDA締結 データ受領 データ処理 完了連絡/ご確認
© 2001-2010 Skyarch Networks Inc. All rights reserved.
「Hadoopデータセンター」無償利用
パイロットユーザー募集(サポート込み)
z
費 用:無償z
利用期間:1ヶ月程度z
募集期限:12月末までz
募集要件–
ヒアリング、導入事例にご協力いただける企業様–
大規模データをお持ちの企業様スカイアーチ
詳しくは、
検索© 2001-2010 Skyarch Networks Inc. All rights reserved.
© 2001-2010 Skyarch Networks Inc. All rights reserved.
ご静聴ありがとうございました