• 検索結果がありません。

Microsoft PowerPoint - 【イベント】SMFセッション資料I:101130:松倉.pptx

N/A
N/A
Protected

Academic year: 2022

シェア "Microsoft PowerPoint - 【イベント】SMFセッション資料I:101130:松倉.pptx"

Copied!
55
0
0

読み込み中.... (全文を見る)

全文

(1)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

2010/11/30 System Management Forum 2010 Autumn

Hadoop が切り拓く

企業のデータ活用

代表取締役社長 江戸達博

株式会社スカイアーチネットワークス

(2)

アジェンダ

1. 注目の技術Hadoop 2. Hadoopの魅力

株式会社リッテル

取締役最高技術責任者 清田陽司

3. Hadoopサービスのご紹介

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(3)

自己紹介

氏名 江戸 達博 (えど たつひろ)

役職 (株)スカイアーチネットワークス 代表取締役社長

生年月日 1976年1月16日(34歳) twitter @kururimoge

趣味 子育て、旅行、スポーツ

経歴 1998年、大学卒業後、SIer企業に入社 営業、技術、サービス企画などの職を経験 2001年、スカイアーチネットワークス設立

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(4)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

会社

概要

(5)

会社概要

社名 所在地 設立 代表 社員数 資格

株式会社スカイアーチネットワークス

(英文社名:

Skyarch Networks Inc.

港区南麻布4-11-21ラウンドクロス南麻布4F 2001年7月12日

代表取締役社長 江戸達博 56名

ISO/IEC 20000 ISO/IEC 27001 プライバシーマーク

マイクロソフト認定パートナー

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(6)

事業内容

クラウド ホスティング

フルマネージド サービス 他社提供

レンタルサーバー ハウジング

■ データセンター運用代行

環境設備:お客様用意

■ レンタルサーバー運用代行

環境設備:お客様用意

■ クラウド運用代行

環境設備:お客様用意

■ フルマネージド・ホスティング

環境設備:スカイアーチネットワークス

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(7)

サポート範囲

クラウド(IaaS) クラウド運用代行

コアビジネス

ビジネスプロセス

コンテンツプロバイダー コンテンツプロバイダー コンテンツ

インフラ

アプリケーション

コンテンツプロバイダー

(プログラマーが兼任など)

ミドルウェア

スカイアーチ OS

ハードウェア

クラウド事業者 クラウド事業者 ネットワーク

データセンター

最も注力 したい部分

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(8)

運用実績

z

取引社数150社

z

ウェブサービス系

z

基幹系

株式会社講談社 株式会社博報堂

株式会社スクウェア・エニックス 株式会社トーセ

ECサイト

オンラインゲーム

待ち受け画像

占い

動画・メール配信

着メロ/着うた

デコメール

キャンペーンサイト

予約システム

ブログ

SNS

コーポレートサイト

グループウェア

情報ポータルサイト

予約システム 等

Active Directory

Log

Internet Information Services

DHCP

DNS

ファイルサービス

セキュリティ制御

運用管理サービス 等

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(9)

注目の技術

Hadoop

(10)

肥大化する企業データ

z

企業のデータの増加率は、年間「約57%」

×1.5

×1.5

×1.5

時間 データ容量

バッチ処理の時間は長くなるばかり

この大量のログを活用できないのかなぁ

[引用]IDC Japan Directions 2007 Tokyo

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(11)

世界が「Hadoop」に注目!

z

分散処理技術「Hadoop」

z

検索数が上昇

[引用]Google トレンド: hadoop(2010/11/29時点)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(12)

–サイト概要

•915万人/月のユーザーが利用

•30代女性の3人に1人 –処理

•検索データを地域別、週別、月別で見れる

劇的な効果!

z

[処理時間]7,000時間 30時間

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(13)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

有名企業が続々採用!

z

「Hadoop」採用企業

国内 海外

(14)

「What’s Hadoop?」

(15)

Hadoopのエキスパートに聞いてみましょう

z

[株式会社リッテル]

東京大学 産学連携ベンチャー企業

日本語で初めてHadoopセミナーを実施

Hadoopに関する執筆記事多数

z

最高技術責任者

東京大学情報基盤センター 学術情報研究部門 特任講師 清田陽司 氏

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(16)

Hadoopの魅力

(17)

Hadoop の魅力

株式会社リッテル 最高技術責任者 清田 陽司

( 兼 東京大学情報基盤センター 学術情報研究部門 特任講師 )

Twitter: @kiyota_yoji

System Management Forum 2010 Autumn

2010

11

30

(18)

自己紹介

清田 陽司 ( きよた ようじ ) Twitter: @kiyota_yoji

2004

年 京都大学大学院情報学研究科博士課程修了 その後、東京大学情報基盤センターにて情報検索ア

プリケーションに関する研究に取り組む

2007

年より株式会社リッテルの設立に参画し、テキス トマイニング、インターネットサービス、図書館向け検 索サービスなどの研究開発に携わる

2007

年頃より研究用途での大量データ処理に

Hadoop

を利用し、そのノウハウを生かした活動を行っている

(19)

Copyright© 2010 Littel corporation. All Rights Reserved. 19 19 Copyright© 2010 Littel corporation. All Rights Reserved.

株式会社リッテル(http://www.littel.co.jp/)

■所在地 東京都文京区本郷7-3-1

東京大学アントレプレナープラザ405

■創立 2007年(平成19年)4月2日

■資本金 1億円

■役員 代表取締役会長 水谷治朗 代表取締役社長 和田憲治

専務取締役 中塚寛幸

取締役CTO 清田陽司

監査役 奥村眞吾

■取引銀行 三菱東京UFJ銀行本郷支店

■所属団体 (社)日本図書館協会

■主な取引先 東京大学・東京電機大学

同志社大学・東邦大学・郵便局

株式会社 電通・株式会社 野村総合研究所 NTTデータほか

Copyright© 2010 Littel corporation. All Rights Reserved. 19

会社概要

平成22年

東京都信用金庫協会 主催の

優良企業として表彰

(20)

Agenda

• What’s Hadoop

• Hadoop の使いどころ

– RDBMS

、分散

KVS

との使い分け

• 導入の壁

• 解決策

(21)

Hadoop とは

ファイルシステムと バッチ処理システムの

統合に価値がある!

分散ファイルシステム

分散バッチ処理システム

(22)

Hadoop が解決する課題 (1)

• HDD 転送速度

HDD

の容量増加

>> 

読み書き速度の増加

• 2TBytes

の読み出しに数時間

→大量の

HDD

を並べて処理

• サーバ間のデータ共有

ストレージ

(NFS

SAN)

がボトルネックになる

→データは動かさず、処理プログラムをコピー

(23)

Hadoop が解決する課題 (2)

• 障害発生率

サーバの数が増えるほど障害発生率は上昇

• 1000

台のクラスタの障害発生率は?

→ソフトウェア的に障害発生に対処する仕組み

(24)

Hadoop を理解するポイント

インフラとして理解する

• シンプルなインタフェース+複雑な中身

ブラックボックスとしてとらえる

• なくてはならない存在

なぜ必要とされているかを理解する

• 現実的な「割り切り」

○○という機能がない理由を理解する

(25)

ひねる

水が出る

水を捨てる 課金

蛇口

流し 請求書

(26)

ひねる

水が出る

水を捨てる 課金

蛇口

流し

請求書 メータ

検針 料金集計

システム

メータ 水道管 配水施設 浄水施設 取水施設

河川

ダム 水漏れの

防止

水質の管理 水位の管理 水圧の

コントロール

水利権の調整 渇水への対処 発電・治水との

調整など

インタフェース 中身

マン ホール

下水

沈砂池 沈殿池

河川 詰まりの防止

メンテナンス

除砂

汚泥処理

消毒施設

水質の管理

(27)

Hadoop

スレーブサーバ

#N Hadoop

スレーブサーバ

#2 Hadoop

スレーブサーバ

#1

Hadoop

マスタサーバ

HDFS

API

Map Reduce

API

NameNode

デーモン

JobTracker

デーモン

DataNode

デーモン

TaskTracker

デーモン

JVM  map/reduce

JVM  map/reduce

HDFS

ストレージ ファイルの

書き込み ファイルの 読み込み ファイルの 管理

(

複製、移動、

削除、

…)

DataNode

デーモン

TaskTracker

デーモン

JVM  map/reduce

JVM  map/reduce

HDFS

ストレージ

DataNode

デーモン

TaskTracker

デーモン

JVM  map/reduce

JVM  map/reduce

HDFS

ストレージ

バッチ処理 ジョブの投入 バッチ処理 ジョブの 状態取得 バッチ処理 ジョブの 管理

(

キャンセル、

優先度 設定、

…)

インタフェース 中身

データブロックの送受信

NameNode

への状態通知

HDFS

の全体統括

データブロックの管理 異常発生時の復元処理

Map

タスク

/Reduce

タスクの起動

JobTracker

への状態通知

バッチ処理ジョブの進行状況管理

Map

タスク

/Reduce

タスクの割り振り 異常発生時のバックアップタスク実行指示

Hadoop のインタフェースと中身

(28)

ブラックボックスとしてとらえる

• インタフェースはシンプル

ファイルシステム系

(HDFS) –

ジョブ管理系

(MapReduce)

• 中身はイメージで理解する&伝える

ファイルシステム系とジョブ管理系が複雑にから みあっている

お互いが連携していることが

Hadoop

の価値

– 1

台のマスタサーバ+多数台のスレーブサーバ

(29)

なぜ必要とされているか

• 定型処理 → 非定型処理 への流れ

処理すべきデータ量の増大

スケール・アウトが必然

• 存在の「空気」化

水道や電気を使っていることを普段から意識して いる人はいない

(30)

Hadoop の使いどころ

• Hadoop は何ができて、何ができないのか?

• RDBMS との使い分けは?

(31)

情報インフラとしての RDBMS

• ブラックボックス化

あらゆるデータ操作を

SQL

で標準化

• トランザクション処理

複数ユーザによる読み書きが発生する環境で データの矛盾発生を防ぐ

cf. 

銀行口座間の資金移動

• インデックス

指定されたデータを一瞬で検索

(32)

RDBMS の課題

• データ処理のニーズの変化

定型処理から非定型処理へ

• スケールアウトしづらい

– CAP

定理

(33)

定型処理と非定型処理

定型処理

給与計算、売上集計、伝票処理など

人間が介在しない完全な自動化が可能

厳密さが求められる

データ量はせいぜい

Gbytes

オーダー

非定型処理

統計データ作成、検索、データ・マイニングなど

人間の介在が必要

厳密さよりカバレッジ重視

(

データ量が重要

)

データ量は

Tbytes

Pbytes

オーダーになり得る

(34)

ブリュワーの CAP 定理

Eric Brewer @ UCB が 2000 年に提唱

以下の 3 つのシステム要件を同時に満たすのが 不可能であることを証明

C: Consistency ( 一貫性 ) → トランザクション

A: Availability ( 可用性 ) → 耐障害性

P: Partition Tolerance ( 分割耐性 )  → スケール・

アウト性

RDBMS: CA を満たすが P を満たさない

Hadoop,  分散 KVS: AP を満たすが C を満たさない

(35)

Hadoop

クラスタ(バッチ処理)

RDBMS

分散

KVS

アプリケーションサーバ(リアルタイム処理)

分散ファイル・システム

(HDFS)

スレーブ・サーバーのハードディスクを束ねて構成

ログファイル

ユーザインタフェース

リアルタイム処理要求 応答

外部入力ファイル 外部出力ファイル

(36)

Hadoop が効果を発揮する用途例

• 検索インデックスの生成

• 大量のテキストデータの継続的解析

ブログからの急上昇ワード抽出

• 時空間上のバスケット解析

– Web

アクセスログを用いたマイニング

地図情報マイニング

(37)

ブログからの急上昇ワード抽出

• クローリングしたブログを 1 時間ごとに解析し、

急上昇ワードを抽出

• 変化率を計算するため、莫大なデータを毎時 処理する必要がある

• Hadoop クラスタ規模

– DataNode 3

(QuadCore CPU)

• 数十 Gbytes のデータを 20 分ほどで解析

(38)

Trend Navigator

(39)

時空間上のバスケット分析

( 例 1)  あるキーワードで検索してから 10 分以内 に訪れた URL を抽出

キーワード 検索

ページ 訪問

(40)

時空間上のバスケット分析

( 例 2) A 社のコンビニから半径 500m 以内にある 他社のコンビニを全て抽出

( 例 3)  都内で開催されたコンサート会場近辺で 携帯からサイトにアクセスした顧客を抽出 RDBMS では処理が難しい

→ MapReduce で効率的に処理可能!

(41)

Hadoop 導入の壁

• Hadoop クラスタ運用のノウハウ

ハードウェア選定

ネットワーク構成

メンテナンス

• MapReduce ロジック開発のコスト

• 効果が出るかどうかわからない

(42)

処理ロジックの実装

• MapReduce の直接実装

習熟するまでが大変

コスト高

自由度が大きい

• Hive などのメタ言語利用

習熟は楽

コスト安

自由度が小さい

(43)

解決策

• Hive による開発

– SQL

とほぼ同様の言語でロジック記述可能

• クラウドサービスによるお試し運用

– Amazon EC2

– Hadoop

データセンター

(44)

HadoopDVD 教材

満員御礼となった第

1

回「実践

Hadoop

セミナー」を収録した

DVD

販売しております。

5

時間にも及ぶ映像では、初歩的なクラウドコンピューティング の概念から、企業に導入する際のシステム設計まで網羅した

初めて

Hadoop

に触れる方でも理解できる充実した内容となって

おります。

特典として、ネームノード・データノードの各

VM

イメージが付属し ているので、すぐに

Hadoop

分散環境を構築する事ができます。

• 2010

6

18

「東京大学アントレプレナープラザ」にて収録

講習

DVD

3

枚組

特典

DISC

Name Node

Data Node 

VM

イメージ セミナーで使用したスライド(

PowerPoint

ファイル)

価格:

98,000

円(税込)

Copyright© 2010 Littel corporation. All Rights Reserved. 44

(45)

Copyright© 2010 Littel corporation. All Rights Reserved. 45

2

回「

Hadoop

実践セミナー」では、

Hive

の登場した背景や

Hive

の特性といった解説や、簡単な

HiveQL

により実習など、実務指 向のセッションで構成する予定です。

また、セミナー終了後に懇親会を企画しております。当日スピー カーを担当した者や、弊社で実際に

Hive

と格闘している技術者も 出席いたしますので、奮ってご参加ください。

日程:

12

10

日(金)

13

00

17

30

場所: 東京大学産学連携プラザ

2

階会議室

講師: 最高技術責任者 清田陽司、

専務取締役 中塚寛幸

他若干名

参加費:

52,500

円(税込) (同一企業

2

人目からは

31,500

円)

※前回のセミナーに参加された方は、

31,500

円(税込)

※「

Hadoop

セミナー

DVD

」をご購入された方は、

31,500

円(税込)

懇親会に参加される方は別途

5,000

Hadoop

クラスタの真価を引き出す

DWH

ミドルウェア

Hive

のエッセンス~

(46)

まとめ

• Hadoop のメリット

新しいインフラなのでわかりにくくて当然!

詳しい仕組みよりも、具体的な利用方法を

• できることとできないことをきちんと区別する

他のソリューションで十分なケースもたくさんある

既存手法と組み合わせることで問題解決可能

• 埋もれているニーズはまだたくさんある

– Hive

の活用はニーズの掘り起こしにつながる

(47)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

Hadoopサービス

(48)

Hadoopサービス一覧

1. 検証 Hadoop 無料コンサルティング

Hadoop データセンター

( Coming Soon… )

2. 導入 理解 Hadoop DVD

トレーニング Hadoop プライベートセミナー 3. 調達 外部構築 Hadoop Rack

( Coming Soon… )

プライベートクラウド構築 自社構築 Hadoop DVD

レンタル Hadoop データセンター

( Coming Soon… )

Hiveロジック設計 Hadoop コンサルティング

4. 運用 クラウド運用代行

z

Hadoop活用をワンストップで対応

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(49)

z

Hadoop活用をワンストップで対応 Hadoopサービス一覧

1. 検証 Hadoop 無料コンサルティング

Hadoop データセンター

( Coming Soon… )

2. 導入 理解 Hadoop DVD

トレーニング Hadoop プライベートセミナー 3. 調達 外部構築 Hadoop Rack

( Coming Soon… )

プライベートクラウド構築 自社構築 Hadoop DVD

レンタル Hadoop データセンター

( Coming Soon… )

Hiveロジック設計 Hadoop コンサルティング

4. 運用 クラウド運用代行

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(50)

「Hadoopデータセンター」概要

z

Hadoop環境のタイムシェアリングで効果を検証

z

共同サービス

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(51)

「Hadoopデータセンター」特徴

z

安価

開発・調達・サポートコスト不要

タイムシェアリング

z

簡単

開発不要

SQLライクなHive採用

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(52)

「Hadoopデータセンター」検討中のお客様

z

アクセス解析ASP

アクセスログ解析

z

マーケティング会社

POSデータ

z

レコメンデーションエンジン提供

アクセスログ解析

z

情報通信技術の研究開発

ログデータ

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(53)

「Hadoopデータセンター」利用フロー

z

お申込みから1週間程度で利用可能

お申込み 無料コンサルティング NDA締結 データ データ 完了連絡/ご確認

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(54)

「Hadoopデータセンター」無償利用

パイロットユーザー募集(サポート込み)

z

費 用:無償

z

利用期間:1ヶ月程度

z

募集期限:12月末まで

z

募集要件

ヒアリング、導入事例にご協力いただける企業様

大規模データをお持ちの企業様

スカイアーチ

詳しくは、

検索

© 2001-2010 Skyarch Networks Inc. All rights reserved.

(55)

© 2001-2010 Skyarch Networks Inc. All rights reserved.

ご静聴ありがとうございました

参照

関連したドキュメント

●Gartner Magic QuadrantにてクラウドHCM Suiteにおけるリーダーの評価.. Copyright © 2022 Nomura System Corporation Co, Ltd. All Rights Reserved.. Copyright © 2022 Nomura

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

 トルコ石がいつの頃から人々の装飾品とし て利用され始めたのかはよく分かっていない が、考古資料をみると、古代中国では

「心理学基礎研究の地域貢献を考える」が開かれた。フォー

大正デモクラシーの洗礼をうけた青年たち の,1920年代状況への対応を示して」おり,「そ

本節では本研究で実際にスレッドのトレースを行うた めに用いた Linux ftrace 及び ftrace を利用する Android Systrace について説明する.. 2.1

200 インチのハイビジョンシステムを備えたハ イビジョン映像シアターやイベントホール,会 議室など用途に合わせて様々に活用できる施設

2012 年度時点では、我が国は年間約 13.6 億トンの天然資源を消費しているが、その