• 検索結果がありません。

PDF 本研究室志望者へ 鈴村研究室 大規模データ処理・ストリームコンピューティング

N/A
N/A
Protected

Academic year: 2018

シェア "PDF 本研究室志望者へ 鈴村研究室 大規模データ処理・ストリームコンピューティング"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

東京工業大学大学院計算工学専攻

東京工業大学大学院計算工学専攻 東京工業大学大学院計算工学専攻

東京工業大学大学院計算工学専攻

鈴村研究室

鈴村研究室 鈴村研究室

鈴村研究室

(2)

目次

目次 目次

目次

研究室概要

研究室概要 研究室概要

研究室概要

研究テーマ

研究テーマ 研究テーマ

研究テーマ

個々のプロジェクト紹介

個々のプロジェクト紹介 個々のプロジェクト紹介

個々のプロジェクト紹介

研究室のモットー

研究室のモットー 研究室のモットー

研究室のモットー

協業体制

協業体制 協業体制

協業体制

成果概要

成果概要 成果概要

成果概要

FAQ

参考

参考 参考

参考 URL

2

(3)

鈴村研究室概要

鈴村研究室概要 鈴村研究室概要

鈴村研究室概要

所属: 情報理工学研究科・計算工学専攻

2009年4月に設立

場所: 大岡山キャンパス西8号館E棟9階

研究室構成員 (2010/02/01時点)

鈴村 豊太郎 (客員准教授, IBM 東京

基礎研究所と兼任)

4年生: 松浦 紘也、森田 康介

2010年4月以降は、4年:2人, M1:2人

の合計5人

(+秋から留学生1名?)

URL :

http://sites.google.com/site/tokyotechsuzumuralab/

(4)

情報爆発:

情報爆発:

情報爆発:

情報爆発: 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ

Explosion in market data volumes

New York stock exchange trade

& quote volume

Capital market data volumes rose by 1,750% during 2003-06

Explosion in market data volumes

New York stock exchange trade

& quote volume

Capital market data volumes rose by 1,750% during 2003-06

データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化

NYSE のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇

世界中の総情報量は 2年ごとに2倍になる

2005年のRFIDタグの利用は13億個。 2010年までには300億個。

2007年に携帯電話の 利用者は33億人

(5)

ストリームコンピューティング

ストリームコンピューティング

ストリームコンピューティング

ストリームコンピューティング

- 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策

動いているデータをリアルタイムに分析

ストリーミング・データ

動いている構造化データや非構造化データのストリーム ストリーム・コンピューティング

ストリーミング・データに対しリアルタイムに分析・操作

動かないデータから

過去の(ヒストリカルな)事実を発見

バッチ方式、プル型モデル

静的データに対しクエリーを投げる

データベースやデータウェアハウスに依存

伝統的なコンピューティング ストリーム・コンピューティング

Queries Data Results

a) static data

Queries Data Results

a) static data

Queries Data Results

Queries Data Results

a) static data

Data Queries Results

b) streaming data

Data Queries Results

b) streaming data

Data Queries Results

Data Queries Results

b) streaming data

データ クエリー 結果

データ 結果

クエリー

a) 静的データ b) ストリーミング・データ

(6)

例)

例) 例)

例) ハリケーンの影響による株売買の ハリケーンの影響による株売買の ハリケーンの影響による株売買の ハリケーンの影響による株売買の

自動リコメンデーション

自動リコメンデーション 自動リコメンデーション

自動リコメンデーション

ハリケーンの ハリケーンの ハリケーンの ハリケーンの 進路予測進路予測 進路予測進路予測

インダストリーへの インダストリーへの インダストリーへの インダストリーへの

ハリケーンの ハリケーンの ハリケーンの ハリケーンの インパクト インパクト インパクト インパクト

ポートフォリオ ポートフォリオポートフォリオ ポートフォリオ

へのインパクト へのインパクト へのインパクト へのインパクト 米国大洋大気庁からの

米国大洋大気庁からの 米国大洋大気庁からの

米国大洋大気庁からのRSS ニュニュニュニュ ースを取得

ースを取得 ースを取得 ースを取得

NYSE (ニューヨーク証券取引所ニューヨーク証券取引所ニューヨーク証券取引所) からニューヨーク証券取引所 からからから VWAP(出来高加重平均出来高加重平均出来高加重平均)を計算出来高加重平均 を計算を計算を計算

SEC (米国証券取引委員会)の企米国証券取引委員会)の企米国証券取引委員会)の企米国証券取引委員会)の企 業財務情報開示の情報を取得 業財務情報開示の情報を取得業財務情報開示の情報を取得 業財務情報開示の情報を取得

ニュースサイトの情報を取得 ニュースサイトの情報を取得ニュースサイトの情報を取得 ニュースサイトの情報を取得

ハリケーンの影響による ハリケーンの影響による ハリケーンの影響による ハリケーンの影響による

株の売り買いの判断を 株の売り買いの判断を 株の売り買いの判断を 株の売り買いの判断を 決定

決定 決定 決定 P/E (株収益率株収益率株収益率)を計算株収益率 を計算を計算を計算

(7)

シンプルな分析

(例:条件マッチング、移動平均線)

高速 (秒当たり100万件のイベント)

非常に低い遅延

低い有効密度

複雑な分析

イベント検知が必要

大量 (テラバイト/秒)

小さい遅延

テキスト&取引データ ニュース放送

デジタル音声、ビデオ、画像データ RFID

金融データ ネットワーク・パケット・トレース チャット・メッセージ

衛星データ 電話の通話

Web検索 ATM 取引 組み込み機器センサー・データ

クリック・ストリーム

イベント/データの拡大分布

未知のデータ/信号

非構造化データ 構造化データ

ストリーム・コンピューティングは劇的な量かつ多様な由来

ストリーム・コンピューティングは劇的な量かつ多様な由来

ストリーム・コンピューティングは劇的な量かつ多様な由来

ストリーム・コンピューティングは劇的な量かつ多様な由来

の情報とイベントを処理します

の情報とイベントを処理します

の情報とイベントを処理します

の情報とイベントを処理します

(8)

機械学習アルゴリズム SST による異常検知 Singular Spectrum Transformation データ列を時間軸でずらして生成し た行列のSVD演算で求めた特徴ベ クトルを元に変化度を割り出す 特異値分解(SVD: Singular Value Decomposition)

M = UΣΣΣΣV* 行列分解の一手法であり、信号処理や統計学の分 野で利用される また、U* ΣΣΣΣV を擬似逆行列として 求める為にも用いられる

Real-Time Twitter Monitoring Stream Computing for Next- Generation DNA Sequencer

Performance Optimization with GPGPU Automatic Load Balancing between Stream- typed and Batch-typed applications, and Load Shedding Technique with SSD

Bursty Idle

SSD

result

SSD

result Automatic Load

Scheduling

improvement

We have observed tremendous speedup of GPU against GPU with an anomaly detection algorithm, SST

§ Build a real-time twitter monitoring system on top of System S

§ That can be applied to various applications such as trend analysis (e.g. flu)

§ Data Explosion of DNA Sequences by Advanced DNA Sequencer

§ By accelerating the biological analysis with stream

computing, the personal medical care will be realized in nearly real-time

0 10 20 30 40 50 60

50 150 250 350 450 550 650 750 850 950

matrix size tim

e (s ec)

GPU CPU(非圧縮) CPU(圧縮)

CPU

GPU

鈴村研究室でのストリームコンピューティング研究の例

(9)

Twitter の分散リアルタイムモニタリング の分散リアルタイムモニタリング の分散リアルタイムモニタリング の分散リアルタイムモニタリング

開発システム工学科 老木さん作

Twitter の“つぶやき”をストリームコンピューティングを用いて

収集・分析することによって、世の中のリアルタイム動向を把握できる (例:

インフルエンザの予兆、商品評判分析など)

(10)

パーソナルゲノム医療に向けた次世代

パーソナルゲノム医療に向けた次世代 パーソナルゲノム医療に向けた次世代

パーソナルゲノム医療に向けた次世代 DNA シーケンサーの高速処理 シーケンサーの高速処理 シーケンサーの高速処理 シーケンサーの高速処理

次世代 DNA シーケンサーによってもたされるライフサイエンス界の

パラダイムシフトを、ストリームコンピューティングによって解決

解析機器の向上によるバイオインフォマティクスにお

けるムーアの法則(1.5年毎にデータ量が倍増)

(11)

動的負荷分散によって計算資源を効率的に運用

動的負荷分散によって計算資源を効率的に運用 動的負荷分散によって計算資源を効率的に運用

動的負荷分散によって計算資源を効率的に運用

負荷変動が激しくデータレートが予測不可能なデータストリーム処理と、

長期の計算時間が必要なバッチ処理が混在するクラスタ環境において、

計算資源を動的に割り振ることで計算機の利用効率を最大化する

計算機の消費電力は

(負荷時-アイドル時)≪(アイドル時)

計算機をアイドルにするよりも、 処理を早く終えて電源を切るべき!

データレートが低いとバッチ処理を増やす

データレートが高いとデータストリーム処理を増やす

データストリーム処理

データストリーム処理 バッチ処理

バッチ処理

(12)

ネット企業への応用

ネット企業への応用 ネット企業への応用

ネット企業への応用

ストレージ 大量デ

ータ

併売データ 更新

ログデータ の前処理的な使用(

フィルタ、圧縮等

ターゲティング 広告配信

バッチ処理

バッチ処理 の短縮化

ストレージ容量 の削減 リアルタイム性の

実現

リアルタイム ランキング

更新

(13)

研究室の1年

研究室の1年 研究室の1年

研究室の1年 (4年生 4年生 4年生) 4年生

輪講 輪講 輪講

輪講 ((((論文読み論文読み論文読み論文読み) ) ) )

プロトタイプ実装

&実験 卒論テーマ

決め

大学院入試準備

(内薦組はなし)

定例ミーティング

全国大会 論文投稿

卒論発表

卒論研究(I)

13

Copyright © 2008 by ILOG, Co., Ltd - All rights reserved.

4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月 3月

卒論執筆

卒論執筆

SACSIS 投稿

輪講輪講

輪講輪講 (論文読み(論文読み(論文読み(論文読み) ) ) )

全国大会発表

卒論研究(II)

研究環境 整備

(14)

鈴村研究室で重視する研究スタイル

鈴村研究室で重視する研究スタイル 鈴村研究室で重視する研究スタイル

鈴村研究室で重視する研究スタイル

1. トップダウンアプローチ トップダウンアプローチ トップダウンアプローチ トップダウンアプローチ

現実問題に即した研究

マッチポンプ型研究では駄目

実装の前に、新規性、実現性、進歩性を客観

的に評価する

既存研究を徹底的に調査

研究≠趣味

2. 国際学会への投稿・発表

目に見える成果として重要

国際学会での発表経験

(15)

協業体制

協業体制 協業体制

協業体制: 他組織との協業・情報交換 他組織との協業・情報交換 他組織との協業・情報交換 他組織との協業・情報交換

Harvard Medical School

数理計算科学専攻 数理計算科学専攻 数理計算科学専攻

数理計算科学専攻 松岡研究室松岡研究室松岡研究室松岡研究室 クラウド研究会

クラウド研究会 クラウド研究会 クラウド研究会

(16)

鈴村研究室のこの1年の論文実績

鈴村研究室のこの1年の論文実績 鈴村研究室のこの1年の論文実績

鈴村研究室のこの1年の論文実績

1. 森田康介、高橋俊博、鈴村豊太郎 「データストリーム処理とGPGPU による実時間 異常検知の実現」 情報処理学会 SACSIS 2010, to be submitted

2. 松浦紘也、鈴村豊太郎 「データストリーム処理とバッチ処理における動的負荷分 散」 情報処理学会 SACSIS 2010, to be submitted

3. 森田康介、高橋俊明、鈴村豊太郎 「データストリーム処理による変化点検知の実 装と GPU による高速化」 情報処理学会 第73回全国大会,2010年3月

4. 松浦紘也、鈴村豊太郎 「データストリーム処理とバッチ処理における動的負荷分 散に向けて」 情報処理学会 第73回全国大会, 第73回全国大会

5. 老木智章、鈴村豊太郎、「ストリーム処理 System S を基盤にしたウェブ サーバー の構築と評価」、電気情報通信学会 インターネットアーキテクチャ研究会

6. Hiroya Matsuura and Toyotaro Suzumura, StreamDNA: Stream Computing for Next-Generation Sequencer, The 10th International Conference,

CBI(Chem-Bio Industry Society)-KSBSB Joint Conference, Poster Session, Nov 4-6, 2009, Busan, Korea

7. Toyotaro Suzumura and Oiki Tomoaki, StreamWeb; Real-Time Web Monitoring with Stream Computing, ICWS 2010, to be submitted

(17)

FAQ

鈴村はいつ研究室に来るのか?

鈴村はいつ研究室に来るのか? 鈴村はいつ研究室に来るのか?

鈴村はいつ研究室に来るのか?

IBMとの兼任なので週の半分(2日と3日を交互に繰り返している)

ただし、学生は基本的に毎日研究室に来ること

4年生の枠の人数は増えないのか?

4年生の枠の人数は増えないのか? 4年生の枠の人数は増えないのか?

4年生の枠の人数は増えないのか?

客員なので基本的に学部の枠(2人)は増えないが、大学院の枠は4人

更に鈴村研究室に所属しない人も積極的に受け入れている

例)学部3年生の有志、学術国際情報センターの研究員 など

研究室でのコミュニケーション方法は?

研究室でのコミュニケーション方法は? 研究室でのコミュニケーション方法は?

研究室でのコミュニケーション方法は?

ブログで研究室メンバー同士のコミュニケーションを取っている (Google

方式)

どのような人が本研究室に合っているか?

どのような人が本研究室に合っているか? どのような人が本研究室に合っているか?

どのような人が本研究室に合っているか?

プログラミングが苦でない人(好きであれば得意になる)

C/C++, Java, スクリプト言語(Ruby, Python, …など), Linuxの知識

将来、国際的な活躍を目指している人→そのような志を持って来る人に

は積極的に機会を提供する(予定)

参照

関連したドキュメント

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

雑誌名 金沢大学日本史学研究室紀要: Bulletin of the Department of Japanese History Faculty of Letters Kanazawa University.

代表研究者 小川 莞生 共同研究者 岡本 将駒、深津 雪葉、村上

代表研究者 川原 優真 共同研究者 松宮

【 大学共 同研究 】 【個人特 別研究 】 【受託 研究】 【学 外共同 研究】 【寄 付研究 】.

山階鳥類研究所 研究員 山崎 剛史 立教大学 教授 上田 恵介 東京大学総合研究博物館 助教 松原 始 動物研究部脊椎動物研究グループ 研究主幹 篠原

共同研究者 関口 東冶

人類研究部人類史研究グループ グループ長 篠田 謙一 人類研究部人類史研究グループ 研究主幹 海部 陽介 人類研究部人類史研究グループ 研究員