東京工業大学大学院計算工学専攻
東京工業大学大学院計算工学専攻 東京工業大学大学院計算工学専攻
東京工業大学大学院計算工学専攻
鈴村研究室
鈴村研究室 鈴村研究室
鈴村研究室
目次
目次 目次
目次
研究室概要
研究室概要 研究室概要
研究室概要
研究テーマ
研究テーマ 研究テーマ
研究テーマ
個々のプロジェクト紹介
個々のプロジェクト紹介 個々のプロジェクト紹介
個々のプロジェクト紹介
研究室のモットー
研究室のモットー 研究室のモットー
研究室のモットー
協業体制
協業体制 協業体制
協業体制
成果概要
成果概要 成果概要
成果概要
FAQ
参考
参考 参考
参考 URL
2
鈴村研究室概要
鈴村研究室概要 鈴村研究室概要
鈴村研究室概要
所属: 情報理工学研究科・計算工学専攻
2009年4月に設立
場所: 大岡山キャンパス西8号館E棟9階
研究室構成員 (2010/02/01時点)
鈴村 豊太郎 (客員准教授, IBM 東京
基礎研究所と兼任)
4年生: 松浦 紘也、森田 康介
2010年4月以降は、4年:2人, M1:2人
の合計5人
(+秋から留学生1名?)
URL :
http://sites.google.com/site/tokyotechsuzumuralab/
情報爆発:
情報爆発:
情報爆発:
情報爆発: 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ 情報科学におけるグランドチャレンジ
Explosion in market data volumes
New York stock exchange trade
& quote volume
Capital market data volumes rose by 1,750% during 2003-06
Explosion in market data volumes
New York stock exchange trade
& quote volume
Capital market data volumes rose by 1,750% during 2003-06
データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化 データ量の爆発、及びデータの種類の多様化
NYSE のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇のマーケットデータの総量が指数関数的に上昇
世界中の総情報量は 2年ごとに2倍になる
2005年のRFIDタグの利用は13億個。 2010年までには300億個。
2007年に携帯電話の 利用者は33億人
ストリームコンピューティング
ストリームコンピューティング
ストリームコンピューティング
ストリームコンピューティング
- 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策 情報爆発時代における一つの解決策
動いているデータをリアルタイムに分析
ストリーミング・データ
動いている構造化データや非構造化データのストリーム ストリーム・コンピューティング
ストリーミング・データに対しリアルタイムに分析・操作
動かないデータから
過去の(ヒストリカルな)事実を発見
バッチ方式、プル型モデル
静的データに対しクエリーを投げる
データベースやデータウェアハウスに依存
伝統的なコンピューティング ストリーム・コンピューティング
Queries Data Results
a) static data
Queries Data Results
a) static data
Queries Data Results
Queries Data Results
a) static data
Data Queries Results
b) streaming data
Data Queries Results
b) streaming data
Data Queries Results
Data Queries Results
b) streaming data
データ クエリー 結果
データ 結果
クエリー
a) 静的データ b) ストリーミング・データ
例)
例) 例)
例) ハリケーンの影響による株売買の ハリケーンの影響による株売買の ハリケーンの影響による株売買の ハリケーンの影響による株売買の
自動リコメンデーション
自動リコメンデーション 自動リコメンデーション
自動リコメンデーション
ハリケーンの ハリケーンの ハリケーンの ハリケーンの 進路予測進路予測 進路予測進路予測
インダストリーへの インダストリーへの インダストリーへの インダストリーへの
ハリケーンの ハリケーンの ハリケーンの ハリケーンの インパクト インパクト インパクト インパクト
ポートフォリオ ポートフォリオポートフォリオ ポートフォリオ
へのインパクト へのインパクト へのインパクト へのインパクト 米国大洋大気庁からの
米国大洋大気庁からの 米国大洋大気庁からの
米国大洋大気庁からのRSS ニュニュニュニュ ースを取得
ースを取得 ースを取得 ースを取得
NYSE (ニューヨーク証券取引所ニューヨーク証券取引所ニューヨーク証券取引所) からニューヨーク証券取引所 からからから VWAP(出来高加重平均出来高加重平均出来高加重平均)を計算出来高加重平均 を計算を計算を計算
SEC (米国証券取引委員会)の企米国証券取引委員会)の企米国証券取引委員会)の企米国証券取引委員会)の企 業財務情報開示の情報を取得 業財務情報開示の情報を取得業財務情報開示の情報を取得 業財務情報開示の情報を取得
ニュースサイトの情報を取得 ニュースサイトの情報を取得ニュースサイトの情報を取得 ニュースサイトの情報を取得
ハリケーンの影響による ハリケーンの影響による ハリケーンの影響による ハリケーンの影響による
株の売り買いの判断を 株の売り買いの判断を 株の売り買いの判断を 株の売り買いの判断を 決定
決定 決定 決定 P/E (株収益率株収益率株収益率)を計算株収益率 を計算を計算を計算
シンプルな分析
(例:条件マッチング、移動平均線)
高速 (秒当たり100万件のイベント)
非常に低い遅延
低い有効密度
複雑な分析
イベント検知が必要
大量 (テラバイト/秒)
小さい遅延
テキスト&取引データ ニュース放送
デジタル音声、ビデオ、画像データ RFID
金融データ ネットワーク・パケット・トレース チャット・メッセージ
衛星データ 電話の通話
Web検索 ATM 取引 組み込み機器センサー・データ
クリック・ストリーム
イベント/データの拡大分布
未知のデータ/信号
非構造化データ 構造化データ
ストリーム・コンピューティングは劇的な量かつ多様な由来
ストリーム・コンピューティングは劇的な量かつ多様な由来
ストリーム・コンピューティングは劇的な量かつ多様な由来
ストリーム・コンピューティングは劇的な量かつ多様な由来
の情報とイベントを処理します
の情報とイベントを処理します
の情報とイベントを処理します
の情報とイベントを処理します
機械学習アルゴリズム SST による異常検知 Singular Spectrum Transformation データ列を時間軸でずらして生成し た行列のSVD演算で求めた特徴ベ クトルを元に変化度を割り出す 特異値分解(SVD: Singular Value Decomposition)
M = UΣΣΣΣV* 行列分解の一手法であり、信号処理や統計学の分 野で利用される また、U* ΣΣΣΣV を擬似逆行列として 求める為にも用いられる
Real-Time Twitter Monitoring Stream Computing for Next- Generation DNA Sequencer
Performance Optimization with GPGPU Automatic Load Balancing between Stream- typed and Batch-typed applications, and Load Shedding Technique with SSD
Bursty Idle
SSD
result
SSD
result Automatic Load
Scheduling
improvement
We have observed tremendous speedup of GPU against GPU with an anomaly detection algorithm, SST
§ Build a real-time twitter monitoring system on top of System S
§ That can be applied to various applications such as trend analysis (e.g. flu)
§ Data Explosion of DNA Sequences by Advanced DNA Sequencer
§ By accelerating the biological analysis with stream
computing, the personal medical care will be realized in nearly real-time
0 10 20 30 40 50 60
50 150 250 350 450 550 650 750 850 950
matrix size tim
e (s ec)
GPU CPU(非圧縮) CPU(圧縮)
CPU
GPU
鈴村研究室でのストリームコンピューティング研究の例
Twitter の分散リアルタイムモニタリング の分散リアルタイムモニタリング の分散リアルタイムモニタリング の分散リアルタイムモニタリング
開発システム工学科 老木さん作
Twitter の“つぶやき”をストリームコンピューティングを用いて
収集・分析することによって、世の中のリアルタイム動向を把握できる (例:
インフルエンザの予兆、商品評判分析など)
パーソナルゲノム医療に向けた次世代
パーソナルゲノム医療に向けた次世代 パーソナルゲノム医療に向けた次世代
パーソナルゲノム医療に向けた次世代 DNA シーケンサーの高速処理 シーケンサーの高速処理 シーケンサーの高速処理 シーケンサーの高速処理
次世代 DNA シーケンサーによってもたされるライフサイエンス界の
パラダイムシフトを、ストリームコンピューティングによって解決
解析機器の向上によるバイオインフォマティクスにお
けるムーアの法則(1.5年毎にデータ量が倍増)
動的負荷分散によって計算資源を効率的に運用
動的負荷分散によって計算資源を効率的に運用 動的負荷分散によって計算資源を効率的に運用
動的負荷分散によって計算資源を効率的に運用
負荷変動が激しくデータレートが予測不可能なデータストリーム処理と、
長期の計算時間が必要なバッチ処理が混在するクラスタ環境において、
計算資源を動的に割り振ることで計算機の利用効率を最大化する
計算機の消費電力は
(負荷時-アイドル時)≪(アイドル時)
計算機をアイドルにするよりも、 処理を早く終えて電源を切るべき!
データレートが低いとバッチ処理を増やす
データレートが高いとデータストリーム処理を増やす
データストリーム処理
データストリーム処理 バッチ処理
バッチ処理
ネット企業への応用
ネット企業への応用 ネット企業への応用
ネット企業への応用
ストレージ 大量デ
ータ
併売データ 更新
ログデータ の前処理的な使用(
フィルタ、圧縮等
ターゲティング 広告配信
バッチ処理
バッチ処理 の短縮化
ストレージ容量 の削減 リアルタイム性の
実現
リアルタイム ランキング
更新
研究室の1年
研究室の1年 研究室の1年
研究室の1年 (4年生 4年生 4年生) 4年生
輪講 輪講 輪講
輪講 ((((論文読み論文読み論文読み論文読み) ) ) )
プロトタイプ実装
&実験 卒論テーマ
決め
大学院入試準備
(内薦組はなし)
定例ミーティング
全国大会 論文投稿
卒論発表
卒論研究(I)
13
Copyright © 2008 by ILOG, Co., Ltd - All rights reserved.
4月 5月 6月 7月 8月 9月 10月 11月 12月 1月 2月 3月月月月
卒論執筆
卒論執筆
SACSIS 投稿
輪講輪講
輪講輪講 (論文読み(論文読み(論文読み(論文読み) ) ) )
全国大会発表
卒論研究(II)
研究環境 整備
鈴村研究室で重視する研究スタイル
鈴村研究室で重視する研究スタイル 鈴村研究室で重視する研究スタイル
鈴村研究室で重視する研究スタイル
1. トップダウンアプローチ トップダウンアプローチ トップダウンアプローチ トップダウンアプローチ
現実問題に即した研究
マッチポンプ型研究では駄目
実装の前に、新規性、実現性、進歩性を客観
的に評価する
既存研究を徹底的に調査
研究≠趣味
2. 国際学会への投稿・発表
目に見える成果として重要
国際学会での発表経験
協業体制
協業体制 協業体制
協業体制: 他組織との協業・情報交換 他組織との協業・情報交換 他組織との協業・情報交換 他組織との協業・情報交換
Harvard Medical School
数理計算科学専攻 数理計算科学専攻 数理計算科学専攻
数理計算科学専攻 松岡研究室松岡研究室松岡研究室松岡研究室 クラウド研究会
クラウド研究会 クラウド研究会 クラウド研究会
鈴村研究室のこの1年の論文実績
鈴村研究室のこの1年の論文実績 鈴村研究室のこの1年の論文実績
鈴村研究室のこの1年の論文実績
1. 森田康介、高橋俊博、鈴村豊太郎 「データストリーム処理とGPGPU による実時間 異常検知の実現」 情報処理学会 SACSIS 2010, to be submitted
2. 松浦紘也、鈴村豊太郎 「データストリーム処理とバッチ処理における動的負荷分 散」 情報処理学会 SACSIS 2010, to be submitted
3. 森田康介、高橋俊明、鈴村豊太郎 「データストリーム処理による変化点検知の実 装と GPU による高速化」 情報処理学会 第73回全国大会,2010年3月
4. 松浦紘也、鈴村豊太郎 「データストリーム処理とバッチ処理における動的負荷分 散に向けて」 情報処理学会 第73回全国大会, 第73回全国大会
5. 老木智章、鈴村豊太郎、「ストリーム処理 System S を基盤にしたウェブ サーバー の構築と評価」、電気情報通信学会 インターネットアーキテクチャ研究会
6. Hiroya Matsuura and Toyotaro Suzumura, StreamDNA: Stream Computing for Next-Generation Sequencer, The 10th International Conference,
CBI(Chem-Bio Industry Society)-KSBSB Joint Conference, Poster Session, Nov 4-6, 2009, Busan, Korea
7. Toyotaro Suzumura and Oiki Tomoaki, StreamWeb; Real-Time Web Monitoring with Stream Computing, ICWS 2010, to be submitted