• 検索結果がありません。

2012 研究テーマ

N/A
N/A
Protected

Academic year: 2021

シェア "2012 研究テーマ"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

山崎研究室紹介

2013年10月28日

山崎 勝弘

yamazaki@se.ritsumei.ac.jp 1.研究室の目標 2.育成したい人材 3.指導方針 4.研究分野: 並列処理とハード/ソフト・コデザイン 5.研究テーマ 6.貴君らに提供できること

(2)

2

1.研究室の目標

• ハードウェアとソフトウェアの両方分かる人

材の育成

• コミュニケーション能力、スケジューリング

能力、および知的体力の養成

• 社会人としての基本的素養をつけ、努力を

継続して、目標を達成できる人材の育成

• 並列処理とハード/ソフト・コデザインを融合

した高性能な問題解決システムの構築

2

(3)

2.育成したい人材像

• あいさつ

• コミュニケーション能力

– 日本語で正しく表現、発表、議論

– 英語能力

• スケジューリング能力

– 立案、実行、チェック(Plan, do ,check)

• 知的体力

– 最後まであきらめずにやり遂げること

(4)

4

3.指導方針

• 前向きに楽しく

: positive thinking

• 研究テーマの設定、研究環境の整備

• 社会人としての基本的素養

をつけて欲しい。

• 社会人になるための実力

をつけて欲しい。

• 英会話学習のきっかけ

をつかんで欲しい。

• 自分の夢

を将来にわたって実現して欲しい。

4

(5)

4.研究分野

並列処理とハード/ソフト・コデザインを融合 した高性能な問題解決システムの構築 デザイン パターン ハード/ソフト・コラー ニングシステム 命令セット プロセッサ コンパイラ 並列処理 SMPクラスタの構築 1号機~4号機 画像圧縮 N体問題 ハッシュ関 数高速化 GPU ハイブリッド ガラス傷検出 高速化 GPUマシンとSMPクラスタを使いこなす。 FPGAボードを使いこなす。 マルチALUプロ セッサの設計 Blokus Duo モンテカルロ囲碁 将棋手筋 ラジオシティ法 フォトンマッピ ング リアルタイ ムレイト レーシング 甲骨文の画像 解析と再解読

(6)

研究経歴

(1976~現在)

FPGA ハードソフト アーキテクチャ 並列アプリ 知識工学 QA-1 MUNAP レイトレーシング ラジオシティ ハード/ソフト・コラー ニングシステム JPEG、MPEG N体、グリッド 電力系統 知的CAI 事例ベース 並列プログラミング ハッシュ関 数高速化 同期マルチ メディア 命令スケ ジューリング ガラス傷検出 OpenMP 動作合成 リアルタイム レイトレーシング モンテカルロ 囲碁 ルーティング トランスピュータ AP1000+ PCクラスタ SMPクラスタ KSR1 GPU SMPクラスタ GPU FPGA プロセッサ4台の並列マシン マイクロプログラム制御 ハードウェア、システムソフト アプリケーション SMPクラスタ 情 報 工 学 科 情 報 学 科 電 子 情 報 デ ザ イ ン 学 科 電 子 情 報 工 学 科 1988 2004 1994 2012 MAP設計 将棋手筋 BlokusDuo 甲骨文字 認識

(7)

なぜハードとソフトか

• 人間: 強い肉体(体力)+知恵(知力 • コンピュータ: 高い性能(ハード)+使いやすさ(ソフト • ハードのみ: 設計は難しい。組み立ては容易。 – 差別化が難しい。低価格化にさらされる。 • ソフトのみ: 技術者が多い。 – Cプログラミングだけなら理工系なら誰でもできる。 • ハードとソフト: できる人材が極めて少ない。ニーズは高い。 両方できれば、鬼に金棒 • Cプログラミング:アセンブリ言語やコンパイラのコード生成が 分かれば、コンパクトで速いプログラムができる • プロセッサ設計:命令の使われ方や使用頻度が分かれば、良 い命令セットを設計できる。

(8)

8

ハード/ソフト・コデザインの目標

• プロセッサ設計 • 命令セットアーキテクチャ • アセンブリ言語、C言語、コンパイラ • ハードウェア設計言語 • ハードウェアとソフトウェアの最適バランス • FPGA:プログラム可能なLSI 目標 • マルチALUプロセッサを設計してFPGA上で動かす。 • 画像処理、ガラス傷検出、ゲームなどをFPGA上で動かす。 • FPGA上で動作させて、感激を味わう。 8

(9)

並列処理の目標

• マルチコアプロセッサ

• GPU(Graphics Processing Unit) • 超並列マルチスレッド処理 • SMPクラスタ • ハイブリッド並列処理 – 共有メモリ+分散メモリ、OpenMP+MPI 目標 • リアルタイム画像生成、画像認識、囲碁など、大規模問題を SMPクラスタやGPU上で高速に解く。 • 実際に動作させて、高速化を実感し、感激を味わう。

(10)

10

5.研究テーマ

5.1 マルチALUプロセッサの設計とFPGAボ

ード上での検証

5.2 FPGAとGPUを用いたガラス傷検出の高

速化

5.3 FPGA上でのBlokusDuoの設計と実現

5.4 GPUによるリアルタイムレイトレーシング

5.5 甲骨文字の画像解析と再解読

5.6 モンテカルロ囲碁システム

10

(11)

5.1 マルチALUプロセッサMAPの設計

• 複数ALUによる並列処理 ALU数:2,4,8,16

• レジスタ数は32で、全ALUで共有

• 演算レベル並列処理

:ALUで

並列演算

連鎖演算

• HDLによるMAPの設計と論理シミュレーション

• FPGAボード上での実装・評価

• ハードとアセンブラによる並列演算と連鎖演算の検出

(12)

2ALUのMAPのデータパス

(13)

MAPの命令セットアーキテクチャ

(14)

2ALUによる並列処理

ハードウェアによる並列性の検出 PPUで並列演算、連鎖演算、単一演算を判定 14 並列演算 連鎖演算 A=B+C D=E+F A=B+C D=A+E

(15)

MAPプログラミング

• 2命令を取り出し、各オペランドのデータ依存性を調べる • データ依存がなければ並列演算、あれば連鎖演算 並列 並列 連鎖 連鎖

(16)

プロセッサデバッガ・モニタ

コマンドをデコード ボードコンピュータを制御 コマンドを入 力 16

(17)

FPGAボード上への実装

• Spartan-3A Starter Kitと、論理合成ツールISE13.2を使用 • プロセッサデバッガを設計・開発中

(18)

現状と今後の研究内容

• 2ALUのMAPをHDLで設計し、各モジュールをデバッグ • MAPアセンブラ、シミュレータを作成、MAPプログラミング • プロセッサデバッガのGUIインタフェースを作成 • MAP本体のSpartan3A上で実動作 確認 • Booth乗算(1次、2次)のFPGAボード上での実行 今後の研究内容 • クロック制御部の改善による高速化 • ALU数:4,8のMAPを設計し、並列処理の有効性を評価する 18

(19)

5.2 FPGAを用いたガラス傷検出の高速化

• 液晶用ガラスの欠損検出を画像処理によって行い,それを ハードウェア化することによって高速に処理 • 本システムは雑音除去のためのTDI,欠損検出のためのラプ ラシアンフィルタ,2値化,ラベリングから構成される 画像撮影 画像データの 読み込み ノイズ除去 傷のエッジ抽出 閾値処理 画像内の オブジェクトの 認識 傷の検出 欠損(傷)

(20)

TDI(Time Delay Integration)

• 対象物を縦方向に1ラインずつずらして複数回撮影 • 撮影画像の共通部分を重ね合わせて平均値を取る • ノイズの影響を減少 20 ・・・ 欠損(傷) 縦方向に1ラインずつずらして撮影 共通部分を重ね合わせて平均値を取る

(21)

ラベリング

• 画像中の連結成分にラベルをつける • 1回目のスキャンで仮ラベルを生成 • 2回目のスキャンでラベルを補正 1 1 1 2 1 1 1 2 2 1 1 2 2 3 3 3 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 4 4 4 4

(22)

逐次処理による欠損検出

• 画像処理モジュール – BRAM_RW – Laplacian – Labeling(仮ラベル生成) – Revising Labels(ラベル補 正) • 3ラインレジスタ – PIX_Register – LAP_Register – LAB_Register • 制御モジュール – Generate_ADDR 22

(23)

パイプライン処理による欠損検出

• 画像処理モジュール – BRAM_RW – Laplacian – Labeling (仮ラベル生成) – Revising Labels(ラベル補正) • パイプラインレジスタ – PIX_Register – LAP_Register – LAB_Register • 制御モジュール – Generate_ADDR

(24)

実験環境

• FPGA環境

– TDI処理後の画像サイズ256*256,1画素8bit – FPGA評価ボード: Xilinx社のVirtex5 507 – 合成ツール: ISE14.5 – シミュレーションツール: Isim

• CPUソフトウェア環境

– Intel Core 2 Quad CPU Q9400 2.67GHz – 4.00GB メモリ

– OS : Windows7 Ultimate – プログラム言語 : C

– コンパイラ: gcc 4.3.4

(25)

ハードウェア量

逐次処理 パイプライン 処理 Virtex5 レジスタ数 54 (0.12%) 46 (0.10%) 44800 LUT数 2222 (4.96%) 2590 (6.36%) 44800 LUT-FF ペア数 17 (0.74%) 17 (0.74%) 2295 Block RAM と FIFO数 16 (12.5%) 16 (12.5%) 128 • 二つの手法はVirtex5の僅かな部分しか使用していない • LUT数は、パイプライン処理が逐次処理により16%の増加

(26)

実行時間と速度向上

FPGA パイプライン処理 FPGA 逐次処 CPU ソフトウェア クロック周波数(MHz) 72.0 (13.9ns) 77.6 (12.9ns) ― 時間/ピクセル (ns) 13.9 51.6 2274.2 時間/画像 (ms) 0.94 3.40 149.2 速度向上 (times) 158.7 43.9 1 • パイプライン処理の性能向上 – 1ms以下で実現できた(ラプラシアン ~ラベリングの補正) – CPUソフトウェア処理の158倍 – 逐次処理の3.6倍 26

(27)
(28)

2台のFPGAでの対戦 FPGAデザインコンテスト 表彰式

第3回 相磯秀夫杯

FPGAデザインコンテスト

2013年9月18日 北陸先端科学技術大学院大学 電子情報通信学会 リコンフィギャラブル研究会 21チーム参加 予選4グループ Bグループ 1位 決勝リーグ 3位入賞 BlokusDuoボード

(29)

5.4 GPUによるリアルタイムレイトレーシング

スクリーン,視点,物体,光源を作成 (1)スクリーン上の画素に向けて光線を発生 (2)すべての物体と光線の交差判定を行う (3)光線と接した物体のうち最も距離の近い 物体を抽出 (4)抽出した物体の輝度の計算をする (5)反射や屈折が起これば, それを新たな光線とみなして (2)~(4)を繰り返す 光線 スクリーン 反射 光源 屈折 反射 屈折

(30)

Geforce GTX 480

• NVIDIA社から2010年発表 • Graphics Processing Cluster(GPC)を4個搭載 • 各GPCはストリーミング・マル チプロセッサ(SM)を4個搭載 • GPU内にSMが16個 • SMが並列処理の単位 30 SM SM SM SM ラスターエンジン GPC ホストコンピュータ Giga スレッドスケジューラ GPC L2キャッシュ:768KB GPC GPU グローバルメモリ:1536MB GPC

(31)

ストリーミング・マルチプロセッサ(SM)

• スカラー・プロセッサ (SP)が32個 • 共有メモリ:64KB • レジスタファイル: 128KB • 32個のスレッド(ワー プ)による並列処理 • Single Instruction Multiple Thread (SIMT)型プロセッサ SP SP SP SP SP SP SP SFU SFU SFU SFU 共有メモリ/L1キャッシュ:64KB テクスチャ・キャッシュ 命令キャッシュ ワープ・スケジューラ ワープ・スケジューラ ディスパッチ・ユニット ディスパッチ・ユニット LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST SM RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP

(32)

SPDシーンデータ

• SPD:レイトレーシング用のベンチマークシーンデータ

• 視線,背景,光源,物体素材,物体形状,位置の定

義が含まれている

teapot tetra mount

32

teapot tetra mount

ポリゴン数 2328 4096 8192 サイズ(KB) 370 249 617

(33)

画面のブロック分割

• スクリーンを複数の

ブロックに分割する

• 1個のブロックを1個

のSMで処理する

• 16ブロックを16個の

SMで並列処理

• SM内の32個のSPで

マルチスレッド処理

ブロック

(34)

SM内でのマルチスレッド処理

• 1画素が1スレッドに

対応

• 各スレッドはSPで処

理される

• 32スレッド(ワープ)

の並列処理

• 64ピクセルで2ワー

プ処理

ブロック 1画素 1スレッド

SP×32個

34

(35)

GPU上での並列処理

SPDファイル情報 読み込み 画像生成 スクリーン 情報受信 CPU GPU YES NO SPD情報 配列変換 スクリーンを指定されたブロック数に分割 各ブロックをワープ単位でスレッド分割 ・・・ ブロック数, スレッ ド数の指定 GPU側にSPD情報 転送 SM0 SP SP SP SP SP SP 32スレッド(1ワープ)で動作 SM1 SM15 ・ ・ ・ 光線の方向探索 交差判定 反射 輝度計算 マルチスレッド処理

(36)

実験方法と実験環境

• CPUによる逐次処理とGPUによる並列処理

– 画像の解像度は512*512

• 画面分割は

ブロック数

スレッド数

を変化させて実行

• CPU逐次処理の環境

– Intel(R) Core i7 CPU 950 @3.07GHz 6.00GB

• GPU並列処理の環境

– Intel(R) Core i7 CPU 950 @3.07GHz 6.00GB

– GPU:Geforce GTX480 (コアプロセッサ数 512個)

グラフィッククロック:700MHz,メモリクロック:1848MHz – 並列処理環境:CUDA

ブロック数 256*256 128*128 64*64 32*32 16*16 スレッド数 2*2 4*4 8*8 16*16 32*32

(37)

実行時間と速度向上

ブロック数 スレッド数

teapot

tetra

mount

実行時間 (秒) 速度向上 (倍) 実行時間 (秒) 速度向上 (倍) 実行時間 (秒) 速度向上 (倍) 256*256 2*2 13.9 14.2 7.75 12.0 20.7 12.7 128*128 4*4 3.60 55.0 2.00 46.6 5.22 50.4 64*64 8*8 1.71 116 0.92 101 2.41 109 32*32 16*16 1.83 108 0.94 99.1 2.45 107 16*16 32*32 2.17 91.2 0.99 94.1 2.56 103 CPU 198 93.2 263

(38)

5.5 甲骨文字の画像解析と再解読

• 研究背景 – 3000年以上前の甲骨文字が 劣化などの問題で、認識しに くい – 甲骨文字の解読が文字の起 源、変化と未解読資料の解 読に重要である • 研究手法 – 画像処理技術を用いて、文 字を取り出し、鮮明化して、 マッチング手法を用いて、認 識する • 貢献 – 文化財産の保護 – 古文献の解読による史学へ の貢献 文字の 切り出し (川) (水) データベースから 類似候補を抽出する *川が正しい 甲骨

研究のイメージ図 認識

(39)

5.6 モンテカルロ囲碁 各種知的ゲームの比較

チェス 将棋 囲碁 局面数 10120 10200 10300 コンピュータ チャンピオン 女流トッププロ の強さ に勝利 前名人以上 アマ六段程度 人間に勝つ 1997年 2010年 女流 2030年? のはいつ Kasparov 2015年? 名人 トピック IBM 評価関数の モンテカルロ囲碁 DeepBlue 機械学習 人間との対戦 激指 清水上アマ名人に○ MoGo プロ8段に9子で○ 稲葉アマ準名人に× CrazyStone あから2010 清水女流王将に○ 青葉4段に8子で○ 2012年 ボンクラーズ 米長前名人に○ 武宮9段に6子で○ 2013年 第1回電王戦 3勝1敗1分 武宮9段に4子で1勝1敗

(40)

40

モンテカルロ囲碁とは

• 囲碁は陣地をたくさん取った方が勝ち

• ある局面から最後まで実際に打って(プレイアウト)、

最も勝率の高い手を次の手とする。

• ランダムプレイアウト:乱数を用いて、適当に最後まで

打つ(弱い)

• パターンプレイアウト:よく出てくるパターンに基づいて

最後まで打つ(上より強い)

• 次の候補手を5つ位選ぶ→プレイアウト→最も勝率の

高い手を次の手とする。

(41)

モンテカルロ囲碁の並列化

盤面認識 候補手生成(5つ) プレイアウト 1 2 3 4 5 0.4 0.5 0.3 0.7 0.6 勝率 1 2 3 4 5 4を打つ プレイアウト 黒勝ち 白勝ち 0.8 0.66 0.6 0.5 大量のプレイアウトを高速に行う

(42)

42

6.貴君らに提供できること

• 問題解決の仕方

– 卒論、進路、就職、‥

• スケジューリングの仕方

– Plan, do, check

• 研究発表の仕方

– 日本語文章、スライド作成、発表、‥

• 英会話勉強の仕方

– マンチェスター大学 客員研究員 1992年~1993年 – IEEE student branch カウンセラー 2006年から5年間 – 英語プレゼン大会 2004年から10回実施

(43)

ドイツ・ハノーバ大学短期留学

・2013年度 GRGP (Global-ready Graduate Program) 受講 ⇒大学院生のための留学プログラム ・留学先決定までの過程 1. 履歴書(CV)とCover letterを 作成 2. 画像処理を主に行っている海外の大学をサーチ 3. 研究室の担当教授にメールを送付 (約50通) ・留学先

ドイツ・ハノーバ大学・The institut für Informationsverarbeitung 担当教授:Prof. Dr.-Ing. Jörn Ostermann

研究室名:情報科学技術研究室 研究内容:マルチメディア信号処理及び画像解析 ・期間 2013年8月5日~2013年10月19日 ・研究内容 1.ビデオ動画上で移動する小物体のラベリング 2.地理画像上での小物体のラベリング M1 野尻 直人君

(44)

• 学んだこと

-

コミュニケーション能力

-人との出会い

-自己主張

-向上心

-感謝

大学での昼食 宿泊先の部屋 マインツ(岡崎慎司選手)VSハノーバ(酒井宏樹選手)

(45)
(46)

ラジオシティ法 サンプル画像

Parallel Computing 2011 46

(47)

入門 SPARTAN-3 Starter Kit

(48)

VIRTEX5

(49)
(50)

• 今日のスライドを高性能計算研究室の私

のHPにアップしておきます。

• 興味のある人は、ぜひ研究室見学に来て

下さい。

• 気力、体力、知力のある人 歓迎!

• 研究室デモ 11月4日(月) 13時~15時

11月5日(火) 13時~15時

11月6日(水) 15時~17時

50

おわりに

参照

関連したドキュメント

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

• 問題が解決しない場合は、アンテナレベルを確認し てください(14

Research Institute for Mathematical Sciences, Kyoto University...

INA新建築研究所( ●● ) : 御紹介にあずかりましたINA新建築研究所、 ●●

経済学研究科は、経済学の高等教育機関として研究者を

本研究科は、本学の基本理念のもとに高度な言語コミュニケーション能力を備え、建学

本研究科は、本学の基本理念のもとに高度な言語コミュニケーション能力を備え、建学

 本学薬学部は、薬剤師国家試験100%合格を前提に、研究心・研究能力を持ち、地域のキーパーソンとして活