２０１２　研究テーマ

(1)

山崎研究室紹介

２０１３年１０月２８日

山崎勝弘

yamazaki@se.ritsumei.ac.jp １．研究室の目標２．育成したい人材３．指導方針４．研究分野：並列処理とハード/ソフト・コデザイン５．研究テーマ６．貴君らに提供できること

(2)

2

１．研究室の目標

• ハードウェアとソフトウェアの両方分かる人

材の育成

• コミュニケーション能力、スケジューリング

能力、および知的体力の養成

• 社会人としての基本的素養をつけ、努力を

継続して、目標を達成できる人材の育成

• 並列処理とハード/ソフト・コデザインを融合

した高性能な問題解決システムの構築

2

(3)

２．育成したい人材像

• あいさつ

• コミュニケーション能力

– 日本語で正しく表現、発表、議論

– 英語能力

• スケジューリング能力

– 立案、実行、チェック（Plan, do ,check）

• 知的体力

– 最後まであきらめずにやり遂げること

(4)

4

３．指導方針

• 前向きに楽しく

： positive thinking

• 研究テーマの設定、研究環境の整備

• 社会人としての基本的素養

をつけて欲しい。

• 社会人になるための実力

をつけて欲しい。

• 英会話学習のきっかけ

をつかんで欲しい。

• 自分の夢

を将来にわたって実現して欲しい。

4

(5)

４．研究分野

並列処理とハード/ソフト・コデザインを融合した高性能な問題解決システムの構築デザインパターンハード／ソフト・コラー ニングシステム 命令セットプロセッサコンパイラ並列処理 SMPクラスタの構築１号機～４号機画像圧縮Ｎ体問題ハッシュ関数高速化 GPU ハイブリッドガラス傷検出高速化 GPUマシンとSMPクラスタを使いこなす。 FPGAボードを使いこなす。マルチALUプロセッサの設計 Blokus Duo モンテカルロ囲碁将棋手筋ラジオシティ法フォトンマッピングリアルタイムレイトレーシング甲骨文の画像解析と再解読

(6)

研究経歴

_{（1976～現在）}

FPGA ハードソフトアーキテクチャ並列アプリ知識工学 QA-1 MUNAP レイトレーシングラジオシティハード/ソフト・コラーニングシステム JPEG、MPEG _{N体、グリッド} 電力系統知的CAI 事例ベース並列プログラミングハッシュ関数高速化同期マルチメディア命令スケジューリングガラス傷検出 OpenMP 動作合成 _{リアルタイム} レイトレーシングモンテカルロ囲碁ルーティングトランスピュータ AP1000+ PCクラスタ SMPクラスタ KSR1 GPU SMPクラスタＧＰＵ FPGA プロセッサ４台の並列マシンマイクロプログラム制御ハードウェア、システムソフトアプリケーション SMPクラスタ情報工学科情報学科電子情報デザイン学科電子情報工学科 1988 2004 1994 2012 MAP設計将棋手筋 BlokusDuo 甲骨文字認識

(7)

なぜハードとソフトか

• 人間：強い肉体（体力）＋知恵（知力_） • コンピュータ：高い性能（ハード）＋使いやすさ（ソフト_） • ハードのみ：設計は難しい。組み立ては容易。 – 差別化が難しい。低価格化にさらされる。 • ソフトのみ：技術者が多い。 – Cプログラミングだけなら理工系なら誰でもできる。 • ハードとソフト：できる人材が極めて少ない。ニーズは高い。 _{両方できれば、鬼に金棒} • Cプログラミング：アセンブリ言語やコンパイラのコード生成が分かれば、コンパクトで速いプログラムができる • プロセッサ設計：命令の使われ方や使用頻度が分かれば、良い命令セットを設計できる。

(8)

8

ハード/ソフト・コデザインの目標

• プロセッサ設計 • 命令セットアーキテクチャ • アセンブリ言語、C言語、コンパイラ • ハードウェア設計言語 • ハードウェアとソフトウェアの最適バランス • FPGA：プログラム可能なLSI 目標 • マルチALUプロセッサを設計してFPGA上で動かす。 • 画像処理、ガラス傷検出、ゲームなどをFPGA上で動かす。 • FPGA上で動作させて、感激_{を味わう。} 8

(9)

並列処理の目標

• マルチコアプロセッサ

• GPU(Graphics Processing Unit) • 超並列マルチスレッド処理 • SMPクラスタ • ハイブリッド並列処理 – 共有メモリ＋分散メモリ、OpenMP＋MPI 目標 • リアルタイム画像生成、画像認識、囲碁など、大規模問題を SMPクラスタやGPU上で高速に解く。 • 実際に動作させて、高速化を実感し、感激_{を味わう。}

(10)

10

５．研究テーマ

５．１マルチALUプロセッサの設計とFPGAボ

ード上での検証

５．２ FPGAとGPUを用いたガラス傷検出の高

速化

５．３ FPGA上でのBlokusDuoの設計と実現

５．４ GPUによるリアルタイムレイトレーシング

５．５甲骨文字の画像解析と再解読

５．６モンテカルロ囲碁システム

10

(11)

５．１マルチALUプロセッサMAPの設計

• 複数ALUによる並列処理 ALU数：２，４，８，１６

• レジスタ数は32で、全ALUで共有

• 演算レベル並列処理

：ALUで

並列演算

と

連鎖演算

• HDLによるMAPの設計と論理シミュレーション

• FPGAボード上での実装・評価

• ハードとアセンブラによる並列演算と連鎖演算の検出

(12)

2ALUのMAPのデータパス

(13)

MAPの命令セットアーキテクチャ

(14)

2ALUによる並列処理

ハードウェアによる並列性の検出 PPUで並列演算、連鎖演算、単一演算を判定 14 並列演算 連鎖演算 A＝B＋C D＝E＋F A＝B＋C D＝A＋E

(15)

MAPプログラミング

• 2命令を取り出し、各オペランドのデータ依存性を調べる • データ依存がなければ並列演算、あれば連鎖演算並列並列連鎖連鎖

(16)

プロセッサデバッガ・モニタ

コマンドをデコードボードコンピュータを制御コマンドを入力 16

(17)

FPGAボード上への実装

• Spartan-3A Starter Kitと、論理合成ツールISE13.2を使用 • プロセッサデバッガを設計・開発中

(18)

現状と今後の研究内容

• ２ALUのMAPをHDLで設計し、各モジュールをデバッグ • MAPアセンブラ、シミュレータを作成、MAPプログラミング • プロセッサデバッガのGUIインタフェースを作成 • MAP本体のSpartan3A上で実動作確認 • Booth乗算（１次、２次）のFPGAボード上での実行今後の研究内容 • クロック制御部の改善による高速化 • ALU数：４，８のMAPを設計し、並列処理の有効性を評価する 18

(19)

5.2 FPGAを用いたガラス傷検出の高速化

• 液晶用ガラスの欠損検出を画像処理によって行い，それをハードウェア化することによって高速に処理 • 本システムは雑音除去のためのTDI，欠損検出のためのラプラシアンフィルタ，2値化，ラベリングから構成される画像撮影画像データの読み込みノイズ除去傷のエッジ抽出閾値処理画像内のオブジェクトの認識傷の検出欠損（傷）

(20)

TDI(Time Delay Integration)

• 対象物を縦方向に1ラインずつずらして複数回撮影 • 撮影画像の共通部分を重ね合わせて平均値を取る • ノイズの影響を減少 20 ・・・欠損（傷）縦方向に1ラインずつずらして撮影共通部分を重ね合わせて平均値を取る

(21)

ラベリング

• 画像中の連結成分にラベルをつける • 1回目のスキャンで仮ラベルを生成 • 2回目のスキャンでラベルを補正 1 1 1 2 1 1 1 2 2 1 1 2 2 3 3 3 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 4 4 4 4

(22)

逐次処理による欠損検出

• 画像処理モジュール – BRAM_RW – Laplacian – Labeling（仮ラベル生成） – Revising Labels（ラベル補正） • ３ラインレジスタ – PIX_Register – LAP_Register – LAB_Register • 制御モジュール – Generate_ADDR 22

(23)

パイプライン処理による欠損検出

• 画像処理モジュール – BRAM_RW – Laplacian – Labeling （仮ラベル生成） – Revising Labels（ラベル補正） • パイプラインレジスタ – PIX_Register – LAP_Register – LAB_Register • 制御モジュール – Generate_ADDR

(24)

実験環境

• FPGA環境

– TDI処理後の画像サイズ256*256，1画素8bit – FPGA評価ボード： Xilinx社のVirtex5 507 – 合成ツール： ISE14.5 – シミュレーションツール： Isim

• CPUソフトウェア環境

– Intel Core 2 Quad CPU Q9400 2.67GHz – 4.00GB メモリ

– OS ： Windows7 Ultimate – プログラム言語： C

– コンパイラ： gcc 4.3.4

(25)

ハードウェア量

逐次処理パイプライン処理 Virtex5 レジスタ数 54 (0.12%) 46 (0.10%) 44800 LUT数 2222 (4.96%) 2590 (6.36%) 44800 LUT-FF ペア数 17 (0.74%) 17 (0.74%) 2295 Block RAM と FIFO数 16 (12.5%) 16 (12.5%) 128 • 二つの手法はVirtex5の僅かな部分しか使用していない • LUT数は、パイプライン処理が逐次処理により16%の増加

(26)

実行時間と速度向上

FPGA パイプライン処理 FPGA 逐次処 理 CPU ソフトウェア クロック周波数(MHz) _72.0 (13.9ns) 77.6 (12.9ns) ― 時間/ピクセル (ns) _13.9 _51.6 _2274.2 時間/画像 (ms) _0.94 _3.40 _149.2 速度向上 (times) _158.7 _43.9 ₁ • パイプライン処理の性能向上 – 1ms以下で実現できた（ラプラシアン～ラベリングの補正） – CPUソフトウェア処理の158倍 – 逐次処理の3.6倍 26

(27)

(28)

２台のFPGAでの対戦 FPGAデザインコンテスト表彰式

第3回相磯秀夫杯

FPGAデザインコンテスト

2013年9月18日北陸先端科学技術大学院大学電子情報通信学会リコンフィギャラブル研究会２１チーム参加予選４グループ Bグループ 1位決勝リーグ 3位入賞 _{BlokusDuoボード}

(29)

５．４ GPUによるリアルタイムレイトレーシング

スクリーン，視点，物体，光源を作成（１）スクリーン上の画素に向けて光線を発生（２）すべての物体と光線の交差判定を行う（３）光線と接した物体のうち最も距離の近い物体を抽出（４）抽出した物体の輝度の計算をする（５）反射や屈折が起これば，それを新たな光線とみなして（２）～（４）を繰り返す光線 _{スクリーン} 反射光源屈折反射屈折

(30)

Geforce GTX 480

• NVIDIA社から2010年発表 • Graphics Processing Cluster(GPC)を4個搭載 • 各GPCはストリーミング・マルチプロセッサ（SM）を4個搭載 • GPU内にSMが16個 • SMが並列処理の単位 30 SM SM SM SM ラスターエンジン GPC ホストコンピュータ Giga スレッドスケジューラ GPC L2キャッシュ:768KB GPC GPU グローバルメモリ:1536MB GPC

(31)

ストリーミング・マルチプロセッサ(SM)

• スカラー・プロセッサ（SP）が32個 • 共有メモリ：64KB • レジスタファイル： 128KB • 32個のスレッド（ワープ）_{による並列処理} • Single Instruction Multiple Thread （SIMT）型プロセッサ SP SP SP SP SP SP SP SFU SFU SFU SFU 共有メモリ/L1キャッシュ:64KB テクスチャ・キャッシュ 命令キャッシュ ワープ・スケジューラ ワープ・スケジューラ ディスパッチ・ユニット ディスパッチ・ユニット LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST SM RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP SP SP SP SP SP SP SP RF RF RF RF RF RF RF RF SP

(32)

SPDシーンデータ

• SPD：レイトレーシング用のベンチマークシーンデータ

• 視線，背景，光源，物体素材，物体形状，位置の定

義が含まれている

ｔeapot ｔetra mount

32

teapot tetra mount

ポリゴン数 2328 4096 8192 サイズ（KB) 370 249 617

(33)

画面のブロック分割

• スクリーンを複数の

ブロックに分割する

• 1個のブロックを1個

のSMで処理する

• 16ブロックを16個の

SMで並列処理

• SM内の32個のSPで

マルチスレッド処理

ブロック

(34)

SM内でのマルチスレッド処理

• 1画素が1スレッドに

対応

• 各スレッドはSPで処

理される

• 32スレッド（ワープ）

の並列処理

• 64ピクセルで2ワー

プ処理

ブロック 1画素 1スレッド

_SP×32個

34

(35)

GPU上での並列処理

SPDファイル情報 読み込み 画像生成 スクリーン 情報受信 CPU GPU YES NO SPD情報 配列変換 スクリーンを指定されたブロック数に分割 各ブロックをワープ単位でスレッド分割 ・・・ ブロック数, スレッ ド数の指定 GPU側にSPD情報 転送 SM0 SP _SP SP SP SP SP 32スレッド（1ワープ）で動作 SM1 SM15 ・・・ 光線の方向探索 交差判定 反射 輝度計算 マルチスレッド処理

(36)

実験方法と実験環境

• CPUによる逐次処理とGPUによる並列処理

– 画像の解像度は512*512

• 画面分割は

ブロック数

，

スレッド数

_{を変化させて実行}

• CPU逐次処理の環境

– Intel(R) Core i7 CPU 950 @3.07GHz 6.00GB

• GPU並列処理の環境

– Intel(R) Core i7 CPU 950 @3.07GHz 6.00GB

– GPU：Geforce GTX480 （コアプロセッサ数 512個）

グラフィッククロック：700MHz，メモリクロック：1848MHz – 並列処理環境：CUDA

ブロック数 256*256 128*128 64*64 32*32 16*16 スレッド数 2*2 4*4 8*8 16*16 32*32

(37)

実行時間と速度向上

ブロック数スレッド数

teapot

tetra

mount

実行時間 (秒) 速度向上 (倍) 実行時間 (秒) 速度向上 (倍) 実行時間 (秒) 速度向上 (倍) 256*256 2*2 13.9 14.2 7.75 12.0 20.7 12.7 128*128 4*4 3.60 55.0 2.00 46.6 5.22 50.4 64*64 8*8 1.71 116 0.92 101 2.41 109 32*32 16*16 1.83 108 0.94 99.1 2.45 107 16*16 32*32 2.17 91.2 0.99 94.1 2.56 103 CPU １９８９３．２２６３

(38)

５．５甲骨文字の画像解析と再解読

• 研究背景 – 3000年以上前の甲骨文字が劣化などの問題で、認識しにくい – 甲骨文字の解読が文字の起源、変化と未解読資料の解読に重要である • 研究手法 – 画像処理技術を用いて、文字を取り出し、鮮明化して、マッチング手法を用いて、認識する • 貢献 – 文化財産の保護 – 古文献の解読による史学への貢献文字の切り出し (川) (水) データベースから類似候補を抽出する *川が正しい甲骨

川

研究のイメージ図認識

(39)

５．６モンテカルロ囲碁各種知的ゲームの比較

チェス将棋囲碁局面数１０１２０_１０２００_１０３００コンピュータチャンピオン女流トッププロの強さに勝利前名人以上アマ六段_程度人間に勝つ１９９７年２０１０年女流２０３０年？のはいつ Kasparov ２０１５年？名人トピック IBM 評価関数のモンテカルロ囲碁 DeepBlue 機械学習人間との対戦激指清水上アマ名人に○ MoGo プロ8段に9子で○ 稲葉アマ準名人に× CrazyStone あから2010 清水女流王将に○ 青葉4段に8子で○ 2012年ボンクラーズ米長前名人に○ 武宮9段に6子で○ 2013年第１回電王戦３勝１敗１分武宮9段に4子で１勝１敗

(40)

40

モンテカルロ囲碁とは

• 囲碁は陣地をたくさん取った方が勝ち

• ある局面から最後まで実際に打って（プレイアウト）、

最も勝率の高い手を次の手とする。

• ランダムプレイアウト：乱数を用いて、適当に最後まで

打つ（弱い）

• パターンプレイアウト：よく出てくるパターンに基づいて

最後まで打つ（上より強い）

• 次の候補手を５つ位選ぶ→プレイアウト→最も勝率の

高い手を次の手とする。

(41)

モンテカルロ囲碁の並列化

盤面認識候補手生成（５つ）プレイアウト１２３４５ 0.4 0.5 0.3 0.7 0.6 勝率１２３４５４を打つプレイアウト黒勝ち白勝ち 0.8 0.66 0.6 0.5 大量のプレイアウトを高速に行う

(42)

42

６．貴君らに提供できること

• 問題解決の仕方

– 卒論、進路、就職、‥

• スケジューリングの仕方

– Plan, do, check

• 研究発表の仕方

– 日本語文章、スライド作成、発表、‥

• 英会話勉強の仕方

– マンチェスター大学客員研究員 1992年～1993年 – IEEE student branch カウンセラー 2006年から5年間 – 英語プレゼン大会 2004年から10回実施

(43)

ドイツ・ハノーバ大学短期留学

・2013年度 GRGP (Global-ready Graduate Program) 受講 ⇒大学院生のための留学プログラム・留学先決定までの過程 1. 履歴書（CV）とCover letterを作成 2. 画像処理を主に行っている海外の大学をサーチ 3. 研究室の担当教授にメールを送付 (約50通) ・留学先

ドイツ・ハノーバ大学・The institut für Informationsverarbeitung 担当教授：Prof. Dr.-Ing. Jörn Ostermann

研究室名：情報科学技術研究室研究内容：マルチメディア信号処理及び画像解析・期間 2013年8月5日～2013年10月19日・研究内容 1.ビデオ動画上で移動する小物体のラベリング 2.地理画像上での小物体のラベリング M1 野尻直人君

(44)

• 学んだこと

-

コミュニケーション能力

-人との出会い

-自己主張

-向上心

-感謝

大学での昼食宿泊先の部屋マインツ（岡崎慎司選手）VSハノーバ（酒井宏樹選手）

２０１２ 研究テーマ

山崎研究室紹介

山崎 勝弘

１．研究室の目標

• ハードウェアとソフトウェアの両方分かる人

材の育成

• コミュニケーション能力、スケジューリング

能力、および知的体力の養成

• 社会人としての基本的素養をつけ、努力を

継続して、目標を達成できる人材の育成

• 並列処理とハード/ソフト・コデザインを融合

した高性能な問題解決システムの構築

２．育成したい人材像

• あいさつ

• コミュニケーション能力

– 日本語で正しく表現、発表、議論

– 英語能力

• スケジューリング能力

– 立案、実行、チェック（Plan, do ,check）

• 知的体力

– 最後まであきらめずにやり遂げること

３．指導方針

• 前向きに楽しく

： positive thinking

• 研究テーマの設定、研究環境の整備

• 社会人としての基本的素養

をつけて欲しい。

• 社会人になるための実力

をつけて欲しい。

• 英会話学習のきっかけ

をつかんで欲しい。

• 自分の夢

を将来にわたって実現して欲しい。

４．研究分野

研究経歴

（1976～現在）

なぜハードとソフトか

ハード/ソフト・コデザインの目標

並列処理の目標

５．研究テーマ

５．１ マルチALUプロセッサの設計とFPGAボ

ード上での検証

５．２ FPGAとGPUを用いたガラス傷検出の高

速化

５．３ FPGA上でのBlokusDuoの設計と実現

５．４ GPUによるリアルタイムレイトレーシング

５．５ 甲骨文字の画像解析と再解読

５．６ モンテカルロ囲碁システム

５．１ マルチALUプロセッサMAPの設計

• 複数ALUによる並列処理 ALU数：２，４，８，１６

• レジスタ数は32で、全ALUで共有

• 演算レベル並列処理

：ALUで

並列演算

と

連鎖演算

• HDLによるMAPの設計と論理シミュレーション

• FPGAボード上での実装・評価

• ハードとアセンブラによる並列演算と連鎖演算の検出

2ALUのMAPのデータパス

MAPの命令セットアーキテクチャ

2ALUによる並列処理

MAPプログラミング

プロセッサデバッガ・モニタ

FPGAボード上への実装

現状と今後の研究内容

5.2 FPGAを用いたガラス傷検出の高速化

TDI(Time Delay Integration)

ラベリング

逐次処理による欠損検出

パイプライン処理による欠損検出

実験環境

• FPGA環境

• CPUソフトウェア環境

ハードウェア量

実行時間と速度向上

第3回 相磯秀夫杯

FPGAデザインコンテスト

５．４ GPUによるリアルタイムレイトレーシング

Geforce GTX 480

２０１２　研究テーマ

山崎勝弘

_{（1976～現在）}

５．１マルチALUプロセッサの設計とFPGAボ

５．５甲骨文字の画像解析と再解読

５．６モンテカルロ囲碁システム

５．１マルチALUプロセッサMAPの設計

第3回相磯秀夫杯

_SP×32個

_{を変化させて実行}

５．５甲骨文字の画像解析と再解読

５．６モンテカルロ囲碁各種知的ゲームの比較

ラジオシティ法サンプル画像