あらまし画像処理アルゴリズムの開発から製品実装に至るまでには膨大な工数が必要とされている. まず研究開発段階においてアルゴリズムが発案され, ソフトウェア上での実装, 評価を経てアルゴリズムが確立される. その後製品にハードウェアとして実装するにあたり, アルゴリズムの近似化や高速化が行われ, ハ

(1)

博士論文

セルラ進化型回路網による

画像処理回路の自動構築とそのハードウェア化

Automatic Construction of Image Processing Circuit

with Cellular Evolutionary Network

and Its Hardware Implementation

国立大学法人横浜国立大学

大学院環境情報学府

永田　智洋

Tomohiro NAGATA

(2)

あらまし

画像処理アルゴリズムの開発から製品実装に至るまでには膨大な工数が必要とされている．まず研究開発段階においてアルゴリズムが発案され，ソフトウェア上での実装，評価を経てアルゴリズムが確立される．その後製品にハードウェアとして実装するにあたり，アルゴリズムの近似化や高速化が行われ，ハードウェア実装方法が検討される．最後に製品の設計・実装段階において，製品のハードウェア上にアルゴリズムが組み込まれる．近年，電子機器に搭載される画像処理技術が高度化しそのアルゴリズムも複雑になってきているため，開発工数の削減が望まれている．

筆者らの研究グループでは，Cellular Neural Networks (CNN) の単位ユニット（セル）を，進化計算法によって神経回路網の構造を最適化する進化型神経回路網のひとつである Real-valued

Flex-ibly Connected Neural Networks (RFCN)に置き換えた，セルラ進化型回路網 (Cellular Evolutionary

Network; CEN)を提案している．これは CNN の設計コストの低さや並列計算性と，RFCN の高い計算能力を融合した神経回路網モデルである．同一の構造を有する RFCN を格子状に整列させることで，これまで最適化が困難であった多入力多出力の問題である画像変換，画像分類に対して，回路構造の最適化が可能である．CEN は構造が規則的なため並列計算による処理の高速化が可能であり，またセル同士の相互作用によって複雑な処理を行うことができる．さらにセルはプリミティブな処理を行うユニットで構成されており，ハードウェア化が容易であるという特徴を有する．これらの特性によれば，CEN を用いて画像処理回路を自動構築しそれをハードウェアに落とし込むことによって，上述したようなアルゴリズムの発案やハードウェア実装方法の検討を行うことが不要となり，開発工数の大幅な削減が可能となる新たな開発プロセスへの応用が期待できる．現在までに CEN はその基本方式が確立されており，手書き文字除去処理などの画像変換と顔・非顔分類問題などの画像分類への有効性が示されている．しかし，その他の画像処理への応用やハードウェア化の試みはまだ行われていない．そこで本論文では，CEN の他の画像処理回路の自動構築への応用とそのハードウェア化を行い，その有効性とハードウェア上での実現可能性を検証する．まず，近傍同士のセルの相互作用によって実現可能と思われる超解像処理回路の自動構築法を提案する．提案手法する超解像処理回路では低解像度画像を線形補間した画像を CEN に入力し， GPUを用いて各セルを並列計算することによって超解像処理を行う．3 パターンの傾向の画像セットについて実験を行い，従来手法と比較して高精度な処理を非常に高速に行うことができることを示す．次に，遠方同士のセルの相互作用によって実現可能と思われる処理の応用として，視差伝搬に基づくステレオマッチング回路の自動構築法を提案する．視差伝搬に基づくステレオマッチング回路では，まず簡易な方法で左右画像それぞれに対する初期視差を算出し，CEN を用いて初期視差をその信頼度をもとに伝搬させることによってステレオマッチングを行う．Middlebury stereo dataset を用いて実験を行い，従来手法と比較して多様な画像に対して安定的に高精度な視差を高速に出力できることを示す．

その後，さらに高精度で高速なステレオマッチング回路を目指し，視差拡散・吸収に基づくステレオマッチング回路の自動構築法を提案する．視差拡散・吸収に基づくステレオマッチング回路では，初期視差計算時に最適化したマッチングコスト関数を用いることで初期視差を最適化する．

(3)

また初期視差の信頼度に基づいてセルを拡散性または吸収性に役割分担した上で視差伝搬を行う．

Middlebury stereo datasetを用いて実験を行い，視差伝搬に基づくステレオマッチング回路に対して

計算コストを低減した上で精度向上を実現できることを示す．

最後に，超解像処理回路を例として自動構築した画像処理回路のハードウェア化を試みる．自動構築した回路を Verilog-HDL を用いて設計してシミュレーションを行い，ハードウェア上での実現可能性を検証する．またシミュレーションを行って得られた知見を基に，自動構築法にフィードバックすべき点について検討する．

(4)

Abstract

Development and implementation of image processing algorithm take up a lot of time and work. First an algorithm is invented in the research phase, and established through software implementation and performance evaluation. Then the algorithm is modified for approximation or speeding up, and the means of hardware implementation is examined. Finally the algorithm is implemented on hardware as a part of product．Recently, image processing technology on electronic devices is becoming more sophisticated and more complex, thus there is a need to shorten the research and development period.

We previously proposed cellular evolutionary neural networks (CEN), which is a combined model of cellular neural networks (CNN) and real-valued flexibly connected neural networks (RFCN), a type of evolutionary neural networks. CEN consists of a lattice array of identical RFCNs as cells, which are locally connected with each other as with CNN. Namely, each RFCN corresponds to each cell in CNN.

The structural uniformity of CEN reduces the cost of designing (i.e. we need to optimize only one cell) and enables parallel computation as with that of CNN does. Besides that, CEN has higher computational power than CNN due to the evolutionary optimization of RFCN and their cellular interaction; and it is easy to implement CEN on hardware since its cell consists of primitive processing units.

According to these characteristics, automatically constructing image processing circuit using CEN can be a novel development methodology and shorten the research and development period described above. We had proposed basic idea of CEN, and our previous work has demonstrated that CEN showed high performance in image conversion, such as extraction of printed character on a scanned document, and face-non-face image classification. However no study on CEN’s other image processing application or attempt to hardware implementation has yet been conducted. In this paper, therefore, we propose further applications of CEN to image processing and its hardware implementation, and show its eﬀectivity and feasibility.

First we propose an automatic construction algorithm of single frame super-resolution circuit as CEN’s application, which requires interaction of neighboring cells. Our algorithm first bilinear-interpolates a low-resolution image, and then produces a high-resolution image using CEN. The state transition of each cell is performed in parallel with GPU. We test our algorithm with 3 types of image sets, and experimental results show our algorithm is able to produce state-of-the-art results at high speed compared to conventional methods.

Many algorithms for single frame super-resolution have been proposed because of its broad range of applications. For most of previous algorithms, however, there is a trade-oﬀ between quality and running time. In this paper,

As another application, which requires interaction of distant cells, we propose an automatic construc-tion algorithm of stereo matching circuit based on disparity propagaconstruc-tion. Our algorithm calculates initial disparities with a simple method, and then propagates those disparities using CEN. The direction of prop-agation is controlled by a reliability map, which is created by checking left-right consistency of the initial disparity maps. We test our algorithm with the Middlebury stereo dataset, and experimental results show

(5)

that our algorithm is able to produce more accurate disparities than conventional methods for various types of scenes with low computational cost.

To improve our automatic construction algorithm of stereo matching circuit, we propose an initial dis-parity optimization and disdis-parity diﬀusion/absorption-based approach. The first feature mainly calculates initial disparities by an evolutionary-optimized matching cost function. The second feature then diﬀuse or absorb them according to the reliability of the initial disparity by utilizing state transition of CEN. Experimental results show that our new algorithm exceeds the conventional methods and our previous one with lower computational cost, indicating the key features boost accuracy, especially for textureless regions, without being computationally expensive.

Finally, we attempt to implement the super-resolution circuit constructed by CEN as an example. We designed and simulate the circuit by Verilog-HDL, and verify its feasibility on hardware. In addition, we examine hardware-oriented CEN based on knowledge obtained by the simulation.

(6)

2.2.1 CENの基本構造 . . . 5 2.2.2 CENによる画像処理 . . . 5 2.3 まとめ . . . 7 第 3 章超解像処理回路の自動構築 9 3.1 はじめに . . . 9 3.1.1 シングルフレーム超解像処理の従来研究 . . . 9 3.1.2 従来研究の問題点 . . . 10 3.2 CENによる超解像処理 . . . 10 3.2.1 概要と主な特徴 . . . 10 3.2.2 セルの構造 . . . 11 3.2.3 処理の流れ . . . 12 3.2.4 回路の最適化 . . . 12 3.2.5 並列処理による高速化 . . . 14 3.3 超解像処理実験 . . . 14 3.3.1 実験設定 . . . 14 3.3.2 実験結果と考察 . . . 18 3.4 まとめ . . . 25 第 4 章視差伝搬に基づくステレオマッチング回路の自動構築 26 4.1 はじめに . . . 26 4.1.1 ステレオマッチングの従来研究 . . . 26 4.1.2 従来研究の問題点 . . . 28 4.2 CENによる視差伝搬に基づくステレオマッチング . . . 28 4.2.1 概要と主な特徴 . . . 28 4.2.2 処理の流れ . . . 29 4.2.3 回路の最適化 . . . 30 4.3 視差算出実験 . . . 31 4.3.1 実験設定 . . . 31 4.3.2 実験結果と考察 . . . 35

(7)

4.4 まとめ . . . 38 第 5 章視差拡散・吸収に基づくステレオマッチング回路の自動構築 40 5.1 はじめに . . . 40 5.2 CENによる視差拡散・吸収に基づくステレオマッチング . . . 40 5.2.1 概要と主な特徴 . . . 40 5.2.2 処理の流れ . . . 41 5.2.3 回路の最適化 . . . 43 5.3 視差算出実験 . . . 44 5.3.1 実験設定 . . . 44 5.3.2 実験結果と考察 . . . 46 5.4 まとめ . . . 50 第 6 章自動構築した画像処理回路のハードウェア化 ―超解像処理回路を例として― 52 6.1 はじめに . . . 52 6.2 超解像処理回路の設計 . . . 52 6.2.1 概要 . . . 52 6.2.2 回路の設計 . . . 53 6.3 超解像処理回路のシミュレーション . . . 56 6.3.1 概要 . . . 56 6.3.2 RTLシミュレーション . . . 56 6.3.3 タイミング解析 . . . 58 6.3.4 ゲートレベルシミュレーション . . . 60 6.4 ハードウェア指向 CEN の検討 . . . 60 6.5 まとめ . . . 62 第 7 章結論 63 7.1 本論文で得られた成果 . . . 63 7.2 今後の課題 . . . 64 謝辞 65 参考文献 65 本研究に関する発表 70

(8)

図目次

2.1 RFCNの回路構造の例 . . . 3 2.2 CENの構造例 . . . 6 2.3 CENを階層的に用いた画像分類回路 . . . 7 3.1 CENによる超解像処理 . . . 11 3.2 近傍入力 Iiの結合荷重 . . . 11 3.3 テスト画像に対する結果の一部（顔） . . . 20 3.4 テスト画像に対する結果の一部（建物） . . . 20 3.5 テスト画像に対する結果の一部（テキスト） . . . 21 3.6 構築された回路構造（顔） . . . 22 3.7 構築された回路構造（建物） . . . 23 3.8 構築された回路構造（テキスト） . . . 23 3.9 構築された回路の状態遷移の様子（顔） . . . 24 4.1 CENによるステレオマッチング . . . 28 4.2 近傍入力 Iiの結合荷重 . . . 31 4.3 信頼度に基づくセルの結合関係 . . . 31 4.4 学習画像セットと重み画像の例 . . . 32 4.5 学習画像，テスト画像の一部に対する各手法の視差画像 . . . 36 4.6 各テスト画像に対する ER1.0と RMS . . . 37 4.7 構築されたセルの回路構造 . . . 39 4.8 tr2と ts15 に対する回路の状態遷移の様子 . . . 39 5.1 CGPによるマッチングコスト関数のイメージ . . . 41 5.2 セルの役割と結合関係 . . . 42 5.3 CGPの遺伝子型と表現型 . . . 43 5.4 各学習画像，テスト画像の一部に対する各手法の視差画像 . . . 47

5.5 CEN (prev.)と CEN (new) の処理時間の割合 . . . 48

5.6 CGPによって最適化されたマッチングコスト関数 . . . 49 5.7 ts6と ts15 に対する初期視差画像 . . . 49 5.8 ts6と ts15 の左右画像に対するマッチングコスト関数適用結果 . . . 49 5.9 構築されたセルの回路構造 . . . 51 5.10 tr6と ts15 に対する回路の状態遷移の様子 . . . 51 6.1 Verilog-HDLによる回路記述の例 . . . 52 6.2 Verilog-HDLによる超解像処理 . . . 53 6.3 セットアップ解析とホールド解析 . . . 59

(9)

(10)

表目次

2.1 遺伝子型の例 . . . 4 2.2 遺伝子型から表現型への変換表の例 . . . 4 3.1 遺伝子型の例 . . . 13 3.2 CENのパラメータ . . . 16 3.3 出力関数の種類 . . . 16 3.4 GAのパラメータ . . . 17 3.5 比較手法のパラメータ . . . 17 3.6 各手法の PSNR，SSIM による評価 . . . 19 3.7 各手法の処理時間の比較 . . . 19 3.8 学習時とテスト時で画像の傾向を変えた場合の PSNR，SSIM . . . 24 4.1 CENのパラメータ . . . 33 4.2 出力関数の種類 . . . 33 4.3 GAのパラメータ . . . 34 4.4 比較手法のパラメータ . . . 34 4.5 各手法の ERth，RMS と処理時間 . . . 37 5.1 CGPに関するパラメータ . . . 45 5.2 CGPの演算ノード . . . 45 5.3 各手法の ERth，RMS と処理時間 . . . 46 6.1 設計した回路の詳細 . . . 55 6.2 各回路の LE 数と I/O ピン数 . . . 55 6.3 3章の実験結果 (GPU) と RTL シミュレーション結果の比較 . . . 57 6.4 各回路の最高クロック周波数 . . . 58 6.5 ゲートレベルシミュレーションの設定 . . . 60 6.6 ゲートレベルシミュレーションの結果から見積もった処理時間 . . . 60

(11)

第

1 章序論

1.1 背景と目的

画像処理アルゴリズムの開発から製品実装に至るまでには膨大な工数が必要とされている．まず研究開発段階においてアルゴリズムが発案され，ソフトウェア上での実装，評価を経てアルゴリズムが確立される．その後製品にハードウェアとして実装するにあたり，アルゴリズムの近似化や高速化が行われ，ハードウェア実装方法が検討される．最後に製品の設計・実装段階において，製品のハードウェア上にアルゴリズムが組み込まれる．近年，電子機器に搭載される画像処理技術が高度化しそのアルゴリズムも複雑になってきているため，開発工数の削減が望まれている．

筆者らの研究グループでは，Cellular Neural Networks (CNN)［1，2］の単位ユニット（セル）を，進化計算法によって神経回路網の構造を最適化する進化型神経回路網のひとつである Real-valued

Flexibly Connected Neural Networks（RFCN）［3，4］に置き換えた，セルラ進化型回路網 (Cellular

Evolutionary Network; CEN)を提案している［5，6］．これは CNN の設計コストの低さや並列計算

性と，RFCN の高い計算能力を融合した神経回路網モデルである．同一の構造を有する RFCN を格子状に整列させることで，これまで最適化が困難であった多入力多出力の問題である画像変換，画像分類に対して，回路構造の最適化が可能である．CEN は構造が規則的なため並列計算による処理の高速化が可能であり，またセル同士の相互作用によって複雑な処理を行うことができる．さらにセルはプリミティブな処理を行うユニットで構成されており，ハードウェア化が容易であるという特徴を有する．これらの特性によれば，CEN を用いて画像処理回路を自動構築しそれをハードウェアに落とし込むことによって，上述したようなアルゴリズムの発案やハードウェア実装方法の検討を行うことが不要となり，開発工数の大幅な削減が可能となる新たな開発プロセスへの応用が期待できる．現在までに CEN はその基本方式が確立されており，印刷文字の抽出処理などの画像変換と顔・非顔分類問題などの画像分類への有効性が示されている．しかし，その他の画像処理への応用やハードウェア化の試みはまだ行われていない．本論文では，CEN の他の画像処理回路の自動構築への応用とそのハードウェア化を行い，その有効性とハードウェア上での実現可能性を検証する．

1.2 本論文の構成

本論文の構成は次の通りである．まず第 2 章で，関連研究である CEN について述べる．第 3 章では，近傍同士のセルの相互作用によって実現可能と思われる処理への応用として，超解像処理回路の自動構築法を提案し，その有効性を検証する．第 4 章では，遠方同士のセルの相互作用によって実現可能と思われる処理への応用として，視差伝搬に基づくステレオマッチング回路の自動構築法を提案し，その有効性を検証する．第 5 章では，さらに高精度で高速なステレオマッチング回路を目指した，視差拡散・吸収に基づくステレオマッチング回路の自動構築法を提案し，その有

(12)

効性を検証する．第 6 章で，自動構築した回路のハードウェア化として，超解像処理回路を例に

Verilog-HDLによる設計とシミュレーションを行い，ハードウェア上での実現可能性を検証する．

また，得られた知見から自動構築法にフィードバックすべき点の検討を行う．最後に第 7 章で，本論文のまとめと今後の課題について述べる．

(13)

第

2 章関連研究

2.1 Real-valued Flexibly Connected Neural Network (RFCN)

筆者らの研究グループでは，進化計算法によって神経回路網 (Neural Network) の構造を最適化する進化型神経回路網のひとつである，Real-valued Flexibly Connected Neural Network (RFCN) を提案している［3，4］．RFCN は，神経回路網の構造を二次元配列の遺伝子型で表現し，それを遺伝的アルゴリズム (Genetic Algorithm; GA) によって最適化することで問題に応じた任意の回路構造を自動構築する手法である．これまでに実数値環境下でのエージェントの制御などに適用され，高い性能が示されている［4］．RFCN は次の 2 つの特徴を持つ． (1)二次元配列の遺伝子型 RFCNの構造は，表 2.1 に示すように各ユニット間の結合荷重，各ユニットの出力関数の種類，出力関数のパラメータ，応答速度，しきい値に整数値を割り当て，二次元配列の遺伝子型によって表現される．遺伝子型の各項目の整数値は表 2.2 に示す変換表によって対応する値や関数に置き換えられ，図 2.1 に示すよう表現型である回路構造に変換される．このように，ユニット特性，任意のユニット間の結合の有無（feedback 結合も含む），結合荷重の全てを 1 つの二次元配列の遺伝子型として表現するため，実装が非常に容易で，ユニット特性の追加や除外などの変更も簡単に行うことができる．遺伝子操作のオペレータとしては，遺伝子の突然変異，ユニット数の突然変異，交叉を用いる．ユニット数の突然変異ではユニットの追加と削除を行う．交叉では二次元配列を分割して生成されたブロックの交換を行う． I0 I1 B α = d Θ = 0 0.5 H0 C α = b Θ = 2 A α = c Θ = -1 D α = a Θ = 0.5 O0 H₂ H1 2.0 2.0 -0.5 -1.0 1.0 0.5 0.5 Response order = 0 Response order = 1 図 2.1: RFCN の回路構造の例

(14)

表 2.1: 遺伝子型の例 Output Hidden O0 H0 H1 H2 Activation function 3 1 2 0 Gainα 0 3 1 2 Thresholdθ 4 3 6 1 Response order 2 1 0 1

Weight from input I0 4 7 4 4

I1 4 5 7 4

Weight from hidden H0 4 4 3 6

H1 4 4 4 7

H2 5 2 4 5

表 2.2: 遺伝子型から表現型への変換表の例 No. Activation function Gainα Threshold θ Weight

0 A a -2.0 -4.0 1 B b -1.0 -2.0 2 C c -0.5 -1.0 3 D d 0.0 -0.5 4 - - 0.5 0.0 5 - - 1.0 0.5 6 - - 2.0 1.0 7 - - - 2.0 8 - - - 4.0 (2)多様なユニットの特性 RFCNではユニットに応答速度という特性をもたせて，ユニットの動作を多様にしている．応答速度が速いユニットから順に出力することで，一度の遷移で遅いユニットがより速いユニットの出力を入力として使えるため，全てのユニットが同期して出力する場合よりも複雑な状態遷移が可能となる．また出力関数をシグモイド関数，線形関数，区分線形関数，ステップ関数など複数用意し，関数内にパラメータを与えることで，ユニットに様々な出力を可能とさせている．RFCN はこれらのユニット特性によって大幅に回路の表現力が向上している．例えば出力関数の種類が 4 種類，関数内のパラメータが 4 種類，しきい値が 6 種類，応答速度が 2 種類であった場合，ユニットは 4× 4 × 6 × 2 = 192 通りの特性をもつことができ，同一のトポロジ構造であっても多様な応答をする回路を表現することができる．

(15)

2.2 Cellular Evolutionary Network (CEN)

筆者らの研究グループではセルラ進化型回路網 (Cellular Evolutionary Network; CEN)［5，6］を提案している．これは，RFCN をセルとして格子状に整列させ，近傍結合させたものである．CEN は，近傍ユニット間だけに結合がある神経回路網モデルである Cellular Neural Networks (CNN)［1， 2］と RFCN を組み合わせたモデルであり，次の 3 つの特徴をもつ． ≤ 低設計コスト CEN における最適化対象は，全体の回路の大きさに関わらず，常に一つの RFCN である．通常の神経回路網では，入力や出力の数が変わる場合は，回路を再構築しなければならないが，CEN では，結合する RFCN の数を変更するだけで対応できる．このため，例えば画像処理において処理対象の画像サイズが異なる場合においても，回路を再構築することなく，同一の回路を適用することが可能である． ≤ 並列計算性 CEN では規則的に整列した同一の RFCN が同期的に状態遷移を繰り返し，処理を行う．そのため，個々の RFCN での状態遷移を並列化することによって，処理の高速化が可能である． ≤ 高い処理能力 CEN では，一つ一つのセルに RFCN が割り当てられているため，入力に対して複雑な応答をすることが可能である．RFCN は任意の回路構造を構築できるとともに，各ユニットが応答速度などの特性をもつため，時系列情報の考慮やメモリの働きが可能である．CNN と比較して，各セルの処理能力が向上し，全体として高い処理能力をもつ．

2.2.1 CEN の基本構造

図 2.2 に CEN の構造例を示す．CEN は RFCN と同様に二次元配列の遺伝子型をもち，あらかじめ規定された変換規則を用いて単体の RFCN に変換される．この単体の RFCN が 1 つのセルあり，それらが格子状に整列し近傍同士が相互結合することで全体の回路を構成している．各 RFCN の入力ユニットは，回路外部からの入力を受ける外部入力ユニット Ieと，自己の RFCN 及び近傍の RFCNからの出力を受ける近傍入力ユニット Iiの 2 種類からなる．また出力ユニットは，回路外部へ出力する外部出力ユニット Oeと近傍の RFCN と自己の近傍入力ユニットへ出力する近傍出力ユニット Oiの 2 種類からなる．各 RFCN が Ieと Iiから入力を受け，同期的に状態遷移を行い，外部出力ユニットと近傍出力ユニットから出力する処理を繰り返す．各ユニットの特性（出力関数の種類，出力関数のパラメータ，しきい値，応答速度），中間ユニットの数，ユニット間の結合荷重を， GAを用いて最適化することによって，目的に応じた回路を自動構築する．

2.2.2 CEN による画像処理

CENは画像処理に適用され，その有効性が示されてきた．次に画像処理における CEN の基本的 動作を示す．なお入力画像の大きさを M÷ N [pixel]，画像上の座標の相対位置を表す変数を r =} 0, 1, . . . , n| [pixel]（n は任意の整数）とする． 1. 入力画像の輝度値を [0.0, 1.0] に正規化．

(16)

from to O0 O1 H0 … Function 5 0 2 Gain -2 1 1 Threshold 2 1 0 Response order 1 0 -1 I0 0 -2 1 I1 2 0 -2 . . . Phenotype Genotype External output Oe InternalinputsIi ・・ Internal output Oi ExternalinputIe 図2.2:CENの構造例 2.x={1,2,...,M },y={1,2,...,N}のすべての座標 (x,y)のセルに対して，Ieに入力画像の座標(x,y)の値を，Iiに入力画像の座標(x±r,y±r)の値をそれぞれ初期値として入力． 3.すべてのセルを同期的に状態遷移． 4.すべての座標 (x,y)のセル対して，座標 (x±r,y±r)のセルの Oiの出力値をIiへ入力． 5.3,4を規定回数だけ反復． 6.すべての座標 (x,y)の Oeの出力値を[0,255]に変換し，出力画像の階調値として取得．これまでに画像変換回路と画像分類回路の構築がなされ，その有効性が示されている．次にCEN による画像変換と画像分類の概要について述べる．画像変換 CENの画像変換への応用として，先行研究［5，6］では印刷文字の抽出処理を行っている．これは，印刷文字と鉛筆で書かれた手書き文字が混在する画像から，印刷文字だけを抽出する処理である．処理対象である画像を入力として，前述した基本動作に基づいて処理を行い，CENの Oeの出力値を[0,255]に変換して出力する．また CENの学習は，入力画像，手書き文字が除去された理想的な目標画像，及び各座標の評価の重みを表した重み画像の組を与え，CENの出力画像と目標画像の誤差が小さくなるように行っている．学習に用いた画像に，最適化したCENを適用した結果，印刷文字を抽出し理想的な処理を行っている．テスト画像に対しても，わずかに手書き文字が除去できていない部分があるが，良好な結果が得られている．更にセルを外部出力Oeのが2つの回路に拡張し，印刷文字の抽出と手書き文字の抽出を同時に処理する実験を行っている．印刷文字の抽出実験と同様に，学習画像，テスト画像の両方に対して，良好な結果を示しており，目的の画像変換処理を行う外部出力Oeを2つ有する回路を構築できることを示している．画像分類先行研究［7］では，CENを階層的に用いた画像分類回路の構築法を提案している．図 2.3に CEN を階層的に用いた画像分類回路の構造を示す．この画像分類回路は，CENが階層的に並んだ特徴

(17)

図 2.3: CEN を階層的に用いた画像分類回路量抽出部と，特徴量抽出部の最終層に接続された RFCN 単体の分類部で構成される．特徴抽出部の各層と分類部の RFCN は独立の遺伝子をもつため，特徴量抽出部の層数が 3 層の場合，4 つの RFCNを同時に最適化を行う．特徴量抽出部は，徐々にサイズが縮小していく CEN の層で構成される．第 1 層では分類対象の 画像を入力し，2 層目以降は，前層の出力画像を 1/Riに縮小した画像を入力として，第 1 層から 順に状態遷移を行う．ここで Riは各層 i での縮小係数である．この特徴量抽出部は，入力画像の 画素単位の特徴が，状態遷移によって抽出されるとともに，階層構造によって徐々に大局的な特徴量に統合されていくことをねらいとしている．分類部では，特徴量抽出部の出力を入力として，どのクラスに属するかを判定する．分類クラス が N の場合，外部出力ユニット Oeの数は N であり，最も大きな出力の出力ユニットに対応するクラスに画像が属すると判定する． CENを用いた画像分類実験として，顔・非顔の 2 クラス分類問題，頭部・非頭部の 2 クラス分類問題，男性・女性の 2 クラス分類問題の 3 つの問題に適用している．特徴量抽出部が有効に働いていることを示すために，入力画像を分類部の入力ユニット数に単純に縮小し，分類部の RFCN 単体だけで分類する手法と比較を行っている．その結果，適用した 3 つの問題において，学習に用いた画像に対する最良個体の分類率は約 9 割であり，比較手法と比べて精度良く分類できている．また，特徴量抽出部のない比較手法では，学習時と比べてテスト画像に対する分類率が大幅に低下するのに対して，CEN では分類率の低下が小さく汎化性能が向上している．この結果から CEN の層で構成された特徴量抽出部が分類部において分類しやすいように大局的な特徴を抽出していることが考察されている．

2.3 まとめ

本章では，本研究に関連する RFCN と CEN について述べた．RFCN は任意の回路構造を GA を用いて最適化することによって自動構築する手法である．構造は二次元配列の遺伝子型で表現され，多様な応答をする回路を表現することができるという特徴をもつ．CEN は RFCN をセルとして格子状に整列させ，近傍結合させたものであり，低設計コスト，高い計算能力，並列計算性があるという特徴をもつ．これまでに CEN によって画像変換回路と画像分類回路の構築がなされ，そ

(18)

(19)

第

3 章超解像処理回路の自動構築

3.1 はじめに

近年，ディスプレイの低価格化・大画面化に伴う映像機器の高解像度化が進み，一般消費者でもテレビやモバイル機器などのデバイスで手軽に高解像度な画像，映像を楽しめるようになってきている．そこで，過去に記録された画像，映像などを高解像度で観賞したいというニーズから，超解像処理技術が注目されている．超解像処理とは，低解像度画像を高解像度画像に変換する技術であり，動画コンテンツ，セキュリティカメラ，ロボットビジョンなど様々な応用範囲が存在する．超解像処理は動画像を用いるマルチフレーム超解像［8］と，静止画像を用いるシングルフレーム超解像に分類される．マルチフレーム超解像は複数フレームの位置合わせを行い標本点を増やすことで高解像度化するため，真のデータを復元することが可能である．しかし計算コストが膨大であるため，オンライン処理は現状困難であり，主に記録済みのデータに対してオフラインで処理を行うことが目的とされている．一方シングルフレーム超解像は，1 枚の静止画像から高解像度画像を推定するため，真のデータの復元を保証することはできない．しかしマルチフレーム超解像と比較して計算コストが低いため，表示機器上でオンラインで動作させることを目的として広く研究・開発が行われている．本論文ではシングルフレーム超解像を対象とし，以下単に超解像という場合はシングルフレーム超解像のことを示すものとする．

3.1.1 シングルフレーム超解像処理の従来研究

シングルフレーム超解像は大きく interpolation-based 法，reconstruction-based 法，example-based 法の 3 つのアプローチに分類される．これら 3 つのアプローチについて述べる．

Interpolation-based法

Interpolation-based法［9–12］は画像の各画素とその近傍の加重平均を用いて補間を行う手法であ

る．最も単純で一般的な手法は，各画素に対してカーネル関数を用いて畳み込み処理を行うことによって補間を行う bilinear や bicubic，lanczos［9］である．また近傍画素の共分散を用いて補間を行う，New edge-directed interpolation (NEDI)［10］が Li らによって提案されている．NEDI は局所的なエッジの方向に沿った補間を行うため，ボケやブロックノイズを抑えた補間を行うことができる． Reconstruction-based法

Reconstruction-based法［13–16］は，主に低解像度画像と高解像度画像の間の関係性を事前知識

として利用し，その事前知識から設計したエネルギーを最小化することによって高解像度画像を推定する手法である．Sun らは web 上から収集した 1000 枚の自然画像とそれらの縮小画像を用いて

(20)

低解像度画像と高解像度画像の勾配特性の関係を分析し，その結果を用いて処理対象の画像の局所的な勾配分布を仮定し，超解像処理を行った［15］． Example-based法 Example-based法［17–19］は，あらかじめ様々な低解像度画像と高解像度画像の組から作成した事例ベースを用いる手法である．処理対象の画像の各局所領域に対し，確率伝搬法などの大域的最適化法を用いて適切な事例を選び，パッチワークのように貼付けていくことで処理を行う．予め事例ベースを作成せずに，処理対象の画像 1 枚だけを用いる手法も提案されている［20，21］．Glasner らは処理対象の画像とその縮小画像から事例を作り出し，更に画像中の共通領域を複数のフレームとみなして利用することで example-based とマルチフレーム超解像を統合した手法を提案した［20］．

3.1.2 従来研究の問題点

Interpolation-based法は処理が単純であるためリアルタイム処理が可能であるが，高画質な画像を生成するのは困難である．Reconstruction-based 法は interpolation-based 法と同様計算コストは低いが，事前知識に依存するため不自然にエッジを先鋭化し過ぎたり，適用できる画像の傾向が限定されたりするという問題点がある．Example-based 法は前者 2 つのアプローチと比較して一般に高画質であるものの，大域的最適化を行うため計算コストが高く，また保持している事例に依存する．予め事例ベースを作成しない Glasner らの手法は，多様な画像に対して高画質な画像を生成することができ現状で最高レベルの手法として知られているが，処理が非常に複雑であるため計算コストが非常に高い．以上のように，従来手法は一般的に画質と計算コストがトレードオフの関係にあり，また様々な画像に対して安定的に高画質な画像を生成することは困難である．

3.2 CEN

による超解像処理

3.2.1 概要と主な特徴

提案する CEN による超解像処理の原理を図 3.1 に示す．提案手法では，まず低解像度画像を線形補間した画像の各画素の階調値を CEN の各セルに入力する．GPU を用いて各セルを並列計算し，最適化された遷移回数だけ同期的に状態遷移を行う．その後，各セルの外部出力値を超解像処理後の画像の階調値として得る．学習時には，目標画像を縮小した画像に対してこのような処理を行い，出力画像と目標画像の誤差が小さくなるようにセルの構造を GA によって最適化する．次に従来手法に対する提案手法の主な特徴を示す． 1. 高度な補間処理　一般的な先鋭化処理では画像全体に対して一様な処理を行うため，エッジ部分にジャギーがみられたりフラットな部分にノイズが発生してしまう．しかし CEN ではセルが相互作用しながら処理を行うことによって，画像の傾向や領域ごとに適切な処理が行われ，ジャギーやノイズの少ない画像を生成することができると考えられる．

(21)

CEN (aM×aN) Low-res. image Il (M×N) Input image Ib (aM×aN) Output image (aM×aN) Bilinear interpolation 図 3.1: CEN による超解像処理 5 6 4 6 5 6 3 2 3 6 4 2 1 2 4 6 3 2 3 6 5 6 4 6 5 5 6 4 6 5 6 3 2 3 6 4 2 1 2 4 6 3 2 3 6 5 6 4 6 5

5×5 = 25 inputs → 6 types of weight

図 3.2: 近傍入力 Iiの結合荷重 2. 汎用性　進化計算法によって補間ルールを獲得することで，従来手法のように補間ルールが事前知識や事例ベースに依存せず，多様な画像に対して安定的に高画質化を行う補間処理の獲得が期待できる． 3. 高速処理　セルラ構造であるため各セルを GPU を用いて並列計算させることで高速処理が可能であり，またハードウェア化も容易である．したがって従来手法で問題となっていた画質と計算コストのトレードオフを解消できる．

3.2.2 セルの構造

CENを超解像処理に適用するにあたり，RFCN の構造の変更を 2 点行う． 1つ目は，近傍出力 Oiと外部出力 Oeの統合である．従来の CEN では出力ユニットを Oiと Oe の 2 種類用いることで，外部への出力とは別に，処理に必要な情報を Oiで作り出している．しかし超解像処理においては，出力画像の階調値となる Oeが毎回の遷移で必要な情報となるため，Oe をそのままフィードバックした方が良いと考えられる．したがって各 RFCN の出力ユニットを O の 1 つとする． 2つ目は，近傍入力 Iiの結合荷重の回転対称化である．画像中の物体の向きに依存しない処理を行うため，図 3.2 に示すよう，5 × 5 近傍の場合，25 種類の結合荷重を回転対称にして 6 種類にする．このようにすることで，画像の回転に不変な構造となると同時に，最適化する結合荷重の種類数も減るため探索空間を減少させることができる．

(22)

3.2.3 処理の流れ

CENによる超解像処理の手順は以下の通りである．なお，r=} 0, 1, . . . , n|（n は任意の整数）は画像上の座標の相対位置を表す変数である． 1. M÷ N の低解像度の入力画像 Il_{を a 倍に線形補間し，高解像度画像と同サイズの aM}_{÷ aN} の画像 Ib_{を CEN の入力画像として生成．} 2. Ib_{の輝度値を [0.0, 1.0] の実数値に正規化．} 3. 初期値として位置 (x, y) のセルに対して外部入力 Ieに Ib(x, y) の階調値を，近傍入力 Iiに Ib₍_x_{◦ r, y ◦ r) の値を入力．} 4. 全てのセルの状態遷移を実行． 5. 位置 (x, y) のセルに対して外部入力 Ieに Ib(x, y) の階調値を，近傍入力 Iiに位置 (x◦ r, y ◦ r) のセルの出力 O の値を入力． 6. 4, 5を遷移回数だけ反復． 7. 各セルの出力 O の値を [0, 255] に変換し，出力画像として取得．

3.2.4 回路の最適化

遺伝子型表 3.1 に遺伝子型の例を示す．表 2.1 と同様に，各ユニット間の結合荷重と各ユニットの出力関数の種類，出力関数のパラメータ，応答速度及びしきい値に整数値を割り当てて二次元配列によって表現するが，それに加えて遷移回数を表す 3 ビットのビット列も用いる．この二次元配列とビット列の遺伝子を GA によって最適化する．2.1 節で述べたように，遺伝子型の各項目の整数値は変換表によって対応する値や関数に置き換えられ，回路構造に変換される．遷移回数はビット列を 10 進数に変換して最低遷移回数を加算した回数となる．遺伝操作 GAの遺伝操作として，回路構造を表す遺伝子に対しては，以下のブロック交換交叉，遺伝子の突然変異，中間ユニット数の突然変異の 3 つを行う． ≤ ブロック交換交叉 交叉率 Pcで二次元配列の行列上のブロックを 2 個体間で交換する．ブロックの位置と大きさはランダムに決定される． ≤ 遺伝子の突然変異 遺伝子の突然変異率 Pmで二次元配列の各要素をランダムに変更する． ≤ 中間ユニット数の突然変異 中間ユニットの突然変異率 Phmで中間ユニットをランダムに追加または削除する．中間ユニットの追加の場合，二次元配列の行と列を 1 つずつ追加し，ランダムに初期化を行う．一方，中間ユニットの削除の場合，ランダムに中間ユニットを選び，そのユニットに対応する行と列を削除する．

(23)

表 3.1: 遺伝子型の例 Output Hidden O0 H0 H1 H2 Activation function 3 1 2 0 Gain 0 3 1 2 Threshold 4 3 6 1 Response order 2 1 0 1 Weight from input I0 4 7 4 4

I1 4 5 7 4

Weight from hidden H0 4 4 3 6

H1 4 4 4 7 H2 5 2 4 5 Iterations 0 1 1 遷移回数を表すビット列に対しては，以下の一点交叉，突然変異の 2 つを行う． ≤ 一点交叉 交叉率 Pcで，交叉点を 1 点ランダムに決定し，交叉点の前後でビット列を 2 個体間で交換する． ≤ 遺伝子の突然変異 遺伝子の突然変異率 Pmで各ビットを反転させる．適応度関数目標画像を縮小した画像に対して 3.2.3 節で述べた処理を行い，出力画像と目標画像の誤差が小さくなるようにセルの構造を GA で最適化する．GA の個体の適応度関数 fitness を以下のように定義する． fitness= 1 M y=1 N x=1 w(x, y) √o(x, y) t(x, y)√ Vmax M y=1 N x=1 w(x, y) (3.1) ここで，N, M はそれぞれ画像の幅と高さ，o(x, y) と t(x, y) はそれぞれ位置 (x, y) の出力画像と目 標画像の階調値である．w(x, y) は重みであり，w(x, y) の値が大きいほど t(x, y) に対する適応度が重 要視される．つまり，目標画像の各画素に対する処理の重要度を階調値で表したものである．Vmax は最大階調値で，255（256 階調）である．適応度は [0.0, 1.0] の実数値である．重みとして目標画像のエッジ強度分布を用いることで，エッジ付近を重点的に学習させる．エッジ強度分布は 3÷ 3 の sobel フィルタを用いて作成する．学習時にはこの fitness が最大にするように世代交代を行う．

(24)

3.2.5 並列処理による高速化

CENの並列計算性を利用し，GPU を用いた並列計算によって処理の高速化を行う．本来 GPU は並列計算を得意とするグラフィックス処理専門のプロセッサであるが，本論文ではセルの状態遷移を GPU によって処理させる．グラフィック API として OpenGL，GPU のプログラムを記述するシェーダ言語として Cg (C for graphics)［22］を用いる．GPU プログラム上にセルの各ユニットに対する処理を記述することで，画像の全画素に対してその処理を並列に適用する．

GPU上での演算処理は非常に高速であるが，GPU からメインメモリに直接アクセスすることができない．そのためデータを CPU と GPU のメモリ間で転送する必要があり，このデータ転送に時間がかかるという問題がある．カラー画像の場合，RGBA4 つのチャネルを GPU の RGBA の 4 つのバッファそれぞれに割り当てて転送し処理するが，グレースケール画像の場合は 4 つのバッファに画像を 1 枚ずつ割り当てて 4 枚同時に転送し処理することができる．本論文ではグレースケール画像だけを対象とするため，4 枚同時転送・処理を行うことによって転送回数を削減する．

3.3 超解像処理実験

3.3.1 実験設定

提案手法の有効性を示すため，超解像処理の実験を行った．実験画像として異なる傾向をもつ 3種類の画像を用意した．Labeled Faces in the Wild Database［23］，Caltech Buildings Dataset［24］，筆者らが作成した文字が描かれた画像の 3 種類で，それぞれ顔，建物，テキストと呼ぶことにする．学習用画像はそれぞれ 4 枚ずつ，テスト用画像はそれぞれ顔 24 枚，建物 44 枚，テキスト 4 枚であり，全てグレースケール，サイズはそれぞれ顔 250÷ 250 [pixel]，建物 512 ÷ 384 [pixel]，テキスト 650÷ 350 [pixel] である．学習用画像が 4 枚と少ないが，局所的なパターン数は画像 1 枚につき画素数だけ存在するため，各傾向について 4÷（画素数）のパターンが存在する． 3つの傾向それぞれを学習した場合と，3 つの傾向全てを学習した場合で性能を比較することによって，提案手法の汎用性を検証する．倍率は 2 倍とし，目標画像を一度 1/2 に縮小してから倍率 2倍の処理を行い，出力画像と目標画像を比較することで評価を行った．評価指標として PSNR と SSIM［25］を用いた．SSIM は PSNR よりも視覚的劣化との相関が高いとされる指標である．PSNR と SSIM の式を以下に示す． PSNR = 10 log₁₀ V 2 max 1 MN M y=1 N x=1 o(x, y) t(x, y)2 [dB] (3.2) SSIM = 1 MN M y=1 N x=1 p{ W(x,y) (2μoμt+ c1)(2σot+ c2) (μ2_o+ μ2_t + c1)(σ2o+ σ 2 t + c2) (3.3) ここで，W(x, y) は位置 (x, y) を中心とした 11÷11 ウィンドウ，μoとμtはそれぞれ出力画像と目標画 像の W(x, y) 内の平均値，σ2 oとσ2t はそれぞれ出力画像と目標画像の W(x, y) 内の分散，σotは出力画 像と目標画像の W(x, y) 同士の共分散，c1と c2は定数で，それぞれ c1= 0.01÷Vmax,c2= 0.03÷Vmax である． CENに対する構造最適化で用いたパラメータを表 3.2 および表 3.3 に，GA に関するパラメータを表 3.4 にそれぞれ示す．比較手法として，interpolation-based 法から lanczos［9］と NEDI［10］， reconstruction-based法から Sun らの手法［15］，example-based 法から Glasner らの手法［20］を選択

(25)

し，提案手法 5 試行中の最良個体と比較する．これら比較手法のパラメータを表 3.5 に示す．NEDI

は著者のウェブページ1_{のソースコードを用いた．Sun らの手法は［16］の著者のウェブページ}2_の

ソースコードを，Glasner らの手法は［21］の著者のウェブページ3のソースコードを基に筆者らが

作成した．

実験は全て Dell Precision T3500（CPU: Xeon 2.53GHz，メモリ:4GB，GPU:NVIDIA Quadro FX1800

2286MB）上で行った．

1_{www.csee.wvu.edu}_{/˜xinl/publications.html}

2_{yuwing.kaist.ac.kr}_{/projects/superresolution/index.htm} 3_{eng.ucmerced.edu/people/cyang35}

(26)

表 3.2: CEN のパラメータ Parameter Value

Internal input units Ii 5÷ 5 = 25 (face, building)

3÷ 3 = 9 (text) External input units Ie 1

Output units O 1

See Table 3.3. Gainα 0.25, 0.5, 1.0, 2.0 Threshold 0.0,◦ 0.5, ◦ 1.0, ◦ 2.0 Response order 0 (faster), 1 (slower) Weight 0.0, ◦ 0.5, ◦ 1.0, ◦ 2.0, ◦ 4.0 Iterations 3, 4, 5, 6, 7, 8, 9, 10 表 3.3: 出力関数の種類 Function Formula Sigmoid f (x)=₁_{+ exp( αx)}1 Linear f (x)= αx Piecewise linear f (x)= ⎫⎝⎝⎝ ⎝⎝⎝⎝⎬ ⎝⎝⎝⎝⎝ ⎝⎝⎭ 0 (x≥ 0) αx (0 < x ≥ 1/α) 1 (1/α ≥ x) Threshold f (x)=⎫⎝⎝⎝⎬_⎝⎝⎝⎭αx (x > 0) 0 (x≥ 0) Gaussian f (x)= ∇1 2πα2 exp x2 2α2 ⎛ Average f (x)= 1_NN_i xi Max f (x)= x∈₀ Min f (x)= x∈_N

Range f (x)= max(x) min(x)

(27)

表 3.4: GA のパラメータ

Parameter Value

Generations 20000

Generation alternation model MGG*

Population size 100

Children 30

Crossover rate Pc 0.7

Mutation rate Pm 0.05

Mutation rate (number of hidden units) Ph_m 0.1 *Minimal Generation Gap［26］

表 3.5: 比較手法のパラメータ

Method Parameter Value

Lanczos Radius of kernel r 2

NEDI Window size M 8

Edge pixel threshold th 8

Sun Step sizeτ 0.2

Weight of gradient constraintβ 0.5

Iterations 20

Freeman Low resolution patch size 7×7 High resolution patch size 4×4

Interval size 3

Overlap size 2

Nearest patches 30

Iterations for belief propagation 50

Glasner Patch size 5×5

Resolution levels 5

Nearest patches 2

(28)

3.3.2 実験結果と考察

従来手法との比較

提案手法と他の手法の PSNR，SSIM を比較した結果を表 3.6 に示す．CEN の列はそれぞれの傾向に特化して学習して得られた結果，CEN (all types) の列は 3 種類の傾向を全て学習して得られた結果である．全ての傾向において，Glasner らの手法が PSNR，SSIM 両方で最も高い値を示している．しかし傾向に特化した提案手法もそれに近い値が得られており，全てにおいて lanczos，NEDI， Sunらの手法を上回っている．3 つ全ての傾向を学習した場合は特化した結果よりも劣るが，同様に Glasner らの手法を除く他の手法を上回っている．この結果から，提案手法はある傾向に特化させると非常に高画質な画像を生成することができ，様々な傾向に対応させても一般的な従来手法より安定的に高画質な画像を生成することができる手法であると考えられる．テスト画像に対する各手法の出力画像の一部を切り出したものを図 3.3，3.4，3.5 に示す．Lanczos は全ての傾向の画像に対して全体的にボケた画像になっている．NEDI は細かいエッジ付近のノイズや平滑化され過ぎている部分が見られる．例えば，図 3.3 の最下段の画像においては目の部分にノイズが見られ，図 3.4 の 2 段目の画像においては格子や柱の模様が平滑化されている．図 3.5 においても文字が薄くなっていることがわかる．Sun らの手法は建物に対しては比較的良好な結果を示している．しかし，顔に対しては目の部分が白と黒で塗りつぶされていたり，テキストに対しては文字が膨張していたり，背景の階調値が低くなっている．このように，reconstruction-based の手法は事前知識に依存してしまうため，画像の傾向によって不自然な処理が行われてしまう．Glasner らの手法は，他の比較手法で見られるノイズやボケが少なく，全ての傾向において最も目標画像に近い画像が得られている．しかし提案手法もそれとほぼ同等な画質で，lanczos，NEDI，Sun らの手法よりも良好な結果が得られている．図 3.3 の 3 段目の画像に対する提案手法の結果は，Glasner らの手法と比較して少しボケているものの，他の顔や建物，テキストに対しては Glasner らの手法と同様に目標画像に近い画像が得られている．例えば，図 3.4 の 2 段目の画像においては，Glasner らの手法と同様に格子や柱の模様がはっきり見られ，図 3.5 においても，Glasner らの手法，提案手法ともにコントラストの高い画像が得られている．

処理時間の比較を表 3.7 に示す．NEDI と Glasner らの手法は Matlab 上で実行した．PSNR，SSIM が最も高く，主観的にも最も良い結果を示した Glasner らの手法は，実行環境の違いはあるものの，最も処理が複雑であるため，他の手法と比較して圧倒的に計算コストが高いことがわかる．一方で

GPU実装の提案手法は最も処理が単純な lanczos よりも速く，全て 1 秒以下である．Glasner らの

手法と比較すると 10,000 倍以上高速である．以上の結果から，提案手法は現状で最高レベルとされている Glasner らの手法とほぼ同等な精度で，かつ非常に高速に処理を行うことができる手法であるといえる．

(29)

表 3.6: 各手法の PSNR，SSIM による評価

PSNR Lanczos NEDI Sun Glasner CEN CEN (all types)

Face Training 32.46 29.54 29.22 35.76 35.14 33.38 Test 32.09 29.50 28.53 34.89 34.40 32.70 Building Training 30.39 28.97 28.95 32.45 31.37 30.79 Test 29.18 27.74 28.00 31.00 30.22 29.74 Text Training 16.78 15.31 15.63 20.19 19.18 18.03 Test 18.46 16.99 16.88 21.64 20.35 19.30

SSIM Lanczos NEDI Sun Glasner CEN CEN (all types)

Face Training 0.946 0.915 0.896 0.965 0.957 0.950 Test 0.937 0.906 0.868 0.956 0.948 0.936 Building Training 0.898 0.874 0.882 0.928 0.914 0.909 Test 0.884 0.853 0.864 0.915 0.904 0.900 Text Training 0.810 0.744 0.752 0.915 0.910 0.881 Test 0.849 0.795 0.800 0.937 0.925 0.901 表 3.7: 各手法の処理時間の比較

Lanczos NEDI*1 Sun Glasner*1 CEN (CPU) CEN (GPU)*2

Face [sec/image] 0.057 3.98 3.11 728 0.58 0.048

Building [sec/image] 0.17 12.73 11.00 5633 1.01 0.078

Text [sec/image] 0.19 13.21 12.66 7573 2.28 0.16

(30)

Lanczos NEDI Sun Glasner CEN Ground truth 図 3.3: テスト画像に対する結果の一部（顔）

Lanczos NEDI Sun Glasner CEN Ground truth

(31)

Lanczos NEDI Sun Glasner CEN Ground truth 図 3.5: テスト画像に対する結果の一部（テキスト）

(32)

External input

Internal inputs

・Fitness:0.9801 ・# of hidden units：4 ・# of transitions：3 図 3.6: 構築された回路構造（顔）構築された回路に関する考察それぞれの傾向に特化して学習させて得られた回路構造を図 3.6，図 3.7，図 3.8 に示す．ここでは図 3.6 の顔の回路について考察する．近傍入力の結合荷重を回転対称化したため，入力ユニットの種類が 7，外部出力と近傍出力を統合したため出力ユニットが 1，中間ユニット数が 4 というシンプルな回路が構築された．4 つの中間ユニットのうち，黒いユニット (range) は応答速度の速いユニットである．ユニット間の結線に付随する数値は結合荷重を示している．この回路の遷移の様子を図 3.9 に示す．画像中のエッジ部分とフラットな部分を切り出して遷移の様子を比較すると， エッジ部分では徐々に先鋭化される処理が行われており，フラットな部分は t = 1 で階調値が変化 するが入出力間ではほぼ変化が見られない．一般的な先鋭化処理では画像全体に対して一様な処理を行うため，エッジ部分にジャギーが見られたりフラットな部分にノイズが発生してしまう．しかし CEN ではセルが相互作用しながら徐々に処理を行うことによって，ジャギーやノイズを抑えた画像を生成することができる．表 3.8 に学習時とテスト時で画像の傾向を変えた場合の PSNR，SSIM を示す．PSNR，SSIM ともに学習の傾向とテストの傾向が一致している場合に最も高い値が得られている．しかし 3 つの傾向全てを学習した場合より，顔または建物に特化した場合の方が全ての傾向に対して高い PSNR を示している．これは学習画像中に他の傾向にも存在する局所的なパターンが多く含まれていたためであると考えられる．したがって，単に複数の傾向の画像をそのまま与えて学習させるよりも，パターンの出現性を考慮した適切な学習セットを与えれば，様々な画像に対してより安定的に高い性能を示すことができる可能性がある．

(33)

External input Internal inputs ・Fitness:0.9684 ・# of hidden units：3 ・# of transitions：3 図 3.7: 構築された回路構造（建物）

External input

Internal inputs

・Fitness:0.9221 ・# of hidden units：5 ・# of transitions：6 図 3.8: 構築された回路構造（テキスト）

(34)

t=0 (input) t=1 t=2 t=3 (output) Edge part Flat part 図 3.9: 構築された回路の状態遷移の様子（顔）表 3.8: 学習時とテスト時で画像の傾向を変えた場合の PSNR，SSIM PSNR SSIM

Test set type Test set type

Face Building Text Face Building Text

Face 34.40 30.22 19.86 0.948 0.900 0.897

Training Building 34.02 30.22 19.61 0.930 0.904 0.896

set type Text 10.73 10.59 20.35 0.232 0.389 0.925

(35)

3.4 まとめ

本章では，CEN による超解像処理回路の自動構築法を提案し，顔，建物，テキストと定義した 3パターンの傾向の画像セットについて超解像処理実験を行い提案手法の有効性を検証した．従来手法が画質とスピードにトレードオフをもつのに対し，提案手法は現状の最高レベルの手法と同等な精度で高速に処理を行うことができることを示した．また 3 パターン全ての傾向に対応させた場合，一般的な従来手法より全ての傾向に対して安定的に良好な処理を行うことができることを示した．さらに，学習時とテスト時で画像の傾向を変えた場合について比較を行い，適切な学習セットを与えることができれば様々な画像に対してより高い性能を示すことができる可能性があることが分かった．

(36)

第

4 章視差伝搬に基づくステレオマッチング

回路の自動構築

4.1 はじめに

ステレオマッチングとは，視点の異なる 2 枚の画像（左画像と右画像）の対応関係を求めて 3 次元情報を算出する技術である．セキュリティカメラやロボットビジョンなど広範囲において基本となる重要な技術あり，従来から盛んに研究が行われている．様々なアプローチが提案されているが，それらは大きく local 法と global 法に分類される．

4.1.1 ステレオマッチングの従来研究

Local 法

Local法は画像の各画素に対して独立かつ局所的に対応付けを行う手法であり，block matching 法 がその代表的な手法として知られている．具体的には，左画像 ILの各座標 (x, y) を中心とした局所領 域 Wlに対して，右画像 IRの各座標 (x, y) を中心とした局所領域 Wrを水平方向に d=} 0, 1, . . . , dmax| だけ移動させたときのマッチングコスト C(x, y, d) を算出する．ここで，dmaxは左右の画像間で生 じる最大の視差値である．そして以下の式 (4.1) に示すよう，マッチングコスト C(x, y, d) が最小に なる移動量 d を画素に対する視差とする． d(x, y) = arg min d C(x, y, d) (4.1) マッチングコスト関数としては，以下に示すものがよく用いられる．なお，W は局所領域，N は W 内の画素数，th はしきい値である．

≤ Sum of Absolute Diﬀerence (SAD) CS AD(x, y, d) =

(i, j){ W

√IL(x+ i, y + j) IR(x d+ i, y + j)√ (4.2)

≤ Sum of Squared Diﬀerence (SSD) CS S D(x, y, d) =

(i, j){ W

(IL(x+ i, y + j) IR(x d+ i, y + j))2 (4.3)

≤ Sum of Truncated Absolute Diﬀerence (STAD) CS T AD(x, y, d) =

(i, j){ W

(37)

≤ Normalized Cross Correlation (NCC) CNCC(x, y, d) = (i, j){ W (IL(x+ i, y + j) IR(x d+ i, y + j))2 (i, j){ W (IL(x+ i, y + j) I¯L(x, y))2 (i, j){ W (IR(x d+ i, y + j) I¯R(x d, y))2 (4.5) ¯ IL(x, y) = 1 N (i, j){ W IL(x+ i, y + j) (4.6) ¯ IR(x, y) = 1 N (i, j){ W IR(x+ i, y + j) (4.7)

Local法の最も代表的な手法は，局所領域が固定の矩形ウィンドウである block matching 法である．その他，ウィンドウ内の視差及び輝度分布の評価を繰り返し行い，ウィンドウサイズや縦横比を適応的に変化させる手法［27，28］も提案されている． Global 法 Global法は，ステレオマッチングをエネルギー最小化問題として表現し，大域最適化によって対応付けを行う手法である．画像の各走査線上（1 次元）の大局的な対応付けを行うアプローチと，画像全体（2 次元）の大局的な対応付けを行うアプローチがある．1 次元のアプローチとしては dynamic programming (DP) に基づく手法［29–31］，2 次元のアプローチとしては graph cut に基づく手法［32–34］，または belief propagation に基づく手法［35–37］が存在し，特に 2 次元のアプローチは Middlebury stereo benchmark［38］においてその有効性が示されている．ここでは 2 次元のアプローチについて述べる． 2次元のアプローチでは，次の式 (4.8) で表されるエネルギー関数を最小化するように，各画素 に視差のラベル f を割り当てる． E( f )= p{ P Dp(fp)+ (p,q){ N W( fp, fq) (4.8) ここで，P は画素集合，N は近傍画素間のエッジ集合を表す．Dp(fp)は，画素 p に視差ラベル fp

を割り当てるコストを表し，データ項 (data term) と呼ばれる．一般にデータ項には，SAD や SSD などのマッチングコスト関数が使用される．また W( fp, fq)は，近接する 2 画素 p, q にそれぞれ視 差ラベル fp, fqを割り当てるコストを表し，平滑化項 (smoothness term) と呼ばれる．平滑化項は，隣接する画素は類似した視差値をもつという前提に基づいており，2 つのラベル値の差が小さいほど，小さくなる．この平滑化項として，以下の式 (4.9) に示す Potts モデルがよく用いられる．これは隣接するラベルが等しければ 0，そうでなければ定数λ のコストを与えるモデルである． WPotts(fp, fq)=⎫⎝⎝⎬⎝⎝⎭ 0, if fp= fq λ, otherwise (4.9) このように，2 次元のアプローチは画像全体のデータ項と平滑化項の総和を最小にするラベリングの探索を行うことによって，視差を算出する．

(38)

Stereo

image

Initial

disparity map

Reliability

map

Resultant

disparity map

CEN

RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN RF CN 図 4.1: CEN によるステレオマッチング

4.1.2 従来研究の問題点

Local法の性能は，局所領域の種類と大きさ，マッチングコスト関数の種類に依存する．例えば，マッチングコスト関数として SAD を用いた BM 法は，計算コストが低いが精度も低くなる．一方で，適応的に局所領域を変化させる手法［27，28］は，精度が高くなるが計算コストも高くなる．

Global法は Middlebury stereo benchmark で高い精度を示しているが，大局的な最適化を行うため

基本的に計算コストが非常に高い．計算コストを削減するために近似解法を用いた手法［37］も存在するが，その分精度は低下する．またステレオマッチングは，厳密な解が存在しない不良設定問題であり，オクルージョンやテクスチャの無い領域では左右の画像上で対応点が存在しない，あるいは対応点の候補が複数存在するため，対応点を決定することが非常に困難である．Global 法と領域分割を組み合わせ，各領域の視差を平面近似することによってテクスチャの無い領域においても精度良くマッチングを行うことを可能とした手法［39–41］も存在する．しかし領域分割の計算コストが大きく，全体として計算コストが大きくなってしまう．さらに local 法，global 法ともに，ウィンドウサイズや遷移回数，エネルギー関数の係数などのパラメータが多く，多種多様な物体形状や特徴をもつ画像に対してこれらのパラメータを最適に設定することが困難であると考えられる．上述したように，従来手法では多種多様な画像に対して高精度かつ高速に処理を行うのは困難である．

4.2 CEN

による視差伝搬に基づくステレオマッチング

4.2.1 概要と主な特徴

提案する CEN によるステレオマッチングの原理を図 4.1 に示す．以下，本論文では左画像に対する視差を求めるものとする．提案手法では，まず簡易な local 法によって左右画像それぞれに対する初期視差を算出する．次に，左右画像それぞれに対する初期視差の整合性をもとにして，左画像に対する初期視差の信頼度を算出する．最後に，左画像の初期視差を CEN に入力し，信頼度に基づいて状態遷移を行い，視差を伝搬させる．最適化された回数の状態遷移の後，各セルの出力値を最終的な出力視差として得る．学習時には，左右画像に対してこのような処理を行い，出力視差と理想視差の誤差が小さくなるようにセルの構造を GA によって最適化する．次に従来手法に対する提案手法の主な特徴を示す．

(39)

1. 高速処理 Global 法では，式 (4.8) で表されるエネルギーを各画素に対して視差ラベル毎に扱うため， 3次元情報を扱うことになる．一方で提案手法では，各画素に対して 1 つの視差ラベルだけを扱う．つまり，全体として 2 次元情報を扱うことになるため，global 法と比較して少ない計算コストで処理を行うことができる． 2. マッチング困難な領域への対応オクルージョンやテクスチャの無い領域などのマッチングが困難な領域では，誤った初期視差が得られると考えられる．しかし，信頼度に基づいてセル同士を相互作用させながら CEN で視差を伝搬させるため，周辺領域の信頼できる視差をもとに，マッチング困難な領域に対しても適切な視差を出力することが期待できる． 3. 汎用性進化計算法によって視差の伝搬ルールを獲得することで，多様な画像に対して安定的に高精度な視差を出力することが期待できる．

4.2.2 処理の流れ

初期視差の算出 まず最初に，簡易な local 法を用いて初期視差を算出する．2 種類のマッチングコスト関数 CAD， CG ADを，3÷ 3 ウィンドウ W 内の RGB 値の絶対値差分を用いて以下のように定義する． CAD(x, y, d) = (i, j){ W RGB IL(x+ i, y + j) IR(x+ i d, y + j) (4.10) CG_AD(x, y, d) = (i, j){ W RGB √IL(x+ i, y + j)√ √ IR(x+ i d, y + j)√ (4.11) ここで，ILと IRは左画像と右画像,√ IL√と √ IR√は IL,と IRのエッジ画像である．これらのマッチ ングコスト関数を用いて，ILに対する初期視差画像 DLを以下のように求める． DL(x, y) = arg min d CAD(x, y, d) + CGAD(x, y, d) (4.12) 右画像に対する初期視差画像 DRも同様の方法によって算出する．信頼度の算出左画像を基準として初期視差を算出した場合と右画像を基準として初期視差を算出した場合と で，対応する位置にある視差同士は同じ値をもつべきである．したがって，DLと DRの整合性を 確認することによって DLに対する信頼度を算出する．整合性を示す値 c を以下のように定義する． c(x, y) = √DL(x, y) DR(x DL(x, y), y)√ (4.13) この c が小さいほど整合性が取れていることを示す．ここで，実験的に c(x, y) ≥ 1 ならば DL(x, y) は信頼できると定義し，DLに対する信頼度分布 RLを二値画像として算出する． RL(x, y) =⎫⎝⎝⎬⎝⎝⎭ 1 (reliable), ifc(x, y) ≥ 1 0 (unreliable), otherwise (4.14) この信頼度分布によって，DLの誤マッチング領域を大まかにハイライトすることができる．

博士論文

セルラ進化型回路網による

画像処理回路の自動構築とそのハードウェア化

Automatic Construction of Image Processing Circuit

with Cellular Evolutionary Network

and Its Hardware Implementation

国立大学法人 横浜国立大学

大学院環境情報学府

永田 智洋

Tomohiro NAGATA

あらまし

Abstract

目 次

図 目 次

表 目 次

第

1

章 序論

1.1

背景と目的

1.2

本論文の構成

第

2

章 関連研究

2.1

Real-valued Flexibly Connected Neural Network (RFCN)

2.2 Cellular Evolutionary Network (CEN)

2.2.1 CEN の基本構造

2.2.2 CEN による画像処理

2.3

まとめ

第

3

章 超解像処理回路の自動構築

3.1

はじめに

3.1.1

シングルフレーム超解像処理の従来研究

3.1.2

従来研究の問題点

3.2

CEN

による超解像処理

3.2.1

概要と主な特徴

3.2.2

セルの構造

3.2.3 処理の流れ

3.2.4 回路の最適化

3.2.5 並列処理による高速化

3.3

超解像処理実験

3.3.1 実験設定

3.3.2

実験結果と考察

External input

Internal inputs

External input

Internal inputs

3.4

まとめ

第

4

章 視差伝搬に基づくステレオマッチング

回路の自動構築

4.1

はじめに

4.1.1 ステレオマッチングの従来研究

Stereo

image

Initial

disparity map

Reliability

map

Resultant

disparity map

CEN

4.1.2

従来研究の問題点

国立大学法人横浜国立大学

永田　智洋

目次

図目次

表目次

章序論

章関連研究

章超解像処理回路の自動構築

章視差伝搬に基づくステレオマッチング