画像超解像のための閉ループ学習による代表事例の学習方法

(1)

論

文

画像超解像のための閉ループ学習による代表事例の学習方法

田口

安則

†

小野

利幸

†

三田

雄志

†

井田

孝

†

A Learning Method of Representative Examples for Image Super-Resolution

by Closed-Loop Training

Yasunori TAGUCHI

†

, Toshiyuki ONO

†

, Takeshi MITA

†

, and Takashi IDA

†

あらまし事例に基づく画像超解像のための新しい学習方法を提案する．事例学習型の超解像では，事例における低周波成分と高周波成分の相関関係を利用することにより，低解像度の入力画像から鮮鋭な高解像度画像を生成する．よって，事例を大量に記憶すれば高画質な画像を生成できる．しかし，先行研究では多くの事例から有益でコンパクトな情報を抽出するための検討が十分なされていない．そこで，提案手法では，学習用画像に対する平均二乗誤差が小さい画像を生成できる代表事例を，K-means 法と閉ループ学習を併用することで学習する．これにより，少ないメモリ量で高画質な画像を得られる．実験では，提案手法で学習した代表事例だけを記憶する方が，学習に利用した大量の事例をすべて記憶する場合や他の手法よりも高画質な画像を得られることを示した．キーワード超解像，事例，学習，K-means 法，閉ループ学習

1. まえがき

ディジタル画像の多画素化には，その簡便性と高速性から，共一次内挿法，三次畳込み内挿法などの内挿法[1]が広く利用されている．しかし，多画素化はナイキスト周波数を大きくすることに相当するため，画素値を滑らかに補間しても，撮像時に失われた高周波成分が復元されず，エッジやテクスチャのぼけた画像が作成される．その失われた高周波成分を復元，あるいは，生成することにより，入力画像よりも解像度が高い画像を作成する技術は，超解像と呼ばれる．超解像の手法は，大まかに4種類に分類できる．第1は，周波数帯域が制限された画像から周波数帯域を拡張する手法である．Gerchberg-Papoulisの反復法[2], [3]では，周波数領域において既知の領域に入力画像の帯域が制限されているという仮定と，空間領域において領域が制限されているという仮定を，フーリエ変換を利用した反復計算によって満足させることで，高周波成分を含んだ原画を復元する．この手法によって原画に収束する理由は，Youlaの交互正射影 †_{（株）東芝研究開発センター，川崎市}

Corporate Research and Development Center, Toshiba Cor-poration, Kawasaki-shi, 212–8582 Japan

法[4]における二つの部分空間を，上記二つの仮定と対応づけることで理解できる．フーリエ変換ではディジタル画像を処理できないため，新堀ら[5]は離散フーリエ変換を利用することでGerchberg-Papoulisの反復法を拡張し，ディジタル画像の鮮鋭な多画素化を実現した．しかし，帯域の制限された領域が撮像系により変化し，一般には既知でないことから，前提とする仮定が成立しない．これが一因となり，リンギングが発生することが報告されている[5]．第2は，内挿法を改良した手法である．例えば，志村ら[6]は，ステップエッジとルーフエッジを検出し，それぞれを急しゅんにした．これにより，単純な内挿法よりも鮮鋭な画像を得られる．しかし，入力画像より画素数の多い未知の原画に近づく保障がない．第3は，動画像を利用する手法である[7]∼[9]．この手法では，入力画像をそれより解像度の高い原画が縮退したものだとみなし，複数の入力フレームから被写体の動きを検出し，高解像度画像を再構成する．作成する高解像度画像には，それを縮退させると動き補償をした各入力フレームに一致するという制約（再構成制約）を満足させる．標本化の位相がずれた複数のフレームの情報を利用するため，1フレームしか利用しない内挿法よりも原画に近い画像を得られる．しか

(2)

図 1 低周波成分と高周波成分の相関関係 Fig. 1 Correlation between low-frequency components

and high-frequency components.

し，静止画に適用できない．第4は，大量の画像から，高周波成分を事前に学習する手法である．例えば，Bakerら[10]は，事後確率最大化の枠組みにおける事前知識の項を人の顔に対して学習した．これにより，顔という特定のカテゴリーの画像を事例学習によって鮮鋭にできることが示された．Freemanら[11]は，内挿法で多画素化した画像に，事前に学習した高周波成分を加算した．内挿法で再現できない高周波成分は，その高周波成分よりも低い低解像度画像の周波数成分とに相関（図 1）があるため，それらを対応づけた事例をブロック単位で辞書に事前に登録して利用した．これにより，任意の画像に対する事例学習型超解像の枠組みが確立された．この枠組みにおいてSunら[12]は，エッジやコーナなどの単純なパターンに特化した特徴量を導入し，バックプロジェクション法[8]により再構成制約を満足させることで，その単純なパターンをより鮮鋭にした．しかし，いずれの手法においても，あらゆる入力画像に対して高い画質を得るためには，記憶する事例の数を増やす必要がある．これには，極めて大量のメモリが必要となり，辞書から加算する高周波成分を探索するコストも膨大になる．したがって，高解像度化に役立つ代表事例だけを選択，あるいは，生成するアプローチが重要である．それに対し，上村ら[13]は，低周波成分と高周波成分をK-means法によりそれぞれ独立にクラスタリングすることで代表を生成した．Chang ら[14]は，辞書に登録した事例が少ない場合でも高い画質を得るために，超解像の段階で入力画像に応じた事例を補間した．しかし，これらの手法は，原画と超解像画像との誤差を最小化しない．そこで本研究では，誤差の期待値を最小化するため図 2 縮退の例 Fig. 2 Examples of degeneracy.

に，大量の学習用の原画に対する超解像画像の平均二乗誤差を最小化する代表事例の学習方法を提案する[16]．低周波成分と高周波成分の代表は，同一の低解像度画像に異なる複数の高解像度画像が縮退する関係（図 2）に倣い，1対多で対応させる．低周波成分の代表は，学習用画像から抽出した低周波成分に対する平均二乗誤差をK-means法[17]により最小化することで学習する．高周波成分の代表は，超解像画像の学習用画像に対する平均二乗誤差を閉ループ学習[18] により最小化することで学習する．提案手法と同じく，辞書を利用して信号を変換する手法としては，音声の帯域を拡張する手法[19]や画像の輪郭を強調する手法[20]が知られている．しかし，これらの手法では変換前後の特徴量を1対1で対応させるのに対し，提案手法では1対多で対応させる点が大きく異なる．以降，2.では，事例学習型超解像の基本的な枠組みを説明し，その問題点を示す．3.では，その問題を解消するために提案する学習方法について述べる．4.では，提案手法で学習した代表事例だけを記憶する方が，学習に利用した大量の事例をすべて記憶する[11]よりも，二乗誤差の小さい画像を作成できたことを示す．また，文献[13], [14]の手法との比較により，提案手法の優位性を示す．5.で今後の課題について述べる．

2. 事例学習型超解像

Freemanらの手法[11]に基づき，図3 (a)に示す学習段階と，図3 (b)に示す超解像段階からなる事例学習型超解像の枠組みを説明する．学習段階では，学習用の高解像度画像HRを1枚以上準備し，その枚数の分だけ以下の(a1)∼(a7)の手順を繰り返すことで辞書を作成する．(a1) HRから低解像度画像LRを作成する．(a2) LRを内挿法により多画素化することで仮多画素化画像THを作成する．後述の実験では，文献[21]の手法を利用した（注1）_． (a3) HRからTHを減算することで高周波成分HF を作成する．このHFは，文献[21]の手法で再現で

(3)

きない高周波成分を表す．(a4) LRを最近傍内挿法で多画素化したものをTHから減算することで低周波成分LFを作成する．このLFはHFと相関がある． (a5) LFとHFの同じ位置のブロックの組(L, H)を切り抜く．(a6)低周波ブロックと高周波ブロックの組 (L, H)をLのノルムLで除することにより特徴量の組(l, h)を算出する．(a7)低周波特徴量と高周波特徴量のN 個の組{(ln, hn)|n = 1, 2, ..., N}を辞書に記憶する．超解像段階では，以下の(b1)∼(b7)の手順により入力画像INから超解像画像SRを作成する．(b1) IN から(a2)と同様にして仮多画素化画像THを作成する．(b2) INから(a4)と同様にして低周波成分LFを作成する．(b3) LFから低周波ブロックLを切り抜く．(b4)LをそのノルムLで除することにより低周波特徴量lを算出する．(b5)lとの距離が近い順に C個のlnを辞書から探索し，それらと組になっている高周波特徴量hnを読み出す．(b6) C個のhnから，探索時の距離，隣接する高周波ブロックとの整合性や学習段階で別途学習するlとhの共起確率などを基準として[11]，1個の高周波特徴量hを選択する．その hから，次式で算出した高周波ブロックHを配置することで高周波画像HFを作成する． H = L h (1) (b7) THにHFを加算することでSRを作成する．この枠組みにおいて，期待二乗誤差を最小化するに図 3 Freemanらの手法 Fig. 3 Freeman et al.’s method.

は，特徴量の組(l_n, hn)を大量に記憶する必要があり，メモリ量が増大する．同時に，探索対象の数が増加するため，探索のための計算コストが増加する．

3. 提案手法

3. 1 縮退関係を表現した1対多対応の辞書構造図2に示した縮退関係から分かるとおり，ある一つの低周波特徴量に対応する高周波特徴量が数多く存在する．そのため，従来の1対1対応の辞書構造（図3）では，類似した低周波特徴量が冗長に記憶される．その冗長性を排除するため，互いに類似した低周波特徴量同士を一つの代表にまとめた図4に示す1対多対応の辞書構造を採用する．この辞書に記憶する低周波特徴量の代表の数をKで表し，その各々に対応づける高周波特徴量の代表の数をM で表す．これらK とMを小さく設定することで，メモリ量を抑制する．超解像段階の処理(b5)においてC個の高周波特徴量の候補を抽出するには，従来の1対1対応の辞書からでは，N個の低周波特徴量から上位C個の探索が必要だった．一方，提案する1対M 対応の辞書からでは，K(< N )個の低周波特徴量から上位C/M (≤ C) 個だけを探索すればよい．よって，計算コストが削減される． 3. 2 K-means法による低周波特徴量の代表の学習図4 に示したK個の低周波特徴量の代表l_k(k = 1, 2, ..., K)は，2.の(a1)∼(a7)の手順で作成した特徴量の組の集合{(ln, hn)|n = 1, 2, ..., N}から，lnに対する二乗誤差の総和

N_n=1minklk− ln2を K-means法[17]により最小化することで学習する．その際に生成したK個のクラスタをLk(k = 1, 2, ..., K) 図 4 辞書構造 Fig. 4 Model of a dictionary.

（注1）：1.で述べた第3の超解像手法では，再構成制約を満足させることで高解像度化した．文献[21]の手法で作成したのは，仮多画素化画像

THに，入力画像INに対する再構成制約を満足させるためである．この手法の利用により，後述の超解像画像SRも再構成制約を満足する．

(4)

で表し（図5の例ではK = 2），Lkの|Lk|個の要素をlk,f(f = 1, 2, ..., |Lk|)で表す．代表l_kは，クラスタLkの重心であり，低周波特徴量の分布に応じて満遍なく作成される．低周波特徴量l_k,f は高周波特徴量h_k,fと組になっているため，クラスタL_kに対応する高周波特徴量のクラスタHkが同時に生成され， |Hk| = |Lk|である（図5）．なお，前処理として，低周波特徴量の次元を主成分分析で圧縮する．これにより，辞書のメモリ量を削減し，学習段階と超解像段階の両方において，クラスタリングや探索の際の距離計算を高速化する． 3. 3 閉ループ学習による高周波特徴量の代表の学習低周波特徴量の一つの代表l_kに対応づけて記憶する高周波特徴量のM個の代表h_k,m(m = 1, 2, ..., M ) は，学習用の高解像度画像HRに対する平均二乗誤差を閉ループ学習[18]により最小化することで学習する．その学習手順を以下で説明する．学習には，K-means法で生成したクラスタLkの要素l_k,f に対応する低周波ブロックL_k,f，高周波特徴量h_k,f，高周波ブロックH_k,fを利用する．式(1)に基づき，代表h_k,m から高周波ブロック Hk,f を推定すると，Lk,f hk,mが得られる．この推定によるひずみem,f を，次式の二乗誤差で評価する． em,f=

Hk,f− Lk,f hk,m

2 (2) 図 5 代表特徴量の学習

Fig. 5 Learning of representative features.

M 個の代表h_k,mからこのひずみem,fが最小の1個を選択できた場合，クラスタH_kに対応する|L_k|個の高周波ブロックH_k,fに対する平均二乗誤差EHkは EHk= 1 |Lk| |Lk|

f=1 min m em,f (3) で表される．このEHkを最小化するM個の代表hk,m を次のとおりに生成する． M = 1の場合，すなわち，1対1対応の辞書構造の場合，平均二乗誤差EHkが代表hk,1の二次式であるため，EHkを偏微分して0とおくことで求める（注2）_． h k,1=

|Lk| f=1Lk,f Hk,f

_|L_k_| f=1Lk,f2 (4) M > 1の場合，すなわち，1対多対応の辞書構造の場合，図6に示す初期化ステップ，クラスタリングステップ，更新ステップ，判定ステップからなる繰返し計算により，代表h_k,mを生成する．ここで，各変数の右肩に記す(t)により何回目の繰返しかを表す．初期化ステップでは，t = 0とし，代表の初期値 h(0) k,mを設定する．具体的には，クラスタHkの要素 hk,fの中から，平均二乗誤差EHkを最小化するM 個を総当り計算で選択することで，h(0)_k,mを設定する．図 6 閉ループ学習の処理手順

Fig. 6 Flowchart of closed loop training.

（注2）：Linら[15]は，M = 1の場合の期待二乗誤差の下界の計算方法を示したが，期待二乗誤差を最小化する学習方法を示していない．式

(5)

なお，Mが大きい場合，総当り計算のコストが大きくなるため，クラスタHkをK-means法でM個のサブクラスタにクラスタリングし，各サブクラスタの重心をh(0)_k,mとする．クラスタリングステップでは，クラスタH_kを，M 個のサブクラスタH(t)_k,mにクラスタリングする（図6 の例ではM = 2）． H(t) k,m = {hk,f|f ∈ F(t)k,m} (5) ここで，F(t)_k,mは，m番目の代表h(t)_k,mに基づくひずみe(t)_m,fが最小であった高周波特徴量hk,f のインデックスfの集合を表す． F(t) k,m = {f| arg min_m e (t) m_,f = m} (6) 更新ステップでは，各サブクラスタH(t)_k,mにおいて，次式の平均二乗誤差E(t)_H_k,mを最小化する代表h(t+1)_k,m に更新する． E_H(t)_k,m = 1 |H(t) k,m|

f∈F_k,m(t) e(t)_m,f (7) E(t)Hk,mはh (t) k,mの二次式であるため，EH(t)k,mをh (t) k,m で偏微分して0とおくことでh(t+1)_k,m を計算する． h(t+1)_k,m =

f∈F_k,m(t) Lk,f Hk,f

f∈F_k,m(t) Lk,f 2 (8) 判定ステップでは，繰返し計算の収束を判定し，tを t + 1に更新する．収束は，E_H(t−1)_k,m− E(t)_H_k,mやE_H(t)_k,m があらかじめ設定したしきい値を下回るかどうかで判定する．あるいは，H(t)_k,mが変化しなくなったかどうかで判定する．収束後は，EHkを最小化するM個の代表h_k,mが生成されていると期待できる．このように，K-means法と閉ループ学習の2段階で学習すれば，入力画像の低周波特徴量に近い代表と対応づけて記憶したM 個の高周波特徴量の代表から，未知の原画に対する期待二乗誤差が小さい高周波ブロックを生成できる． C > 1の場合，超解像段階において，探索したC個の高周波特徴量から一つを選択する必要がある．その基準は，2.の処理(b6)と同じものを利用できる．その基準の中の一つであるlとhの共起確率として，提案手法では，条件付き確率P (hk,m|lk)を，K-means 法と閉ループ学習のクラスタリング結果に基づいて次式で近似し，辞書に登録してもよい． P (hk,m|lk) |H_|Lk,m| k| (9)

4. 実

験

提案手法の主なパラメータは以下のとおりである． • N：学習用の特徴量の組の数 • K：低周波特徴量の代表の数 • M：低周波特徴量の代表一つに対応づける高周波特徴量の代表の数 • C：高周波ブロックの候補の数これらを変化させ，提案手法を評価した． 4. 1 学習の処理コスト学習用の高解像度画像HRとして，一眼レフカメラの非圧縮モードで，3504× 2336画素の様々な画像を 144枚撮影した．2.の(a1)∼(a7)の手順で作成した特徴量の組から，低周波ブロックのノルムLが小さいものを除外し，N組をランダムに抽出することで，学習用の事例（全事例辞書）を作成した．ブロックL, H の幅と高さは8画素とした．提案手法の辞書（提案辞書）は全事例辞書から学習した．低周波特徴量lの次元は，寄与率が95%となる次元数dlに主成分分析で圧縮した．16倍（縦横それぞれ4倍）に高解像度化する場合はdl= 9，4倍（縦横それぞれ2倍）の場合は dl= 17となった．すべての実験で，16倍の場合も4 倍の場合も同じ傾向を示したため，以下では16倍の場合を主に説明する．後述するとおり，超解像段階で C > 1の場合の高周波ブロックの選択基準を，原画から抽出した正解との二乗誤差としたため，式(9)の条件付き確率は辞書に登録しなかった．処理には，メモリが32 GByte，CPUが3.0 GHzのPCを利用した．低周波特徴量のK-means法と各クラスタHkにおける高周波特徴量の閉ループ学習の計算量のオーダはそれぞれO(N Kdl), O(|Lk|Mdh)である．ここで， dhは高周波特徴量の次元数であり，64である．|Lk| は3. 2で述べた低周波特徴量のクラスタLkの要素数である．高周波成分の学習全体に要する処理コストを見積もるため，|L_k|がkによらずN/Kだと仮定すれば，高周波成分の学習全体でO(N M dh)となる．ただし，これは粗い近似である． dl= 9の場合に，Nを3750000, 7500000, 15000000, 30000000に変化させ，Kを2048, 8192, 32768に変化させて測定した低周波特徴量の学習の処理時間を図7 (a)に示す．ただし，K-means法の繰返し計算の

(6)

図 7 学習コスト Fig. 7 Learning costs.

図 8 辞書の品質

Fig. 8 Quality of dictionaries.

合計時間であり，8並列で計算した．また，ファイル入出力の時間を含んでいる．K-means法の繰返し回数がN, Kによらず近かったため，O(N Kdl)が示すとおり，処理時間がNとKにそれぞれ比例した．他のパラメータの場合は図示を省略したが，O(N Kdl) から概算できる． N を3750000, 7500000, 15000000, 30000000に変化させ，Kを2048, 8192, 32768に変化させ，M = 32 として測定した高周波特徴量の学習の処理時間を図7 (b)に示す．なお，高周波特徴量の学習には並列計算を利用しなかった．O(N M dh)が示すとおり，処理時間がNに比例した．Kが大きいほど処理時間が短かったのは，Kが大きいほど|Lk|が小さくなり，閉ループ学習の繰返し回数が少なくなったためである． M 以外を固定し，Mのみを変化させた場合の処理時間は省略するが，Mが大きいほど処理時間が長かった．図 9 学習した低周波特徴量と高周波特徴量の代表の例

Fig. 9 Example of learned representative low- and high-frequency features. 4. 2 学習データに対する誤差作成した辞書の学習データに対する誤差として，学習に利用したN個の高周波ブロックH_nに対する平均二乗誤差Eを評価した． E = 1 N K

k=1 |Lk|EHk (10) EHkについては式(3)を参照されたい． N = 30000000の場合に，M を1, 2, 4, 8, 16, 32 に，K を 2048, 65536に変化させて計算した平均二乗誤差Eを図 8 に示す．図中のKMは，閉ループ学習の初期化ステップでK-means法により学習するにとどめた辞書（KM辞書）であり，提案は，提案辞書である．いずれの辞書でも，図示を省略したK = 4096, 8192, 16384, 32768の場合のEは， K = 2048, 65536の場合の間の値であり，M, Kの増加に伴いEが減少した．提案辞書の方がKM辞書よりEが小さかったことから，閉ループ学習の効果を確認できる． M = 4の提案辞書に登録した低周波特徴量と高周波特徴量の代表の例を図9に示す（注3）．縦線を表す低周波特徴量に対し，加算により鮮鋭化を期待できる高周波特徴量が対応していることが分かる． 4. 3 超解像の処理コスト超解像段階では，16倍（縦横それぞれ4倍）に高解像度化した．高周波ブロックHは，縦と横方向にそれぞれ4画素重なるように配し，重なった部分は式(1) の平均値を採用した．低周波ブロックのノルムLが小さいブロックは，平たんであると判断し，高周波成分を加算しなかった．辞書からの低周波特徴量の探索には全探索を利用した．C > 1の場合，複数（C個）の高周波特徴量の中から一つを選択する必要がある． 2.の処理(b6)と同じ方法を利用できるが，ここでは，提案する学習方法で生成した辞書の性能の上限を評価する観点から，原画との二乗誤差が最小のものを選択した．（注3）：表示のために0から255の値に変換した．

(7)

メモリは，特徴量を 8 バイトの double 型で読み込むのに，全事例辞書なら 8(dl + dh)N/10243[GByte]，KM辞書と提案辞書なら8(dl+ dhM )K/10242[MByte]必要である．したがって，提案辞書ならメモリ量を全事例辞書の(dl+dhM )K/((dl+ dh)N ) に削減できる．例えば，dl = 9, dh = 64, N = 30000000の全事例辞書なら 16.3 GByte， K = 2048, M = 32の提案辞書なら32.1 MByteであり，メモリ量を1/500以下にできる． 3.で述べたとおり，超解像の処理は，大きく分けて，仮多画素化画像THを作成する処理1と，K個の低周波特徴量が登録された辞書からC/M個の低周波特徴量を探索する処理2と，C個の高周波ブロックの候補から一つを選択する処理3からなっていた．ファイル入出力を除いた処理時間のうち，処理1, 2, 3 の占める割合を評価するため，Kを65536に固定し， M = Cとして1, 2, 4, 8, 16, 32に変化させ，100×100 画素の画像を16倍に高解像度化した場合の提案手法の処理時間を計測した．この条件下では，処理1, 2 の時間は変化せず，Cの増加に伴って処理3の時間だけが増加する．処理1には4 [ms]を要し，処理1, 2, 3の合計は図10 (a)に示すとおりであった．ここで，時間は6枚の画像に関する平均値であり，並列計算を利用しなかった．処理1, 2, 3の合計の処理時間がほとんど変化せず，処理2の時間が大部分を占めていた．処理2の処理時間は，辞書に登録された低周波特徴量の数Kと，辞書から探索する数C/Mに依存する．図10 (b)に，M とCを1に固定し，K を2048, 4096, 8192, 16384, 32768, 65536に変化させた場合の処理時間を示す．この図から，最近傍を全探索で求める場合の処理時間がKに比例する性質を確認できる．図10 (c)に，K = 65536, C = 32に固定し，M を1, 2, 4, 8, 16, 32に変化させて測定した提案手法の処理時間を示す．この図から，M の増加すなわちC/Mの減少に伴い，処理時間が短くなっている様子が分かる．図10 (d)は，登録する高周波特徴量の数M Kを65536にそろえ，Kを変化させ，高周波ブロックの候補の数Cを32とした場合の処理時間である．この図から，辞書に登録してある低周波特徴量の数Kと辞書から探索する低周波特徴量の数C/Mが小さいほど処理時間が短いことが分かる． KM辞書を用いる方式（KM法）の処理時間は提案手法と同じである．全事例法はNが大きいため，膨大な処理時間がかかる．例えば，N = 30000000, C = 1 図 10 超解像の処理時間 Fig. 10 Processing times.

の場合は1.9時間であり，N = 30000000, C = 32の場合は3.4時間であった． 4. 4 超解像の性能学習用とテスト用の画像を後述の4. 4. 1∼4. 4. 3 の3通りに変化させ，超解像の性能をPSNRで評価した． PSNR = 10 log₁₀ 255 2 MSE (11) ここで，MSEは原画との平均二乗誤差を表す． 4. 4. 1 1枚の画像で学習してテストした場合提案辞書の学習用画像に対する忠実度を評価するため，1枚の画像から学習し，その画像でテストした． 4. 1で述べた144枚のうちの1枚から400× 400の

(8)

領域を切り抜き，学習用の高解像度画像HRとし，全事例辞書，KM辞書，提案辞書を作成した．そのHR の4× 4画素の領域の平均値を求めることで，テスト用の入力画像INを作成した．この場合，全事例法ではC = 1で十分である．C とM を1に固定し，Kを変化させた場合のPSNR を図11に示す．全事例辞書を用いる方式（全事例法）と仮多画素化画像THはKによらないため，直線と破線で示した．全事例法で学習用の高解像度画像HR を完全に再現できず，PSNRが無限大にならなかったのは，低周波ブロックのノルムLが小さいブロックの除外により，すべての事例が登録されなかったためである．その除外により，Nは8963となった．提案手法とKM法のPSNRは，Kが0に近い場合に仮多画素化画像THに近く，KがN (= 8963)に近い場合に全事例法に近くなった．このことから，低周波特徴量の数Kを増やして辞書のメモリ量を増やせば，学習用の高解像度画像HRに忠実な辞書を作成できることが分かる．Kが同じであれば，提案手法の方がKM 法よりPSNRが高かったことから，閉ループ学習の効果を確認できる． 4. 4. 2 学習用画像のうちの1枚でテストした場合提案辞書の学習用画像に対する忠実度を，4. 4. 1とは別の条件で評価するため，複数の画像から学習し，そのうちの1枚でテストした．辞書は4. 1でN = 30000000として作成したものを，テスト用の入力画像INは4. 4. 1と同じものを利用した． 4. 4. 1と同じく，CとMを1に固定し，Kを変化させた場合のPSNRは，全事例法で29.25 dBであり，それ以外では図12に示すとおりであった．4. 4. 1の図 11の場合よりも全事例法のPSNRが低くなったのは，低周波ブロックのノルムLが小さいブロッ図 11 PSNR [dB] (self data,C = M = 1) Fig. 11 PSNR [dB] (self data,C = M = 1).

クを除外しただけでなく，更にそこからランダムに N (= 30000000)組を抽出したためである．提案手法とKM法では，4. 4. 1の場合と同じく，Kを増やすことでPSNRが向上した．4. 4. 1の場合ほど全事例法に近づかなかったのは，N (= 30000000)に対して K(≤ 65536)が小さかったためである．提案手法の方がKM法よりPSNRが高かったことから，閉ループ学習の効果をこの場合でも確認できる． 4. 4. 3 学習用画像とは別の画像でテストした場合提案辞書の汎化性能を評価するために，学習用画像とは別の画像でテストした．辞書は，4. 4. 2と同じものを用いた．テスト用の画像は，学習用とは別に，風景，植物，人工物，人の顔などを含む図 13に示す画像を6枚準備した．(a)∼ (e)は学習用のHRと同じカメラ，(f)は別のカメラで撮影し，400× 400画素の領域を抽出した．これら6 枚の原画から，4× 4画素の領域の平均値を求めることで，低解像度の入力画像INを生成した．提案手法に対し，仮多画素化画像TH [21]，全事例法[11]，KM法[13]（注4），NE法[14]（注5）を比較対象とした．NE法は，一つの高周波特徴量を推定する手法で図 12 PSNR [dB] (closed data,C = M = 1) Fig. 12 PSNR [dB] (closed data,C = M = 1).

図 13 原画

(9)

あるため，他の手法のC = 1の場合と比較し，C > 1 の場合とは比較しなかった．・C = 1の場合 C = M = 1とした場合の6枚の原画に対する PSNRの平均を図14に示す．仮多画素化画像THと全事例法とNE法のPSNRはKに依存しないため，破線，直線，一点鎖線で示した．KM法と提案手法では，K = 2048, 8192, 16384, 32768, 65536, M = 1とした．“湖畔”の出力画像の一部を図17 (d)∼(h)に示し，PSNRを併記する．また，参考のために，原画，入力画像，三次畳込み内挿法による多画素化画像を (a)∼(c)に示す．図14から，全事例法だけが仮多画素化画像THよりPSNRが低く，画質に寄与する高周波成分HFを加算できなかったことが分かる．図17 (e)には，(d)にないアーチファクトノイズが多く見られた．他の画像に対しても同様であった．辞書から最も類似した低周波特徴量を探索し，それと組になっている高周波特徴量から高周波ブロックを推定しても，加算すべき正解と必ずしも類似しないというover fittingの問題が発生したと考えられる．このことは，図2の縮退関係から類推できる．NE法は，全事例辞書を利用したにもかかわらず，図14のPSNRの平均が仮多画素化画像 THより高かった．しかし，図17 (f)では，PSNRが (d)より低く，上部中央に垂れ下がった鎖の周辺など，全事例法と同じ複数の位置にアーチファクトノイズが現れた．位置が同じだったのは，加算された高周波ブロックが，全事例辞書から抽出した4個の高周波特徴量の線形和から推定されたためだと考えられる．KM 法と提案手法は，6枚のすべての画像でPSNRが仮多画素化画像THより高かった．図17 (g)，(h)には，アーチファクトノイズの目立つ箇所がなく，(b)の仮多画素化画像THより鮮鋭だった．これは，多くの事図 14 PSNR [dB] (open data,C = M = 1) Fig. 14 PSNR [dB] (open data,C = M = 1).

例から，ぼけた画像を鮮鋭にする辞書を学習できたことを表す．提案手法のPSNRが最も高かったことから，他手法に対する優位性が示された．原画と仮多画素化画像THとPSNRが最大だった K = 65536の場合の提案手法の出力画像のパワースペクトルを図18 (a)∼(c)に示す．提案手法により，原画にある高周波成分がTHよりも忠実に再現されていることが分かる．図15 (a)に横軸をKとし，Kを26, 27, ..., 216に変化させた場合の提案手法のPSNRを示し，(b)に横軸をlog₂Kとした場合のPSNRを示す．(a)から，K が大きいほど，PSNRの上昇幅が小さいことが見て取れる．(b)より，上昇幅がlog₂Kにほぼ比例していることが分かる．この図から，要求画質に応じて学習時のパラメータKを決定できる．図 15 PSNR [dB] (open data,M = C = 1) Fig. 15 PSNR [dB] (open data,M = C = 1).

図 16 PSNR [dB] (open data,C = 32, MK = 65536) Fig. 16 PSNR [dB] (open data,C = 32, MK =

65536). （注4）：本論文では，KM法を文献[13]の手法とみなすが，厳密には一致しない．文献[13]では，まず，クラスタHkの|Lk|個の要素hk,f ではなく，学習用のすべて，すなわちN個のhnをクラスタリングする．次に，作成したクラスタのうち，クラスタLkとの対応頻度が高い M個を低周波特徴量の代表l_kと対応づける．最後に，対応づけたクラスタの重心を高周波特徴量の代表h_k,mとする．（注5）：NE法は，超解像段階において入力画像に合った高周波特徴量を推定する手法である．具体的には，まず，全事例辞書から，入力画像の低周波特徴量に近い上位4個を辞書から探索する．この4という値は，文献[14]で経験的に最適だったと述べられている値である．次に，それら4個の重み付き線形和で入力の低周波特徴量を最もよく近似する重みを計算する．最後に，その重みを利用し，辞書から抽出した4個の高周波特徴量の重み付き線形和で高周波特徴量を推定する．特徴量は，他の手法とそろえたため，文献[14]で利用されたものとは一致しない．

(10)

図 17 原画，入力画像，及び，出力画像 Fig. 17 Original, input, and output images.

(11)

・C > 1の場合 C > 1の場合の例として，C = 32とした場合の， PSNRの平均を図 16に示し，“湖畔”の出力画像の一部を図17 (i)∼(k)に示す．KM法と提案手法では，登録する高周波特徴量の数M Kを65536にそろえ， M を変化させた．いずれの手法でも仮多画素化画像THよりもPSNR が高かったことから，高周波成分HFの加算の効果を確認できる．全事例法は，図 17 (i)に示したとおり，石畳の直線を忠実に再現したが，水面にざらざらしたアーチファクトノイズが見られた．M ≥ 8の提案手法は全事例法よりもPSNRが高かったことから，提案手法の学習効果が示された．KM法と提案手法をM が等しい条件下で比較すると，Mによらず提案手法が優位であった．このことから，K-means法を2段階で適用するより，K-means法と閉ループ学習を2段階で適用する方が，画質に寄与する辞書を学習できることを確認した．KM法の中でPSNRが最大であった M = 4の場合の出力画像では，図17 (j)に示したとおり，石畳の直線が再現されたが，ブロックひずみのようなアーチファクトノイズが散見された．一方，提案手法の中でPSNRが最大であったM = 32の場合の出力画像は，図17 (k)に示したとおり，石畳の直線を忠実に再現し，アーチファクトノイズが見られず高精細であった．図 17 (d)の仮多画素化画像THに見られたジャギーを打ち消す成分や，ぼけた画像を鮮鋭にする成分が学習され，加算されたことが分かる．その加算された高周波成分HFが図17 (l)である． PSNRが最大であったK = 2048の場合の提案手法の出力画像のパワースペクトルを図18 (d)に示す．図18より，(d)が原画にある高周波成分を最も忠実に再現していることが分かる．提案手法において，辞書に登録されている高周波特徴量の数M Kが等しければ，Mが大きいほどPSNR が高く，M = Cの場合が最も高かった．したがって， M Kと高周波ブロックの候補の数Cを固定した場合， M = Cとして学習するのが最適であることが分かる．これは，閉ループ学習により，M個の代表の中から最適なものを選択したときの平均二乗誤差を最小化したためだと考えられる．図10 (d)に示したとおり，M KとCを固定した場合，Kが小さいほど，すなわち，Mが大きいほど処理時間が短く，M = Cの場合が最短であった．したがって，PSNRと処理時間の両面から，M = Cとす図 18 パワースペクトル Fig. 18 Power spectra.

るのが最適であることが分かる． C = 2, 4, 8, 16の場合も同様に，PSNRと処理時間の両面から，M = Cの場合が最適であった．4倍（縦横それぞれ2倍）に高解像度化する場合も，同様であった．以上の結果から，提案する1対多対応の辞書構造において，学習用画像に対する平均二乗誤差を最小化する枠組みの効果が示された．

5. むすび

高画質な超解像画像を生成するのに役立つ代表事例を学習する方法を提案した．提案手法では，同一の低解像度画像に異なる複数の高解像度画像が縮退する1 対多対応の関係を辞書構造に取り込み，K-means法と閉ループ学習を段階的に適用することで，学習用画像に対する平均二乗誤差が小さい画像を生成できる代表事例を学習する．内挿法，学習に利用したすべての事例を記憶する方式[11]，及び，他の方法[13], [14]と比較する実験により，提案手法の有効性を示した．今後は，学習した辞書を利用して高精細な超解像画像を生成するために，複数の高周波成分の候補から最適なものを選択する基準について検討する．文献 [1] 高木幹雄，下田陽久（監修)，新編画像解析ハンドブック，東京大学出版会，東京，2004.

[2] R.W. Gerchberg, “Super-resolution through error en-ergy reduction,” Optica Acta, vol.21, no.9, pp.709– 720, Sept. 1974.

(12)

and band-limited extrapolation,” IEEE Trans. Cir-cuits Syst., vol.CAS-22, no.9, pp.735–742, Sept. 1975. [4] D.C. Youla, “Generalized image restoration by the method of alternating orthogonal projections,” IEEE Trans. Circuits Syst., vol.CAS-25, no.9, pp.694–702, Sept. 1978.

[5] 新堀英二，高木幹雄，“DCT を用いた Gerchberg-Papoulisの反復法を適用した高画質画像拡大，”信学論（D-II），vol.J76-D-II, no.9, pp.1933–1940, Sept. 1993. [6] 志村厚，田口亮，“座標点の Warping と信号振幅値の Biasingを伴う補間によるディジタル画像の解像度向上，” 信学論（A），vol.J87-A, no.2, pp.274–284, Feb. 2004. [7] S.C. Park, M.K. Park, and M.G. Kang, “Super-resolution image reconstruction: A technical over-view,” IEEE Signal Process. Mag., vol.20, no.3, pp.21–36, May 2003.

[8] M. Irani and S. Peleg, “Motion analysis for im-age enhancement: Resolution, occlusion and trans-parency,” J. Vis. Commun. Image Represent., vol.4, no.4, pp.324–335, Dec. 1993.

[9] Z. Lin and H.-Y. Shum, “Fundamental limits of reconstruction-based superresolution algorithms un-der local translation,” IEEE Trans. Pattern Anal. Mach. Intell., vol.26, no.1, pp.83–97, Jan. 2004. [10] S. Baker and T. Kanade, “Limits on super-resolution

and how to break them,” IEEE Trans. Pattern Anal. Mach. Intell., vol.24, no.9, pp.1167–1183, Sept. 2002. [11] W.T. Freeman, E.C. Pasztor, and O.T. Carmichael, “Learning low-level vision,” Int. J. Comput. Vis., vol.40, no.1, pp.25–47, Oct. 2000.

[12] J. Sun, N.-N. Zheng, H. Tao, and H.-Y. Shum, “Im-age hallucination with primal sketch priors,” Proc. 2003 IEEE Computer Society Conf. on Computer Vi-sion and Pattern Recognition (CVPR), vol.2, pp.729– 736, Madison, USA, June 2003.

[13] 上村健二，津村徳道，中口俊哉，三宅洋一，“Texton 置換に基づく画像の高解像度化手法，”画像ラボ，vol.18, no.5, pp.21–24, May 2007.

[14] H. Chang, D. Yeung, and Y. Xiong, “Super-resolution through neighbor embedding,” Proc. IEEE Computer Society Conf. on Computer Vision and Pattern Recognition (CVPR), vol.1, pp.275–282, Washington, D.C., USA, July 2004.

[15] Z. Lin, J. He, X. Tang, and C.-K. Tang, “Limits of learning-based superresolution algorithms,” Proc. IEEE 11th International Conf. on Computer Vision (ICCV), Rio de Janeiro, Brazil, Oct. 2007.

[16] 田口安則，小野利幸，三田雄志，井田孝，“歪みを最小

化する高周波成分の学習に基づく超解像度化方法，”情処学

CVIM研報，vol.2007, no.87, pp.257–264, Sept. 2007. [17] R. Xu and D. Wunsch II, “Survey of clustering al-gorithms,” IEEE Trans. Neural Netw., vol.16, no.3, pp.645–678, May 2005. [18] 籠嶋岳彦，赤嶺政巳，“閉ループ学習に基づく最適な音声素片の解析的生成，”信学論（D-II），vol.J83-D-II, no.6, pp.1405–1411, June 2000. [19] 吉田由紀，阿部匡信，“コードブックマッピングによる狭帯域音声から広帯域音声の生成法，”信学論（D-II）， vol.J78-D-II, no.3, pp.391–399, March 1995.

[20] 阿部淑人，菊池久和，佐々木重信，渡辺弘道，齊藤義明，

“多重解像度ベクトル量子化を用いた画像輪郭強調，”信学

論（A），vol.J79-A, no.5, pp.1032–1040, May 1996.

[21] 田口安則，井田孝，“再構成制約を満足する高解像度化フィルタ，”信学技報，PRMU2007-293, March 2008. （平成 20 年 9 月 3 日受付，21 年 1 月 5 日再受付）田口安則（正員）平 12 東工大・工・情報理工卒．平 14 同大大学院修士課程了．同年（株）東芝入社．現在，画像処理に関する研究に従事．平 17 年度本会学術奨励賞受賞．小野利幸（正員）平 16 東工大・工・情報工学卒．平 18 同大大学院修士課程了．同年（株）東芝入社．現在，画像処理に関する研究に従事．三田雄志（正員）平 8 阪大・基礎工・システム卒．平 10 同大大学院修士課程了．同年（株）東芝入社．研究開発センターマルチメディアラボラトリーにてパターン認識，動画像解析の研究に従事．現在，米 California Institute of Technology客員研究員．MIRU2005 優秀論文賞受賞．IEEE 会員．井田孝（正員）昭 62 早大・理工・電気卒．平元同大大学院理工学研究科修士課程了．同年（株）東芝入社．平 15，及び平 17 より早大理工学部非常勤講師．平 19 より東工大大学院総合理工学研究科連携准教授．博士（工学）早稲田大学．動画像の符号化やフラクタルを利用した画像処理に関する研究に従事．平 6 年度本会学術奨励賞，同年度電気学会研究会優秀論文発表賞，平 8 年度日本ファジイ学会奨励賞，平 12 電気通信普及財団賞（テレコムシステム技術賞），同年画像センシングシンポジウム優秀論文賞各受賞．IEEE 会員．

画像超解像のための閉ループ学習による代表事例の学習方法

論

文