論
文
画像超解像のための閉ループ学習による代表事例の学習方法
田口
安則
†小野
利幸
†三田
雄志
†井田
孝
†A Learning Method of Representative Examples for Image Super-Resolution
by Closed-Loop Training
Yasunori TAGUCHI
†, Toshiyuki ONO
†, Takeshi MITA
†, and Takashi IDA
†あらまし 事例に基づく画像超解像のための新しい学習方法を提案する.事例学習型の超解像では,事例にお ける低周波成分と高周波成分の相関関係を利用することにより,低解像度の入力画像から鮮鋭な高解像度画像を 生成する.よって,事例を大量に記憶すれば高画質な画像を生成できる.しかし,先行研究では多くの事例から 有益でコンパクトな情報を抽出するための検討が十分なされていない.そこで,提案手法では,学習用画像に対 する平均二乗誤差が小さい画像を生成できる代表事例を,K-means 法と閉ループ学習を併用することで学習す る.これにより,少ないメモリ量で高画質な画像を得られる.実験では,提案手法で学習した代表事例だけを記 憶する方が,学習に利用した大量の事例をすべて記憶する場合や他の手法よりも高画質な画像を得られることを 示した. キーワード 超解像,事例,学習,K-means 法,閉ループ学習
1.
ま え が き
ディジタル画像の多画素化には,その簡便性と高速 性から,共一次内挿法,三次畳込み内挿法などの内挿 法[1]が広く利用されている.しかし,多画素化はナ イキスト周波数を大きくすることに相当するため,画 素値を滑らかに補間しても,撮像時に失われた高周波 成分が復元されず,エッジやテクスチャのぼけた画像 が作成される.その失われた高周波成分を復元,ある いは,生成することにより,入力画像よりも解像度が 高い画像を作成する技術は,超解像と呼ばれる.超解 像の手法は,大まかに4種類に分類できる. 第1は,周波数帯域が制限された画像から周波数帯 域を拡張する手法である.Gerchberg-Papoulisの反 復法[2], [3]では,周波数領域において既知の領域に入 力画像の帯域が制限されているという仮定と,空間領 域において領域が制限されているという仮定を,フー リエ変換を利用した反復計算によって満足させること で,高周波成分を含んだ原画を復元する.この手法 によって原画に収束する理由は,Youlaの交互正射影 †(株)東芝研究開発センター,川崎市Corporate Research and Development Center, Toshiba Cor-poration, Kawasaki-shi, 212–8582 Japan
法[4]における二つの部分空間を,上記二つの仮定と対 応づけることで理解できる.フーリエ変換ではディジ タル画像を処理できないため,新堀ら[5]は離散フー リエ変換を利用することでGerchberg-Papoulisの反 復法を拡張し,ディジタル画像の鮮鋭な多画素化を実 現した.しかし,帯域の制限された領域が撮像系によ り変化し,一般には既知でないことから,前提とする 仮定が成立しない.これが一因となり,リンギングが 発生することが報告されている[5]. 第2は,内挿法を改良した手法である.例えば,志村 ら[6]は,ステップエッジとルーフエッジを検出し,そ れぞれを急しゅんにした.これにより,単純な内挿法 よりも鮮鋭な画像を得られる.しかし,入力画像より 画素数の多い未知の原画に近づく保障がない. 第3は,動画像を利用する手法である[7]∼[9].こ の手法では,入力画像をそれより解像度の高い原画が 縮退したものだとみなし,複数の入力フレームから被 写体の動きを検出し,高解像度画像を再構成する.作 成する高解像度画像には,それを縮退させると動き補 償をした各入力フレームに一致するという制約(再構 成制約)を満足させる.標本化の位相がずれた複数の フレームの情報を利用するため,1フレームしか利用 しない内挿法よりも原画に近い画像を得られる.しか
図 1 低周波成分と高周波成分の相関関係 Fig. 1 Correlation between low-frequency components
and high-frequency components.
し,静止画に適用できない. 第4は,大量の画像から,高周波成分を事前に学習 する手法である.例えば,Bakerら[10]は,事後確率 最大化の枠組みにおける事前知識の項を人の顔に対し て学習した.これにより,顔という特定のカテゴリー の画像を事例学習によって鮮鋭にできることが示され た.Freemanら[11]は,内挿法で多画素化した画像 に,事前に学習した高周波成分を加算した.内挿法で 再現できない高周波成分は,その高周波成分よりも低 い低解像度画像の周波数成分とに相関(図 1)がある ため,それらを対応づけた事例をブロック単位で辞書 に事前に登録して利用した.これにより,任意の画像 に対する事例学習型超解像の枠組みが確立された.こ の枠組みにおいてSunら[12]は,エッジやコーナなど の単純なパターンに特化した特徴量を導入し,バック プロジェクション法[8]により再構成制約を満足させ ることで,その単純なパターンをより鮮鋭にした.し かし,いずれの手法においても,あらゆる入力画像に 対して高い画質を得るためには,記憶する事例の数を 増やす必要がある.これには,極めて大量のメモリが 必要となり,辞書から加算する高周波成分を探索する コストも膨大になる.したがって,高解像度化に役立 つ代表事例だけを選択,あるいは,生成するアプロー チが重要である.それに対し,上村ら[13]は,低周波 成分と高周波成分をK-means法によりそれぞれ独立 にクラスタリングすることで代表を生成した.Chang ら[14]は,辞書に登録した事例が少ない場合でも高い 画質を得るために,超解像の段階で入力画像に応じた 事例を補間した.しかし,これらの手法は,原画と超 解像画像との誤差を最小化しない. そこで本研究では,誤差の期待値を最小化するため 図 2 縮 退 の 例 Fig. 2 Examples of degeneracy.
に,大量の学習用の原画に対する超解像画像の平均 二乗誤差を最小化する代表事例の学習方法を提案す る[16].低周波成分と高周波成分の代表は,同一の低 解像度画像に異なる複数の高解像度画像が縮退する関 係(図 2)に倣い,1対多で対応させる.低周波成分 の代表は,学習用画像から抽出した低周波成分に対す る平均二乗誤差をK-means法[17]により最小化する ことで学習する.高周波成分の代表は,超解像画像の 学習用画像に対する平均二乗誤差を閉ループ学習[18] により最小化することで学習する.提案手法と同じく, 辞書を利用して信号を変換する手法としては,音声の 帯域を拡張する手法[19]や画像の輪郭を強調する手 法[20]が知られている.しかし,これらの手法では変 換前後の特徴量を1対1で対応させるのに対し,提案 手法では1対多で対応させる点が大きく異なる. 以降,2.では,事例学習型超解像の基本的な枠組み を説明し,その問題点を示す.3.では,その問題を解 消するために提案する学習方法について述べる.4.で は,提案手法で学習した代表事例だけを記憶する方が, 学習に利用した大量の事例をすべて記憶する[11]より も,二乗誤差の小さい画像を作成できたことを示す. また,文献[13], [14]の手法との比較により,提案手法 の優位性を示す.5.で今後の課題について述べる.
2.
事例学習型超解像
Freemanらの手法[11]に基づき,図3 (a)に示す学 習段階と,図3 (b)に示す超解像段階からなる事例学 習型超解像の枠組みを説明する. 学習段階では,学習用の高解像度画像HRを1枚 以上準備し,その枚数の分だけ以下の(a1)∼(a7)の 手順を繰り返すことで辞書を作成する.(a1) HRから 低解像度画像LRを作成する.(a2) LRを内挿法によ り多画素化することで仮多画素化画像THを作成す る.後述の実験では,文献[21]の手法を利用した(注1). (a3) HRからTHを減算することで高周波成分HF を作成する.このHFは,文献[21]の手法で再現できない高周波成分を表す.(a4) LRを最近傍内挿法で 多画素化したものをTHから減算することで低周波 成分LFを作成する.このLFはHFと相関がある. (a5) LFとHFの同じ位置のブロックの組(L, H)を 切り抜く.(a6)低周波ブロックと高周波ブロックの組 (L, H)をLのノルムLで除することにより特徴量 の組(l, h)を算出する.(a7)低周波特徴量と高周波特 徴量のN 個の組{(ln, hn)|n = 1, 2, ..., N}を辞書に 記憶する. 超解像段階では,以下の(b1)∼(b7)の手順により 入力画像INから超解像画像SRを作成する.(b1) IN から(a2)と同様にして仮多画素化画像THを作成す る.(b2) INから(a4)と同様にして低周波成分LFを 作成する.(b3) LFから低周波ブロックLを切り抜 く.(b4)LをそのノルムLで除することにより低 周波特徴量lを算出する.(b5)lとの距離が近い順に C個のlnを辞書から探索し,それらと組になってい る高周波特徴量hnを読み出す.(b6) C個のhnから, 探索時の距離,隣接する高周波ブロックとの整合性や 学習段階で別途学習するlとhの共起確率などを基準 として[11],1個の高周波特徴量hを選択する.その hから,次式で算出した高周波ブロックHを配置す ることで高周波画像HFを作成する. H = L h (1) (b7) THにHFを加算することでSRを作成する. この枠組みにおいて,期待二乗誤差を最小化するに 図 3 Freemanらの手法 Fig. 3 Freeman et al.’s method.
は,特徴量の組(ln, hn)を大量に記憶する必要があり, メモリ量が増大する.同時に,探索対象の数が増加す るため,探索のための計算コストが増加する.
3.
提 案 手 法
3. 1 縮退関係を表現した1対多対応の辞書構造 図2に示した縮退関係から分かるとおり,ある一つ の低周波特徴量に対応する高周波特徴量が数多く存在 する.そのため,従来の1対1対応の辞書構造(図3) では,類似した低周波特徴量が冗長に記憶される. その冗長性を排除するため,互いに類似した低周波 特徴量同士を一つの代表にまとめた図4に示す1対多 対応の辞書構造を採用する.この辞書に記憶する低周 波特徴量の代表の数をKで表し,その各々に対応づ ける高周波特徴量の代表の数をM で表す.これらK とMを小さく設定することで,メモリ量を抑制する. 超解像段階の処理(b5)においてC個の高周波特徴 量の候補を抽出するには,従来の1対1対応の辞書か らでは,N個の低周波特徴量から上位C個の探索が必 要だった.一方,提案する1対M 対応の辞書からで は,K(< N )個の低周波特徴量から上位C/M (≤ C) 個だけを探索すればよい.よって,計算コストが削減 される. 3. 2 K-means法による低周波特徴量の代表の 学習 図4 に示したK個の低周波特徴量の代表lk(k = 1, 2, ..., K)は,2.の(a1)∼(a7)の手順で作成した特 徴量の組の集合{(ln, hn)|n = 1, 2, ..., N}から,lnに 対する二乗誤差の総和Nn=1minklk− ln2を K-means法[17]により最小化することで学習する.その 際に生成したK個のクラスタをLk(k = 1, 2, ..., K) 図 4 辞 書 構 造 Fig. 4 Model of a dictionary.(注1):1.で述べた第3の超解像手法では,再構成制約を満足させるこ とで高解像度化した.文献[21]の手法で作成したのは,仮多画素化画像
THに,入力画像INに対する再構成制約を満足させるためである.こ の手法の利用により,後述の超解像画像SRも再構成制約を満足する.
で表し(図5の例ではK = 2),Lkの|Lk|個の要素 をlk,f(f = 1, 2, ..., |Lk|)で表す.代表lkは,クラス タLkの重心であり,低周波特徴量の分布に応じて満 遍なく作成される.低周波特徴量lk,f は高周波特徴 量hk,fと組になっているため,クラスタLkに対応 する高周波特徴量のクラスタHkが同時に生成され, |Hk| = |Lk|である(図5). なお,前処理として,低周波特徴量の次元を主成分 分析で圧縮する.これにより,辞書のメモリ量を削減 し,学習段階と超解像段階の両方において,クラスタ リングや探索の際の距離計算を高速化する. 3. 3 閉ループ学習による高周波特徴量の代表の 学習 低周波特徴量の一つの代表lkに対応づけて記憶す る高周波特徴量のM個の代表hk,m(m = 1, 2, ..., M ) は,学習用の高解像度画像HRに対する平均二乗誤差 を閉ループ学習[18]により最小化することで学習す る.その学習手順を以下で説明する. 学習には,K-means法で生成したクラスタLkの要 素lk,f に対応する低周波ブロックLk,f,高周波特徴 量hk,f,高周波ブロックHk,fを利用する. 式(1)に基づき,代表hk,m から高周波ブロック Hk,f を推定すると,Lk,f hk,mが得られる.この 推定によるひずみem,f を,次式の二乗誤差で評価 する. em,f=
Hk,f− Lk,f hk,m2 (2) 図 5 代表特徴量の学習Fig. 5 Learning of representative features.
M 個の代表hk,mからこのひずみem,fが最小の1個 を選択できた場合,クラスタHkに対応する|Lk|個の 高周波ブロックHk,fに対する平均二乗誤差EHkは EHk= 1 |Lk| |Lk|
f=1 min m em,f (3) で表される.このEHkを最小化するM個の代表hk,m を次のとおりに生成する. M = 1の場合,すなわち,1対1対応の辞書構造の 場合,平均二乗誤差EHkが代表hk,1の二次式である ため,EHkを偏微分して0とおくことで求める (注2). h k,1= |Lk| f=1Lk,f Hk,f |Lk| f=1Lk,f2 (4) M > 1の場合,すなわち,1対多対応の辞書構造の 場合,図6に示す初期化ステップ,クラスタリングス テップ,更新ステップ,判定ステップからなる繰返し 計算により,代表hk,mを生成する.ここで,各変数 の右肩に記す(t)により何回目の繰返しかを表す. 初期化ステップでは,t = 0とし,代表の初期値 h(0) k,mを設定する.具体的には,クラスタHkの要素 hk,fの中から,平均二乗誤差EHkを最小化するM 個を総当り計算で選択することで,h(0)k,mを設定する. 図 6 閉ループ学習の処理手順Fig. 6 Flowchart of closed loop training.
(注2):Linら[15]は,M = 1の場合の期待二乗誤差の下界の計算方 法を示したが,期待二乗誤差を最小化する学習方法を示していない.式
なお,Mが大きい場合,総当り計算のコストが大きく なるため,クラスタHkをK-means法でM個のサブ クラスタにクラスタリングし,各サブクラスタの重心 をh(0)k,mとする. クラスタリングステップでは,クラスタHkを,M 個のサブクラスタH(t)k,mにクラスタリングする(図6 の例ではM = 2). H(t) k,m = {hk,f|f ∈ F(t)k,m} (5) ここで,F(t)k,mは,m番目の代表h(t)k,mに基づくひず みe(t)m,fが最小であった高周波特徴量hk,f のインデッ クスfの集合を表す. F(t) k,m = {f| arg minm e (t) m,f = m} (6) 更新ステップでは,各サブクラスタH(t)k,mにおいて, 次式の平均二乗誤差E(t)Hk,mを最小化する代表h(t+1)k,m に更新する. EH(t)k,m = 1 |H(t) k,m|
f∈Fk,m(t) e(t)m,f (7) E(t)Hk,mはh (t) k,mの二次式であるため,EH(t)k,mをh (t) k,m で偏微分して0とおくことでh(t+1)k,m を計算する. h(t+1)k,m = f∈Fk,m(t) Lk,f Hk,f f∈Fk,m(t) Lk,f 2 (8) 判定ステップでは,繰返し計算の収束を判定し,tを t + 1に更新する.収束は,EH(t−1)k,m− E(t)Hk,mやEH(t)k,m があらかじめ設定したしきい値を下回るかどうかで判 定する.あるいは,H(t)k,mが変化しなくなったかどう かで判定する.収束後は,EHkを最小化するM個の 代表hk,mが生成されていると期待できる. このように,K-means法と閉ループ学習の2段階 で学習すれば,入力画像の低周波特徴量に近い代表と 対応づけて記憶したM 個の高周波特徴量の代表から, 未知の原画に対する期待二乗誤差が小さい高周波ブ ロックを生成できる. C > 1の場合,超解像段階において,探索したC個 の高周波特徴量から一つを選択する必要がある.その 基準は,2.の処理(b6)と同じものを利用できる.そ の基準の中の一つであるlとhの共起確率として,提 案手法では,条件付き確率P (hk,m|lk)を,K-means 法と閉ループ学習のクラスタリング結果に基づいて次 式で近似し,辞書に登録してもよい. P (hk,m|lk) |H|Lk,m| k| (9)4.
実
験
提案手法の主なパラメータは以下のとおりである. • N:学習用の特徴量の組の数 • K:低周波特徴量の代表の数 • M:低周波特徴量の代表一つに対応づける高周 波特徴量の代表の数 • C:高周波ブロックの候補の数 これらを変化させ,提案手法を評価した. 4. 1 学習の処理コスト 学習用の高解像度画像HRとして,一眼レフカメラ の非圧縮モードで,3504× 2336画素の様々な画像を 144枚撮影した.2.の(a1)∼(a7)の手順で作成した特 徴量の組から,低周波ブロックのノルムLが小さい ものを除外し,N組をランダムに抽出することで,学 習用の事例(全事例辞書)を作成した.ブロックL, H の幅と高さは8画素とした.提案手法の辞書(提案辞 書)は全事例辞書から学習した.低周波特徴量lの次 元は,寄与率が95%となる次元数dlに主成分分析で 圧縮した.16倍(縦横それぞれ4倍)に高解像度化す る場合はdl= 9,4倍(縦横それぞれ2倍)の場合は dl= 17となった.すべての実験で,16倍の場合も4 倍の場合も同じ傾向を示したため,以下では16倍の 場合を主に説明する.後述するとおり,超解像段階で C > 1の場合の高周波ブロックの選択基準を,原画か ら抽出した正解との二乗誤差としたため,式(9)の条 件付き確率は辞書に登録しなかった.処理には,メモ リが32 GByte,CPUが3.0 GHzのPCを利用した. 低周波特徴量のK-means法と各クラスタHkにお ける高周波特徴量の閉ループ学習の計算量のオーダ はそれぞれO(N Kdl), O(|Lk|Mdh)である.ここで, dhは高周波特徴量の次元数であり,64である.|Lk| は3. 2で述べた低周波特徴量のクラスタLkの要素数 である.高周波成分の学習全体に要する処理コストを 見積もるため,|Lk|がkによらずN/Kだと仮定すれ ば,高周波成分の学習全体でO(N M dh)となる.た だし,これは粗い近似である. dl= 9の場合に,Nを3750000, 7500000, 15000000, 30000000に変化させ,Kを2048, 8192, 32768に変 化させて測定した低周波特徴量の学習の処理時間を 図7 (a)に示す.ただし,K-means法の繰返し計算の図 7 学習コスト Fig. 7 Learning costs.
図 8 辞書の品質
Fig. 8 Quality of dictionaries.
合計時間であり,8並列で計算した.また,ファイル 入出力の時間を含んでいる.K-means法の繰返し回 数がN, Kによらず近かったため,O(N Kdl)が示す とおり,処理時間がNとKにそれぞれ比例した.他 のパラメータの場合は図示を省略したが,O(N Kdl) から概算できる. N を3750000, 7500000, 15000000, 30000000に 変 化させ,Kを2048, 8192, 32768に変化させ,M = 32 として測定した高周波特徴量の学習の処理時間を 図7 (b)に示す.なお,高周波特徴量の学習には並列 計算を利用しなかった.O(N M dh)が示すとおり,処 理時間がNに比例した.Kが大きいほど処理時間が 短かったのは,Kが大きいほど|Lk|が小さくなり,閉 ループ学習の繰返し回数が少なくなったためである. M 以外を固定し,Mのみを変化させた場合の処理時 間は省略するが,Mが大きいほど処理時間が長かった. 図 9 学習した低周波特徴量と高周波特徴量の代表の例
Fig. 9 Example of learned representative low- and high-frequency features. 4. 2 学習データに対する誤差 作成した辞書の学習データに対する誤差として,学 習に利用したN個の高周波ブロックHnに対する平 均二乗誤差Eを評価した. E = 1 N K
k=1 |Lk|EHk (10) EHkについては式(3)を参照されたい. N = 30000000の 場 合 に ,M を1, 2, 4, 8, 16, 32 に ,K を 2048, 65536に 変 化 さ せ て 計 算 し た 平 均 二乗誤差Eを図 8 に示す.図中のKMは,閉ルー プ学習の初期化ステップでK-means法により学習 す る に と ど め た 辞 書(KM辞 書 )で あ り,提 案 は , 提 案 辞 書 で あ る .い ず れ の 辞 書 で も ,図 示 を 省 略 したK = 4096, 8192, 16384, 32768の場合のEは, K = 2048, 65536の場合の間の値であり,M, Kの増 加に伴いEが減少した.提案辞書の方がKM辞書よ りEが小さかったことから,閉ループ学習の効果を確 認できる. M = 4の提案辞書に登録した低周波特徴量と高周 波特徴量の代表の例を図9に示す(注3).縦線を表す低 周波特徴量に対し,加算により鮮鋭化を期待できる高 周波特徴量が対応していることが分かる. 4. 3 超解像の処理コスト 超解像段階では,16倍(縦横それぞれ4倍)に高解 像度化した.高周波ブロックHは,縦と横方向にそれ ぞれ4画素重なるように配し,重なった部分は式(1) の平均値を採用した.低周波ブロックのノルムLが 小さいブロックは,平たんであると判断し,高周波成 分を加算しなかった.辞書からの低周波特徴量の探索 には全探索を利用した.C > 1の場合,複数(C個) の高周波特徴量の中から一つを選択する必要がある. 2.の処理(b6)と同じ方法を利用できるが,ここでは, 提案する学習方法で生成した辞書の性能の上限を評価 する観点から,原画との二乗誤差が最小のものを選択 した. (注3):表示のために0から255の値に変換した.メ モ リ は ,特 徴 量 を 8 バ イ ト の double 型 で 読 み 込 む の に ,全 事 例 辞 書 な ら 8(dl + dh)N/10243[GByte],KM辞書と提案辞書なら8(dl+ dhM )K/10242[MByte]必要である.したがって,提案 辞書ならメモリ量を全事例辞書の(dl+dhM )K/((dl+ dh)N ) に 削 減 で き る .例 え ば ,dl = 9, dh = 64, N = 30000000の 全 事 例 辞 書 な ら 16.3 GByte, K = 2048, M = 32の提案辞書なら32.1 MByteであ り,メモリ量を1/500以下にできる. 3.で述べたとおり,超解像の処理は,大きく分け て,仮多画素化画像THを作成する処理1と,K個 の低周波特徴量が登録された辞書からC/M個の低周 波特徴量を探索する処理2と,C個の高周波ブロッ クの候補から一つを選択する処理3からなっていた. ファイル入出力を除いた処理時間のうち,処理1, 2, 3 の占める割合を評価するため,Kを65536に固定し, M = Cとして1, 2, 4, 8, 16, 32に変化させ,100×100 画素の画像を16倍に高解像度化した場合の提案手法 の処理時間を計測した.この条件下では,処理1, 2 の時間は変化せず,Cの増加に伴って処理3の時間 だけが増加する.処理1には4 [ms]を要し,処理1, 2, 3の合計は図10 (a)に示すとおりであった.ここ で,時間は6枚の画像に関する平均値であり,並列計 算を利用しなかった.処理1, 2, 3の合計の処理時間 がほとんど変化せず,処理2の時間が大部分を占め ていた.処理2の処理時間は,辞書に登録された低 周波特徴量の数Kと,辞書から探索する数C/Mに 依存する.図10 (b)に,M とCを1に固定し,K を2048, 4096, 8192, 16384, 32768, 65536に変化させ た場合の処理時間を示す.この図から,最近傍を全探 索で求める場合の処理時間がKに比例する性質を確 認できる.図10 (c)に,K = 65536, C = 32に固定 し,M を1, 2, 4, 8, 16, 32に変化させて測定した提案 手法の処理時間を示す.この図から,M の増加すな わちC/Mの減少に伴い,処理時間が短くなっている 様子が分かる.図10 (d)は,登録する高周波特徴量の 数M Kを65536にそろえ,Kを変化させ,高周波ブ ロックの候補の数Cを32とした場合の処理時間であ る.この図から,辞書に登録してある低周波特徴量の 数Kと辞書から探索する低周波特徴量の数C/Mが 小さいほど処理時間が短いことが分かる. KM辞書を用いる方式(KM法)の処理時間は提案 手法と同じである.全事例法はNが大きいため,膨大 な処理時間がかかる.例えば,N = 30000000, C = 1 図 10 超解像の処理時間 Fig. 10 Processing times.
の場合は1.9時間であり,N = 30000000, C = 32の 場合は3.4時間であった. 4. 4 超解像の性能 学習用とテスト用の画像を後述の4. 4. 1∼4. 4. 3 の3通りに変化させ,超解像の性能をPSNRで評価 した. PSNR = 10 log10 255 2 MSE (11) ここで,MSEは原画との平均二乗誤差を表す. 4. 4. 1 1枚の画像で学習してテストした場合 提案辞書の学習用画像に対する忠実度を評価するた め,1枚の画像から学習し,その画像でテストした. 4. 1で述べた144枚のうちの1枚から400× 400の
領域を切り抜き,学習用の高解像度画像HRとし,全 事例辞書,KM辞書,提案辞書を作成した.そのHR の4× 4画素の領域の平均値を求めることで,テスト 用の入力画像INを作成した. この場合,全事例法ではC = 1で十分である.C とM を1に固定し,Kを変化させた場合のPSNR を図11に示す.全事例辞書を用いる方式(全事例法) と仮多画素化画像THはKによらないため,直線と 破線で示した.全事例法で学習用の高解像度画像HR を完全に再現できず,PSNRが無限大にならなかった のは,低周波ブロックのノルムLが小さいブロック の除外により,すべての事例が登録されなかったため である.その除外により,Nは8963となった.提案 手法とKM法のPSNRは,Kが0に近い場合に仮多 画素化画像THに近く,KがN (= 8963)に近い場合 に全事例法に近くなった.このことから,低周波特徴 量の数Kを増やして辞書のメモリ量を増やせば,学 習用の高解像度画像HRに忠実な辞書を作成できるこ とが分かる.Kが同じであれば,提案手法の方がKM 法よりPSNRが高かったことから,閉ループ学習の 効果を確認できる. 4. 4. 2 学習用画像のうちの1枚でテストした場合 提案辞書の学習用画像に対する忠実度を,4. 4. 1と は別の条件で評価するため,複数の画像から学習し, そのうちの1枚でテストした. 辞書は4. 1でN = 30000000として作成したもの を,テスト用の入力画像INは4. 4. 1と同じものを利 用した. 4. 4. 1と同じく,CとMを1に固定し,Kを変化 させた場合のPSNRは,全事例法で29.25 dBであり, それ以外では図12に示すとおりであった.4. 4. 1の 図 11の場合よりも全事例法のPSNRが低くなった のは,低周波ブロックのノルムLが小さいブロッ 図 11 PSNR [dB] (self data,C = M = 1) Fig. 11 PSNR [dB] (self data,C = M = 1).
クを除外しただけでなく,更にそこからランダムに N (= 30000000)組を抽出したためである.提案手法 とKM法では,4. 4. 1の場合と同じく,Kを増やす ことでPSNRが向上した.4. 4. 1の場合ほど全事例 法に近づかなかったのは,N (= 30000000)に対して K(≤ 65536)が小さかったためである.提案手法の方 がKM法よりPSNRが高かったことから,閉ループ 学習の効果をこの場合でも確認できる. 4. 4. 3 学習用画像とは別の画像でテストした場合 提案辞書の汎化性能を評価するために,学習用画像 とは別の画像でテストした. 辞書は,4. 4. 2と同じものを用いた.テスト用の画 像は,学習用とは別に,風景,植物,人工物,人の顔 などを含む図 13に示す画像を6枚準備した.(a)∼ (e)は学習用のHRと同じカメラ,(f)は別のカメラで 撮影し,400× 400画素の領域を抽出した.これら6 枚の原画から,4× 4画素の領域の平均値を求めるこ とで,低解像度の入力画像INを生成した. 提案手法に対し,仮多画素化画像TH [21],全事例 法[11],KM法[13](注4),NE法[14](注5)を比較対象と した.NE法は,一つの高周波特徴量を推定する手法で 図 12 PSNR [dB] (closed data,C = M = 1) Fig. 12 PSNR [dB] (closed data,C = M = 1).
図 13 原 画
あるため,他の手法のC = 1の場合と比較し,C > 1 の場合とは比較しなかった. ・C = 1の場合 C = M = 1とした場合の6枚の原画に対する PSNRの平均を図14に示す.仮多画素化画像THと 全事例法とNE法のPSNRはKに依存しないため, 破線,直線,一点鎖線で示した.KM法と提案手法で は,K = 2048, 8192, 16384, 32768, 65536, M = 1と した.“湖畔”の出力画像の一部を図17 (d)∼(h)に示 し,PSNRを併記する.また,参考のために,原画, 入力画像,三次畳込み内挿法による多画素化画像を (a)∼(c)に示す. 図14から,全事例法だけが仮多画素化画像THよ りPSNRが低く,画質に寄与する高周波成分HFを加 算できなかったことが分かる.図17 (e)には,(d)に ないアーチファクトノイズが多く見られた.他の画像 に対しても同様であった.辞書から最も類似した低周 波特徴量を探索し,それと組になっている高周波特徴 量から高周波ブロックを推定しても,加算すべき正解 と必ずしも類似しないというover fittingの問題が発 生したと考えられる.このことは,図2の縮退関係か ら類推できる.NE法は,全事例辞書を利用したにも かかわらず,図14のPSNRの平均が仮多画素化画像 THより高かった.しかし,図17 (f)では,PSNRが (d)より低く,上部中央に垂れ下がった鎖の周辺など, 全事例法と同じ複数の位置にアーチファクトノイズが 現れた.位置が同じだったのは,加算された高周波ブ ロックが,全事例辞書から抽出した4個の高周波特徴 量の線形和から推定されたためだと考えられる.KM 法と提案手法は,6枚のすべての画像でPSNRが仮 多画素化画像THより高かった.図17 (g),(h)には, アーチファクトノイズの目立つ箇所がなく,(b)の仮 多画素化画像THより鮮鋭だった.これは,多くの事 図 14 PSNR [dB] (open data,C = M = 1) Fig. 14 PSNR [dB] (open data,C = M = 1).
例から,ぼけた画像を鮮鋭にする辞書を学習できたこ とを表す.提案手法のPSNRが最も高かったことか ら,他手法に対する優位性が示された. 原画と仮多画素化画像THとPSNRが最大だった K = 65536の場合の提案手法の出力画像のパワース ペクトルを図18 (a)∼(c)に示す.提案手法により,原 画にある高周波成分がTHよりも忠実に再現されてい ることが分かる. 図15 (a)に横軸をKとし,Kを26, 27, ..., 216に 変化させた場合の提案手法のPSNRを示し,(b)に横 軸をlog2Kとした場合のPSNRを示す.(a)から,K が大きいほど,PSNRの上昇幅が小さいことが見て取 れる.(b)より,上昇幅がlog2Kにほぼ比例している ことが分かる.この図から,要求画質に応じて学習時 のパラメータKを決定できる. 図 15 PSNR [dB] (open data,M = C = 1) Fig. 15 PSNR [dB] (open data,M = C = 1).
図 16 PSNR [dB] (open data,C = 32, MK = 65536) Fig. 16 PSNR [dB] (open data,C = 32, MK =
65536). (注4):本論文では,KM法を文献[13]の手法とみなすが,厳密には一 致しない.文献[13]では,まず,クラスタHkの|Lk|個の要素hk,f ではなく,学習用のすべて,すなわちN個のhnをクラスタリングす る.次に,作成したクラスタのうち,クラスタLkとの対応頻度が高い M個を低周波特徴量の代表lkと対応づける.最後に,対応づけたクラ スタの重心を高周波特徴量の代表hk,mとする. (注5):NE法は,超解像段階において入力画像に合った高周波特徴量 を推定する手法である.具体的には,まず,全事例辞書から,入力画像 の低周波特徴量に近い上位4個を辞書から探索する.この4という値 は,文献[14]で経験的に最適だったと述べられている値である.次に, それら4個の重み付き線形和で入力の低周波特徴量を最もよく近似する 重みを計算する.最後に,その重みを利用し,辞書から抽出した4個の 高周波特徴量の重み付き線形和で高周波特徴量を推定する.特徴量は, 他の手法とそろえたため,文献[14]で利用されたものとは一致しない.
図 17 原画,入力画像,及び,出力画像 Fig. 17 Original, input, and output images.
・C > 1の場合 C > 1の場合の例として,C = 32とした場合の, PSNRの平均を図 16に示し,“湖畔”の出力画像の 一部を図17 (i)∼(k)に示す.KM法と提案手法では, 登録する高周波特徴量の数M Kを65536にそろえ, M を変化させた. いずれの手法でも仮多画素化画像THよりもPSNR が高かったことから,高周波成分HFの加算の効果を 確認できる.全事例法は,図 17 (i)に示したとおり, 石畳の直線を忠実に再現したが,水面にざらざらした アーチファクトノイズが見られた.M ≥ 8の提案手法 は全事例法よりもPSNRが高かったことから,提案 手法の学習効果が示された.KM法と提案手法をM が等しい条件下で比較すると,Mによらず提案手法が 優位であった.このことから,K-means法を2段階で 適用するより,K-means法と閉ループ学習を2段階 で適用する方が,画質に寄与する辞書を学習できるこ とを確認した.KM法の中でPSNRが最大であった M = 4の場合の出力画像では,図17 (j)に示したと おり,石畳の直線が再現されたが,ブロックひずみの ようなアーチファクトノイズが散見された.一方,提 案手法の中でPSNRが最大であったM = 32の場合 の出力画像は,図17 (k)に示したとおり,石畳の直線 を忠実に再現し,アーチファクトノイズが見られず高 精細であった.図 17 (d)の仮多画素化画像THに見 られたジャギーを打ち消す成分や,ぼけた画像を鮮鋭 にする成分が学習され,加算されたことが分かる.そ の加算された高周波成分HFが図17 (l)である. PSNRが最大であったK = 2048の場合の提案手 法の出力画像のパワースペクトルを図18 (d)に示す. 図18より,(d)が原画にある高周波成分を最も忠実 に再現していることが分かる. 提案手法において,辞書に登録されている高周波特 徴量の数M Kが等しければ,Mが大きいほどPSNR が高く,M = Cの場合が最も高かった.したがって, M Kと高周波ブロックの候補の数Cを固定した場合, M = Cとして学習するのが最適であることが分かる. これは,閉ループ学習により,M個の代表の中から最 適なものを選択したときの平均二乗誤差を最小化した ためだと考えられる. 図10 (d)に示したとおり,M KとCを固定した場 合,Kが小さいほど,すなわち,Mが大きいほど処 理時間が短く,M = Cの場合が最短であった.した がって,PSNRと処理時間の両面から,M = Cとす 図 18 パワースペクトル Fig. 18 Power spectra.
るのが最適であることが分かる. C = 2, 4, 8, 16の場合も同様に,PSNRと処理時間 の両面から,M = Cの場合が最適であった.4倍(縦 横それぞれ2倍)に高解像度化する場合も,同様で あった. 以上の結果から,提案する1対多対応の辞書構造に おいて,学習用画像に対する平均二乗誤差を最小化す る枠組みの効果が示された.
5.
む す び
高画質な超解像画像を生成するのに役立つ代表事例 を学習する方法を提案した.提案手法では,同一の低 解像度画像に異なる複数の高解像度画像が縮退する1 対多対応の関係を辞書構造に取り込み,K-means法 と閉ループ学習を段階的に適用することで,学習用画 像に対する平均二乗誤差が小さい画像を生成できる代 表事例を学習する. 内挿法,学習に利用したすべての事例を記憶する方 式[11],及び,他の方法[13], [14]と比較する実験によ り,提案手法の有効性を示した. 今後は,学習した辞書を利用して高精細な超解像画 像を生成するために,複数の高周波成分の候補から最 適なものを選択する基準について検討する. 文 献 [1] 高木幹雄,下田陽久(監修),新編画像解析ハンドブック, 東京大学出版会,東京,2004.[2] R.W. Gerchberg, “Super-resolution through error en-ergy reduction,” Optica Acta, vol.21, no.9, pp.709– 720, Sept. 1974.
and band-limited extrapolation,” IEEE Trans. Cir-cuits Syst., vol.CAS-22, no.9, pp.735–742, Sept. 1975. [4] D.C. Youla, “Generalized image restoration by the method of alternating orthogonal projections,” IEEE Trans. Circuits Syst., vol.CAS-25, no.9, pp.694–702, Sept. 1978.
[5] 新 堀 英 二 ,高 木 幹 雄 ,“DCT を 用 い た Gerchberg-Papoulisの反復法を適用した高画質画像拡大,”信学論 (D-II),vol.J76-D-II, no.9, pp.1933–1940, Sept. 1993. [6] 志村 厚,田口 亮,“座標点の Warping と信号振幅値の Biasingを伴う補間によるディジタル画像の解像度向上,” 信学論(A),vol.J87-A, no.2, pp.274–284, Feb. 2004. [7] S.C. Park, M.K. Park, and M.G. Kang, “Super-resolution image reconstruction: A technical over-view,” IEEE Signal Process. Mag., vol.20, no.3, pp.21–36, May 2003.
[8] M. Irani and S. Peleg, “Motion analysis for im-age enhancement: Resolution, occlusion and trans-parency,” J. Vis. Commun. Image Represent., vol.4, no.4, pp.324–335, Dec. 1993.
[9] Z. Lin and H.-Y. Shum, “Fundamental limits of reconstruction-based superresolution algorithms un-der local translation,” IEEE Trans. Pattern Anal. Mach. Intell., vol.26, no.1, pp.83–97, Jan. 2004. [10] S. Baker and T. Kanade, “Limits on super-resolution
and how to break them,” IEEE Trans. Pattern Anal. Mach. Intell., vol.24, no.9, pp.1167–1183, Sept. 2002. [11] W.T. Freeman, E.C. Pasztor, and O.T. Carmichael, “Learning low-level vision,” Int. J. Comput. Vis., vol.40, no.1, pp.25–47, Oct. 2000.
[12] J. Sun, N.-N. Zheng, H. Tao, and H.-Y. Shum, “Im-age hallucination with primal sketch priors,” Proc. 2003 IEEE Computer Society Conf. on Computer Vi-sion and Pattern Recognition (CVPR), vol.2, pp.729– 736, Madison, USA, June 2003.
[13] 上村健二,津村徳道,中口俊哉,三宅洋一,“Texton 置換 に基づく画像の高解像度化手法,”画像ラボ,vol.18, no.5, pp.21–24, May 2007.
[14] H. Chang, D. Yeung, and Y. Xiong, “Super-resolution through neighbor embedding,” Proc. IEEE Computer Society Conf. on Computer Vision and Pattern Recognition (CVPR), vol.1, pp.275–282, Washington, D.C., USA, July 2004.
[15] Z. Lin, J. He, X. Tang, and C.-K. Tang, “Limits of learning-based superresolution algorithms,” Proc. IEEE 11th International Conf. on Computer Vision (ICCV), Rio de Janeiro, Brazil, Oct. 2007.
[16] 田口安則,小野利幸,三田雄志,井田 孝,“歪みを最小
化する高周波成分の学習に基づく超解像度化方法,”情処学
CVIM研報,vol.2007, no.87, pp.257–264, Sept. 2007. [17] R. Xu and D. Wunsch II, “Survey of clustering al-gorithms,” IEEE Trans. Neural Netw., vol.16, no.3, pp.645–678, May 2005. [18] 籠嶋岳彦,赤嶺政巳,“閉ループ学習に基づく最適な音声 素片の解析的生成,”信学論(D-II),vol.J83-D-II, no.6, pp.1405–1411, June 2000. [19] 吉田由紀,阿部匡信,“コードブックマッピングによる 狭帯域音声から広帯域音声の生成法,”信学論(D-II), vol.J78-D-II, no.3, pp.391–399, March 1995.
[20] 阿部淑人,菊池久和,佐々木重信,渡辺弘道,齊藤義明,
“多重解像度ベクトル量子化を用いた画像輪郭強調,”信学
論(A),vol.J79-A, no.5, pp.1032–1040, May 1996.
[21] 田口安則,井田 孝,“再構成制約を満足する高解像度化 フィルタ,”信学技報,PRMU2007-293, March 2008. (平成 20 年 9 月 3 日受付,21 年 1 月 5 日再受付) 田口 安則 (正員) 平 12 東工大・工・情報理工卒.平 14 同 大大学院修士課程了.同年(株)東芝入社. 現在,画像処理に関する研究に従事.平 17 年度本会学術奨励賞受賞. 小野 利幸 (正員) 平 16 東工大・工・情報工学卒.平 18 同 大大学院修士課程了.同年(株)東芝入社. 現在,画像処理に関する研究に従事. 三田 雄志 (正員) 平 8 阪大・基礎工・システム卒.平 10 同 大大学院修士課程了.同年(株)東芝入社. 研究開発センターマルチメディアラボラト リーにてパターン認識,動画像解析の研究 に従事.現在,米 California Institute of Technology客員研究員.MIRU2005 優秀 論文賞受賞.IEEE 会員. 井田 孝 (正員) 昭 62 早大・理工・電気卒.平元同大大学 院理工学研究科修士課程了.同年(株)東 芝入社.平 15,及び平 17 より早大理工学 部非常勤講師.平 19 より東工大大学院総 合理工学研究科連携准教授.博士(工学) 早稲田大学.動画像の符号化やフラクタル を利用した画像処理に関する研究に従事.平 6 年度本会学術奨 励賞,同年度電気学会研究会優秀論文発表賞,平 8 年度日本 ファジイ学会奨励賞,平 12 電気通信普及財団賞(テレコムシ ステム技術賞),同年画像センシングシンポジウム優秀論文賞 各受賞.IEEE 会員.