論 文
画素配列を考慮した Light Field Camera 画像の高解像度化
内田 雄基
†大橋 一輝
†高橋 桂太
†a)藤井 俊彰
†Super Resolution Image Synthesis from a Light Field Camera Considering Its Physical Pixel Arrangement
Yuki UCHIDA
†, Kazuki OHASHI
†, Keita TAKAHASHI
†a), and Toshiaki FUJII
†あらまし 本論文では,代表的なlight field cameraの一つであるLytro Illumを対象とし,カメラの物理的 な画素配列を考慮した超解像手法を提案する.Lytro Illumでは,イメージセンサの手前に挿入されたマイクロ レンズアレーの働きにより,多視点画像の同等のデータ(light fieldデータ)がイメージセンサ上に多重化され るため,一度の撮影で三次元情報を取得できる.取得データ(RAW画像)に逆多重化を施すことで,多視点画 像(sub-aperture image)を取り出せるが,個々の画像の解像度は限られる.そこで,多視点画像を相互に位置 合わせして超解像を行い,解像度を向上させる方法が考えられる.しかしながら,従来の手法では,Lytro Illum のようなカメラに特有のRAW画像の画素配列の扱い方に問題がある.RAW画像では,各画素はRGBのうち 一つの色情報をもち,かつ,マイクロレンズが六角格子状に並んでいる.従来の手法では,デモザイキングによ り色情報を復元し,レンズ配列が正方格子状になるように画素をリサンプリングする.これらの過程には重みづ け和のような演算を伴うデータの補間が含まれるため,RAW画像のもつオリジナルの情報が損なわれ,超解像 の効果を妨げると考えられる.それに対して我々は,演算を伴う補間処理を行わず,RAW画像の画素配列を維
持したsub-aperture imageを用いて超解像を行う手法を提案する.また,幾つかの実写画像を用いた実験によ
り,提案手法の有効性を示す.
キーワード light field camera,超解像
1.
ま え が きLight field camera
またはplenoptic camera
と呼 ばれる,単一のデバイスによって三次元の映像情報を 取得できるカメラ[1]
〜[8]
が,近年,注目を集めてい る.Light field camera
の最も典型的な構成は,メイ ンレンズとイメージセンサの間にマイクロレンズア レーを挿入するものである.マイクロレンズの働き により,高密度な多視点画像と同等なデータ(Light
Field
データ)が,多重化された状態でイメージセンサ上に結像される.つまり,一度の撮影で三次元情報 を取得できる.取得された生データ(
RAW
画像)に 対して逆多重化を行うことで,多視点画像を取り出せ る.また,これらの情報を用いることで,デジタルリ†名古屋大学大学院工学研究科,名古屋市
Graduate School of Engineering, Nagoya University, Nagoya- shi, 464–8603 Japan
a) E-mail: [email protected] DOI:10.14923/transinfj.2016IEP0001
フォーカシングやデプス推定,自由視点画像生成など,
様々なアプリケーションが実現される
[3], [9]
〜[15]
.本 論文では,上記のようなlight field camera
の一つで あるLytro Illum [7]
に注目する(注1).Lytro Illum
のようなカメラにおいては,多視点画 像の解像度の限界は避けられない問題である.すな わち,これらのカメラでは,単一のイメージセンサ上 に,複数視点の情報が多重化されて記録されるため,一視点当りの画像の解像度は限られる.具体的に数値 を挙げると,
Lytro Illum
のイメージセンサそのものは
7728×5368
画素の解像度をもつが,例えば,標準的なソフトウェアである
Light Field Toolbox [16]
を 用いた場合,逆多重化により得られる各視点の画像の 解像度は626 × 433
画素に過ぎない.そこで,多視点画像を相互に位置合わせして超解像 を行い,各視点の画像の解像度を向上させることが考
(注1):本論文の手法は,旧世代のLytroにも適用可能であるが,本論 文では対象とするカメラがLytro Illumであるとして記述する.
えられる
[9], [10], [13], [17], [18]
.しかしながら,従来 の手法では,Lytro Illum
のようなカメラのRAW
画 像に特有の画素配列を扱う方法に問題がある.RAW
画像では,カラーフィルタアレーの影響により各画素 はRGB
のうち一つの色成分のみをもっており,かつ,マイクロレンズは六角格子状に並んでいる.従来の手 法では,デモザイキングによって色情報を復元し,ピ クセルのリサンプリングを行ってレンズ配列を等価的 に正方格子に合わせる処理を行っている.この処理の 過程には重みづけ和のような演算を伴うデータの補間 処理が含まれるため,
RAW
画像のもつ情報が損なわ れ,超解像の効果が妨げられると考えられる.そこで,本論文では,
Lytro Illum
のようなカメラ の物理的な画素配列をできる限りそのまま正確に扱う 超解像手法を提案する.提案手法では,RAW
画像か ら逆多重化によって多視点画像を得る際に,デモザイ キングや画素のリサンプリングなどの元データに対す る演算を伴う補間処理を一切行わず,文献[14]
のよう に,RAW
画像に由来する画素配列をそのまま保持す る方法を採用する.より厳密に述べると,提案手法に おいても,イメージセンサとレンズアレーの位置合わ せを浮動小数画素精度で行うため,逆多重化において,RAW
画像から浮動小数位置の画素値を読み出す必要 が生じる.提案手法では,位置座標を整数値に丸めて 画素値を読み出す(最近傍補間に相当)ことで,オリ ジナルの画素値データに演算を伴う補間処理を施すこ とを回避する.また,提案手法では,RAW
画像の情 報を維持した多視点画像を直接用いて超解像を行う.具体的には,上記のような多視点画像への対応を可能 にするため,超解像及び奥行き推定の観測モデルの中 に,
RAW
画像に由来する画素配列への変換過程を組 み込む.更に,幾つかの実写画像を用いた実験により,標準的な
Light Field Toolbox [16]
によって作られた 多視点画像を用いて高解像度化した画像や,文献[19]
のソフトウェアにより作成された高解像度のリフォー カス画像と比べて,提案手法がより鮮明な高解像度画 像を生成できることを示す.また,
Lytro
デスクトッ プ[20]
で出力した全焦点画像と比べ,同等の鮮鋭感の ある高解像度画像が得られることを示す.Lytro Illum
のようなカメラのRAW
画像の情報を そのまま保持する逆多重化方式は,文献[14]
で既に 報告されているが,超解像には適用されていない.本 研究では,文献[14]
と同等の逆多重化方式をとるが,我々の知る限りにおいて,このような逆多重化方式が
超解像に有効であることを示したのは本研究が初めて である.提案手法のアルゴリズムそのものは標準的な 再構成型超解像の範疇であるが,観測モデルの中に,
RAW
画像に由来する画素配列への変換過程を組み込 んだ部分が,本研究の独自の工夫と位置づけられる.本論文は,国際会議の予稿
[21], [22]
を発展させたもの である.文献[21]
では,RAW
画像の画素配列を保持 した逆多重化方式の超解像における有効性を初めて確 認した.文献[22]
では,超解像における正則化項を改 善し,文献[21]
を上回る画質を達成した.本論文では,これらの内容をまとめて提案手法の詳細をより厳密か つ正確に記述するとともに,提案手法の有効性を示す より詳細な実験結果を報告する.
本論文の構成を以下に述べる.
2.
では,Lytro Illum
のようなカメラのRAW
画像から多視点画像(sub- aperture image
)を生成する処理である逆多重化の手 順を詳細に述べる.3.
では,多視点画像を用いて超解 像合成を行う手法を述べる.超解像においては,多視 点画像同士の位置合わせが必要なため,奥行き推定も この手順に含まれる.4.
では,実験により提案手法の 有効性を示し,5.
で本論文を締めくくる.2. Sub-aperture image
の生成Light field camera
を上から見た模式図を図1
に示 す.Light field camera
では,通常のカメラのイメー ジセンサに対応する場所にマイクロレンズが並べられ,その背後にイメージセンサが置かれる.各マイクロレ ンズに到達する光線は,入射方向に応じてイメージ センサ上の異なる位置に到達する.したがって,
light field camera
では,光線の位置だけでなく角度も同 時に記録することができる.実際に,Lytro Illum
に よって取得したRAW
画像とその一部拡大を図2
に示 す.拡大図より,六角格子状のマイクロレンズアレー の形状を見て取ることができる.各マイクロレンズ の背後にある画素の集合をsubimage
と呼ぶ.1
枚のsubimage
は,対応するマイクロレンズの位置に対して様々な方向から入射した光線を記録したものである.
すなわち,
subimage
内の画素の相対座標は,光線の 入射方向に対応している.したがって,Lytro Illum
のようなカメラのRAW
画像では,マイクロレンズ平 面上の位置(二次元)とその平面への入射方向(二次 元)の四次元の光線空間(4D Light Field
)が記録さ れている.ここで,左からp
h番目,上からp
v番目の マイクロレンズ及び対応するsubimage
を,( p
h, p
v)
図1 Light field cameraの模式図 Fig. 1 Schematic diagram of light field camera.
図2 RAW画像とその部分拡大 Fig. 2 Raw image and close-up.
の組合せで表すことにする.また,各
subimage
内の 相対座標を( θ
h, θ
v)
とする.これらの変数を用いると,各光線は四つの変数の組
( p
h, p
v, θ
h, θ
v)
で表される.RAW
画像は,sub-aperture image
と呼ばれる高密 度な多視点画像が多重化された状態で記録されている ものとみなされる.Sub-aperture image
は,全てのsubimage
から同一の相対座標( θ
h, θ
v)
にある画素を 抽出することで構成される.RAW
画像をI
R( α, β )
と すると,ある( θ
h, θ
v)
に対するsub-aperture image
は以下のように表される.I
θh,θv( p
h, p
v) = I
R( α ( p
h, p
v) + θ
h, β ( p
h, p
v) + θ
v) (1 ≤ p
h≤ l
h, 1 ≤ p
v≤ l
v) (1)
ここで,( α ( p
h, p
v) , β ( p
h, p
v))
はsubimage ( p
h, p
v)
の中心に対応するRAW
画像上での座標を表す.l
h,l
vは,水平方向及び垂直方向のマイクロレンズの数 を表す.Subimage
の位置( p
h, p
v)
は,sub-aperture image
内の画素位置に対応し,subimage
内の相対座 標( θ
h, θ
v)
は,sub-aperture image
の視点位置に対応する.先に述べたように,相対座標
( θ
h, θ
v)
はマイク ロレンズに光線が入射する角度に対応する.したがっ て,図1
に示すように,sub-aperture image
は,マ イクロレンズアレーに同じ角度で入射する光線を逆向 きに辿り,それらの光線が一点に交わる点を投影中心(視点)とする画像と解釈できる.例えば,各
subim- age
から左上に位置する画素を取り出して集めると,右下の視点位置から見た
sub-aperture image
が得ら れる(注2).Subimage
内の相対座標( θ
h, θ
v)
を変化さ せながら上記の処理を繰り返すと,様々な視点から見 たsub-aperture image
,すなわち多視点画像が得ら れる.生成可能なsub-aperture image
の数(視点数)は,
( θ
h, θ
v)
の組合せの数に対応しており,多くてもsubimage
の画素数と同じである.また,それぞれのsub-aperture image
の画素数(n
h× n
v)はマイクロ レンズの数と等しい.すなわち,n
h= l
h,n
v= l
vと なる.上記の
sub-aperture image
の生成において,注意 するべき点が三つある.一つ目に,RAW
画像におい ては,イメージセンサ上に置かれたカラーフィルタア レーにより,各画素はRGB
のうち一つの色情報のみ をもつ.二つ目に,subimage
内の整数値の相対座標( θ
h, θ
v)
に対応するRAW
画像上の座標は,一般に浮 動小数となる.これは,イメージセンサとマイクロ レンズアレーの位置関係に起因する問題である.三 つ目に,sub-aperture image I
θh,θv( p
h, p
v)
の画素配 列は,原理的にはマイクロレンズの配列と同一にな る.マイクロレンズは六角格子状に並んでいるため,(注2):イメージセンサには上下左右反転した画像が撮影されるため,
この反転を補正すれば左上に位置する画素は左上の視点に対応する.
図3 左:補間ベース法,右:直接法によるsub-aperture image
Fig. 3 Sub-aperture images created by interpolation-based (left) and direct (right) methods.
sub-aperture image
の画素配列も正方格子ではなく 六角格子となる.一般的には,
sub-aperture image
の生成は以下のよ うに行われる[3], [11], [12], [15], [16], [23]
〜[25]
.一点 目のカラーフィルタアレーに関しては,一般的なデモ ザイキング手法を用いて各画素がRGB
全ての色情報 をもつようにする.すなわち,式(1)
を施す前に,事 前にRAW
画像をデモザイキングし,I
Rの各画素にRGB
全ての色情報をもたせておく.二点目に関して は,画像データを滑らかに補間し,浮動小数位置の画 素値を抽出する.すなわち,式(1)
において,I
R内 の浮動小数位置にアクセスした場合は,近傍の画素値 から滑らかに補間された値を読み出す.三点目の画素 配列に関しては,sub-aperture image
上で画素のリ サンプリングを行い,画素配列を正方格子へと変更す る.すなわち,式(1)
によって得られたsub-aperture
image
を滑らかに補間しながらスケーリングし,正方格子状に
( p
h, p
v)
を再サンプルする.これは,マイク ロレンズの配列を等価的に正方格子に変更している とみなせる.これらのデモザイキングやリサンプリン グの過程においては,RAW
画像の元々のデータが重 み付け和のような演算処理を経て,補間されること になる.したがって,この方法を「補間ベース法」と 呼ぶこととする.Lytro Illum
のようなカメラのため の標準的なソフトウェアとして公開されているLight Field Toolbox [16]
においても,補間ベース法が用い られている.このソフトウェアを用いて生成されたsub-aperture image
の例を図3
(左)に示す.補間ベース法は広く用いられるが,二つの問題があ る.一つ目に,補間処理によって,無駄な情報を加えた り,本来の情報を失う可能性がある.二つ目に,
Lytro
Illum
のようなカメラのRAW
画像に通常のデモザイ図4 直接法によるsub-aperture image作成 Fig. 4 Schematic diagram of direct method.
キング処理を適用すると,異なる視点の画像情報の混 合が生じる.一般的に,デモザイキングでは,隣接画 素から色情報を補間する.しかし,
RAW
画像には多 視点画像が多重化されているため,同一のsubimage
内の隣接画素は,異なる視点に対応している.本来,異なる視点から見た画像の情報は,混合するべきでは ないと考えられる
[14]
.一方,我々は文献
[14]
と同様に,RAW
画像に由来 する画素配列を維持したままsub-aperture image
を 生成することとした.この方法を本論文では「直接 法」と呼ぶ.図4
に直接法の概念図を示す.ここで,各画素の色はカラーフィルタアレーの色に対応する.
RAW
画像の情報をそのまま維持するため,直接法で は,元のデータに対する演算を伴うような補間処理は 一切行わない.より具体的に述べると,デモザイキン グ処理を行わずに画素を取り出すため,sub-aperture
image
の各画素は,高々一つの色情報のみをもつ状態を維持する.また,整数値の相対座標
( θ
h, θ
v)
に対応 するRAW
画像上の位置座標は一般的に浮動小数座標 になるが,位置座標を丸めて最近傍の画素値を取り出 すことで,演算を伴う補間処理を回避する.すなわち,式
(1)
の代わりに以下の式を用いて仮のsub-aperture image
を生成する.I
θh,θv( p
h, p
v) = I
Rr
α ( p
h, p
v) + θ
h) , r ( β ( p
h, p
v) + θ
v(1 ≤ p
h≤ l
h, 1 ≤ p
v≤ l
v) (2) r
は整数への丸め(四捨五入)を行う関数である.更 に,sub-aperture image
において,マイクロレンズ アレーの六角格子配列に対応した画素配列を維持す るために,各行に一画素おきに空の画素を挿入する.したがって,直接法による
sub-aperture image
の解 像度は横方向に2
倍となり,n
h= 2 l
h,n
v= l
vで ある.最終的に,直接法によるsub-aperture image I
θh,θv( p
h, p
v)
は以下のように表される.I
θh,θv( p
h, p
v) =
I
θh,θv(
p2h, p
v) p
が奇数0 p
が偶数(1 ≤ p
h≤ 2 l
h, 1 ≤ p
v≤ l
v) (3)
ここで,p = p
h+ p
vとし,·
は整数への切り捨てを表 す.図3
(右)に直接法により生成されたsub-aperture image
の例を示す.図
5
に補間ベース法及び直接法によるsub-aperture
image
の生成フローを示す.直接法の特徴は,デモザイキングやリサンプリングを行わないことで,
RAW
画像に無駄な情報を加えたり,RAW
画像のもつ元々 の情報を失ったりしないことである.文献[14]
では,この特徴がデプス推定に対して利点となることが示さ れた.本論文で示すように,この特徴は超解像におい ても大きな利点となる.
図5 Sub-aperture imageの生成フロー Fig. 5 Generation flow of sub-aperture image.
3.
再構成型超解像による高解像度化 本章では,様々な視点から見たsub-aperture image
を相互に位置合わせし,再構成型超解像によって高解 像度化する手法を述べる.図1
に示すように,sub- aperture image
の視点位置はsubimage
内の相対座 標( θ
h, θ
v)
に対応する.( θ
h, θ
v)
座標系は正方格子で あるため,sub-aperture image
の視点位置も正方格子 状に配列されているとみなすことができる.したがっ て,sub-aperture image
群は正方格子状に等間隔に カメラを配置して撮影した多視点画像とみなせる.こ こで述べる手法は,標準的な再構成型超解像の枠組み の範疇であるが,正確を期するため,全体を具体的に 記述する.本研究の独自の工夫は,Lytro Illum
のよ うなカメラのRAW
画像に由来する画素配列をそのま ま正確に扱いつつ,超解像合成を可能とした部分であ る.具体的には,奥行き推定と超解像の観測モデルの 中に,RAW
画像に由来する画素配列への変換過程を 組み込むこととした.以後,アルゴリズムの原理的説 明には行列とベクトルを用いるが,実際のソフトウェ アは,メモリを節約するために画像処理として実装し ている.行列とベクトルを用いた画像処理の表現の詳 細については,付録を参照されたい.入力として用いる
sub-aperture image
をn
要素の 一次元のベクトルy
(k)∈ R
nとして表記する.ここ で,n = n
h× n
v× 3
であり,添字k
は視点のイン デックスを表し,sub-aperture image
の枚数をK
と すると,k ∈ K = [1 , · · · , K ]
である.補間ベース法 で生成されたsub-aperture image
では,y
(k)の全て の要素に値が入っているが,直接法により作成されたsub-aperture image
では,幾つかの要素は空となって いる.提案手法では,どちらのsub-aperture image
も同一の枠組みで扱うことができる.我々の手法では,ある視点
k
c∈ K
を基準として選 択し,その視点のsub-aperture image y
(kc)を高解像 度化する.より具体的には,視点k
c∈ K
から見た高 解像度のデプスマップd ∈ R
N を推定し,その情報 をもとに多数のsub-aperture image y
(k)を相互に位 置合わせした上で,再構成型超解像により高解像度画 像x ∈ R
Nを推定する.ここで,N = N
h× N
v× 3
,N
h> l
hかつN
v> l
vである.そして,この一連の 処理を繰り返すことによって,高解像度画像とデプス マップを交互に推定する.このような交互に推定する 手法を用いるのは,高解像度画像x
とデプスマップd
の精度は互いに依存しているためである.
本章の構成を以下に述べる.
3. 1
では,与えられた 多視点画像からデプスマップを推定する手法を述べる.3. 2
では,多視点画像を相互に位置合わせして解像度 を向上する再構成型超解像について述べる.3. 3
では,3. 1
のデプス推定と3. 2
の再構成型超解像を組み合わ せて,デプスマップと高解像度画像を交互に推定する 手法を提案する.3. 4
では,デプス推定と再構成型超 解像において,Lytro Illum
のようなカメラのRAW
画像を正確に扱うために用いる画素配列行列について 述べる.3. 1
デプスマップの推定デプス推定の基本的な原理は,ブロックマッチング に基づく多視点ステレオ法と同一である.ある視点に おける高解像度画像
x
が与えられたとき,式(4)
を 解くことにより,x
と同じ視点,同じ解像度のデプス マップd
が推定される.d = arg min
d
E
depth( x, d ) (4)
ここで,エネルギー関数
E
depth( x, d )
は以下のように 定義される.E
depth( x, d ) =
k∈K\kc
i∈[1,N]
C
(k,i)( x, d
i) (5)
ここで,
d
iは,ベクトルd
のi
番目の要素を表す.デプス値
d
iのとり得る値は,被写体が存在する奥行 きの範囲をカバーするように,あらかじめ定めておく.
C
(k,i)( x, d )
は,基準画像x
のi
番目の画素において,あるデプス値
d
が与えられたときの,k
枚目のsub-aperture image y
(k)に対するマッチングコスト である.C
(k,i)( x, d ) = W
iδ
(k)( x, d )
2(6)
ここで,δ
(k)( x, d ) ∈ R
N は,ある一定のデプス値d
が与えられたときの,x
とy
(k)の画素値の相違を表す ベクトルである.W
i∈ R
N×Nは対角行列であり,i
番目の要素に対応する画素とその画素の近傍に対応す るベクトル要素のみを残すオペレータである.式(6)
は,要素i
に対応する画素を中心とするウィンドウ領 域で平均を取る作用をもつ.δ
(k)( x, d )
は,具体的に 次式で計算される.δ
(k)( x, d ) = M
(k)( d ) U y
(k)− P
(k)N×NB x (7)
右 辺 の 第 一 項 に お い て ,
U ∈ R
N×n は ニ ア レ ス トネイバー補間によるアップサンプリングを表す.M
(k)( d ) ∈ R
N×Nは,デプス値d
に従って,画像の 画素を一様に平行移動させるオペレータである.Sub- aperture image y
(k)を,行列U
を用いてアップサン プリングした後,行列M
(k)( d )
を用いて平行移動さ せることによって,高解像度画像x
の座標系に対応 させる.一方,右辺の第二項において,B ∈ R
N×N はPoint Spread Function
(PSF
)を表す行列である.具体的な
PSF
の形状としては,N
h/n
h× N
v/n
v画 素の長方形状のサポートをもつ一様な関数を仮定す る.P
(k)N×N はM
(k)( d ) Uy
(k)の構造に合わせて画素 をマスキングする画素配列行列である.詳しくは3. 4
で説明する.第一項と第二項の差分をとることで,デ プスd
を仮定した場合のマッチング誤差を,高解像度 画像の座標系において高解像度画像と同じ解像度で計 算できる.式(5)
,(6)
で示すように,このマッチン グ誤差の2
乗値をウィンドウ内で集約し,これを全て のsub-aperture image
について合計したものが,高 解像度画像の各画素についてのマッチングコストとな る.この処理をデプスd
を変えながら繰り返すこと で,コストボリューム(各画素について,様々なデプ スに対するマッチングコストを集めたもの)が構成さ れる.このコストボリュームは,高解像度画像と同一 の座標系において構成される.したがって,式(4)
の 最小化は,高解像度画像の画素ごとにコストを最小と するd
を探索する処理となり,これによって高解像度 画像と同じ解像度のデプスマップd
が推定される.ま た,マッチングコストの計算に用いる式(7)
中の全て の行列は,画像処理によって実装が可能である.した がって,実際に巨大なサイズの行列を保持する必要が なく,メモリを節約することができる.推定したデプ スマップには,最後にノイズ除去のためにメディアン フィルタをかける.ここで述べたデプス推定手法には,幾つかの問題が ある.まず,行列
U
によるアップサンプリングの過程 で誤差が入る可能性がある.また,視点間のオクルー ジョンを全く考慮していない.更に,コストボリュー ムにおいて,各画素独立にデプス値を最適化するため,デプスの空間的連続性も考慮していない.これらは今 後の研究において改善の余地があるが,本論文の高解 像度化の目的においては,ここで述べたデプス推定手 法によって十分な結果が得られた.
3. 2
再構成型超解像ある視点に対して高解像度のデプスマップ
d
が与え られたとき,y
(k)をその視点に対して位置合わせし,目的とする高解像度画像
x
を再構成型超解像によって 生成する手法を示す.最小化するべきエネルギー関数 は,以下のように定義される.E
SR( x, d ) = 1 2
k∈K
y
(k)− A
(k)( d ) x
2+ λ R ( x ) (8)
第一項はsub-aperture image
の観測モデルから計算 される.第二項のR ( x )
はx
のなめらかさを保つため の正則化項であり,λ
は正の値をとる.第一項において,
A
(k)( d ) ∈ R
n×Nは高解像度画像x
からk
枚目のsub-aperture image y
(k) への劣化を モデル化する観測行列であり,以下のように分解して 表現できる.A
(k)( d ) = P
(k)n×nD M
(k)( d ) B (9) P
(k)n×nはy
(k) の構造に合わせて画像の画素をマス キングする行列であり,詳しくは3. 4
で説明する.D ∈ R
n×Nは画素のサブサンプリングを表す.本論文 では,D
に対応する処理として,低解像度画像の各画 素を計算する際に,高解像度画像の近傍4
画素を用い て双線形補間を行うこととした.M
(k)( d ) ∈ R
N×N は,画像の各画素を,デプスマップd
に基づいて,そ れぞれ平行移動させる行列である.この平行移動はオ クル―ジョンを考慮した移動であり,二つの画素が同 一の画素へと移動した場合,より手前にある画素値が 優先される.B ∈ R
N×N は前節と同様に低解像度画 像のPSF
を表している.また,第二項の
R ( x )
は以下のように設定する.R ( x ) = ∇
hF x
1+ ∇
vF x
1(10)
ここで,∇
h,∇
vは,それぞれ,画像における水平 方向,垂直方向の前方差分作用素に対応する.F
は,RGB
空間からYUV
空間へ変換する行列を表す.つ まり,式(10)
は,エッジに対するL
1ノルムとなって おり,x
がエッジに関してスパースであることを要請 する.式
(8)
の最小化はADMM [26]
を用いて行われる.具体的には,式
(8)
の第二項R ( x )
に対し,代替変 数z
h∈ R
N,z
v∈ R
N,及びそれらの残差の変数u
h= z
h− ∇
hF x
,u
v= z
v− ∇
vF x
を定義し,それぞれの変数が収束するまで更新する処理を繰り返す.
代替変数を用いて,
R ( x )
を以下のように置き直す.R ( x ) = z
h1
+ z
v1
(11)
それぞれの変数を
m
回目からm + 1
回目へと更新す る処理は,以下のように表現される.x
(m+1)= arg min
x
L
(x)x
(m), d, z
(m)h, z
(m)v, u
(m)h, u
(m)v(12) z
(m+1)h= arg min
zh
L
(z)h( x
(m+1), z
(m)h, u
(m)h) (13) z
(m+1)v= arg min
zv
L
(z)v( x
(m+1), z
(m)v, u
(m)v) (14) u
(m+1)h= L
(u)h( x
(m+1), z
(m+1)h, u
(m)h) (15) u
(m+1)v= L
(u)v( x
(m+1), z
(m+1)v, u
(m)v) (16)
ここで,L
(x),L
(z)∗ ,L
(u)∗ を以下のように定義する(∗
は,h
またはv
の添字である).L
(x)( x, d, z
h, z
v, u
h, u
v)
= 1 2
k∈K
y
(k)− A
(k)( d ) x
2+ ρ
2 z
h− ∇
hF x + u
h2
+ ρ
2 z
v− ∇
vF x + u
v2
(17) L
(z)∗( x, z, u )
= λz
1+ ρ
2 z − ∇
∗F x + u
2(18) L
(u)∗( x, z, u ) = u + z − ∇
∗F x (19)
ここで,ρ
は正の定数とする.式(17)
は,x
について 微分可能であるため,勾配法により最小化することが できる[27]
.一方,式(18)
は,z
について,第一項が 微分不可能であるため,soft thresholding
オペレータS
を用いて解を算出する.z = S
λ/ρ( ∇
∗F x − u ) (20)
S
τ( a ) =
⎧ ⎪
⎨
⎪ ⎩
a − τ ( a > τ ) 0 ( |a| ≤ τ ) a + τ ( a < −τ )
(21)
画像に対して,
A
(k)( d )
,∇
h,∇
v,F
,S
を右から乗 算する処理は,画像処理として実装できるため,大き なメモリが不可欠なN × N
の行列を保持する必要は ない.3. 3
デプスマップと高解像度画像の交互推定3. 1
と3. 2
の手法を組み合わせて,デプスマップd
と再構成型超解像による高解像度画像x
の推定を交 互に行う手法を提案する.まず初めに,高解像度画像x
の初期値x
(0)を補間ベース法で生成する.具体的 には,RAW
画像に対してデモザイキングを行いつつy
(kc)と対応する位置の画像を作成し,バイキュービッ ク補間によりアップサンプリングした画像を与える.その後,式
(22)
で表されるデプス推定と式(23)–(27)
で表される超解像を交互に行い,収束するまでd
とx
の更新を続ける.m
回目の更新は以下のように表さ れる.d
(m+1)= arg min
d
E
depth( x
(m), d ) (22) x
(m+1)= arg min
x
L
(x)x
(m), d
(m+1), z
(m)h, z
(m)v, u
(m)h, u
(m)v(23) z
(m+1)h= arg min
zh
L
(z)h( x
(m+1), z
(m)h, u
(m)h) (24) z
(m+1)v= arg min
zv
L
(z)v( x
(m+1), z
(m)v, u
(m)v) (25) u
(m+1)h= L
(u)h( x
(m+1), z
(m+1)h, u
(m)h) (26) u
(m+1)v= L
(u)v( x
(m+1), z
(m+1)v, u
(m)v) (27)
この手順は,3. 2
で述べたADMM
による高解像度 画像x
の更新を行う前に,3. 1
で述べたデプス推定を 行うステップを導入することに相当する.このように デプスマップと高解像度画像を交互に推定する手法は,従来より提案されてきたが
[9], [24], [28]
,本手法のよ うにLight Field Camera
の画素配列を考慮した手法 は存在しない.3. 4
画素配列行列P
の役割最後に,
Lytro Illum
のようなカメラのRAW
画像 の構造に対応するため,我々が用いる画素配列行列P
について述べる.通常の画像では,それぞれの画素はRGB
の三つの色情報を保持する.しかし,直接法に より作成されたsub-aperture image
においては,各 画素は高々一つの色情報のみをもつ(六角格子構造を 維持しているため,約半数の画素は色情報を一つもも たない).この構造に対応するために,式(7)
,式(9)
では,P
(k)N×N,P
(k)n×nが用いられる.これらの行列は 対角行列であり,対角要素は,対応する画素が色情報 をもつときは1
を,それ以外には0
をとる.この行列 により,情報がない画素をエネルギー関数の評価から除外することができるため,
Lytro Illum
のRAW
画 像がもつ情報をそのまま用いることが可能になる.一 方,補間ベース法で作成されたsub-aperture image
に対しては,P
は全ての対角要素が1
をとり,単位行 列となる.したがって,本手法のアルゴリズムは,同 一の枠組みにより,直接法と補間ベース法の両方に対 応が可能である.4.
実 験Lytro Illum
を用いて4
枚のRAW
画像(A
,B
,C
,D
と呼ぶ)を撮影し,実験を行った.RAW
画像の解像度は
7728×5368
であり,マイクロレンズの数は542 × 433
であった.したがって,直接法により作成し たsub-aperture image
の解像度は1084 × 433
であっ た.また,従来手法の補間ベース法の代表として,ソー スコードが入手可能なLight Field Toolbox v0.3 [16]
を使用した.この場合の
sub-aperture image
の解像 度は626 × 433
であった.このソフトウェアでは,六 角格子から正方格子へのリサンプリングが行われてい るため,sub-aperture image
の画素数はマイクロレン ズの個数と一致しない.高解像度化処理は,中心視点 のsub-aperture image
を対象とすることにし,高解 像度化後の画素数を2450 × 1634
に設定した.この解 像度を選択した理由は,Lytro Illum
の専用現像ソフ トウェアであるLytro
デスクトップ[20]
と出力解像度 を合わせるためである.高解像度化処理におけるパラメータの詳細を述べる.
まず,デプス推定においては,デプスのとり得る値を 決める必要がある.
A
及びB
では,左右に隣接するsub-aperture image
の間で,高解像度画像に換算し た視差が−2.26–2.25
画素となる範囲を,20
段階に均 等な視差で量子化した.C
及びD
では,−2.26–4.74
画素の範囲を29
段階に量子化した.これらはいずれ も,高解像度画像に換算して,約0.25
画素のサブピ クセル単位で視差を求めていることに相当する.式(6)
のマッチングコストの計算におけるウィンドウサ イズは,9×9
画素とした.高解像度化に用いるsub- aperture image
の枚数,及び再構成型超解像のための 式(8)
のパラメータλ
は,幾つかの値を試した上で,最適と思われるものを選択した.図
6
は,λ = 1 . 0
と して,sub-aperture image
の枚数を変化させた場合 の,提案手法による合成結果である.81
枚(9×9
視 点)以上にsub-aperture image
の枚数を増やすと結 果画像が劣化することが分かる.この理由は各マイ図6 Sub-aperture imageの枚数による画質の変化 Fig. 6 Image quality with different number of im-
ages.
図7 λによる画質の変化 Fig. 7 Image quality with differentλ.
クロレンズ周辺部の光量の低下及びひずみだと考え られる.実際,マイクロレンズ周辺部から光線を集め た
sub-aperture image
は画質が低い傾向がある(注3).Sub-aperture image
の枚数を増やした場合,このよ うな周辺部のsub-aperture image
も入力に含まれる ため,結果画像において画質の劣化が生じると考え られる.図7
は,sub-aperture image
の枚数を9 × 9
視点の81
枚とし,λ
を変化させた場合の合成結果で ある.最終的に選択したパラメータは,sub-aperture image
の枚数については,9 × 9
視点の81
枚,式(8)
のλ
については,3 . 0
である.式(17)
,式(18)
のρ
の 値は1 . 0
に設定した.4. 1
高解像度化処理の収束について3. 3
で述べたように,提案手法では高解像度画像と デプスマップを交互に更新する.この処理の収束を数 理的に示すのは難しい.なぜなら,もし式(8)
におけ る観測行列A ( d )
が不変であれば,ADMM
によりエ ネルギー関数が単調に減少することが保証されている が,提案手法ではイテレーションごとにd
が更新され るからである.そこで,式(8)
のエネルギー関数E
SRが,イテレーションを重ねて変化していく様子を調べ,
図
8
にプロットした.比較のため,デプス推定を最初 のイテレーションでのみ行い,以後,デプスマップを 固定した場合もプロットした.いずれにおいても,更 新を重ねるごとにエネルギー関数が減少しているが,最初の数回で劇的な現象が見られたのち,変化が穏や かになっていることが分かる.したがって,比較的少
(注3):マイクロレンズ周辺部の光量の低下はカメラに付属するキャリ ブレーションデータを用いて補正する.
図8 イテレーションごとのエネルギー関数(式(8))
Fig. 8 Energy function in Eq. (8) over iterations.
図9 デプスマップ固定/更新ありの画質比較 Fig. 9 Comparison between (a) fixed and (b) up-
dated depth map.
ない更新回数でも,十分な効果が得られるといえる.
以後の実験では,反復回数を
15
回とする.最後に,デ プスマップを固定した場合と更新していく場合とでの 最終的な高解像度画像の比較を図9
に示す.更新あり の方が,若干ではあるが画質の向上が見られる.以後 の実験においては,デプスマップの更新を行うことと する.提案手法において,
9 × 9
視点の入力画像を用い,デ プスマップの更新を行いつつ,反復回数を15
回とし た場合,一枚の高解像度画像を生成する処理時間は約90
分であった.このときの計算機環境として,OS
はWindows 7 Professional
,CPU
はIntel Core i7-4771 3.50GHz
,main memory
は8.0GB
であり,プログラ ム言語はVisual C++
を使用した.4. 2
画質の評価図
10
に四つのデータに対する提案手法による結果 画像を示す.図11
では,高解像度化後の画像の一部(図
10
中の水色枠部分)を拡大して,他の高解像度 化手法と比較する.ページ数及びファイルサイズの図10 提案手法による結果画像
Fig. 10 Super-resolved images produced by the proposed method.
図11 従来手法と提案手法の比較
Fig. 11 Comparison of super-resolved images : (i) interp. [16] + bicubic upsam- pling, (ii) interp. [16] + SR, (iii) direct + SR (proposed), (iv) refocus [19], and (v) Lytro Desktop application [20].
制約から,本論文には結果の一部のみを掲載するが,
実験結果のオリジナルデータは
Web
サイトから入手 可能である(注4)[29]
.(i)
は補間ベース法[16]
で作成 したsub-aperture image
をバイキュービック補間に よりアップサンプリングした画像である.(ii)
は補間 ベース法[16]
で作成したsub-aperture image
を超解 像した画像である.(iii)
は直接法により作成されたsub-aperture image
を超解像した画像,つまり提案 手法による画像である.また,その他の比較手法とし て,入手が可能な二つのソフトウェアを使用した.一 つ目に,光線の追跡に基づいて,高解像度のリフォー カス画像を生成する手法として,ソースコードが入手 可能な文献[19]
のソフトウェアを用いた.二つ目に,Lytro Illum
専用の現像ソフトであるLytro
デスク トップ[20]
を用いた.文献[19]
のソフトウェアでは,奥行き全体が鮮明となる他の比較手法とは異なり,指 定された奥行きのみが鮮明となる.指定する奥行きを,
目視により,注目部分が最も鮮明となるように調整し た画像を
(iv)
に示す.Lytro
デスクトップは,RAW
データを入力として取り込むことで,鮮明となる奥行 き位置の変更や異なる視点から見た画像の作成など,様々な機能を実現している.奥行き全体が鮮明となる 画像(全焦点画像)を,
Lytro
デスクトップにより出 力した結果を(v)
に示す.提案手法による画像では,細かい部分まで再現されており,
Lytro
デスクトップ 以外の他手法と比較して,明らかに最も高い解像感を 得られている.Lytro
デスクトップでは,バイナリの み提供されているため,用いられているアルゴリズム が確認できないが,何らかの鮮鋭化処理が行われてい るものと思われる.一方,提案手法では画像の見た目 を整えるような後処理を行っていないものの,Lytro
デスクトップと同等の画質を達成した.最後に,結果画像のオクルージョン境界付近(図
10
中の黄色枠部分)を図12
に拡大して示す.一般的に 多視点画像を用いる画像処理では,オクルージョン境 界の扱いが重要である.提案手法においては3. 1
のデ プス推定において特別なオクルージョン処理を行って いない.しかし,図12
を見ると,オクルージョン境 界が他の領域と比べて特に画質が悪いわけではない.理由としては,本研究で用いた
light field camera
で は十分に多数の多視点画像が得られ,それらの多視点(注4):ファイルサイズの制約のため,図10の画像は縦横1/4に縮小 してある.また,全ての画像はPDF化の段階で圧縮される可能性があ るため,Webサイトのデータを参照することを強く推奨する.
図12 オクルージョン境界の拡大 Fig. 12 Close-ups of occlusion boundaries.
画像間の視差が極めて小さいため,オクルージョンの 影響がそれほど顕著には表れなかったと考えられる.
5.
む す び本論文では,代表的な
light Field Camera
の一つで あるLytro Illum
を対象として,カメラの物理的な画 素配列を考慮した超解像手法を提案した.具体的には,RAW
画像における色情報のモザイク構造とマイクロ レンズアレーの六角格子構造をそのまま維持した状態 の多視点画像を得た後,それらの画像を用いて奥行き 推定とそれに基づく再構成型超解像を交互に行う手法 を示した.提案手法では,従来手法のような元データ に対する演算を伴う補間を行わないため,RAW
画像 のもつオリジナルの情報を可能な限り忠実に用いる ことができる.実験により,提案手法による高解像度 化画像は,代表的な補間ベース法であるLight Field Toolbox [16]
によって得られた多視点画像を用いて高 解像度化した画像や,光線追跡処理[19]
により生成さ れたリフォーカス画像よりも鮮明であることを示した.また,
Lytro
デスクトップ[20]
で出力した全焦点画像 と比べ,同等の画質を達成した.今後は,並列化処理 等の導入により提案手法の実装の更なる高速化に取り 組みたい.文 献
[1] E.H. Adelson and J.Y.A. Wang, “Single lens stereo with a plenoptic camera,” IEEE Trans. Pattern Anal.
Mach. Intell., vol.14, no.2, pp.99–106, 1992.
[2] J. Arai, F. Okano, H. Hoshino, and I. Yuyama,
“Gradient-index lens-array method based on real- time integral photography for three-dimensional im- ages,” Applied optics, vol.37, no.11, pp.2034–2045, 1998.
[3] R. Ng, M. Levoy, M. Br´edif, G. Duval, M. Horowitz, and P. Hanrahan, “Light field photography with a hand-held plenoptic camera,” Computer Science Technical Report CSTR, vol.2, no.11, pp.1–11, 2005.
[4] A. Veeraraghavan, R. Raskar, A. Agrawal, A. Mohan, and J. Tumblin, “Dappled photography: Mask en- hanced cameras for heterodyned light fields and coded aperture refocusing,” ACM Trans. Graph., vol.26, no.3, p.69, 2007.
[5] C.-K. Liang, T.-H. Lin, B.-Y. Wong, C. Liu, and H.H.
Chen, “Programmable aperture photography: multi- plexed light field acquisition,” ACM Trans. Graph.
(TOG), vol.27, p.55, 2008.
[6] T. Georgiev and A. Lumsdaine, “Focused plenoptic camera and rendering,” Journal of Electronic Imag- ing, vol.19, no.2, pp.021106–021106, 2010.
[7] “Lytro”. http://lytro.com/
[8] “Raytrix”. http://www.raytrix.de/
[9] F. Perez Nava and J. Luke, “Simultaneous estima- tion of super-resolved depth and all-in-focus images from a plenoptic camera,” 3DTV Conference: The True Vision-Capture, Transmission and Display of 3D Video, pp.1–4, 2009.
[10] T.E. Bishop and P. Favaro, “The light field cam- era: Extended depth of field, aliasing, and superres- olution,” IEEE Trans. Pattern Anal. Mach. Intell., vol.34, no.5, pp.972–986, 2012.
[11] S. Tulyakov, T.H. Lee, and H. Han, “Quadratic for- mulation of disparity estimation problem for light- field camera,” ICIP, pp.2063–2067, 2013.
[12] M.W. Tao, S. Hadap, J. Malik, and R. Ramamoor- thi, “Depth from combining defocus and correspon- dence using light-field cameras,” IEEE International Conference on Computer Vision (ICCV), pp.673–680, 2013.
[13] S. Wanner and B. Goldluecke, “Variational light field analysis for disparity estimation and super- resolution,” IEEE Trans. Pattern Anal. Mach. Intell., vol.36, no.3, pp.606–619, 2013.
[14] N. Sabater, M. Seifi, V. Drazic, G. Sandri, and P.
Perez, “Accurate disparity estimation for plenoptic images,” ECCV Workshop on Light Fields for Com- puter Vision, 2014.
[15] J. Fiss, B. Curless, and R. Szeliski, “Refocusing plenoptic images using depth-adaptive splatting,”
IEEE International Conference on Computational Photography (ICCP), pp.1–9, 2014.
[16] D.G. Dansereau, O. Pizarro, and S.B. Williams,
“Decoding, calibration and rectification for lenselet- based plenoptic cameras,” IEEE Conference on Com- put. Vis. Pattern Recognit. (CVPR), pp.1027–1034, 2013.
[17] T. Georgiev, G. Chunev, and A. Lumsdaine, “Su- perresolution with the focused plenoptic camera,”
IS&T/SPIE Electronic Imaging, pp.78730X–78730X, 2011.
[18] F. Perez, A. Perez, M. Rodriguez, and E. Magdaleno,
“Fourier slice super-resolution in plenoptic cameras,”
IEEE International Conference on Computational
Photography (ICCP), pp.1–11, 2012.
[19] 蚊野 浩,中島 類,“ぼけ具合の調整や3d画像作成も 自由自在 撮影のウデはテクノロジーでカバー!? 最新テ クノロジーの研究...あとからピント合わせ,” Interface, vol.41, no.6, pp.156–165, 2015.
[20] “Lytroデスクトップ”.http://lytro.com/desktop [21] K. Ohashi, K. Takahashi, E. Tehrani, P, and T. Fujii,
“Super-resolution image synthesis using the physical pixel arrangement of a light field camera,” IEEE In- ternational Conference on Image Processing (ICIP), NEW-P1.3, 2015.
[22] Y. Uchida, K. Takahashi, E. Tehrani, P, and T. Fujii,
“Super-resolution image synthesis from a light field camera using the hexagonal pixel arrangement and sparsity of edges,” International Workshop on Ad- vanced Image Technology (IWAIT), 2016.
[23] D. Cho, M. Lee, S. Kim, and Y.-W. Tai, “Modeling the calibration pipeline of the lytro camera for high quality light-field image reconstruction,” IEEE In- ternational Conference on Computer Vision (ICCV), pp.3280–3287, 2013.
[24] K. Ohashi, K. Takahashi, and T. Fujii, “Joint estima- tion of high resolution images and depth maps from light field cameras,” IS&T/SPIE Electronic Imaging, pp.90111B–90111B, 2014.
[25] Y. Bok, H.-G. Jeon, and I.S. Kweon, “Geometric cal- ibration of micro-lens-based light-field cameras us- ing line features,” Computer Vision–ECCV, pp.47–
61, 2014.
[26] S. Boyd, N. Parikh, E. Chu, B. Peleato, and J.
Eckstein, “Distributed optimization and statistical learning via the alternating direction method of multipliers,” Foundations and TrendsR in Machine Learning, pp.1–122, 2011.
[27] K. Takahashi and T. Naemura, “Super-resolved free- viewpoint image synthesis based on view-dependent depth estimation,” IPSJ Trans. Computer Vision and Applications (CVA), vol.7, no.4, pp.1529–1543, 2012.
[28] R.C. Hardie, K.J. Barnard, and E.E. Armstrong,
“Joint map registration and high-resolution image es- timation using a sequence of undersampled images,”
IEEE Trans. Image Process., vol.6, no.12, pp.1621–
1633, 1997.
[29] http://www.fujii.nuee.nagoya-u.ac.jp/˜takahasi/
Research/Lytro/
付 録
画像処理の行列表現
3.
では,説明の都合上,二次元のカラー画像データ を一次元ベクトルに展開して表現している.画像上の 画素位置と色チャネルを一次元ベクトルの要素にどの ように対応付けるかは任意である.ベクトル表現した画像