画素配列を考慮した Light Field Camera 画像の高解像度化

(1)

論文

画素配列を考慮した Light Field Camera 画像の高解像度化

内田雄基

^†

大橋一輝

^†

高橋桂太

^†^a)

藤井俊彰

^†

Super Resolution Image Synthesis from a Light Field Camera Considering Its Physical Pixel Arrangement

Yuki UCHIDA

^†

, Kazuki OHASHI

^†

, Keita TAKAHASHI

^†a)

, and Toshiaki FUJII

^†

あらまし本論文では，代表的なlight field cameraの一つであるLytro Illumを対象とし，カメラの物理的な画素配列を考慮した超解像手法を提案する．Lytro Illumでは，イメージセンサの手前に挿入されたマイクロレンズアレーの働きにより，多視点画像の同等のデータ（light fieldデータ）がイメージセンサ上に多重化されるため，一度の撮影で三次元情報を取得できる．取得データ（RAW画像）に逆多重化を施すことで，多視点画像（sub-aperture image）を取り出せるが，個々の画像の解像度は限られる．そこで，多視点画像を相互に位置合わせして超解像を行い，解像度を向上させる方法が考えられる．しかしながら，従来の手法では，Lytro Illum のようなカメラに特有のRAW画像の画素配列の扱い方に問題がある．RAW画像では，各画素はRGBのうち一つの色情報をもち，かつ，マイクロレンズが六角格子状に並んでいる．従来の手法では，デモザイキングにより色情報を復元し，レンズ配列が正方格子状になるように画素をリサンプリングする．これらの過程には重みづけ和のような演算を伴うデータの補間が含まれるため，RAW画像のもつオリジナルの情報が損なわれ，超解像の効果を妨げると考えられる．それに対して我々は，演算を伴う補間処理を行わず，RAW画像の画素配列を維

持したsub-aperture imageを用いて超解像を行う手法を提案する．また，幾つかの実写画像を用いた実験によ

り，提案手法の有効性を示す．

キーワード light field camera，超解像

1.

まえがき

Light field camera

または

plenoptic camera

と呼ばれる，単一のデバイスによって三次元の映像情報を取得できるカメラ

[1]

〜

[8]

が，近年，注目を集めている．

Light field camera

の最も典型的な構成は，メインレンズとイメージセンサの間にマイクロレンズアレーを挿入するものである．マイクロレンズの働きにより，高密度な多視点画像と同等なデータ（

Light

Field

データ）が，多重化された状態でイメージセン

サ上に結像される．つまり，一度の撮影で三次元情報を取得できる．取得された生データ（

RAW

画像）に対して逆多重化を行うことで，多視点画像を取り出せる．また，これらの情報を用いることで，デジタルリ

†名古屋大学大学院工学研究科，名古屋市

Graduate School of Engineering, Nagoya University, Nagoya- shi, 464–8603 Japan

a) E-mail: [email protected] DOI:10.14923/transinfj.2016IEP0001

フォーカシングやデプス推定，自由視点画像生成など，

様々なアプリケーションが実現される

[3], [9]

〜

[15]

．本論文では，上記のような

light field camera

の一つである

Lytro Illum [7]

に注目する^（注1）．

Lytro Illum

のようなカメラにおいては，多視点画像の解像度の限界は避けられない問題である．すなわち，これらのカメラでは，単一のイメージセンサ上に，複数視点の情報が多重化されて記録されるため，

一視点当りの画像の解像度は限られる．具体的に数値を挙げると，

Lytro Illum

のイメージセンサそのもの

は

7728×5368

画素の解像度をもつが，例えば，標準

的なソフトウェアである

Light Field Toolbox [16]

を用いた場合，逆多重化により得られる各視点の画像の解像度は

626 × 433

画素に過ぎない．

そこで，多視点画像を相互に位置合わせして超解像を行い，各視点の画像の解像度を向上させることが考

（注1）：本論文の手法は，旧世代のLytroにも適用可能であるが，本論文では対象とするカメラがLytro Illumであるとして記述する．

(2)

えられる

[9], [10], [13], [17], [18]

．しかしながら，従来の手法では，

Lytro Illum

のようなカメラの

RAW

画像に特有の画素配列を扱う方法に問題がある．

RAW

画像では，カラーフィルタアレーの影響により各画素は

RGB

のうち一つの色成分のみをもっており，かつ，

マイクロレンズは六角格子状に並んでいる．従来の手法では，デモザイキングによって色情報を復元し，ピクセルのリサンプリングを行ってレンズ配列を等価的に正方格子に合わせる処理を行っている．この処理の過程には重みづけ和のような演算を伴うデータの補間処理が含まれるため，

RAW

画像のもつ情報が損なわれ，超解像の効果が妨げられると考えられる．

そこで，本論文では，

Lytro Illum

のようなカメラの物理的な画素配列をできる限りそのまま正確に扱う超解像手法を提案する．提案手法では，

RAW

画像から逆多重化によって多視点画像を得る際に，デモザイキングや画素のリサンプリングなどの元データに対する演算を伴う補間処理を一切行わず，文献

[14]

のように，

RAW

画像に由来する画素配列をそのまま保持する方法を採用する．より厳密に述べると，提案手法においても，イメージセンサとレンズアレーの位置合わせを浮動小数画素精度で行うため，逆多重化において，

RAW

画像から浮動小数位置の画素値を読み出す必要が生じる．提案手法では，位置座標を整数値に丸めて画素値を読み出す（最近傍補間に相当）ことで，オリジナルの画素値データに演算を伴う補間処理を施すことを回避する．また，提案手法では，

RAW

画像の情報を維持した多視点画像を直接用いて超解像を行う．

具体的には，上記のような多視点画像への対応を可能にするため，超解像及び奥行き推定の観測モデルの中に，

RAW

画像に由来する画素配列への変換過程を組み込む．更に，幾つかの実写画像を用いた実験により，

標準的な

Light Field Toolbox [16]

によって作られた多視点画像を用いて高解像度化した画像や，文献

[19]

のソフトウェアにより作成された高解像度のリフォーカス画像と比べて，提案手法がより鮮明な高解像度画像を生成できることを示す．また，

Lytro

デスクトップ

[20]

で出力した全焦点画像と比べ，同等の鮮鋭感のある高解像度画像が得られることを示す．

Lytro Illum

RAW

画像の情報をそのまま保持する逆多重化方式は，文献

[14]

で既に報告されているが，超解像には適用されていない．本研究では，文献

[14]

と同等の逆多重化方式をとるが，

我々の知る限りにおいて，このような逆多重化方式が

超解像に有効であることを示したのは本研究が初めてである．提案手法のアルゴリズムそのものは標準的な再構成型超解像の範疇であるが，観測モデルの中に，

RAW

画像に由来する画素配列への変換過程を組み込んだ部分が，本研究の独自の工夫と位置づけられる．

本論文は，国際会議の予稿

[21], [22]

を発展させたものである．文献

[21]

では，

RAW

画像の画素配列を保持した逆多重化方式の超解像における有効性を初めて確認した．文献

[22]

では，超解像における正則化項を改善し，文献

[21]

を上回る画質を達成した．本論文では，

これらの内容をまとめて提案手法の詳細をより厳密かつ正確に記述するとともに，提案手法の有効性を示すより詳細な実験結果を報告する．

本論文の構成を以下に述べる．

2.

^では，

Lytro Illum

RAW

画像から多視点画像（

sub- aperture image

）を生成する処理である逆多重化の手順を詳細に述べる．

3.

では，多視点画像を用いて超解像合成を行う手法を述べる．超解像においては，多視点画像同士の位置合わせが必要なため，奥行き推定もこの手順に含まれる．

4.

では，実験により提案手法の有効性を示し，

5.

で本論文を締めくくる．

2. Sub-aperture image

の生成

Light field camera

を上から見た模式図を図

1

に示す．

Light field camera

では，通常のカメラのイメージセンサに対応する場所にマイクロレンズが並べられ，

その背後にイメージセンサが置かれる．各マイクロレンズに到達する光線は，入射方向に応じてイメージセンサ上の異なる位置に到達する．したがって，

light field camera

では，光線の位置だけでなく角度も同時に記録することができる．実際に，

Lytro Illum

によって取得した

RAW

画像とその一部拡大を図

2

に示す．拡大図より，六角格子状のマイクロレンズアレーの形状を見て取ることができる．各マイクロレンズの背後にある画素の集合を

subimage

と呼ぶ．

1

枚の

subimage

は，対応するマイクロレンズの位置に対し

て様々な方向から入射した光線を記録したものである．

すなわち，

subimage

内の画素の相対座標は，光線の入射方向に対応している．したがって，

Lytro Illum

RAW

画像では，マイクロレンズ平面上の位置（二次元）とその平面への入射方向（二次元）の四次元の光線空間（

4D Light Field

）が記録されている．ここで，左から

p

h番目，上から

p

v番目のマイクロレンズ及び対応する

subimage

を，

( p

h

, p

v

)

(3)

図1 Light ﬁeld cameraの模式図 Fig. 1 Schematic diagram of light ﬁeld camera.

図2 RAW画像とその部分拡大 Fig. 2 Raw image and close-up.

の組合せで表すことにする．また，各

subimage

内の相対座標を

( θ

h

, θ

v

)

とする．これらの変数を用いると，

各光線は四つの変数の組

( p

h

, p

v

, θ

h

, θ

v

)

で表される．

RAW

画像は，

sub-aperture image

と呼ばれる高密度な多視点画像が多重化された状態で記録されているものとみなされる．

Sub-aperture image

は，全ての

subimage

から同一の相対座標

( θ

h

, θ

v

)

にある画素を抽出することで構成される．

RAW

画像を

I

R

( α, β )

とすると，ある

( θ

h

, θ

v

)

に対する

sub-aperture image

は以下のように表される．

I

θ_h,θ_v

( p

h

, p

v

) = I

R

( α ( p

h

, p

v

) + θ

h

, β ( p

h

, p

v

) + θ

v

) (1 ≤ p

h

≤ l

h

, 1 ≤ p

v

≤ l

v

) (1)

ここで，

( α ( p

h

, p

v

) , β ( p

h

, p

v

))

は

subimage ( p

h

, p

v

)

の中心に対応する

RAW

画像上での座標を表す．

l

h，

l

vは，水平方向及び垂直方向のマイクロレンズの数を表す．

Subimage

の位置

( p

h

, p

v

)

は，

sub-aperture image

内の画素位置に対応し，

subimage

内の相対座標

( θ

h

, θ

v

)

は，

sub-aperture image

の視点位置に対応

する．先に述べたように，相対座標

( θ

h

, θ

v

)

はマイクロレンズに光線が入射する角度に対応する．したがって，図

1

に示すように，

sub-aperture image

は，マイクロレンズアレーに同じ角度で入射する光線を逆向きに辿り，それらの光線が一点に交わる点を投影中心

（視点）とする画像と解釈できる．例えば，各

subimage

から左上に位置する画素を取り出して集めると，

右下の視点位置から見た

sub-aperture image

が得られる^（注²^）．

Subimage

内の相対座標

( θ

h

, θ

v

)

を変化させながら上記の処理を繰り返すと，様々な視点から見た

sub-aperture image

，すなわち多視点画像が得られる．生成可能な

sub-aperture image

の数（視点数）

は，

( θ

h

, θ

v

)

の組合せの数に対応しており，多くても

subimage

の画素数と同じである．また，それぞれの

sub-aperture image

の画素数（

n

h

× n

v）はマイクロレンズの数と等しい．すなわち，

n

h

= l

h，

n

v

= l

vとなる．

上記の

sub-aperture image

の生成において，注意するべき点が三つある．一つ目に，

RAW

画像においては，イメージセンサ上に置かれたカラーフィルタアレーにより，各画素は

RGB

のうち一つの色情報のみをもつ．二つ目に，

subimage

内の整数値の相対座標

( θ

h

, θ

v

)

に対応する

RAW

画像上の座標は，一般に浮動小数となる．これは，イメージセンサとマイクロレンズアレーの位置関係に起因する問題である．三つ目に，

sub-aperture image I

θ_h,θ_v

( p

h

, p

v

)

の画素配列は，原理的にはマイクロレンズの配列と同一になる．マイクロレンズは六角格子状に並んでいるため，

（注2）：イメージセンサには上下左右反転した画像が撮影されるため，

この反転を補正すれば左上に位置する画素は左上の視点に対応する．

(4)

図3 左：補間ベース法，右：直接法によるsub-aperture image

Fig. 3 Sub-aperture images created by interpolation-based (left) and direct (right) methods.

sub-aperture image

の画素配列も正方格子ではなく六角格子となる．

一般的には，

sub-aperture image

の生成は以下のように行われる

[3], [11], [12], [15], [16], [23]

〜

[25]

．一点目のカラーフィルタアレーに関しては，一般的なデモザイキング手法を用いて各画素が

RGB

全ての色情報をもつようにする．すなわち，式

(1)

を施す前に，事前に

RAW

画像をデモザイキングし，

I

Rの各画素に

RGB

全ての色情報をもたせておく．二点目に関しては，画像データを滑らかに補間し，浮動小数位置の画素値を抽出する．すなわち，式

(1)

において，

I

R内の浮動小数位置にアクセスした場合は，近傍の画素値から滑らかに補間された値を読み出す．三点目の画素配列に関しては，

sub-aperture image

上で画素のリサンプリングを行い，画素配列を正方格子へと変更する．すなわち，式

(1)

によって得られた

sub-aperture

image

を滑らかに補間しながらスケーリングし，正方

格子状に

( p

h

, p

v

)

を再サンプルする．これは，マイクロレンズの配列を等価的に正方格子に変更しているとみなせる．これらのデモザイキングやリサンプリングの過程においては，

RAW

画像の元々のデータが重み付け和のような演算処理を経て，補間されることになる．したがって，この方法を「補間ベース法」と呼ぶこととする．

Lytro Illum

のようなカメラのための標準的なソフトウェアとして公開されている

Light Field Toolbox [16]

においても，補間ベース法が用いられている．このソフトウェアを用いて生成された

sub-aperture image

の例を図

3

（左）に示す．

補間ベース法は広く用いられるが，二つの問題がある．一つ目に，補間処理によって，無駄な情報を加えたり，本来の情報を失う可能性がある．二つ目に，

Lytro

Illum

RAW

画像に通常のデモザイ

図4 直接法によるsub-aperture image作成 Fig. 4 Schematic diagram of direct method.

キング処理を適用すると，異なる視点の画像情報の混合が生じる．一般的に，デモザイキングでは，隣接画素から色情報を補間する．しかし，

RAW

画像には多視点画像が多重化されているため，同一の

subimage

内の隣接画素は，異なる視点に対応している．本来，

異なる視点から見た画像の情報は，混合するべきではないと考えられる

[14]

．

一方，我々は文献

[14]

と同様に，

RAW

画像に由来する画素配列を維持したまま

sub-aperture image

を生成することとした．この方法を本論文では「直接法」と呼ぶ．図

4

に直接法の概念図を示す．ここで，

各画素の色はカラーフィルタアレーの色に対応する．

RAW

画像の情報をそのまま維持するため，直接法では，元のデータに対する演算を伴うような補間処理は一切行わない．より具体的に述べると，デモザイキング処理を行わずに画素を取り出すため，

sub-aperture

image

の各画素は，高々一つの色情報のみをもつ状態

を維持する．また，整数値の相対座標

( θ

h

, θ

v

)

に対応する

RAW

画像上の位置座標は一般的に浮動小数座標になるが，位置座標を丸めて最近傍の画素値を取り出すことで，演算を伴う補間処理を回避する．すなわち，

(5)

式

(1)

の代わりに以下の式を用いて仮の

sub-aperture image

を生成する．

I

θ_h,θ_v

( p

h

, p

v

) = I

R

r

α ( p

h

, p

v

) + θ

h

) , r ( β ( p

h

, p

v

) + θ

v

(1 ≤ p

h

≤ l

h

, 1 ≤ p

v

≤ l

v

) (2) r

は整数への丸め（四捨五入）を行う関数である．更に，

sub-aperture image

において，マイクロレンズアレーの六角格子配列に対応した画素配列を維持するために，各行に一画素おきに空の画素を挿入する．

したがって，直接法による

sub-aperture image

の解像度は横方向に

2

倍となり，

n

h

= 2 l

h，

n

v

= l

vである．最終的に，直接法による

sub-aperture image I

θ_h,θ_v

( p

h

, p

v

)

は以下のように表される．

I

θ_h,θ_v

( p

h

, p

v

) =

I

θ_h,θ_v

(

^p₂^h

, p

v

) p

^が奇数

0 p

^が偶数

(1 ≤ p

h

≤ 2 l

h

, 1 ≤ p

v

≤ l

v

) (3)

ここで，

p = p

h

+ p

vとし，

·

は整数への切り捨てを表す．図

3

（右）に直接法により生成された

sub-aperture image

の例を示す．

図

5

に補間ベース法及び直接法による

sub-aperture

image

の生成フローを示す．直接法の特徴は，デモザ

イキングやリサンプリングを行わないことで，

RAW

画像に無駄な情報を加えたり，

RAW

画像のもつ元々の情報を失ったりしないことである．文献

[14]

では，

この特徴がデプス推定に対して利点となることが示された．本論文で示すように，この特徴は超解像においても大きな利点となる．

図5 Sub-aperture imageの生成フロー Fig. 5 Generation ﬂow of sub-aperture image.

3.

再構成型超解像による高解像度化本章では，様々な視点から見た

sub-aperture image

を相互に位置合わせし，再構成型超解像によって高解像度化する手法を述べる．図

1

に示すように，

sub- aperture image

の視点位置は

subimage

内の相対座標

( θ

h

, θ

v

)

に対応する．

( θ

h

, θ

v

)

座標系は正方格子であるため，

sub-aperture image

の視点位置も正方格子状に配列されているとみなすことができる．したがって，

sub-aperture image

群は正方格子状に等間隔にカメラを配置して撮影した多視点画像とみなせる．ここで述べる手法は，標準的な再構成型超解像の枠組みの範疇であるが，正確を期するため，全体を具体的に記述する．本研究の独自の工夫は，

Lytro Illum

RAW

画像に由来する画素配列をそのまま正確に扱いつつ，超解像合成を可能とした部分である．具体的には，奥行き推定と超解像の観測モデルの中に，

RAW

画像に由来する画素配列への変換過程を組み込むこととした．以後，アルゴリズムの原理的説明には行列とベクトルを用いるが，実際のソフトウェアは，メモリを節約するために画像処理として実装している．行列とベクトルを用いた画像処理の表現の詳細については，付録を参照されたい．

入力として用いる

sub-aperture image

を

n

^要素の一次元のベクトル

y

^(k)

∈ R

ⁿとして表記する．ここで，

n = n

h

× n

v

× 3

であり，添字

k

^{は視点のイン} デックスを表し，

sub-aperture image

の枚数を

K

^とすると，

k ∈ K = [1 , · · · , K ]

である．補間ベース法で生成された

sub-aperture image

では，

y

^(k)^の全ての要素に値が入っているが，直接法により作成された

sub-aperture image

では，幾つかの要素は空となっている．提案手法では，どちらの

sub-aperture image

も同一の枠組みで扱うことができる．

我々の手法では，ある視点

k

c

∈ K

^{を基準として選} 択し，その視点の

sub-aperture image y

^(k^c⁾を高解像度化する．より具体的には，視点

k

c

∈ K

から見た高解像度のデプスマップ

d ∈ R

^N を推定し，その情報をもとに多数の

sub-aperture image y

^(k)^{を相互に位} 置合わせした上で，再構成型超解像により高解像度画像

x ∈ R

^Nを推定する．ここで，

N = N

h

× N

v

× 3

，

N

h

> l

hかつ

N

v

> l

vである．そして，この一連の処理を繰り返すことによって，高解像度画像とデプスマップを交互に推定する．このような交互に推定する手法を用いるのは，高解像度画像

x

^{とデプスマップ}

d

(6)

の精度は互いに依存しているためである．

本章の構成を以下に述べる．

3. 1

^{では，与えられた} 多視点画像からデプスマップを推定する手法を述べる．

3. 2

では，多視点画像を相互に位置合わせして解像度を向上する再構成型超解像について述べる．

3. 3

では，

3. 1

^{のデプス推定と}

3. 2

の再構成型超解像を組み合わせて，デプスマップと高解像度画像を交互に推定する手法を提案する．

3. 4

では，デプス推定と再構成型超解像において，

Lytro Illum

RAW

画像を正確に扱うために用いる画素配列行列について述べる．

3. 1

デプスマップの推定

デプス推定の基本的な原理は，ブロックマッチングに基づく多視点ステレオ法と同一である．ある視点における高解像度画像

x

が与えられたとき，式

(4)

を解くことにより，

x

と同じ視点，同じ解像度のデプスマップ

d

^{が推定される．}

d = arg min

d

E

depth

( x, d ) (4)

ここで，エネルギー関数

E

depth

( x, d )

は以下のように定義される．

E

depth

( x, d ) =

k∈K\kc

i∈[1,N]

C

^(k,i)

( x, d

i

) (5)

ここで，

d

iは，ベクトル

d

^の

i

^{番目の要素を表す．}

デプス値

d

iのとり得る値は，被写体が存在する奥行きの範囲をカバーするように，あらかじめ定めてお

く．

C

^(k,i)

( x, d )

は，基準画像

x

の

i

番目の画素にお

いて，あるデプス値

d

^{が与えられたときの，}

k

^枚目の

sub-aperture image y

^(k)に対するマッチングコストである．

C

^(k,i)

( x, d ) = W

i

δ

^(k)

( x, d )

²

(6)

ここで，

δ

^(k)

( x, d ) ∈ R

^N は，ある一定のデプス値

d

が与えられたときの，

x

^と

y

^(k)^{の画素値の相違を表す} ベクトルである．

W

i

∈ R

^N×Nは対角行列であり，

i

番目の要素に対応する画素とその画素の近傍に対応するベクトル要素のみを残すオペレータである．式

(6)

は，要素

i

に対応する画素を中心とするウィンドウ領域で平均を取る作用をもつ．

δ

^(k)

( x, d )

は，具体的に次式で計算される．

δ

^(k)

( x, d ) = M

^(k)

( d ) U y

^(k)

− P

^(k)_N×N

B x (7)

右辺の第一項において，

U ∈ R

^N×n ^{はニアレス} トネイバー補間によるアップサンプリングを表す．

M

^(k)

( d ) ∈ R

^N×Nは，デプス値

d

に従って，画像の画素を一様に平行移動させるオペレータである．

Sub- aperture image y

^(k)^を，行列

U

^{を用いてアップサン} プリングした後，行列

M

^(k)

( d )

を用いて平行移動させることによって，高解像度画像

x

の座標系に対応させる．一方，右辺の第二項において，

B ∈ R

^N×N は

Point Spread Function

（

PSF

）を表す行列である．

具体的な

PSF

の形状としては，

N

h

/n

h

× N

v

/n

v画素の長方形状のサポートをもつ一様な関数を仮定する．

P

^(k)_N×N は

M

^(k)

( d ) Uy

^(k)の構造に合わせて画素をマスキングする画素配列行列である．詳しくは

3. 4

で説明する．第一項と第二項の差分をとることで，デプス

d

を仮定した場合のマッチング誤差を，高解像度画像の座標系において高解像度画像と同じ解像度で計算できる．式

(5)

，

(6)

で示すように，このマッチング誤差の

2

乗値をウィンドウ内で集約し，これを全ての

sub-aperture image

について合計したものが，高解像度画像の各画素についてのマッチングコストとなる．この処理をデプス

d

を変えながら繰り返すことで，コストボリューム（各画素について，様々なデプスに対するマッチングコストを集めたもの）が構成される．このコストボリュームは，高解像度画像と同一の座標系において構成される．したがって，式

(4)

の最小化は，高解像度画像の画素ごとにコストを最小とする

d

を探索する処理となり，これによって高解像度画像と同じ解像度のデプスマップ

d

が推定される．また，マッチングコストの計算に用いる式

(7)

中の全ての行列は，画像処理によって実装が可能である．したがって，実際に巨大なサイズの行列を保持する必要がなく，メモリを節約することができる．推定したデプスマップには，最後にノイズ除去のためにメディアンフィルタをかける．

ここで述べたデプス推定手法には，幾つかの問題がある．まず，行列

U

によるアップサンプリングの過程で誤差が入る可能性がある．また，視点間のオクルージョンを全く考慮していない．更に，コストボリュームにおいて，各画素独立にデプス値を最適化するため，

デプスの空間的連続性も考慮していない．これらは今後の研究において改善の余地があるが，本論文の高解像度化の目的においては，ここで述べたデプス推定手法によって十分な結果が得られた．

(7)

3. 2

^{再構成型超解像}

ある視点に対して高解像度のデプスマップ

d

^が与えられたとき，

y

^(k)をその視点に対して位置合わせし，

目的とする高解像度画像

x

を再構成型超解像によって生成する手法を示す．最小化するべきエネルギー関数は，以下のように定義される．

E

SR

( x, d ) = 1 2

k∈K

y

^(k)

− A

^(k)

( d ) x

²

+ λ R ( x ) (8)

第一項は

sub-aperture image

の観測モデルから計算される．第二項の

R ( x )

は

x

のなめらかさを保つための正則化項であり，

λ

^{は正の値をとる．}

第一項において，

A

^(k)

( d ) ∈ R

^n×Nは高解像度画像

x

^から

k

^枚目の

sub-aperture image y

^(k) ^{への劣化を} モデル化する観測行列であり，以下のように分解して表現できる．

A

^(k)

( d ) = P

^(k)_n×n

D M

^(k)

( d ) B (9) P

^(k)_n×n^は

y

^(k) の構造に合わせて画像の画素をマスキングする行列であり，詳しくは

3. 4

^{で説明する．}

D ∈ R

^n×Nは画素のサブサンプリングを表す．本論文では，

D

に対応する処理として，低解像度画像の各画素を計算する際に，高解像度画像の近傍

4

画素を用いて双線形補間を行うこととした．

M

^(k)

( d ) ∈ R

^N×N は，画像の各画素を，デプスマップ

d

^{に基づいて，そ} れぞれ平行移動させる行列である．この平行移動はオクル―ジョンを考慮した移動であり，二つの画素が同一の画素へと移動した場合，より手前にある画素値が優先される．

B ∈ R

^N×N は前節と同様に低解像度画像の

PSF

を表している．

また，第二項の

R ( x )

は以下のように設定する．

R ( x ) = ∇

h

F x

1

+ ∇

v

F x

1

(10)

ここで，

∇

h，

∇

vは，それぞれ，画像における水平方向，垂直方向の前方差分作用素に対応する．

F

^は，

RGB

空間から

YUV

空間へ変換する行列を表す．つまり，式

(10)

は，エッジに対する

L

1ノルムとなっており，

x

がエッジに関してスパースであることを要請する．

式

(8)

の最小化は

ADMM [26]

を用いて行われる．

具体的には，式

(8)

の第二項

R ( x )

に対し，代替変数

z

h

∈ R

^N^，

z

v

∈ R

^N，及びそれらの残差の変数

u

h

= z

h

− ∇

h

F x

，

u

v

= z

v

− ∇

v

F x

を定義し，そ

れぞれの変数が収束するまで更新する処理を繰り返す．

代替変数を用いて，

R ( x )

を以下のように置き直す．

R ( x ) = z

h

1

+ z

v

1

(11)

それぞれの変数を

m

回目から

m + 1

回目へと更新する処理は，以下のように表現される．

x

^(m+1)

= arg min

x

L

^(x)

x

^(m)

, d, z

^(m)h

, z

^(m)v

, u

^(m)h

, u

^(m)v

(12) z

^(m+1)_h

= arg min

z_h

L

^(z)_h

( x

^(m+1)

, z

^(m)_h

, u

^(m)_h

) (13) z

^(m+1)v

= arg min

z_v

L

^(z)v

( x

^(m+1)

, z

^(m)v

, u

^(m)v

) (14) u

^(m+1)_h

= L

^(u)_h

( x

^(m+1)

, z

^(m+1)_h

, u

^(m)_h

) (15) u

^(m+1)v

= L

^(u)v

( x

^(m+1)

, z

^(m+1)v

, u

^(m)v

) (16)

ここで，

L

^(x)，

L

^(z)∗ ，

L

^(u)∗ を以下のように定義する（

∗

は，

h

または

v

の添字である）．

L

^(x)

( x, d, z

h

, z

v

, u

h

, u

v

)

= 1 2

k∈K

y

^(k)

− A

^(k)

( d ) x

²

+ ρ

2 z

h

− ∇

h

F x + u

h

²

+ ρ

2 z

v

− ∇

v

F x + u

v

²

(17) L

^(z)_∗

( x, z, u )

= λz

1

+ ρ

2 z − ∇

∗

F x + u

²

(18) L

^(u)∗

( x, z, u ) = u + z − ∇

∗

F x (19)

ここで，

ρ

^{は正の定数とする．式}

(17)

は，

x

^について微分可能であるため，勾配法により最小化することができる

[27]

．一方，式

(18)

は，

z

^{について，第一項が} 微分不可能であるため，

soft thresholding

オペレータ

S

を用いて解を算出する．

z = S

λ/ρ

( ∇

∗

F x − u ) (20)

S

τ

( a ) =

⎧ ⎪

⎨

⎪ ⎩

a − τ ( a > τ ) 0 ( |a| ≤ τ ) a + τ ( a < −τ )

(21)

画像に対して，

A

^(k)

( d )

，

∇

h，

∇

v，

F

^，

S

^{を右から乗} 算する処理は，画像処理として実装できるため，大きなメモリが不可欠な

N × N

の行列を保持する必要はない．

(8)

3. 3

デプスマップと高解像度画像の交互推定

3. 1

^と

3. 2

の手法を組み合わせて，デプスマップ

d

と再構成型超解像による高解像度画像

x

^{の推定を交} 互に行う手法を提案する．まず初めに，高解像度画像

x

の初期値

x

⁽⁰⁾を補間ベース法で生成する．具体的には，

RAW

画像に対してデモザイキングを行いつつ

y

^(k^c⁾と対応する位置の画像を作成し，バイキュービック補間によりアップサンプリングした画像を与える．

その後，式

(22)

で表されるデプス推定と式

(23)–(27)

で表される超解像を交互に行い，収束するまで

d

と

x

^{の更新を続ける．}

m

回目の更新は以下のように表される．

d

^(m+1)

= arg min

d

E

depth

( x

^(m)

, d ) (22) x

^(m+1)

= arg min

x

L

^(x)

x

^(m)

, d

^(m+1)

, z

^(m)_h

, z

^(m)v

, u

^(m)_h

, u

^(m)v

(23) z

^(m+1)_h

= arg min

z_h

L

^(z)_h

( x

^(m+1)

, z

^(m)_h

, u

^(m)_h

) (24) z

^(m+1)v

= arg min

z_v

L

^(z)v

( x

^(m+1)

, z

^(m)v

, u

^(m)v

) (25) u

^(m+1)_h

= L

^(u)_h

( x

^(m+1)

, z

^(m+1)_h

, u

^(m)_h

) (26) u

^(m+1)v

= L

^(u)v

( x

^(m+1)

, z

^(m+1)v

, u

^(m)v

) (27)

この手順は，

3. 2

^で述べた

ADMM

による高解像度画像

x

^{の更新を行う前に，}

3. 1

^{で述べたデプス推定を} 行うステップを導入することに相当する．このようにデプスマップと高解像度画像を交互に推定する手法は，

従来より提案されてきたが

[9], [24], [28]

，本手法のように

Light Field Camera

の画素配列を考慮した手法は存在しない．

3. 4

画素配列行列

P

の役割

最後に，

Lytro Illum

RAW

画像の構造に対応するため，我々が用いる画素配列行列

P

について述べる．通常の画像では，それぞれの画素は

RGB

の三つの色情報を保持する．しかし，直接法により作成された

sub-aperture image

においては，各画素は高々一つの色情報のみをもつ（六角格子構造を維持しているため，約半数の画素は色情報を一つももたない）．この構造に対応するために，式

(7)

，式

(9)

では，

P

^(k)_N×N^，

P

^(k)_n×nが用いられる．これらの行列は対角行列であり，対角要素は，対応する画素が色情報をもつときは

1

を，それ以外には

0

をとる．この行列により，情報がない画素をエネルギー関数の評価から

除外することができるため，

Lytro Illum

の

RAW

画像がもつ情報をそのまま用いることが可能になる．一方，補間ベース法で作成された

sub-aperture image

に対しては，

P

^{は全ての対角要素が}

1

をとり，単位行列となる．したがって，本手法のアルゴリズムは，同一の枠組みにより，直接法と補間ベース法の両方に対応が可能である．

4.

実験

Lytro Illum

を用いて

4

枚の

RAW

画像（

A

，

B

，

C

，

D

と呼ぶ）を撮影し，実験を行った．

RAW

画像の

解像度は

7728×5368

であり，マイクロレンズの数は

542 × 433

であった．したがって，直接法により作成した

sub-aperture image

の解像度は

1084 × 433

であった．また，従来手法の補間ベース法の代表として，ソースコードが入手可能な

Light Field Toolbox v0.3 [16]

を使用した．この場合の

sub-aperture image

の解像度は

626 × 433

であった．このソフトウェアでは，六角格子から正方格子へのリサンプリングが行われているため，

sub-aperture image

の画素数はマイクロレンズの個数と一致しない．高解像度化処理は，中心視点の

sub-aperture image

を対象とすることにし，高解像度化後の画素数を

2450 × 1634

に設定した．この解像度を選択した理由は，

Lytro Illum

の専用現像ソフトウェアである

Lytro

デスクトップ

[20]

と出力解像度を合わせるためである．

高解像度化処理におけるパラメータの詳細を述べる．

まず，デプス推定においては，デプスのとり得る値を決める必要がある．

A

及び

B

では，左右に隣接する

sub-aperture image

の間で，高解像度画像に換算した視差が

−2.26–2.25

画素となる範囲を，

20

段階に均等な視差で量子化した．

C

及び

D

では，

−2.26–4.74

画素の範囲を

29

段階に量子化した．これらはいずれも，高解像度画像に換算して，約

0.25

画素のサブピクセル単位で視差を求めていることに相当する．式

(6)

のマッチングコストの計算におけるウィンドウサイズは，

9×9

画素とした．高解像度化に用いる

sub- aperture image

の枚数，及び再構成型超解像のための式

(8)

のパラメータ

λ

は，幾つかの値を試した上で，

最適と思われるものを選択した．図

6

は，

λ = 1 . 0

として，

sub-aperture image

の枚数を変化させた場合の，提案手法による合成結果である．

81

枚（

9×9

視点）以上に

sub-aperture image

の枚数を増やすと結果画像が劣化することが分かる．この理由は各マイ

(9)

図6 Sub-aperture imageの枚数による画質の変化 Fig. 6 Image quality with diﬀerent number of im-

ages.

図7 λによる画質の変化 Fig. 7 Image quality with diﬀerentλ.

クロレンズ周辺部の光量の低下及びひずみだと考えられる．実際，マイクロレンズ周辺部から光線を集めた

sub-aperture image

は画質が低い傾向がある^（注³^）．

Sub-aperture image

の枚数を増やした場合，このような周辺部の

sub-aperture image

も入力に含まれるため，結果画像において画質の劣化が生じると考えられる．図

7

は，

sub-aperture image

の枚数を

9 × 9

視点の

81

枚とし，

λ

を変化させた場合の合成結果である．最終的に選択したパラメータは，

sub-aperture image

の枚数については，

9 × 9

視点の

81

枚，式

(8)

の

λ

^{については，}

3 . 0

である．式

(17)

，式

(18)

の

ρ

^の値は

1 . 0

に設定した．

4. 1

高解像度化処理の収束について

3. 3

で述べたように，提案手法では高解像度画像とデプスマップを交互に更新する．この処理の収束を数理的に示すのは難しい．なぜなら，もし式

(8)

における観測行列

A ( d )

が不変であれば，

ADMM

によりエネルギー関数が単調に減少することが保証されているが，提案手法ではイテレーションごとに

d

^{が更新され} るからである．そこで，式

(8)

のエネルギー関数

E

SR

が，イテレーションを重ねて変化していく様子を調べ，

図

8

にプロットした．比較のため，デプス推定を最初のイテレーションでのみ行い，以後，デプスマップを固定した場合もプロットした．いずれにおいても，更新を重ねるごとにエネルギー関数が減少しているが，

最初の数回で劇的な現象が見られたのち，変化が穏やかになっていることが分かる．したがって，比較的少

（注3）：マイクロレンズ周辺部の光量の低下はカメラに付属するキャリブレーションデータを用いて補正する．

図8 イテレーションごとのエネルギー関数（式(8)）

Fig. 8 Energy function in Eq. (8) over iterations.

図9 デプスマップ固定/更新ありの画質比較 Fig. 9 Comparison between (a) ﬁxed and (b) up-

dated depth map.

ない更新回数でも，十分な効果が得られるといえる．

以後の実験では，反復回数を

15

回とする．最後に，デプスマップを固定した場合と更新していく場合とでの最終的な高解像度画像の比較を図

9

に示す．更新ありの方が，若干ではあるが画質の向上が見られる．以後の実験においては，デプスマップの更新を行うこととする．

提案手法において，

9 × 9

視点の入力画像を用い，デプスマップの更新を行いつつ，反復回数を

15

回とした場合，一枚の高解像度画像を生成する処理時間は約

90

分であった．このときの計算機環境として，

OS

は

Windows 7 Professional

，

CPU

は

Intel Core i7-4771 3.50GHz

，

main memory

は

8.0GB

であり，プログラム言語は

Visual C++

を使用した．

4. 2

画質の評価

図

10

に四つのデータに対する提案手法による結果画像を示す．図

11

では，高解像度化後の画像の一部

（図

10

中の水色枠部分）を拡大して，他の高解像度化手法と比較する．ページ数及びファイルサイズの

(10)

図10 提案手法による結果画像

Fig. 10 Super-resolved images produced by the proposed method.

図11 従来手法と提案手法の比較

Fig. 11 Comparison of super-resolved images : (i) interp. [16] + bicubic upsam- pling, (ii) interp. [16] + SR, (iii) direct + SR (proposed), (iv) refocus [19], and (v) Lytro Desktop application [20].

(11)

制約から，本論文には結果の一部のみを掲載するが，

実験結果のオリジナルデータは

Web

サイトから入手可能である^（注⁴^）

[29]

．

(i)

は補間ベース法

[16]

で作成した

sub-aperture image

をバイキュービック補間によりアップサンプリングした画像である．

(ii)

は補間ベース法

[16]

で作成した

sub-aperture image

を超解像した画像である．

(iii)

は直接法により作成された

sub-aperture image

を超解像した画像，つまり提案手法による画像である．また，その他の比較手法として，入手が可能な二つのソフトウェアを使用した．一つ目に，光線の追跡に基づいて，高解像度のリフォーカス画像を生成する手法として，ソースコードが入手可能な文献

[19]

のソフトウェアを用いた．二つ目に，

Lytro Illum

専用の現像ソフトである

Lytro

デスクトップ

[20]

を用いた．文献

[19]

のソフトウェアでは，

奥行き全体が鮮明となる他の比較手法とは異なり，指定された奥行きのみが鮮明となる．指定する奥行きを，

目視により，注目部分が最も鮮明となるように調整した画像を

(iv)

に示す．

Lytro

デスクトップは，

RAW

データを入力として取り込むことで，鮮明となる奥行き位置の変更や異なる視点から見た画像の作成など，

様々な機能を実現している．奥行き全体が鮮明となる画像（全焦点画像）を，

Lytro

デスクトップにより出力した結果を

(v)

に示す．提案手法による画像では，

細かい部分まで再現されており，

Lytro

デスクトップ以外の他手法と比較して，明らかに最も高い解像感を得られている．

Lytro

デスクトップでは，バイナリのみ提供されているため，用いられているアルゴリズムが確認できないが，何らかの鮮鋭化処理が行われているものと思われる．一方，提案手法では画像の見た目を整えるような後処理を行っていないものの，

Lytro

デスクトップと同等の画質を達成した．

最後に，結果画像のオクルージョン境界付近（図

10

中の黄色枠部分）を図

12

に拡大して示す．一般的に多視点画像を用いる画像処理では，オクルージョン境界の扱いが重要である．提案手法においては

3. 1

^のデプス推定において特別なオクルージョン処理を行っていない．しかし，図

12

を見ると，オクルージョン境界が他の領域と比べて特に画質が悪いわけではない．

理由としては，本研究で用いた

light field camera

では十分に多数の多視点画像が得られ，それらの多視点

（注4）：ファイルサイズの制約のため，図10の画像は縦横1/4に縮小してある．また，全ての画像はPDF化の段階で圧縮される可能性があるため，Webサイトのデータを参照することを強く推奨する．

図12 オクルージョン境界の拡大 Fig. 12 Close-ups of occlusion boundaries.

画像間の視差が極めて小さいため，オクルージョンの影響がそれほど顕著には表れなかったと考えられる．

5.

むすび

本論文では，代表的な

light Field Camera

の一つである

Lytro Illum

を対象として，カメラの物理的な画素配列を考慮した超解像手法を提案した．具体的には，

RAW

画像における色情報のモザイク構造とマイクロレンズアレーの六角格子構造をそのまま維持した状態の多視点画像を得た後，それらの画像を用いて奥行き推定とそれに基づく再構成型超解像を交互に行う手法を示した．提案手法では，従来手法のような元データに対する演算を伴う補間を行わないため，

RAW

画像のもつオリジナルの情報を可能な限り忠実に用いることができる．実験により，提案手法による高解像度化画像は，代表的な補間ベース法である

Light Field Toolbox [16]

によって得られた多視点画像を用いて高解像度化した画像や，光線追跡処理

[19]

により生成されたリフォーカス画像よりも鮮明であることを示した．

また，

Lytro

デスクトップ

[20]

で出力した全焦点画像と比べ，同等の画質を達成した．今後は，並列化処理等の導入により提案手法の実装の更なる高速化に取り組みたい．

文献

[1] E.H. Adelson and J.Y.A. Wang, “Single lens stereo with a plenoptic camera,” IEEE Trans. Pattern Anal.

Mach. Intell., vol.14, no.2, pp.99–106, 1992.

[2] J. Arai, F. Okano, H. Hoshino, and I. Yuyama,

“Gradient-index lens-array method based on real- time integral photography for three-dimensional images,” Applied optics, vol.37, no.11, pp.2034–2045, 1998.

[3] R. Ng, M. Levoy, M. Br´edif, G. Duval, M. Horowitz, and P. Hanrahan, “Light ﬁeld photography with a hand-held plenoptic camera,” Computer Science Technical Report CSTR, vol.2, no.11, pp.1–11, 2005.

(12)

[4] A. Veeraraghavan, R. Raskar, A. Agrawal, A. Mohan, and J. Tumblin, “Dappled photography: Mask en- hanced cameras for heterodyned light ﬁelds and coded aperture refocusing,” ACM Trans. Graph., vol.26, no.3, p.69, 2007.

[5] C.-K. Liang, T.-H. Lin, B.-Y. Wong, C. Liu, and H.H.

Chen, “Programmable aperture photography: multi- plexed light ﬁeld acquisition,” ACM Trans. Graph.

(TOG), vol.27, p.55, 2008.

[6] T. Georgiev and A. Lumsdaine, “Focused plenoptic camera and rendering,” Journal of Electronic Imag- ing, vol.19, no.2, pp.021106–021106, 2010.

[7] “Lytro”. http://lytro.com/

[8] “Raytrix”. http://www.raytrix.de/

[9] F. Perez Nava and J. Luke, “Simultaneous estimation of super-resolved depth and all-in-focus images from a plenoptic camera,” 3DTV Conference: The True Vision-Capture, Transmission and Display of 3D Video, pp.1–4, 2009.

[10] T.E. Bishop and P. Favaro, “The light ﬁeld camera: Extended depth of ﬁeld, aliasing, and superres- olution,” IEEE Trans. Pattern Anal. Mach. Intell., vol.34, no.5, pp.972–986, 2012.

[11] S. Tulyakov, T.H. Lee, and H. Han, “Quadratic for- mulation of disparity estimation problem for light- ﬁeld camera,” ICIP, pp.2063–2067, 2013.

[12] M.W. Tao, S. Hadap, J. Malik, and R. Ramamoor- thi, “Depth from combining defocus and correspon- dence using light-ﬁeld cameras,” IEEE International Conference on Computer Vision (ICCV), pp.673–680, 2013.

[13] S. Wanner and B. Goldluecke, “Variational light ﬁeld analysis for disparity estimation and super- resolution,” IEEE Trans. Pattern Anal. Mach. Intell., vol.36, no.3, pp.606–619, 2013.

[14] N. Sabater, M. Seiﬁ, V. Drazic, G. Sandri, and P.

Perez, “Accurate disparity estimation for plenoptic images,” ECCV Workshop on Light Fields for Com- puter Vision, 2014.

[15] J. Fiss, B. Curless, and R. Szeliski, “Refocusing plenoptic images using depth-adaptive splatting,”

IEEE International Conference on Computational Photography (ICCP), pp.1–9, 2014.

[16] D.G. Dansereau, O. Pizarro, and S.B. Williams,

“Decoding, calibration and rectiﬁcation for lenselet- based plenoptic cameras,” IEEE Conference on Com- put. Vis. Pattern Recognit. (CVPR), pp.1027–1034, 2013.

[17] T. Georgiev, G. Chunev, and A. Lumsdaine, “Su- perresolution with the focused plenoptic camera,”

IS&T/SPIE Electronic Imaging, pp.78730X–78730X, 2011.

[18] F. Perez, A. Perez, M. Rodriguez, and E. Magdaleno,

“Fourier slice super-resolution in plenoptic cameras,”

IEEE International Conference on Computational

Photography (ICCP), pp.1–11, 2012.

[19] 蚊野浩，中島類，“ぼけ具合の調整や3d画像作成も自由自在撮影のウデはテクノロジーでカバー!? 最新テクノロジーの研究...あとからピント合わせ，” Interface, vol.41, no.6, pp.156–165, 2015.

[20] “Lytroデスクトップ”．http://lytro.com/desktop [21] K. Ohashi, K. Takahashi, E. Tehrani, P, and T. Fujii,

“Super-resolution image synthesis using the physical pixel arrangement of a light ﬁeld camera,” IEEE In- ternational Conference on Image Processing (ICIP), NEW-P1.3, 2015.

[22] Y. Uchida, K. Takahashi, E. Tehrani, P, and T. Fujii,

“Super-resolution image synthesis from a light ﬁeld camera using the hexagonal pixel arrangement and sparsity of edges,” International Workshop on Ad- vanced Image Technology (IWAIT), 2016.

[23] D. Cho, M. Lee, S. Kim, and Y.-W. Tai, “Modeling the calibration pipeline of the lytro camera for high quality light-ﬁeld image reconstruction,” IEEE In- ternational Conference on Computer Vision (ICCV), pp.3280–3287, 2013.

[24] K. Ohashi, K. Takahashi, and T. Fujii, “Joint estimation of high resolution images and depth maps from light ﬁeld cameras,” IS&T/SPIE Electronic Imaging, pp.90111B–90111B, 2014.

[25] Y. Bok, H.-G. Jeon, and I.S. Kweon, “Geometric calibration of micro-lens-based light-ﬁeld cameras using line features,” Computer Vision–ECCV, pp.47–

61, 2014.

[26] S. Boyd, N. Parikh, E. Chu, B. Peleato, and J.

Eckstein, “Distributed optimization and statistical learning via the alternating direction method of multipliers,” Foundations and Trends^R in Machine Learning, pp.1–122, 2011.

[27] K. Takahashi and T. Naemura, “Super-resolved free- viewpoint image synthesis based on view-dependent depth estimation,” IPSJ Trans. Computer Vision and Applications (CVA), vol.7, no.4, pp.1529–1543, 2012.

[28] R.C. Hardie, K.J. Barnard, and E.E. Armstrong,

“Joint map registration and high-resolution image estimation using a sequence of undersampled images,”

IEEE Trans. Image Process., vol.6, no.12, pp.1621–

1633, 1997.

[29] http://www.fujii.nuee.nagoya-u.ac.jp/˜takahasi/

Research/Lytro/

付録

画像処理の行列表現

3.

では，説明の都合上，二次元のカラー画像データを一次元ベクトルに展開して表現している．画像上の画素位置と色チャネルを一次元ベクトルの要素にどのように対応付けるかは任意である．

ベクトル表現した画像

x

に対する線形な画像処理は，

画素配列を考慮した Light Field Camera 画像の高解像度化

論 文