paper.dvi

(1)

平成

23 年度

学士学位論文

グラディエントベースの特徴抽出法を

用いた画像中の文字抽出

Study on character extraction from a picture using a

gradient-based feature

1120227

小川健史

指導教員

吉田真一

2012

年

3 月

1 日

(2)

要旨

グラディエントベースの特徴抽出法を用いた画像中の文字抽出

小川健史

現在一般に実用化されている画像検索では，画像を適切に表現しているキーワードや撮影時刻などのメタデータを介して画像を検索する．つまり，こうしたメタデータがないと画像検索を行うことができない．例えば Google Street Viewなどで表示される画像にはメタデータがなく，その画像を検索することは難しい．そこで本研究では，画像中から文字を抽出し，抽出した文字をメタデータとして利用することを考える．画像中からの文字抽出の研究はされており，現在は白い紙の上に書かれている文字の抽出は可能になっている．しかし背景の入っている画像に対しては文字の抽出が難しいという結果になっている．画像中から文字を抽出できれば，画像を検索することが容易になってくるので，背景の入っている画像の中から文字を抽出する研究の有用性は高まってきている．

さらに， Google Street Viewなどで表示される画像の中の文字は正面から撮られている画像は少なく，斜めから撮られている画像が多い．そこで，平面的な画像の回転に強く，スケール変化や輝度変化に不変な SIFT特徴を利用し， 3次元的な回転からも特徴を得ることができるのかを調べる．本研究ではSIFTを用いて画像中から文字抽出する実験を行う．そして同一性判定距離を変化させ，画像を 3次元的な回転をしても文字を抽出可能かを調べる．画像は y軸を中心に-80° から 80° 回転させた画像を使用する．結果として，同一性判定距離を変化させても，どちらとも-50° から 30° までの間であれば，抽出可能であることが示されている．キーワードグラディエントベース特徴， SIFT，文字抽出

(3)

Abstract

Study on character extraction from a picture using a

gradient-based feature

Kenji OGAWA

In image retrieval system, a user has to use keywords to retrieve image from a image database. Every image in the database should be tagged by meta-data such as keywords. If images are not tagged by meta-data, we will not able to retrieve images. For example, images in Google Street View does not have meta-data, and it is difficult to search a special image from Google Street View.

In this thesis, we study on character extraction from the image. Characters in Google Street View are usually not taken from directly right in front of them. They are usually taken obliquely. We use SIFT feature, which is robust for rotation of the image, invariant to changes in scale and brightness change, and study for possibility of robustness for three-dimensional rotation.

The experiments are performed to extract characters from the image using SIFT, and change the distance to determine similarity among keypoints under the three-dimensional image rotation. The images are rotated 80° from -80° around the y axis. The result result shows that characters can be extracted under the spacial rotation between -50° to 30° .

(4)

第3章 SIFTのアルゴリズム 5 3.1 スケールとキーポイント検出 . . . 5 3.1.1 Difference-of-Gaussian(DoG)処理 . . . 5 3.1.2 極値検出 . . . 7 3.2 キーポイントのローカライズ . . . 8 3.2.1 主曲率によるキーポイントの絞り込み . . . 8 3.2.2 サブピクセル位置推定 . . . 9 3.2.3 コントラストによるキーポイントの絞り込み . . . 10 3.3 オリエンテーションの算出 . . . 10 3.4 特徴量の記述 . . . 12 第4章 SIFT特徴を利用しての文字認識実験 15 第5章結果・考察 20 5.1 結果. . . 20 5.2 考察. . . 24 第6_章 _{おわりに} 26

(5)

謝辞 27

参考文献 29

付録A d=0.3に設定した時の結果 30

(6)

図目次

3.1 DoG処理 . . . 6 3.2 極値検出 . . . 7 3.3 オリエンテーションの算出方法 . . . 12 3.4 特徴量記述領域 . . . 13 3.5 周辺領域の特徴量記述 . . . 14 4.1 文字認識の方法 . . . 16 4.2 角度0° . . . 17 4.3 角度-40° . . . 17 4.4 角度-80° . . . 18 4.5 角度40° . . . 18 4.6 角度80° . . . 19 5.1 d=0.3の角度0° . . . 20 5.2 d=0.3の角度-55° . . . 21 5.3 d=0.3の角度70° . . . 21 5.4 d=0.3の正しい対応関係の比率 . . . 22 5.5 d=0.2の角度0° . . . 22 5.6 d=0.2の角度-45° . . . 23 5.7 d=0.2の角度50° . . . 23 5.8 d=0.2の正しい対応関係の比率 . . . 24 A.1 d=0.3の角度-80° . . . 30 A.2 d=0.3の角度-75° . . . 30 A.3 d=0.3の角度-70° . . . 31

(7)

図目次 A.4 d=0.3の角度-65° . . . 31 A.5 d=0.3の角度-60° . . . 31 A.6 d=0.3の角度-55° . . . 32 A.7 d=0.3の角度-50° . . . 32 A.8 d=0.3の角度-45° . . . 32 A.9 d=0.3の角度-40° . . . 33 A.10 d=0.3の角度-35° . . . 33 A.11 d=0.3の角度-30° . . . 33 A.12 d=0.3の角度-25° . . . 34 A.13 d=0.3の角度-20° . . . 34 A.14 d=0.3の角度-15° . . . 34 A.15 d=0.3の角度-10° . . . 35 A.16 d=0.3の角度-5° . . . 35 A.17 d=0.3の角度0° . . . 35 A.18 d=0.3の角度5° . . . 36 A.19 d=0.3の角度10° . . . 36 A.20 d=0.3の角度15° . . . 36 A.21 d=0.3の角度20° . . . 37 A.22 d=0.3の角度25° . . . 37 A.23 d=0.3の角度30° . . . 37 A.24 d=0.3の角度35° . . . 38 A.25 d=0.3の角度40° . . . 38 A.26 d=0.3の角度45° . . . 38 A.27 d=0.3の角度50° . . . 39 A.28 d=0.3の角度55° . . . 39 A.29 d=0.3の角度60° . . . 39

(8)

図目次 A.30 d=0.3の角度65° . . . 40 A.31 d=0.3の角度70° . . . 40 A.32 d=0.3の角度75° . . . 40 A.33 d=0.3の角度80° . . . 41 B.1 d=0.2の角度-80° . . . 42 B.2 d=0.2の角度-75° . . . 42 B.3 d=0.2の角度-70° . . . 43 B.4 d=0.2の角度-65° . . . 43 B.5 d=0.2の角度-60° . . . 43 B.6 d=0.2の角度-55° . . . 44 B.7 d=0.2の角度-50° . . . 44 B.8 d=0.2の角度-45° . . . 44 B.9 d=0.2の角度-40° . . . 45 B.10 d=0.2の角度-35° . . . 45 B.11 d=0.2の角度-30° . . . 45 B.12 d=0.2の角度-25° . . . 46 B.13 d=0.2の角度-20° . . . 46 B.14 d=0.2の角度-15° . . . 46 B.15 d=0.2の角度-10° . . . 47 B.16 d=0.2の角度-5° . . . 47 B.17 d=0.2の角度0° . . . 47 B.18 d=0.2の角度5° . . . 48 B.19 d=0.2の角度10° . . . 48 B.20 d=0.2の角度15° . . . 48 B.21 d=0.2の角度20° . . . 49

(9)

図目次 B.22 d=0.2の角度25° . . . 49 B.23 d=0.2の角度30° . . . 49 B.24 d=0.2の角度35° . . . 50 B.25 d=0.2の角度40° . . . 50 B.26 d=0.2の角度45° . . . 50 B.27 d=0.2の角度50° . . . 51 B.28 d=0.2の角度55° . . . 51 B.29 d=0.2の角度60° . . . 51 B.30 d=0.2の角度65° . . . 52 B.31 d=0.2の角度70° . . . 52 B.32 d=0.2の角度75° . . . 52 B.33 d=0.2の角度80° . . . 53

(10)

表目次

2.1 各特徴量の比較 . . . 4 5.1 d=0.3の結果 . . . 22 5.2 d=0.2の結果 . . . 24

(11)

第

1 章

はじめに

近年，カメラ付きの携帯電話の普及などインターネット上の画像情報が増加している．しかし，その中から自分の求める画像を即座に探すことは難しい．現在広く使われているキーワードを入力して画像を検索する方法では，画像の近くにそれを表すキーワード (メタデータ)がないと画像を検索することが出来ない．さらに， Google Street ViewやPanoramio

の普及で，これらのサービスから画像の中の文字を抽出することができれば，画像中に写しこまれた文字を使って場所を探すことが可能になる．このようなメタデータを使用せずに画像の中に書いてある文字を抽出して，画像検索をする研究の有用性は高まっている．現在，画像中の文字を抽出する方法は，草地らの手法[1]があるが，頑健な認識が可能であるが検索用のインデックス作成を目的としてあらゆる可能性を考慮するため，処理に時間がかかる [2]．さらに，画像が傾いていたりすると文字を抽出することが出来ない．草地らの手法[1]以外にも方法はあるが，画像から文字領域の部分を切り出し，文字認識をするので文字領域の切り出しに失敗してしまった場合抽出することができない．そのため，複雑な背景がある画像からは文字を抽出することができない可能性がある．そこで，本研究では処理速度が速く，画像の傾きがあっても抽出可能な SIFT(Scale-Invariant Feature Transform)を利用し，文字特徴を抽出する研究を行う．さらに画像を y

軸を中心に-80° から 80° 回転させた場合の文字の抽出可能性について研究を行う．今回は背景がある画像を利用して，さらに 3次元的な回転をした画像から文字を抽出するので少しの誤差は出てしまうので，一致の誤差をどの程度まで許すかの判定の幅も変えて結果を比較した．今回の実験では，判定幅を変えても，どちらとも， -50° から 30° までは認識している結果となった．

(12)

画像の奥行き方向への3次元的な回転はGoogle Street Viewなどにある文字にも含まれている． Google Street Viewで見る画像の中の文字は真正面から撮られている画像は少なく斜めからの画像が多く，読み取ることが難しい．画像の中から文字を抽出することができれば， Google Street Viewに名前が登録されていない店舗があった場合，画像から文字を検索することができるようになるので，登録されていなくても，店舗を検索することができるようになる．また，インターネット上にあげられている画像のメタデータが間違っていても正しい画像を検索することが可能になる．本論文では第2章に今回研究した特徴抽出法の関連研究を述べ，第3章では本研究で用いる． SIFTのアルゴリズムの紹介をし，第4章ではSITF特徴を利用した文字認識実験の内容について述べ，第5章では実験の結果と考察を述べる．

(13)

第

2 章

2.1 Histograms of Oriented Gradients(HOG)

HOG特徴では，局所領域で輝度の勾配方向を算出し，ヒストグラム化し特徴を抽出 [3] する．そして，一定領域から特徴量を記述する．主に大まかな物体の抽出に利用されており，人や車など一般物体の検出に利用されている． HOG特徴の算出方法は，画像から輝度勾配を算出している．そして輝度勾配から勾配強度と勾配方向を算出し，輝度勾配ヒストグラムを作成している．そのため，画像の輝度が変化しても検索することができる．特徴として，輝度勾配を算出しているので，輝度変化には不変である．しかし輝度勾配でしか算出していないので画像が回転してしまったり，スケールが変化してしまうと検索できない．

2.2 Haar-like

Haar-like特徴では，黒の領域と白の領域の2つの輝度差を算出し，特徴を抽出[5]する．さらに検索する領域を変えることにより，細かく検索したり，速く検索することができる．主に，形状が決まっている，顔などの検出に使われる． Haar-like特徴の算出方法は，輝度差を算出するもので，算出パターンにも複数パターン

(14)

2.3 Scale-Invariant Feature Transform(SIFT)

があり，縦方向，横方向，斜め方向の明暗差で算出することができる．

特徴として，輝度差を算出していることから，輝度変化には不変である．さらにスケールが変わっても輝度変化は変わらないのでスケール変化にも不変である．しかし輝度差を算出するだけなので画像が回転すると検索できない．

2.3 Scale-Invariant Feature Transform(SIFT)

SIFTは，主にイメージマッチングや物体認識の分野で用いられている [2]．画像の局所的な部分から特徴点を抽出する方法であり，局所的な重み分布に対する山登り計算であるため，高速な処理が可能[4]である．特徴として，画像の回転やスケール変化，輝度変化が行われても抽出されるため，大きさが異なる文字の特徴も抽出しやすい．よって本研究では， SIFT特徴を利用して y 軸を中心に回転させ画像の中から文字を抽出する．上記で説明したグラディエントベースの特徴抽出法の特徴を表2.1にまとめる．表2.1 _{各特徴量の比較}

変化 HOG Haar-like SIFT

回転 × × ○

スケール × ○ ○

(15)

第

3 章

SIFT

のアルゴリズム

SIFTでは，大きく分けてキーポイント検出と特徴量の記述という作業を行っている．キーポイント検出の処理は下記の処理からなる． • スケールとキーポイント検出 • キーポイントのローカライズまた，特徴量の記述では，下記の処理を行う． • オリエンテーションの算出 • 特徴量の記述本章では，それぞれの処理について説明を行う．

3.1 スケールとキーポイント検出

3.1.1 Difference-of-Gaussian(DoG)

処理

DoGとは， Difference-of-Gaussianの略で，すなわちガウシアンの差分のことであり，差分を利用し極値探索することで，スケールとキーポイントを算出する．キーポイントを検出するには，スケールの違うガウス関数G(x,y,σ)式(3.1)と入力画像

I(a,b)を平滑化させた画像L(a,b,σ)式(3.2)のDoG画像から求める．

G(x, y, σ) = 1 2πσ2 exp −x 2 + y2 2σ2 (3.1)

(16)

3.1 スケールとキーポイント検出

L(a, b, σ) = G(x, y, σ) ∗ I(a, b) (3.2)

DoGの結果の画像を D(a,b,σ)とすると， DoG画像は以下の式で求まる．

D(a, b, σ) = (G(x, y, kσ) − G(x, y, σ)) ∗ I(a, b) = L(a, b, kσ) − L(a, b, σ) (3.3)

この処理を σ0からガウシアンの大きさを k倍ずつ大きくした画像をスケール間で行い，差

分を利用しキーポイントを検出する．

以下の図3.1はDoG処理の流れを表した図である．

(17)

3.1 スケールとキーポイント検出

3.1.2 極値検出

DoGは異なるスケールによる平滑化画像の差分のため， DoGの値が大きくなる [3]．そのため，変化領域にエッジ等の情報量を多く含んでいる．そこで σの小さいDoG画像から極値を探し，キーポイントとスケールを決定する．極値の検出は注目画素の DoG値とそのまわりの 26近傍と比較を行う．極値であった場合，その画素をキーポイントとして検出する．さらに 1度検出された画素は，より大きなスケールで極値となってもキーポイントとしないようになっている [3]．図3.2は注目画素とまわりの 26近傍を比較し，極値を検出している様子を表した図である．図3.2 _極値検出

(18)

3.2 キーポイントのローカライズ

検出したキーポイントの点は， DoG値が小さい点やエッジ上の点を含んでいる．そしてこれらの点は，ノイズや開口問題が発生してしまう．そこで， DoG値が小さい点やエッジ上の点の削除を行い，安定したキーポイントの絞り込みを行う．さらに，位置とスケールを算出する

3.2.1 主曲率によるキーポイントの絞り込み

DoG値が小さい点やエッジ上などの点はノイズや開口問題が発生しやすい点なのでエッジ上にあるキーポイント候補点の削除を行う．まず，ヘッセ行列Hから主曲率を求めるため以下の式で求める． H = " Dxx Dxy Dxy Dyy # (3.4) ヘッセ行列内の関数は，キーポイント位置の DoGからでた値の 2次微分から求める．ここで，ヘッセ行列から求められる第1固有値Dxx=α，第2固有値Dyy=β(α > β)と置く．このときヘッセ行列の対角成分の和Tr(H)と行列式Det(H)は次のように計算される． Tr(H) = Dxx + Dyy = α + β (3.5) Det(H) = DxxDyy− (Dxy)2 = αβ (3.6) さらに，第1固有値αと第2固有値βの比率を γ とし， α = γβとすると次の式で表せる． Tr(H)2 Det(H) = (α + β)2 αβ = (γβ + β)2 γβ2 = (γ + 1)2 γ (3.7)

(19)

3.2 キーポイントのローカライズ上記の式の値は固有値ではなく，第1固有値αと第2固有値β の比率を求めている．つまり固有値を求めずに，エッジ上の点と分かるようになっている．そして不要なキーポイントを削除するために，次の式で表すようにしきい値処理を行う． Tr(H)2 Det(H) < (γth+ 1)2 γth (3.8) 上記の式の γthを設定することでしきい値を変化させることができる． Tr(H)2/Det(H)は固有値の比率で決まるため，固有値を求めずにエッジ上の点を判別可能 [6]になっている．つまりこの式を満たすことができればキーポイントの候補点として表すことができる．

3.2.2 サブピクセル位置推定

サブピクセルで位置推定を行うので高精度な位置推定[6]を行うことができる．推定方法はまず，ある点a_{=(x, y, σ)}T _での _DoG_関数_D_(a)_{をテイラー展開}_[3]_{する．} D(a) = D + ∂D T ∂a a+ 1 2a T ∂ 2 D ∂a2 a (3.9) 上記の式について aの偏導関数を求め， ₀とする _[3]と次の式になる． ∂D ∂a + ∂2 D ∂a2 aˆ= 0 (3.10) 上記の式の aˆ _{はキーポイントの候補点のサブピクセル位置}_{(x, y, σ)}T _{を表している．さら} に，この式は変形することができるので変形する． ∂2 D ∂a2 ˆa= − ∂D ∂a (3.11)

(20)

3.3 オリエンテーションの算出さらに，キーポイントの候補点のサブピクセル位置aˆを算出するために行列式に変形する． ˆ a₌     x y σ    = −     ∂2D ∂x2 ∂ 2_D ∂xy ∂2D ∂xσ ∂2_D ∂xy ∂2_D ∂y2 ∂2_D ∂yσ ∂2_D ∂xσ ∂2_D ∂yσ ∂2_D ∂σ2     −1    ∂D ∂x ∂D ∂y ∂D ∂σ     (3.12) 上記の行列式を解くことにより，キーポイント候補点のサブピクセル位置ˆa_{=(x, y, σ)}を得ることができる．

3.2.3 コントラストによるキーポイントの絞り込み

キーポイント候補点のサブピクセル位置でのDoG値を再計算を行い，コントラストを使用しキーポイントの絞り込みをする．絞り込みを行うには，次の式をすることで行うことができる． D(â_{) = D +} 1 2 ∂DT ∂a aˆ (3.13) DはDoG関数で， aˆはサブピクセル位置を表しているので， D(â₎がしきい値未満の候補点を表している． D(â₎はノイズの影響を受けやすいので削除が行われる．

3.3 オリエンテーションの算出

検出した各キーポイントに対して，オリエンテーションを求める．オリエンテーションとはキーポイントの方向を表したものである．このオリエンテーションの向きに算出するためで，画像回転しても検索することができる特徴量を算出することができる．オリエンテーションを求めるためには，キーポイントが検出された平滑化画像L(x,y)の勾配強度m(x,y)と勾配方向θ(x,y)を以下の式で求める．

(21)

3.3 オリエンテーションの算出 m(x, y) =qfx(x, y)2+ fy(x, y)2 (3.14) θ(x, y) = tan−1 fx(x, y) fy(x, y) (3.15) ( fx(x, y) = L(x + 1, y) − L(x − 1, y) fy(x, y) = L(x, y + 1) − L(x, y − 1) (3.16) 上記の式から求めた勾配強度m(x,y)と勾配方向θ(x,y)から重み付きヒストグラムを以下の式で算出する． hθ′ = X x X y ω(x, y)δ[θ′_{, θ(x, y)]} _(3.17) ω(x, y) = G(x, y, σ)m(x, y) (3.18) 上記の式のhθは 36方向に量子化したヒストグラムのことであり， ω(x , y) は画素の重みを表している． δはデルタ関数で，勾配方向θ(x , y)が量子化した方向θ′ _{に含まれるときに} ₁ を返す [3]．先ほど説明した画素の重みω(x , y)はガウス窓G(x , y, σ)と勾配強度m(x,y)から求めることができる．ガウス窓の大きさはキーポイントが持つスケールサイズの大きさになる．この式で求めた 36方向のヒストグラム hθ から最大値が 80%以上になるものを各キーポイントのオリエンテーションとする．以下の図3.3がオリエンテーションの算出方法を示した図である．

(22)

3.4 特徴量の記述図3.3 _{オリエンテーションの算出方法} 図3.3の中に示している矢印の向きが勾配方向，矢印の長さが勾配強度になっている．この勾配方向，勾配強度を利用し，オリエンテーションを求めている．

3.4 特徴量の記述

3.3節で求めたオリエンテーションを利用し， 128次元の特徴量を記述する．この特徴量を記述することにより，スケール変化や回転，輝度変化にも不変な特徴量となる．まず，図3.4のように求めたキーポイントのオリエンテーション方向に回転する．このようにオリエンテーション方向に回転させることにより，画像が回転しても検索できるようになる．

(23)

3.4 特徴量の記述図3.4 _{特徴量記述領域} このオリエンテーションに特徴量を記述するために，キーポイント周辺の輝度勾配情報をを利用する．この輝度勾配の情報は，キーポイントのガウス窓内の領域範囲から算出する．特徴量の記述方法は，ガウス窓内の領域の 1辺を 4分割し，領域内を 4× 4=16分割にする．さらに分割した各ブロックに 8方向の勾配方向のヒストグラムを算出する．この様することで， 4× 4× 16=128次元の特徴量を記述することができる．以下に勾配方向のヒストグラムを作成している図3.5を示す．

(24)

3.4 特徴量の記述

図3.5 _{周辺領域の特徴量記述}

図3.5に描かれているガウス窓の大きさは， DoG画像の平滑化スケールで決まる [4]．つまり画像の大きさが 2倍になれば，スケールも 2倍になるので，一緒の範囲を検索することが可能である．この特徴によりスケール変化にも対応している．

(25)

第

4 章

SIFT

特徴を利用しての文字認識

実験

本章では， SIFT特徴を利用して文字認識を行う際の方法を述べている．画像内の文字と検索したい文字のフォントは比較的字体が単純なゴシック体を使用し，同一性判定距離を変更すると，文字認識の性能を左右するか，キーポイントの対応関係がどのようになるかを調べる．同一性判定距離とは， SIFT特徴の一致する誤差をどのくらいまで一致とするかの距離である．本実験では，同一性判定距離を 0.3と 0.2で文字を抽出できるか実験を行った．同一性判定距離を 0.2より小さくしてしまうと，角度が少しつくと SIFT 特徴が一致しないと判断し抽出できない．逆に 0.3より大きくすると，文字を抽出するだけでなく，画像から似ている SIFT特徴を抽出してしまい文字を抽出するには適していない．よって今回は同一性判定距離を 0.3と 0.2に設定する．以下に文字認識の実験の方法を記す． 1. 検索したい文字の SIFT特徴を抽出 2. 画像の SIFT特徴を抽出 3. 抽出点が一致する箇所を抽出 4. 2つの画像を対応付け以下の図4.1は，検索したい文字と検索したい画像の SIFT特徴を抽出し，対応付けさせ文字認識している図である．

(26)

図4.1 _{文字認識の方法}

上記の方法で画像の中で文字が抽出されているのかの実験を行った．

さらに，画像を y軸を中心に奥行き方向に 5° ずつ回転させ，角度により 2つのキーポイント間の正しい対応関係がどの程度減少するか調べた．角度は y軸を中心に-80° から 80° まで用意し，実験を行った．

(27)

図4.2 _角度0_°

(28)

図4.4 _角度-80_°

(29)

図4.6 _角度80_° 図4.2，図4.3，図4.4，図4.5，図4.6は画像を y軸方向にそれぞれ0° ， -40° ， -80° ， 40 ° ， 80° 傾けた例の図である．本実験では，正しい対応関係の比率を rとおき，以下の式で表した． r = ncorrect nall (4.1) nall とは，図4.1で表示されている線の事で， SIFT特徴が一致していて引かれている線の数のことである． ncorrect とは， nall で説明した線の中から目視で正しい位置を指し示している線の数である．この式を利用し，正しい対応関係の比率を求めた．

(30)

第

5 章

結果・考察

本章では実験の結果と結果についての考察を述べる．

5.1 結果

以下に同一性判定距離(d)を 0.3で実験した結果を示す．図5.1 d=0.3_の角度0_°

(31)

5.1 結果図5.2 d=0.3_の角度-55_° 図5.3 d=0.3_の角度70_° 図5.1では角度が 0° の時の結果を表示している． nall が多いが間違いも多くなっている．図5.2と 5.3はそれぞれ角度が-55° と 70° の時の結果を表示している．同一性判定距離が大きいので，文字だけでなく画像の方にも SIFT特徴を一致させてしまっている．他の角度の結果は付録Aに示す．表 5.1 では，同一性判定距離 (d) を 0.3 にしたときのそれぞれの角度における nall， ncorrect， rを表している．

(32)

5.1 結果表5.1 d=0.3_の結果角度 -80 -70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70 80 nall 2 0 5 9 18 20 23 19 23 17 18 18 18 5 3 4 3 ncorrect 0 0 0 7 13 14 16 16 15 13 12 11 7 0 1 0 0 r(%) 0 0 0 78 72 70 70 84 65 76 67 61 39 0 33 0 0 表5.1から-50° から 30° の間は正しい対応関係を結べていると考える．以下の図5.4は同一性判定距離(d)を 0.3にしたときの正しい対応関係の比率をグラフにしたときの図である．図5.4 d=0.3_{の正しい対応関係の比率} 以下に同一性判定距離(d)を 0.2で実験した結果を示す．図5.5 d=0.2_の角度0_°

(33)

5.1 結果図5.6 d=0.2_の角度-45_° 図5.7 d=0.2_の角度50_° 図5.5では角度が0° の時の結果を表示している．同一性判定距離が0.3の時と比べ nall が少なくなっている分，間違いも少ない．図5.6は角度が-45° の時の結果を表示している．同一性判定距離が小さいので nall が急激に少なくなってしまった．図5.7は角度が 50° の時の結果を表示している．同一性判定距離が小さいのでので， SIFT特徴が一致する所がなくなってしまった．他の角度の結果は付録Bに示す．表 5.2 では，同一性判定距離 (d) を 0.2 にしたときのそれぞれの角度における nall， ncorrect， rを表している．

(34)

5.2 考察表5.2 d=0.2_の結果角度 -80 -70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70 80 nall 0 0 1 1 8 7 6 7 7 11 9 5 3 0 1 0 0 ncorrect 0 0 0 1 4 7 6 5 6 9 7 5 1 0 1 0 0 r(%) 0 0 0 100 50 100 100 71 86 82 78 100 33 0 100 0 0 表5.2から-30° から 30° の間は正しい対応関係を結べていると考える以下の図5.8は同一性判定距離(d)を 0.2にしたときの正しい対応関係の比率をグラフにしたときの図である．図5.8 d=0.2_{の正しい対応関係の比率}

5.2 考察

実験結果から，同一性判定距離が 0.3 の時は-50° から 30° の間であれば画像から文字を認識することがわかった．しかし，この間の角度でなければ文字の認識率が急激に落ちてしまった．これは，計算式の nall が角度がついていくにしたがって，数が減ってしまい， ncorrect が減ってしまうためだと考える．さらに，文字でSIFT特徴をとっているのに± 50 ° を越えると，画像の方にまで SIFT特徴を引くようになってしまった．これは，同一性判定距離を 0.3に設定した事で判定の幅をすこし広くとっているので，画像が角度がついてしまったことにより， SIFT特徴が文字のSIFT特徴と類似してしまったためだと考える．ま

(35)

5.2 考察た，角度が 0° の時でも正しい対応関係の比率が 100%ではないのは，判定の幅を広くしてあるために， nallが間違った位置を検出してしまったためである．同一性判定距離が0.2の時は-30° から 30° の間であれば画像から文字を認識することがわかった．こちらは，判定の幅を狭くしてあるので，認識率が100%になる角度が出てきた．さらに，画像の方に SIFT 特徴をとることがなかった．しかし SIFTが指し示す線が同一性判定距離が 0.3に比べかなり少なくなってしまった．正しい対応関係の比率が高くても， nallが少ないので，文字を認識しているとは考えにくい．

(36)

第

6 章

おわりに

本研究では， SIFTを利用し画像中からの文字抽出を行った．さらに，同一性判定距離を変化させ，画像を y 軸上に回転させることでどの角度まで文字を抽出可能かの実験を行った．結果は，同一性判定距離が 0.3の場合は， -50° から 45° までの間は認識可能であることが分かった．同一性判定距離が 0.2の場合は， -40° から 30° までの間が認識可能であることが分かった．今後の展望として，今回の実験では同じフォントを利用して文字抽出を行ったので，異なったフォントでも抽出できるようにする．異なったフォントだと SIFT特徴が違ってしまうので，一致しないので同一性判定距離を変化させてみて抽出できるか試したい．また，人間の目では± 70° くらいまでは認識できるのに， SIFT特徴では認識しないので，認識率の向上を計りたい．さらに，今回の画像の奥行き方向への 3次元的な回転で文字を認識可能になったら， Google Street Viewの画像を利用し，インターネットに載っていない店舗でも名前を入力すると， Google Street Viewの画像中から店舗の場所と画像を出せるようにしたい．

(37)

謝辞

本研究を進めるにあたり，ご指導をいただいた高知工科大学情報システム工学科吉田真一講師に心から感謝致します．研究を進めるにあたり，様々な観点からご指摘を頂きました．また研究以外にも，輪講の発表スライドの添削や飲み会でのお酒の飲み方など様々な事を教えていただきました．深く感謝致します．本研究の副査を引き受けて頂きました高知工科大学情報システム工学科岩田誠教授と高知工科大学情報システム工学科福本昌弘教授に深く感謝致します．岩田教授にはお忙しい中，梗概を書く際に色々なご指摘を頂きました．また，研究室の方々と一緒に輪講し，自分の知らない分野の事も学ぶことができました．福本教授には，研究室合同中間発表の際に有益な助言をして頂きました．また，お忙しい中梗概の添削をして頂きました．岩田教授と福本教授に深く感謝致します．同研究室の橋詰翔健氏には，研究室配属の時から様々な事を教えて頂きました．配属当初は， Free BSDの使い方が分からないところがあり，使い方を教えて頂きました．また，輪講の発表スライドを添削などをして頂きました．感謝致します．同研究室の滝優基氏には，あまり PC詳しくなかった私に，設定方法を教えていただいたりプログラミングが出きるように環境設定をしていただきました．感謝致します．同研究室の豊田佑介氏には，よく飲み会の幹事をしていただきました．私は幹事をあまりしないので，場所の予約などの手際の良さに驚きました．感謝致します．同研究室の西岡孝晃氏には， LATEXの使い方を忘れていた私に環境設定や使い方を教えていただきました．また，出身が一緒だったので様々な話ができて楽しかったです．感謝致します．同研究室の 3年生は，飲み会の幹事やオープンキャンパスの準備など様々な事をやってもらいました．感謝致します．また，これから就職活動や論文と大変忙しいと思いますが，大学生活を最後まで楽しんでください．また，この高知工科大学で過ごした 4年間で御世話になったすべての方々に感謝を申し上げます．

(38)

謝辞

最後に，大学まで進学させていただいた家族には心から感謝致します．就職活動の時には，地元の企業を探していただいたり，喝を入れていただきやる気を出させていただきました．深く感謝致します．

(39)

参考文献

[1] Y. Kusachi, A. Suzuki, N. Ito, and K. Arakawa, ”Kanji Recognition in scene im-ages without detection of textelds—robust against variation of viewpoint, contrast, andbackground texture—,” Proc. ICPR2004, 2004.

[2] 小林拓也, 岩村雅一，黄瀬浩一：局所特徴の位置関係を用いた情景画像中の文字認識,2011.

[3] 藤吉弘亘： Gradientベースの特徴抽出-SIFTと HOG-．

[4] 都筑勇司,藤吉弘亘,金出武雄： SIFT 特徴量に基づく Mean-Shift探索による特徴点追跡 [5] 山下隆義,藤吉弘亘：特定物体認識に有効な特徴量 [6] 領域分割に基づく SIFT 特徴を用いた物体識別, http://www.scribd.com/doc/33063124/14/SIFT%E3%82%A2%E3%83%AB%E3% 82%B4%E3%83%AA%E3%82%BA%E3%83%A0

(40)

付録

A

d=0.3

に設定した時の結果

図A.1 d=0.3_の角度-80_°

(41)

図A.3 d=0.3_の角度-70_°

図A.4 d=0.3_の角度-65_°

(42)

図A.6 d=0.3_の角度-55_°

図A.7 d=0.3_の角度-50_°

(43)

図A.9 d=0.3_の角度-40_°

図A.10 d=0.3_の角度-35_°

(44)

図A.12 d=0.3_の角度-25_°

図A.13 d=0.3_の角度-20_°

(45)

図A.15 d=0.3_の角度-10_°

図A.16 d=0.3_の角度-5_°

(46)

図A.18 d=0.3_の角度5_°

図A.19 d=0.3_の角度10_°

(47)

図A.21 d=0.3_の角度20_°

図A.22 d=0.3_の角度25_°

(48)

図A.24 d=0.3_の角度35_°

図A.25 d=0.3_の角度40_°

(49)

図A.27 d=0.3_の角度50_°

図A.28 d=0.3_の角度55_°

(50)

図A.30 d=0.3_の角度65_°

図A.31 d=0.3_の角度70_°

(51)

(52)

付録

B

d=0.2

に設定した時の結果

図B.1 d=0.2_の角度-80_°

(53)

図B.3 d=0.2_の角度-70_°

図B.4 d=0.2_の角度-65_°

(54)

図B.6 d=0.2_の角度-55_°

図B.7 d=0.2_の角度-50_°

(55)

図B.9 d=0.2_の角度-40_°

図B.10 d=0.2_の角度-35_°

(56)

図B.12 d=0.2_の角度-25_°

図B.13 d=0.2_の角度-20_°

(57)

図B.15 d=0.2_の角度-10_°

図B.16 d=0.2_の角度-5_°

(58)

図B.18 d=0.2_の角度5_°

図B.19 d=0.2_の角度10_°

(59)

図B.21 d=0.2_の角度20_°

図B.22 d=0.2_の角度25_°

(60)

図B.24 d=0.2_の角度35_°

図B.25 d=0.2_の角度40_°

(61)

図B.27 d=0.2_の角度50_°

図B.28 d=0.2_の角度55_°

(62)

図B.30 d=0.2_の角度65_°

図B.31 d=0.2_の角度70_°

(63)

paper.dvi

平成

23

年度

学士学位論文

グラ ディ エン ト ベースの特徴抽出法を

用いた画像中の文字抽出

Study on character extraction from a picture using a

gradient-based feature

1120227

小川 健史

指導教員

吉田 真一

2012

年

3

月

1

日

要 旨

グラ ディ エン ト ベースの特徴抽出法を 用いた画像中の文字抽出

小川 健史

Abstract

Study on character extraction from a picture using a

gradient-based feature

Kenji OGAWA

目次

図目次

表目次

第

1

章

はじ めに

第

2

章

関連研究

2.1

Histograms of Oriented Gradients(HOG)

2.2

Haar-like

2.3

Scale-Invariant Feature Transform(SIFT)

第

3

章

SIFT

のア ルゴリ ズム

3.1

スケールと キーポイ ン ト 検出

3.1.1

Difference-of-Gaussian(DoG)

処理

3.1.2

極値検出

3.2

キーポイ ン ト のローカラ イ ズ

3.2.1

主曲率によ る キーポイ ン ト の絞り 込み

3.2.2

サブピク セル位置推定

3.2.3

コ ン ト ラ スト によ る キーポイ ン ト の絞り 込み

3.3

オリ エン テーショ ン の算出

3.4

特徴量の記述

第

4

章

SIFT

特徴を 利用し て の文字認識

実験

第

5

章

結果・ 考察

5.1

結果

5.2

グラディエントベースの特徴抽出法を

小川健史

吉田真一

要旨

グラディエントベースの特徴抽出法を用いた画像中の文字抽出

小川健史

はじめに

のアルゴリズム

スケールとキーポイント検出

キーポイントのローカライズ

主曲率によるキーポイントの絞り込み

サブピクセル位置推定

コントラストによるキーポイントの絞り込み

オリエンテーションの算出

特徴を利用しての文字認識

結果・考察

おわりに

に設定した時の結果

に設定した時の結果