平成
23
年度
学士学位論文
グラ ディ エン ト ベースの特徴抽出法を
用いた画像中の文字抽出
Study on character extraction from a picture using a
gradient-based feature
1120227
小川 健史
指導教員
吉田 真一
2012
年
3
月
1
日
要 旨
グラ ディ エン ト ベースの特徴抽出法を 用いた画像中の文字抽出
小川 健史
現在一般に 実用化さ れて いる 画像検索では, 画像を 適切に 表現し て いる キ ーワ ード や撮 影時刻な ど のメ タ データ を 介し て 画像を 検索する . つま り , こ う し たメ タ データ がな いと 画 像検索を 行う こ と ができ な い. 例え ば Google Street Viewな ど で表示さ れる 画像にはメ タ データ がな く , その画像を 検索する こ と は難し い. そこ で本研究では, 画像中から 文字を 抽出し , 抽出し た文字を メ タ データ と し て 利用する こ と を 考え る . 画像中から の文字抽出の研究はさ れて おり , 現在は白い紙の上に書かれて い る 文字の抽出は可能にな っ て いる . し かし 背景の入っ て いる 画像に対し て は文字の抽出が難 し いと いう 結果にな っ て いる . 画像中から 文字を 抽出でき れば, 画像を 検索する こ と が容易 にな っ て く る ので, 背景の入っ て いる 画像の中から 文字を 抽出する 研究の有用性は高ま っ て き て いる .
さ ら に , Google Street Viewな ど で表示さ れる 画像の中の文字は正面から 撮ら れて いる 画像は少な く , 斜めから 撮ら れて いる 画像が多い. そこ で, 平面的な 画像の回転に強く , ス ケ ール変化や輝度変化に不変な SIFT特徴を 利用し , 3次元的な 回転から も 特徴を 得る こ と ができ る のかを 調べる . 本研究ではSIFTを 用いて 画像中から 文字抽出する 実験を 行う . そし て 同一性判定距離を 変化さ せ, 画像を 3次元的な 回転を し て も 文字を 抽出可能かを 調べる . 画像は y軸を 中心 に-80° から 80° 回転さ せた画像を 使用する . 結果と し て , 同一性判定距離を 変化さ せて も , ど ち ら と も-50° から 30° ま での間であれば, 抽出可能である こ と が示さ れて いる . キーワ ード グラ ディ エン ト ベース特徴, SIFT, 文字抽出
Abstract
Study on character extraction from a picture using a
gradient-based feature
Kenji OGAWA
In image retrieval system, a user has to use keywords to retrieve image from a image database. Every image in the database should be tagged by meta-data such as keywords. If images are not tagged by meta-data, we will not able to retrieve images. For example, images in Google Street View does not have meta-data, and it is difficult to search a special image from Google Street View.
In this thesis, we study on character extraction from the image. Characters in Google Street View are usually not taken from directly right in front of them. They are usually taken obliquely. We use SIFT feature, which is robust for rotation of the image, invariant to changes in scale and brightness change, and study for possibility of robustness for three-dimensional rotation.
The experiments are performed to extract characters from the image using SIFT, and change the distance to determine similarity among keypoints under the three-dimensional image rotation. The images are rotated 80° from -80° around the y axis. The result result shows that characters can be extracted under the spacial rotation between -50° to 30° .
目次
第1章 はじ めに 1
第2章 関連研究 3
2.1 Histograms of Oriented Gradients(HOG) . . . 3
2.2 Haar-like . . . 3
2.3 Scale-Invariant Feature Transform(SIFT) . . . 4
第3章 SIFTのア ルゴリ ズム 5 3.1 スケ ールと キーポイ ン ト 検出 . . . 5 3.1.1 Difference-of-Gaussian(DoG)処理 . . . 5 3.1.2 極値検出 . . . 7 3.2 キーポイ ン ト のロ ーカ ラ イ ズ . . . 8 3.2.1 主曲率によ る キーポイ ン ト の絞り 込み . . . 8 3.2.2 サブピ ク セル位置推定 . . . 9 3.2.3 コ ン ト ラ スト によ る キーポイ ン ト の絞り 込み . . . 10 3.3 オリ エン テーショ ン の算出 . . . 10 3.4 特徴量の記述 . . . 12 第4章 SIFT特徴を 利用し て の文字認識実験 15 第5章 結果・ 考察 20 5.1 結果. . . 20 5.2 考察. . . 24 第6章 おわり に 26
目次
謝辞 27
参考文献 29
付録A d=0.3に設定し た時の結果 30
図目次
3.1 DoG処理 . . . 6 3.2 極値検出 . . . 7 3.3 オリ エン テーショ ン の算出方法 . . . 12 3.4 特徴量記述領域 . . . 13 3.5 周辺領域の特徴量記述 . . . 14 4.1 文字認識の方法 . . . 16 4.2 角度0° . . . 17 4.3 角度-40° . . . 17 4.4 角度-80° . . . 18 4.5 角度40° . . . 18 4.6 角度80° . . . 19 5.1 d=0.3の角度0° . . . 20 5.2 d=0.3の角度-55° . . . 21 5.3 d=0.3の角度70° . . . 21 5.4 d=0.3の正し い対応関係の比率 . . . 22 5.5 d=0.2の角度0° . . . 22 5.6 d=0.2の角度-45° . . . 23 5.7 d=0.2の角度50° . . . 23 5.8 d=0.2の正し い対応関係の比率 . . . 24 A.1 d=0.3の角度-80° . . . 30 A.2 d=0.3の角度-75° . . . 30 A.3 d=0.3の角度-70° . . . 31図目次 A.4 d=0.3の角度-65° . . . 31 A.5 d=0.3の角度-60° . . . 31 A.6 d=0.3の角度-55° . . . 32 A.7 d=0.3の角度-50° . . . 32 A.8 d=0.3の角度-45° . . . 32 A.9 d=0.3の角度-40° . . . 33 A.10 d=0.3の角度-35° . . . 33 A.11 d=0.3の角度-30° . . . 33 A.12 d=0.3の角度-25° . . . 34 A.13 d=0.3の角度-20° . . . 34 A.14 d=0.3の角度-15° . . . 34 A.15 d=0.3の角度-10° . . . 35 A.16 d=0.3の角度-5° . . . 35 A.17 d=0.3の角度0° . . . 35 A.18 d=0.3の角度5° . . . 36 A.19 d=0.3の角度10° . . . 36 A.20 d=0.3の角度15° . . . 36 A.21 d=0.3の角度20° . . . 37 A.22 d=0.3の角度25° . . . 37 A.23 d=0.3の角度30° . . . 37 A.24 d=0.3の角度35° . . . 38 A.25 d=0.3の角度40° . . . 38 A.26 d=0.3の角度45° . . . 38 A.27 d=0.3の角度50° . . . 39 A.28 d=0.3の角度55° . . . 39 A.29 d=0.3の角度60° . . . 39
図目次 A.30 d=0.3の角度65° . . . 40 A.31 d=0.3の角度70° . . . 40 A.32 d=0.3の角度75° . . . 40 A.33 d=0.3の角度80° . . . 41 B.1 d=0.2の角度-80° . . . 42 B.2 d=0.2の角度-75° . . . 42 B.3 d=0.2の角度-70° . . . 43 B.4 d=0.2の角度-65° . . . 43 B.5 d=0.2の角度-60° . . . 43 B.6 d=0.2の角度-55° . . . 44 B.7 d=0.2の角度-50° . . . 44 B.8 d=0.2の角度-45° . . . 44 B.9 d=0.2の角度-40° . . . 45 B.10 d=0.2の角度-35° . . . 45 B.11 d=0.2の角度-30° . . . 45 B.12 d=0.2の角度-25° . . . 46 B.13 d=0.2の角度-20° . . . 46 B.14 d=0.2の角度-15° . . . 46 B.15 d=0.2の角度-10° . . . 47 B.16 d=0.2の角度-5° . . . 47 B.17 d=0.2の角度0° . . . 47 B.18 d=0.2の角度5° . . . 48 B.19 d=0.2の角度10° . . . 48 B.20 d=0.2の角度15° . . . 48 B.21 d=0.2の角度20° . . . 49
図目次 B.22 d=0.2の角度25° . . . 49 B.23 d=0.2の角度30° . . . 49 B.24 d=0.2の角度35° . . . 50 B.25 d=0.2の角度40° . . . 50 B.26 d=0.2の角度45° . . . 50 B.27 d=0.2の角度50° . . . 51 B.28 d=0.2の角度55° . . . 51 B.29 d=0.2の角度60° . . . 51 B.30 d=0.2の角度65° . . . 52 B.31 d=0.2の角度70° . . . 52 B.32 d=0.2の角度75° . . . 52 B.33 d=0.2の角度80° . . . 53
表目次
2.1 各特徴量の比較 . . . 4 5.1 d=0.3の結果 . . . 22 5.2 d=0.2の結果 . . . 24
第
1
章
はじ めに
近年, カ メ ラ 付き の携帯電話の普及な ど イ ン タ ーネ ッ ト 上の画像情報が増加し て いる . し かし , その中から 自分の求める 画像を 即座に探すこ と は難し い. 現在広く 使われて いる キー ワ ード を 入力し て 画像を 検索する 方法では, 画像の近く にそれを 表すキーワ ード (メ タ デー タ)がな いと 画像を 検索する こ と が出来な い. さ ら に , Google Street ViewやPanoramio
の普及で, こ れら のサービスから 画像の中の文字を 抽出する こ と ができ れば, 画像中に写し こ ま れた文字を 使っ て 場所を 探すこ と が可能にな る . こ のよ う な メ タ データ を 使用せずに画 像の中に書いて ある 文字を 抽出し て , 画像検索を する 研究の有用性は高ま っ て いる . 現在, 画像中の文字を 抽出する 方法は, 草地ら の手法[1]がある が, 頑健な 認識が可能で ある が検索用のイ ン デッ ク ス作成を 目的と し て あら ゆる 可能性を 考慮する ため, 処理に時間 がかかる [2]. さ ら に , 画像が傾いて いたり する と 文字を 抽出する こ と が出来な い. 草地ら の手法[1]以外にも 方法はある が, 画像から 文字領域の部分を 切り 出し , 文字認識を する の で文字領域の切り 出し に失敗し て し ま っ た場合抽出する こ と ができ な い. そのため, 複雑な 背景がある 画像から は文字を 抽出する こ と ができ な い可能性がある . そ こ で , 本研究で は処理速度が速く , 画像の傾き があっ て も 抽出可能な SIFT(Scale-Invariant Feature Transform)を 利用し , 文字特徴を 抽出する 研究を 行う . さ ら に画像を y
軸を 中心に-80° から 80° 回転さ せた場合の文字の抽出可能性について 研究を 行う . 今回は 背景がある 画像を 利用し て , さ ら に 3次元的な回転を し た画像から 文字を 抽出する ので少し の誤差は出て し ま う ので, 一致の誤差を ど の程度ま で許すかの判定の幅も 変え て 結果を 比較 し た. 今回の実験では, 判定幅を 変え て も , ど ち ら と も , -50° から 30° ま では認識し て い る 結果と な っ た.
画像の奥行き 方向への3次元的な 回転はGoogle Street Viewな ど にある 文字にも 含ま れ て いる . Google Street Viewで見る 画像の中の文字は真正面から 撮ら れて いる 画像は少な く 斜めから の画像が多く , 読み取る こ と が難し い. 画像の中から 文字を 抽出する こ と ができ れば, Google Street Viewに 名前が登録さ れて いな い店舗があっ た場合, 画像から 文字を 検索する こ と ができ る よ う にな る ので, 登録さ れて いな く て も , 店舗を 検索する こ と ができ る よ う にな る . ま た, イ ン タ ーネ ッ ト 上にあげら れて いる 画像のメ タ データ が間違っ て いて も 正し い画像を 検索する こ と が可能にな る . 本論文では第2章に今回研究し た特徴抽出法の関連研究を 述べ, 第3章では本研究で用い る . SIFTのアルゴリ ズム の紹介を し , 第4章ではSITF特徴を 利用し た文字認識実験の内 容について 述べ, 第5章では実験の結果と 考察を 述べる .
第
2
章
関連研究
本章では, グラ ディ エン ト ベースの特徴抽出法である , HOGと Haar-like, SIFTの説明 を 行う .
2.1
Histograms of Oriented Gradients(HOG)
HOG特徴では, 局所領域で輝度の勾配方向を 算出し , ヒ ス ト グラ ム 化し 特徴を 抽出 [3] する . そし て , 一定領域から 特徴量を 記述する . 主に大ま かな物体の抽出に利用さ れて おり , 人や車な ど 一般物体の検出に利用さ れて いる . HOG特徴の算出方法は, 画像から 輝度勾配を 算出し て いる . そし て 輝度勾配から 勾配強 度と 勾配方向を 算出し , 輝度勾配ヒ スト グラ ム を 作成し て いる . そのため, 画像の輝度が変 化し て も 検索する こ と ができ る . 特徴と し て , 輝度勾配を 算出し て いる ので, 輝度変化には不変である . し かし 輝度勾配で し か算出し て いな いので画像が回転し て し ま っ たり , スケ ールが変化し て し ま う と 検索でき な い.
2.2
Haar-like
Haar-like特徴では, 黒の領域と 白の領域の2つの輝度差を 算出し , 特徴を 抽出[5]する . さ ら に 検索する 領域を 変え る こ と に よ り , 細かく 検索し た り , 速く 検索する こ と ができ る . 主に, 形状が決ま っ て いる , 顔な ど の検出に使われる . Haar-like特徴の算出方法は, 輝度差を 算出する も ので, 算出パタ ーン に も 複数パタ ーン2.3 Scale-Invariant Feature Transform(SIFT)
があり , 縦方向, 横方向, 斜め方向の明暗差で算出する こ と ができ る .
特徴と し て , 輝度差を 算出し て いる こ と から , 輝度変化には不変である . さ ら にスケ ール が変わっ て も 輝度変化は変わら な いのでスケ ール変化にも 不変である . し かし 輝度差を 算出 する だけ な ので画像が回転する と 検索でき な い.
2.3
Scale-Invariant Feature Transform(SIFT)
SIFTは, 主にイ メ ージマッ チン グや物体認識の分野で用いら れて いる [2]. 画像の局所的 な 部分から 特徴点を 抽出する 方法であ り , 局所的な 重み分布に 対する 山登り 計算であ る た め, 高速な 処理が可能[4]である . 特徴と し て , 画像の回転やスケ ール変化, 輝度変化が行われて も 抽出さ れる ため, 大き さ が異な る 文字の特徴も 抽出し やすい. よ っ て 本研究では, SIFT特徴を 利用し て y 軸を 中心に回転さ せ画像の中から 文字を 抽出 する . 上記で説明し たグラ ディ エン ト ベースの特徴抽出法の特徴を 表2.1にま と める . 表2.1 各特徴量の比較
変化 HOG Haar-like SIFT
回転 × × ○
スケ ール × ○ ○
第
3
章
SIFT
のア ルゴリ ズム
SIFTでは, 大き く 分け て キーポイ ン ト 検出と 特徴量の記述と いう 作業を 行っ て いる . キーポイ ン ト 検出の処理は下記の処理から な る . • スケ ールと キーポイ ン ト 検出 • キーポイ ン ト のロ ーカ ラ イ ズ ま た, 特徴量の記述では, 下記の処理を 行う . • オリ エン テーショ ン の算出 • 特徴量の記述 本章では, それぞれの処理について 説明を 行う .3.1
スケールと キーポイ ン ト 検出
3.1.1
Difference-of-Gaussian(DoG)
処理
DoGと は, Difference-of-Gaussianの略で, すなわち ガウ シアン の差分のこ と であり , 差 分を 利用し 極値探索する こ と で, スケ ールと キーポイ ン ト を 算出する . キ ーポイ ン ト を 検出する に は, ス ケ ールの違う ガウ ス 関数G(x,y,σ)式(3.1)と 入力画像I(a,b)を 平滑化さ せた画像L(a,b,σ)式(3.2)のDoG画像から 求める .
G(x, y, σ) = 1 2πσ2 exp −x 2 + y2 2σ2 (3.1)
3.1 スケ ールと キーポイ ン ト 検出
L(a, b, σ) = G(x, y, σ) ∗ I(a, b) (3.2)
DoGの結果の画像を D(a,b,σ)と する と , DoG画像は以下の式で求ま る .
D(a, b, σ) = (G(x, y, kσ) − G(x, y, σ)) ∗ I(a, b) = L(a, b, kσ) − L(a, b, σ) (3.3)
こ の処理を σ0から ガウ シアン の大き さ を k倍ずつ大き く し た画像を スケ ール間で行い, 差
分を 利用し キーポイ ン ト を 検出する .
以下の図3.1はDoG処理の流れを 表し た図である .
3.1 スケ ールと キーポイ ン ト 検出
3.1.2
極値検出
DoGは異な る ス ケ ールに よ る 平滑化画像の差分のため, DoGの値が大き く な る [3]. そ のため, 変化領域にエッ ジ等の情報量を 多く 含んでいる . そこ で σの小さ いDoG画像から 極値を 探し , キーポイ ン ト と スケ ールを 決定する . 極値の検出は注目画素の DoG値と その ま わり の 26近傍と 比較を 行う . 極値であっ た場合, そ の画素を キ ーポイ ン ト と し て 検出す る . さ ら に 1度検出さ れた画素は, よ り 大き なスケールで極値と なっ て も キーポイ ン ト と し な いよ う にな っ て いる [3]. 図3.2は注目画素と ま わり の 26近傍を 比較し , 極値を 検出し て いる 様子を 表し た 図で ある . 図3.2 極値検出3.2 キーポイ ン ト のロ ーカ ラ イ ズ
3.2
キーポイ ン ト のローカラ イ ズ
検出し たキ ーポイ ン ト の点は, DoG値が小さ い点やエッ ジ上の点を 含んでいる . そ し て こ れら の点は, ノ イ ズや開口問題が発生し て し ま う . そ こ で, DoG値が小さ い点やエッ ジ 上の点の削除を 行い, 安定し たキーポイ ン ト の絞り 込みを 行う . さ ら に, 位置と スケ ールを 算出する3.2.1
主曲率によ る キーポイ ン ト の絞り 込み
DoG値が小さ い点やエッ ジ上な ど の点はノ イ ズや開口問題が発生し やすい点な のでエッ ジ上にある キーポイ ン ト 候補点の削除を 行う . ま ず, ヘッ セ行列Hから 主曲率を 求める ため以下の式で求める . H = " Dxx Dxy Dxy Dyy # (3.4) ヘッ セ行列内の関数は, キーポイ ン ト 位置の DoGから でた値の 2次微分から 求める . こ こ で, ヘッ セ行列から 求めら れる 第1固有値Dxx=α, 第2固有値Dyy=β(α > β)と 置く . こ のと き ヘッ セ行列の対角成分の和Tr(H)と 行列式Det(H)は次のよ う に計算さ れる . Tr(H) = Dxx + Dyy = α + β (3.5) Det(H) = DxxDyy− (Dxy)2 = αβ (3.6) さ ら に, 第1固有値αと 第2固有値βの比率を γ と し , α = γβと する と 次の式で表せる . Tr(H)2 Det(H) = (α + β)2 αβ = (γβ + β)2 γβ2 = (γ + 1)2 γ (3.7)3.2 キーポイ ン ト のロ ーカ ラ イ ズ 上記の式の値は固有値ではな く , 第1固有値αと 第2固有値β の比率を 求めて いる . つま り 固有値を 求めずに, エッ ジ上の点と 分かる よ う にな っ て いる . そし て 不要な キーポイ ン ト を 削除する ために, 次の式で表すよ う にし き い値処理を 行う . Tr(H)2 Det(H) < (γth+ 1)2 γth (3.8) 上記の式の γthを 設定する こ と でし き い値を 変化さ せる こ と ができ る . Tr(H)2/Det(H)は 固有値の比率で決ま る た め, 固有値を 求めずに エッ ジ上の点を 判別可能 [6]に な っ て いる . つま り こ の式を 満たすこ と ができ ればキーポイ ン ト の候補点と し て 表すこ と ができ る .
3.2.2
サブピク セル位置推定
サブピ ク セルで位置推定を 行う ので高精度な 位置推定[6]を 行う こ と ができ る . 推定方法はま ず, ある 点a=(x, y, σ)T での DoG関数D(a)を テイ ラ ー展開[3]する . D(a) = D + ∂D T ∂a a+ 1 2a T ∂ 2 D ∂a2 a (3.9) 上記の式について aの偏導関数を 求め, 0と する [3]と 次の式にな る . ∂D ∂a + ∂2 D ∂a2 aˆ= 0 (3.10) 上記の式の aˆ はキ ーポイ ン ト の候補点のサブピ ク セ ル位置(x, y, σ)T を 表し て いる . さ ら に, こ の式は変形する こ と ができ る ので変形する . ∂2 D ∂a2 ˆa= − ∂D ∂a (3.11)3.3 オリ エン テーショ ン の算出 さ ら に, キーポイ ン ト の候補点のサブピ ク セル位置aˆを 算出する ために行列式に変形する . ˆ a= x y σ = − ∂2D ∂x2 ∂ 2D ∂xy ∂2D ∂xσ ∂2D ∂xy ∂2D ∂y2 ∂2D ∂yσ ∂2D ∂xσ ∂2D ∂yσ ∂2D ∂σ2 −1 ∂D ∂x ∂D ∂y ∂D ∂σ (3.12) 上記の行列式を 解く こ と に よ り , キ ーポイ ン ト 候補点のサブピ ク セ ル位置ˆa=(x, y, σ)を 得 る こ と ができ る .
3.2.3
コ ン ト ラ スト によ る キーポイ ン ト の絞り 込み
キーポイ ン ト 候補点のサブピ ク セル位置でのDoG値を 再計算を 行い, コ ン ト ラ スト を 使 用し キーポイ ン ト の絞り 込みを する . 絞り 込みを 行う には, 次の式を する こ と で行う こ と が でき る . D(ˆa) = D + 1 2 ∂DT ∂a aˆ (3.13) DはDoG関数で, aˆはサブピク セル位置を 表し て いる ので, D(ˆa)がし き い値未満の候補点 を 表し て いる . D(ˆa)はノ イ ズの影響を 受け やすいので削除が行われる .3.3
オリ エン テーショ ン の算出
検出し た各キーポイ ン ト に対し て , オリ エン テーショ ン を 求める . オリ エン テーショ ン と はキーポイ ン ト の方向を 表し たも のである . こ のオリ エン テーショ ン の向き に算出する ため で, 画像回転し て も 検索する こ と ができ る 特徴量を 算出する こ と ができ る . オリ エン テーショ ン を 求める ために は, キ ーポイ ン ト が検出さ れた平滑化画像L(x,y)の 勾配強度m(x,y)と 勾配方向θ(x,y)を 以下の式で求める .3.3 オリ エン テーショ ン の算出 m(x, y) =qfx(x, y)2+ fy(x, y)2 (3.14) θ(x, y) = tan−1 fx(x, y) fy(x, y) (3.15) ( fx(x, y) = L(x + 1, y) − L(x − 1, y) fy(x, y) = L(x, y + 1) − L(x, y − 1) (3.16) 上記の式から 求めた勾配強度m(x,y)と 勾配方向θ(x,y)から 重み付き ヒ スト グラ ム を 以下の 式で算出する . hθ′ = X x X y ω(x, y)δ[θ′, θ(x, y)] (3.17) ω(x, y) = G(x, y, σ)m(x, y) (3.18) 上記の式のhθは 36方向に量子化し たヒ スト グラ ム のこ と であり , ω(x , y) は画素の重みを 表し て いる . δはデルタ 関数で, 勾配方向θ(x , y)が量子化し た方向θ′ に含ま れる と き に 1 を 返す [3]. 先ほど 説明し た画素の重みω(x , y)はガウ ス窓G(x , y, σ)と 勾配強度m(x,y)か ら 求める こ と ができ る . ガウ ス窓の大き さ はキーポイ ン ト が持つスケ ールサイ ズの大き さ に な る . こ の式で求めた 36方向のヒ ス ト グラ ム hθ から 最大値が 80%以上に な る も のを 各キ ーポ イ ン ト のオリ エン テーショ ン と する . 以下の図3.3がオリ エン テーショ ン の算出方法を 示し た図である .
3.4 特徴量の記述 図3.3 オリ エン テーショ ン の算出方法 図3.3の中に示し て いる 矢印の向き が勾配方向, 矢印の長さ が勾配強度にな っ て いる . こ の勾配方向, 勾配強度を 利用し , オリ エン テーショ ン を 求めて いる .
3.4
特徴量の記述
3.3節で求めたオリ エン テーショ ン を 利用し , 128次元の特徴量を 記述する . こ の特徴量 を 記述する こ と によ り , スケ ール変化や回転, 輝度変化にも 不変な 特徴量と な る . ま ず, 図3.4のよ う に求めたキーポイ ン ト のオリ エン テーショ ン 方向に回転する . こ のよ う にオリ エン テーショ ン 方向に回転さ せる こ と によ り , 画像が回転し て も 検索でき る よ う に な る .3.4 特徴量の記述 図3.4 特徴量記述領域 こ のオリ エン テーショ ン に特徴量を 記述する ために, キーポイ ン ト 周辺の輝度勾配情報を を 利用する . こ の輝度勾配の情報は, キ ーポイ ン ト のガウ ス 窓内の領域範囲から 算出する . 特徴量の記述方法は, ガウ ス 窓内の領域の 1辺を 4分割し , 領域内を 4× 4=16分割に す る . さ ら に分割し た各ブロ ッ ク に 8方向の勾配方向のヒ スト グラ ムを 算出する . こ の様する こ と で, 4× 4× 16=128次元の特徴量を 記述する こ と ができ る . 以下に勾配方向のヒ スト グラ ム を 作成し て いる 図3.5を 示す.
3.4 特徴量の記述
図3.5 周辺領域の特徴量記述
図3.5に描かれて いる ガウ ス窓の大き さ は, DoG画像の平滑化スケ ールで決ま る [4]. つ ま り 画像の大き さ が 2倍になれば, スケールも 2倍になる ので, 一緒の範囲を 検索する こ と が可能である . こ の特徴によ り スケ ール変化にも 対応し て いる .
第
4
章
SIFT
特徴を 利用し て の文字認識
実験
本章では, SIFT特徴を 利用し て 文字認識を 行う 際の方法を 述べて いる . 画像内の文字と 検索し たい文字のフ ォ ン ト は比較的字体が単純な ゴシッ ク 体を 使用し , 同 一性判定距離を 変更する と , 文字認識の性能を 左右する か, キーポイ ン ト の対応関係がど の よ う にな る かを 調べる . 同一性判定距離と は, SIFT特徴の一致する 誤差を ど のく ら いま で 一致と する かの距離である . 本実験では, 同一性判定距離を 0.3と 0.2で文字を 抽出でき る か実験を 行っ た. 同一性判定距離を 0.2よ り 小さ く し て し ま う と , 角度が少し つく と SIFT 特徴が一致し な いと 判断し 抽出でき な い. 逆に 0.3よ り 大き く する と , 文字を 抽出する だけ でな く , 画像から 似て いる SIFT特徴を 抽出し て し ま い文字を 抽出する に は適し て いな い. よ っ て 今回は同一性判定距離を 0.3と 0.2に設定する . 以下に文字認識の実験の方法を 記す. 1. 検索し たい文字の SIFT特徴を 抽出 2. 画像の SIFT特徴を 抽出 3. 抽出点が一致する 箇所を 抽出 4. 2つの画像を 対応付け 以下の図4.1は, 検索し たい文字と 検索し たい画像の SIFT特徴を 抽出し , 対応付け さ せ 文字認識し て いる 図である .図4.1 文字認識の方法
上記の方法で画像の中で文字が抽出さ れて いる のかの実験を 行っ た.
さ ら に, 画像を y軸を 中心に奥行き 方向に 5° ずつ回転さ せ, 角度によ り 2つのキーポイ ン ト 間の正し い対応関係がど の程度減少する か調べた. 角度は y軸を 中心に-80° から 80° ま で用意し , 実験を 行っ た.
図4.2 角度0°
図4.4 角度-80°
図4.6 角度80° 図4.2, 図4.3, 図4.4, 図4.5, 図4.6は画像を y軸方向にそれぞれ0° , -40° , -80° , 40 ° , 80° 傾け た例の図である . 本実験では, 正し い対応関係の比率を rと おき , 以下の式で表し た. r = ncorrect nall (4.1) nall と は, 図4.1で表示さ れて いる 線の事で, SIFT特徴が一致し て いて 引かれて いる 線 の数のこ と である . ncorrect と は, nall で説明し た線の中から 目視で正し い位置を 指し 示し て いる 線の数である . こ の式を 利用し , 正し い対応関係の比率を 求めた.
第
5
章
結果・ 考察
本章では実験の結果と 結果について の考察を 述べる .5.1
結果
以下に同一性判定距離(d)を 0.3で実験し た結果を 示す. 図5.1 d=0.3の角度0°5.1 結果 図5.2 d=0.3の角度-55° 図5.3 d=0.3の角度70° 図5.1では角度が 0° の時の結果を 表示し て いる . nall が多いが間違いも 多く なっ て いる . 図5.2と 5.3はそ れぞれ角度が-55° と 70° の時の結果を 表示し て いる . 同一性判定距離が 大き いので, 文字だけ でな く 画像の方にも SIFT特徴を 一致さ せて し ま っ て いる . 他の角度の結果は付録Aに示す. 表 5.1 で は, 同一性判定距離 (d) を 0.3 に し た と き の そ れぞ れの 角度に お け る nall, ncorrect, rを 表し て いる .
5.1 結果 表5.1 d=0.3の結果 角度 -80 -70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70 80 nall 2 0 5 9 18 20 23 19 23 17 18 18 18 5 3 4 3 ncorrect 0 0 0 7 13 14 16 16 15 13 12 11 7 0 1 0 0 r(%) 0 0 0 78 72 70 70 84 65 76 67 61 39 0 33 0 0 表5.1から-50° から 30° の間は正し い対応関係を 結べて いる と 考え る . 以下の図5.4は同一性判定距離(d)を 0.3にし たと き の正し い対応関係の比率を グラ フ に し たと き の図である . 図5.4 d=0.3の正し い対応関係の比率 以下に同一性判定距離(d)を 0.2で実験し た結果を 示す. 図5.5 d=0.2の角度0°
5.1 結果 図5.6 d=0.2の角度-45° 図5.7 d=0.2の角度50° 図5.5では角度が0° の時の結果を 表示し て いる . 同一性判定距離が0.3の時と 比べ nall が少な く な っ て いる 分, 間違いも 少な い. 図5.6は角度が-45° の時の結果を 表示し て いる . 同一性判定距離が小さ いので nall が急激に 少な く な っ て し ま っ た. 図5.7は角度が 50° の 時の結果を 表示し て いる . 同一性判定距離が小さ いのでので, SIFT特徴が一致する 所がな く な っ て し ま っ た. 他の角度の結果は付録Bに示す. 表 5.2 で は, 同一性判定距離 (d) を 0.2 に し た と き の そ れぞ れの 角度に お け る nall, ncorrect, rを 表し て いる .
5.2 考察 表5.2 d=0.2の結果 角度 -80 -70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70 80 nall 0 0 1 1 8 7 6 7 7 11 9 5 3 0 1 0 0 ncorrect 0 0 0 1 4 7 6 5 6 9 7 5 1 0 1 0 0 r(%) 0 0 0 100 50 100 100 71 86 82 78 100 33 0 100 0 0 表5.2から-30° から 30° の間は正し い対応関係を 結べて いる と 考え る 以下の図5.8は同一性判定距離(d)を 0.2にし たと き の正し い対応関係の比率を グラ フ に し たと き の図である . 図5.8 d=0.2の正し い対応関係の比率
5.2
考察
実験結果から , 同一性判定距離が 0.3 の時は-50° から 30° の間であ れば画像から 文字 を 認識する こ と がわかっ た . し かし , こ の間の角度でな け れば文字の認識率が急激に 落ち て し ま っ た. こ れは, 計算式の nall が角度がついて いく に し たがっ て , 数が減っ て し ま い, ncorrect が減っ て し ま う ためだと 考え る . さ ら に, 文字でSIFT特徴を と っ て いる のに± 50 ° を 越え る と , 画像の方にま で SIFT特徴を 引く よ う にな っ て し ま っ た. こ れは, 同一性判 定距離を 0.3に設定し た事で判定の幅を すこ し 広く と っ て いる ので, 画像が角度がついて し ま っ たこ と によ り , SIFT特徴が文字のSIFT特徴と 類似し て し ま っ たためだと 考え る . ま5.2 考察 た, 角度が 0° の時でも 正し い対応関係の比率が 100%ではな いのは, 判定の幅を 広く し て ある ために, nallが間違っ た位置を 検出し て し ま っ たためである . 同一性判定距離が0.2の時は-30° から 30° の間であれば画像から 文字を 認識する こ と が わかっ た. こ ち ら は, 判定の幅を 狭く し て ある ので, 認識率が100%になる 角度が出て き た. さ ら に , 画像の方に SIFT 特徴を と る こ と がな かっ た . し かし SIFTが指し 示す線が同一 性判定距離が 0.3に 比べかな り 少な く な っ て し ま っ た . 正し い対応関係の比率が高く て も , nallが少な いので, 文字を 認識し て いる と は考え にく い.
第
6
章
おわり に
本研究では, SIFTを 利用し 画像中から の文字抽出を 行っ た. さ ら に, 同一性判定距離を 変化さ せ, 画像を y 軸上に 回転さ せる こ と でど の角度ま で文字を 抽出可能かの実験を 行っ た. 結果は, 同一性判定距離が 0.3の場合は, -50° から 45° ま での間は認識可能である こ と が分かっ た. 同一性判定距離が 0.2の場合は, -40° から 30° ま での間が認識可能である こ と が分かっ た. 今後の展望と し て , 今回の実験では同じ フ ォ ン ト を 利用し て 文字抽出を 行っ た ので, 異 な っ たフ ォ ン ト でも 抽出でき る よ う にする . 異な っ たフ ォ ン ト だと SIFT特徴が違っ て し ま う ので, 一致し な いので同一性判定距離を 変化さ せて みて 抽出でき る か試し たい. ま た, 人 間の目では± 70° く ら いま では認識でき る のに, SIFT特徴では認識し ないので, 認識率の 向上を 計り たい. さ ら に, 今回の画像の奥行き 方向への 3次元的な回転で文字を 認識可能に な っ た ら , Google Street Viewの画像を 利用し , イ ン タ ーネ ッ ト に 載っ て いな い店舗でも 名前を 入力する と , Google Street Viewの画像中から 店舗の場所と 画像を 出せる よ う に し たい.謝辞
本研究を 進める にあたり , ご指導を いただいた高知工科大学情報システム 工学科吉田真一 講師に 心から 感謝致し ま す. 研究を 進める に あ た り , 様々 な 観点から ご指摘を 頂き ま し た . ま た研究以外にも , 輪講の発表スラ イ ド の添削や飲み会でのお酒の飲み方な ど 様々 な 事を 教 え て いただき ま し た. 深く 感謝致し ま す. 本研究の副査を 引き 受け て 頂き ま し た高知工科大学情報システム 工学科岩田誠教授と 高知 工科大学情報シス テム 工学科福本昌弘教授に 深く 感謝致し ま す. 岩田教授に はお忙し い中, 梗概を 書く 際に色々 な ご指摘を 頂き ま し た. ま た, 研究室の方々 と 一緒に輪講し , 自分の知 ら な い分野の事も 学ぶこ と ができ ま し た. 福本教授には, 研究室合同中間発表の際に有益な 助言を し て 頂き ま し た. ま た, お忙し い中梗概の添削を し て 頂き ま し た. 岩田教授と 福本教 授に深く 感謝致し ま す. 同研究室の橋詰翔健氏には, 研究室配属の時から 様々 な 事を 教え て 頂き ま し た. 配属当初 は, Free BSDの使い方が分から な いと こ ろ があり , 使い方を 教え て 頂き ま し た. ま た, 輪 講の発表ス ラ イ ド を 添削な ど を し て 頂き ま し た. 感謝致し ま す. 同研究室の滝優基氏に は, あま り PC詳し く な かっ た私に, 設定方法を 教え て いただいたり プロ グラ ミ ン グが出き る よ う に環境設定を し て いただき ま し た. 感謝致し ま す. 同研究室の豊田佑介氏には, よ く 飲み 会の幹事を し て いただき ま し た. 私は幹事を あま り し な いので, 場所の予約な ど の手際の良 さ に驚き ま し た. 感謝致し ま す. 同研究室の西岡孝晃氏には, LATEXの使い方を 忘れて い た私に環境設定や使い方を 教え て いただき ま し た. ま た, 出身が一緒だっ たので様々 な 話が でき て 楽し かっ たです. 感謝致し ま す. 同研究室の 3年生は, 飲み会の幹事やオープン キャ ン パスの準備な ど 様々 な 事を やっ て も ら いま し た. 感謝致し ま す. ま た, こ れから 就職活動 や論文と 大変忙し いと 思いま すが, 大学生活を 最後ま で楽し んでく ださ い. ま た, こ の高知工科大学で過ごし た 4年間で御世話になっ たすべて の方々 に感謝を 申し 上 げま す.謝辞
最後に , 大学ま で進学さ せて いた だ いた 家族に は心から 感謝致し ま す. 就職活動の時に は, 地元の企業を 探し て いただいたり , 喝を 入れて いただき やる 気を 出さ せて いただき ま し た. 深く 感謝致し ま す.
参考文献
[1] Y. Kusachi, A. Suzuki, N. Ito, and K. Arakawa, ”Kanji Recognition in scene im-ages without detection of textelds—robust against variation of viewpoint, contrast, andbackground texture—,” Proc. ICPR2004, 2004.
[2] 小林拓也, 岩村雅一, 黄瀬浩一: 局所特徴の位置関係を 用いた 情景画像中の文字認 識,2011.
[3] 藤吉弘亘: Gradientベースの特徴抽出-SIFTと HOG-.
[4] 都筑勇司,藤吉弘亘,金出武雄: SIFT 特徴量に 基づく Mean-Shift探索に よ る 特徴点 追跡 [5] 山下隆義,藤吉弘亘: 特定物体認識に有効な 特徴量 [6] 領 域 分 割 に 基 づ く SIFT 特 徴 を 用 い た 物 体 識 別, http://www.scribd.com/doc/33063124/14/SIFT%E3%82%A2%E3%83%AB%E3% 82%B4%E3%83%AA%E3%82%BA%E3%83%A0
付録
A
d=0.3
に設定し た時の結果
図A.1 d=0.3の角度-80°
図A.3 d=0.3の角度-70°
図A.4 d=0.3の角度-65°
図A.6 d=0.3の角度-55°
図A.7 d=0.3の角度-50°
図A.9 d=0.3の角度-40°
図A.10 d=0.3の角度-35°
図A.12 d=0.3の角度-25°
図A.13 d=0.3の角度-20°
図A.15 d=0.3の角度-10°
図A.16 d=0.3の角度-5°
図A.18 d=0.3の角度5°
図A.19 d=0.3の角度10°
図A.21 d=0.3の角度20°
図A.22 d=0.3の角度25°
図A.24 d=0.3の角度35°
図A.25 d=0.3の角度40°
図A.27 d=0.3の角度50°
図A.28 d=0.3の角度55°
図A.30 d=0.3の角度65°
図A.31 d=0.3の角度70°
付録
B
d=0.2
に設定し た時の結果
図B.1 d=0.2の角度-80°
図B.3 d=0.2の角度-70°
図B.4 d=0.2の角度-65°
図B.6 d=0.2の角度-55°
図B.7 d=0.2の角度-50°
図B.9 d=0.2の角度-40°
図B.10 d=0.2の角度-35°
図B.12 d=0.2の角度-25°
図B.13 d=0.2の角度-20°
図B.15 d=0.2の角度-10°
図B.16 d=0.2の角度-5°
図B.18 d=0.2の角度5°
図B.19 d=0.2の角度10°
図B.21 d=0.2の角度20°
図B.22 d=0.2の角度25°
図B.24 d=0.2の角度35°
図B.25 d=0.2の角度40°
図B.27 d=0.2の角度50°
図B.28 d=0.2の角度55°
図B.30 d=0.2の角度65°
図B.31 d=0.2の角度70°