第 6 章 考察
6.4 今後の展開と持論
この章では節6.1、6.2、6.3の考察をふまえ、さらに今まで研究してきた経験から今後の 展開を述べる。
6.4.1 2 値化
図6.4に文字が多色になっている画像とその画像を節3.1の方法で2値化を行った画像を 示す。
左:テスト画像 右:節3.1の方法で2値化を行った画像 図6.4 多色文字の画像例
図6.4 の2値化の結果は1つの閾値によって一方が白と黄色、もう一方が灰色と青とい うふうに分かれ、正しい2値化(大文字‘M’)を得ることができた。しかし、正しい2値 化ができたのはまったくの偶然であると言える。
また、図6.5の画像は図6.4の左のテスト画像を強制的に色を変えた画像である。
図6.5 図6.4のテスト画像の色を強制的に変えた画像
アルファベットを知っている人間なら図6.5を見て文字部を当てることができるだろう。
しかし、アルファベットを知らない人間に文字部が言い当てることができるだろうか?あ る人は赤い部分、ある人は白い部分と言うかもしれない。アルファベットを知っている人 間が文字部を当てることができるのは大文字Mという文字の存在を知っているからだ。つ まり、図6.5のような画像の場合、文字部を当てる(正しい2値化)を行うにはアルファベ
ットの知識がなければならない可能性がある。よって、1番の最適な2値化を行うには文字 の知識を使うことだと私は考えている。
しかしながら、今現在、2 値化に文字の知識を入れるといった具体的なアイデアはない。
そこで私が考えているアイデアは主に2つである。
① 大津基準以外の基準を採用し何枚かの2値画像を作成する方法
② 色情報と画像の位置情報を組み合わせたクラスタリング
節3.1の大津基準を用いた2値化とGAT相関法で誤認識した画像の中から80枚ほどを 分析した結果、約4割は閾値を変えることによって、より正しい 2値化ができるとう結果 になった。つまり、上記①のような手法でより正し 2 値化ができる可能性があるというこ とだ。①の手法で大津基準以外の基準を2つ利用した場合、フローチャートにすると図6.6 のようになる。
基準①(大津基準) 基準② 基準③
2クラス分類 2クラス分類 2クラス分類 図と地の判定 図と地の判定 図と地の判定
認識手法
3枚の2値画像の1番高い相関値に認識 図6.6 大津基準以外の基準を利用したフローチャート
上記②は、例えば、カラー空間に RGB 空間を利用した場合、RGB+x、y を加え、5 次 元でクラスタリングを行うということになる。その場合、距離を計算する場合に色と位置 の比をどうするかという問題や初期中心点の決定はどうするかという問題がある。さらに、
1番難しいのは作成された画像から正しい2値画像の選択法をどうするかであろう。アルフ ァベットや数字はある基準によって作成されたものではないので、文字らしさを掴むこと は簡単ではない。
いずれにしても、画像をカラー空間で視覚的に見ることは有効である。その際には Mathematicaの利用を勧める。
図6.7(次ページ)にMathematicaで3D表示した例を示す。
上:テスト画像 中:カラー空間(RGBとHSV)の3D表示
下:文字部(赤)と背景(エメラルド)で表示したカラー空間(RGBとHSV)の3D表示 図6.7 Mathematicaによる3D表示
図6.7の下の文字部と背景を違う色で表示した図を見ると、RGB空間の方が文字部が集 まっていることがわかり、このテスト画像の2値化を行うにはRGB空間の方がよいであろ うことがわかる。
Mathematica は表示だけでなく、あらゆる計算や画像処理などもでき、画像をよく解析 することができるので、新しい2値化のアイデアが生まれるきっかけになるかもしれない。
6.4.2 変形耐性認識
節6.3の図6.3をより詳しく解析すると、まずテンプレート画像と異なる字体がある。
図6.8にテンプレート画像と異なる字体の画像例を示す。
図6.8 テンプレート画像と異なる字体の画像例
このようにテンプレート画像とテスト画像の字体が異なる場合は、単純に新しい字体を 加えるという案がある。しかし、字体を加えることによって認識率が低下してしまうとい う結果がある[15]。しかし、文献[15]はすべての2値画像をテスト画像としているので、テ スト画像を正しい2値画像のみにした場合は認識率が向上する可能性はある。
次に類似文字の存在である。図6.9に類似文字の存在のために誤認識した画像例を示す。
図6.9 類似文字の存在のために誤認識した画像例
図6.9の左図の正解文字は‘J’である。しかし、文字‘I’との正規化相互相関値が高く なってしまい誤認識してしまった。図6.9の右図の正解文字は‘T’である。しかし、文字
‘I’との正規化相互相関値が高くなってしまった誤認識してしまった。一見、なぜ文字‘T’
より文字‘I’の方が正規化相互相関値高くなってしまうのかと不思議に思う。これは、図 6.9 の右図の‘T’の横棒が細く、縦棒が太いことが原因である。部分的な変形に対応する ために、接距離による接ベクトルを部分的に作成することにより正しく認識できるかもし れない。
最後に図6.10にテスト画像がテンプレート画像に比べて変形が大きいために誤認識して しまった画像例を示す。
図6.10 変形が大きいために誤認識してしまった画像例
大きな変形に対応するためにはGAT相関法の向上、特徴量の工夫などが期待される。
続いてGAT相関法と接距離の認識の違いについて調べる。節5.3の表5.3よりGAT相 関法と接距離の認識率の差はほとんどない。接距離の方がわずか 7 枚多くを正認識しただ けである。
図6.11にGAT相関法のみで誤認識となった画像例、図6.12に接距離のみで誤認識とな った画像例を示す。
図6.11 GAT相関法のみで誤認識となった画像例
図6.12 接距離のみで誤認識となった画像例
細めの変形に対応していることにより、文字の太め細めの変形に対して強いと思われる。
本論文の最後の方、誤認識画像一覧に誤認識した画像名を載せておく。
図6.11と図6.12を見比べてみても、GAT相関法と接距離の認識の差ははっきりわから ない。しかし、誤認識した画像を詳しく調べると、若干ではあるが、接距離が文字の太め