今後の展開と持論

第 6 章考察

6.4 今後の展開と持論

この章では節6.1、6.2、6.3の考察をふまえ、さらに今まで研究してきた経験から今後の展開を述べる。

6.4.1 2 値化

図6.4に文字が多色になっている画像とその画像を節3.1の方法で2値化を行った画像を示す。

左：テスト画像右：節3.1の方法で2値化を行った画像図6.4 多色文字の画像例

図6.4 の2値化の結果は1つの閾値によって一方が白と黄色、もう一方が灰色と青というふうに分かれ、正しい2値化（大文字‘Ｍ’）を得ることができた。しかし、正しい2値化ができたのはまったくの偶然であると言える。

また、図6.5の画像は図6.4の左のテスト画像を強制的に色を変えた画像である。

図6.5 図6.4のテスト画像の色を強制的に変えた画像

アルファベットを知っている人間なら図6.5を見て文字部を当てることができるだろう。

しかし、アルファベットを知らない人間に文字部が言い当てることができるだろうか？ある人は赤い部分、ある人は白い部分と言うかもしれない。アルファベットを知っている人間が文字部を当てることができるのは大文字Mという文字の存在を知っているからだ。つまり、図6.5のような画像の場合、文字部を当てる（正しい2値化）を行うにはアルファベ

ットの知識がなければならない可能性がある。よって、1番の最適な2値化を行うには文字の知識を使うことだと私は考えている。

しかしながら、今現在、2 値化に文字の知識を入れるといった具体的なアイデアはない。

そこで私が考えているアイデアは主に2つである。

① 大津基準以外の基準を採用し何枚かの2値画像を作成する方法

② 色情報と画像の位置情報を組み合わせたクラスタリング

節3.1の大津基準を用いた2値化とGAT相関法で誤認識した画像の中から80枚ほどを分析した結果、約4割は閾値を変えることによって、より正しい 2値化ができるとう結果になった。つまり、上記①のような手法でより正し 2 値化ができる可能性があるということだ。①の手法で大津基準以外の基準を２つ利用した場合、フローチャートにすると図6.6 のようになる。

基準①（大津基準）基準② 基準③

2クラス分類 2クラス分類 2クラス分類図と地の判定図と地の判定図と地の判定

認識手法

3枚の2値画像の1番高い相関値に認識図6.6 大津基準以外の基準を利用したフローチャート

上記②は、例えば、カラー空間に RGB 空間を利用した場合、RGB＋x、y を加え、5 次元でクラスタリングを行うということになる。その場合、距離を計算する場合に色と位置の比をどうするかという問題や初期中心点の決定はどうするかという問題がある。さらに、

1番難しいのは作成された画像から正しい2値画像の選択法をどうするかであろう。アルファベットや数字はある基準によって作成されたものではないので、文字らしさを掴むことは簡単ではない。

いずれにしても、画像をカラー空間で視覚的に見ることは有効である。その際には Mathematicaの利用を勧める。

図6.7（次ページ）にMathematicaで3D表示した例を示す。

上：テスト画像中：カラー空間(RGBとHSV)の3D表示

下：文字部（赤）と背景（エメラルド）で表示したカラー空間(RGBとHSV)の3D表示図6.7 Mathematicaによる3D表示

図6.7の下の文字部と背景を違う色で表示した図を見ると、RGB空間の方が文字部が集まっていることがわかり、このテスト画像の2値化を行うにはRGB空間の方がよいであろうことがわかる。

Mathematica は表示だけでなく、あらゆる計算や画像処理などもでき、画像をよく解析することができるので、新しい2値化のアイデアが生まれるきっかけになるかもしれない。

6.4.2 変形耐性認識

節6.3の図6.3をより詳しく解析すると、まずテンプレート画像と異なる字体がある。

図6.8にテンプレート画像と異なる字体の画像例を示す。

図6.8 テンプレート画像と異なる字体の画像例

このようにテンプレート画像とテスト画像の字体が異なる場合は、単純に新しい字体を加えるという案がある。しかし、字体を加えることによって認識率が低下してしまうという結果がある[15]。しかし、文献[15]はすべての2値画像をテスト画像としているので、テスト画像を正しい2値画像のみにした場合は認識率が向上する可能性はある。

次に類似文字の存在である。図6.9に類似文字の存在のために誤認識した画像例を示す。

図6.9 類似文字の存在のために誤認識した画像例

図6.9の左図の正解文字は‘J’である。しかし、文字‘I’との正規化相互相関値が高くなってしまい誤認識してしまった。図6.9の右図の正解文字は‘T’である。しかし、文字

‘I’との正規化相互相関値が高くなってしまった誤認識してしまった。一見、なぜ文字‘T’

より文字‘I’の方が正規化相互相関値高くなってしまうのかと不思議に思う。これは、図 6.9 の右図の‘T’の横棒が細く、縦棒が太いことが原因である。部分的な変形に対応するために、接距離による接ベクトルを部分的に作成することにより正しく認識できるかもしれない。

最後に図6.10にテスト画像がテンプレート画像に比べて変形が大きいために誤認識してしまった画像例を示す。

図6.10 変形が大きいために誤認識してしまった画像例

大きな変形に対応するためにはGAT相関法の向上、特徴量の工夫などが期待される。

続いてGAT相関法と接距離の認識の違いについて調べる。節5.3の表5.3よりGAT相関法と接距離の認識率の差はほとんどない。接距離の方がわずか 7 枚多くを正認識しただけである。

図6.11にGAT相関法のみで誤認識となった画像例、図6.12に接距離のみで誤認識となった画像例を示す。

図6.11 GAT相関法のみで誤認識となった画像例

図6.12 接距離のみで誤認識となった画像例

細めの変形に対応していることにより、文字の太め細めの変形に対して強いと思われる。

本論文の最後の方、誤認識画像一覧に誤認識した画像名を載せておく。

図6.11と図6.12を見比べてみても、GAT相関法と接距離の認識の差ははっきりわからない。しかし、誤認識した画像を詳しく調べると、若干ではあるが、接距離が文字の太め

ドキュメント内情景内カラー文字の最適 2 値化と変形耐性認識 (ページ 32-37)

第 6 章 考察

6.4 今後の展開と持論

6.4.1 2 値化

6.4.2 変形耐性認識

第 6 章考察