マシンを用いた情景内カラー文字列の 2 値化

(1)

2010 年度修士論文

K-means クラスタリングとサポートベクター

マシンを用いた情景内カラー文字列の 2 値化

2011 年 1 月 28 日提出

指導教官若原徹教授

法政大学情報科学研究科情報科学専攻

学籍番号 09T0005 喜多

キタ

耕

コウ

平

ヘイ

(2)

Abstract

This paper proposes a new technique for binalizing color character strings in scene images. The key ideas are as follows. (1) Generation of candidate binarized string images via every dichotomization of K clusters obtained by K-means clustering in the HIS color space. The total number of candidate binarized string images equals 2^K 2 . (2) Every candidate binarized string image is divided into a set of tentative single-character images depending on aspect ratio. We calculate mesh and weighted direction code histogram feature from every tentative single-character images and feed the support vector machines (SVM) with the results of calculation to output the degree of “character-likeness.” (3) The binarized string image with the maximum average of

“character-likeness” is output as an optimal binarization result. In experiments, we used a total of 1,000 single-character color images extracted from “TrialTrain” subset of ICDAR 2003 robust OCR dataset for training SVM. Experiments made on a total of 1000 character strings extracted from

“TrialTrain” subset of ICDAR2003 robust word recognition dataset show that the generation rate of candidate binarized string images which contain a correctly binarized image equal 87.8% and the selection rate of correct binarized string image equal 91.6%. The total of proposes method achieves a correct binarization rate of 80.8%.

内容概要

本論文では，情景内カラー文字列の新たな 2 値化手法を提案する．キーとなるアイディアは，次の通りである．(1) HSIカラー空間でK-meansクラスタリングによって得られる Kクラスタの羅的な 2分割により複数の2値化候補文字列画像を生成する．生成される 2 値化候補文字列画像の総数は2^K 2枚である．(2) 全ての2値化候補文字列画像を横縦比から 1 文字単位への仮分割を行う．各仮分割画像からメッシュ特徴と加重方向指数ヒストグラム特徴を抽出し，サポートベクターマシン(SVM)に入力して「文字らしさ」の評価値を出力する．(3) 2値化候補文字列画像の中で「文字らしさ」の最大平均評価値を持つものを最適な2値化結果として出力する．SVMの学習には，ICDAR2003 robust OCR datasetから抽出した 1000 枚のカラー単一文字画像を用いた．ICDAR2003 robust word recognition

datasetから抽出したカラー文字列画像1000枚を用いて2値化実験を行った結果，正解を

含む2値化候補画像の生成率は87.8%，正しい2値化画像の選択率は91.6%であり，全体

での正2値化率は80.4%を達成したことになる．

(3)

第 1 章序論

1.1 研究の背景

文字認識には半世紀近い活発な研究の歴史があり、パターン認識の中で最も実用化が進んだ技術の一つであり，多くの論文が発表されている[1][2]．特に、近年ではインターネット上のWebドキュメントや情景内カラー文字に関する研究が文字認識の分野で注目されており[3]，2003 年には英国エディンバラで開催された第 7 回文字認識・文書理解国際会議 ICDAR2003 においてカラー情景画像からの、(1) Text locating、(2) Robust word recognition、(3) Robust character recognition、についてそれぞれ別個のデータベースを用意したコンペティションも実施されている．

文字認識を正しく行うためには画像中から文字領域を抽出する必要があり，そのための手法として 2 値化処理がしばしば用いられている．特に，情景内カラー文字は多様な複雑背景や複数の色相を有しているため，文字領域と背景を分離する 2 値化処理の精度が文字認識性能を大きく左右する．

従来の情景内カラー文字の2値化においては，文字領域の明度や色相がほぼ一定していること，背景と文字領域は明度や色相が大きく異なっていることが前提となっている．主な2 値化手法としては，明度に着目する局所 2 値化[4],[5],色相の一定性に注目する色クラスタリング[6][7]がある．単一カラー文字を対象とした 2 値化の研究では，Yokobayashi 等[8]

のカラー空間での大津基準[9]による 2値化が挙げられる．しかし，これらの従来手法では複数の異なる色相から成る文字領域に対応できない．

1.2 研究の目的

本研究の目的は，複数の異なる色相から成るカラー文字列の最適な2値化の実現である．

そこで，次の流れに沿って処理を行うことで研究目的の実現を目指す．

初めに，カラー文字列の全画素をカラー空間に投影し，K-means クラスタリングで得られるKクラスタの2分割により2値化候補文字列画像を生成する．次に，生成された2値化候補文字列画像を横縦比から1文字単位に仮分割し，仮分割画像毎に特徴量を抽出する．

抽出された特徴量はSVMに入力されることで仮分割画像毎に「文字らしさ」の評価値を出力することができる．最後に，仮分割画像毎の「文字らしさ」の評価値を 2 値化候補文字列画像毎に平均し，2値化候補文字列画像の中で「文字らしさ」の最大平均評価値を持つものを最適な2値化結果として出力する．

(6)

1.3 研究の構成

本章では，序論として本研究の背景や，どのような目的で行われたかを述べた．第2章で使用した画像データを紹介する．第3章でK-meansクラスタリングを用いた2値化候補文字列画像の生成，第4章でサポートベクターマシンを用いた「文字らしさ」の判定と2 値化画像の決定，について説明する．第5章は実験結果であり，第6章で考察を述べる．

(7)

第

20 で，カ

・

・の3部が，応れてダ

図1 R

本研 Robu 験を行り，” 854枚 word り，” 171枚実験に

第 2 章

03年英国エ

カラー情景画 Text locati Robust wo Robust ch 部門について応募があったダウンロー

各部門で公 Robust char

研究では，R ust word re

行っている

”Sample”，” 枚，TrrailTr d recognitio

”Sample”，” 枚，TrrailTr に使用した各

使用

エディンバラ画像を対象に

ing

ord recognit aracter reco て別個のデーたのはText ド可能である

(a)

公開されてい racter recog

Robust cha cognition 部

．robust O TrailTrain”

rain：6185枚 on dataset TrailTrain”

rain：1156 各々の画像例

用した

で開催されに Robust re

tion ognition ータベースが

locating部る[11]．図1

いる画像例．

gnition．

racter reco 部門で用いら OCR datase

，”TrialTest 枚，TrialTe t は文字

，”TrialTest 枚，TrialTe 例を示す．

た画像

た第7回文 eading com

が用意された門のみであ

はそれぞれ

(a) Text loc

ognition 部門

られたrobus

t は 1 文字

t”に分かれて st：5430枚

列単位の t”に分かれて est：1110枚

像デー

字認識・文書 mpetitions が

た．実施結果った．使用されの部門の画

(b)

ating．(b) R

門で用いられ st word reco 字のみを含むている．それ枚，合計1246 の情景内カ

ている．それ枚，合計243

タ

書理解国際会が企画され，

が同会議中にされたデータ

像例である．

Robust word

れた robust ognition da む情景内カラれぞれの画像

69枚から成

カラー文字れぞれの画像

7枚から成っ

会議ICDAR

に報告されたタベースは公

．

(c)

d recognitio

OCR datas atasetを用いラー文字画像像枚数はSam る．一方，r 字列画像像枚数はSam

っている．図 R2003

た[10]

公開さ

n．(c)

set といて実像であ mple：

obust であ mple：

図2に

(8)

公開 PPM

図2

開されてい M形式に変換

2 使用した

る画像は JP 換をした．

画像例．(a)

PEG 形式で

(a)

(b) ) 単一カラーであるため，

ー文字．(b) プログラム

カラー文字

ムで処理しや字列．

やすいようにに予め

(9)

第 3 章 K-means クラスタリングを用いた 2 値化候補文字列画像の生成

本章では，カラー文字列の全画素をHSIカラー空間に投影し，K-meansクラスタリングによりK個のクラスタに分け，それらKクラスタを2分割する組合せにより網羅的な2値化候補文字列画像を生成する手法を提案する．

3.1 HSI カラー空間への投影

RGBカラー空間からHSIカラー空間に変換を行う．ただし，R, G, B ∈ [0,255]と同様に，H, S, I ∈[0,255]の値域となるようにスケール変換を施した．HSIカラー空間とは，

色相(Hue)，彩度(Saturation)，輝度(Intensity)の3つの成分からなる色空間である[12]．



^R ^G ^B



Imax , , ，^m^min



^R^,^G^,^B



， if I0 or Im then S0，H不定

else  255

 I m

S I ，

m I

R r I



  ，

m I

G I



 

g ，

m I

B b I



  ，

if RI then ^h^



^b^^g



3

 _，

if GI then ^h^



²^^r^^b



3

 ，

if BI then ^h^



⁴^^g^^r



3

 ，

if h0 then hh2，

255

h

H . (1)

画像サイズM×Nのカラー文字画像の全画素を(1)式に従ってHSIカラー空間に投影すると，総数M×N個の点がHSIカラー空間内に散布することになる．

予備実験において，RGBカラー空間からHSIカラー空間に変換することで，文字領域と背景とが分類し易くなっていることが確認できている．

(10)

3.2 HSI カラー空間における K-means クラスタリング

HSIカラー空間内のM×N個の点に対してK-meansクラスタリングを行い，K個のクラスタに分割する．当然，2値化候補文字列画像の中に正しい2値化画像を含むのに十分であるようパラメータKを決定する．

K-meansクラスタリング[13]の手法を以下に示す．

Step 1: M×N個の点からランダムにK個の点を選択し，クラスタ中心の初期値{_k⁽^^⁰⁾}

K

k1とする．次いで，全てのデータ点をそれぞれ最短距離のクラスタ中心に割り振ってグループ分けをする．各グループが1つのクラスタとなる．

Step 2: 各グループに含まれるデータ点の平均を求め，当該クラスタのクラタ中心の更

新値とする．1となり，更新されたクラスタ中心を改めて{_k^(⁾}^K_k_₁と記す．

Step 3: 全てのデータ点をそれぞれ最短距離のクラスタ中心に割り振ってグループ分け

をする．グループ分けに変動がなかった場合は，それらK個のクラスタを出力して終了する．変動があった場合は，Step 2に戻る．

K-meansクラスタリングにより得られたHSIカラー空間内の各クラスについて，当該ク

ラスタに属する画素群を元のカラー文字画像に逆投影すると，各々1枚の分離画像が生成される．これらK枚の分離画像の和集合が元の画像となる．

K-meansクラスタリングの結果は，K個のクラスタ中心の初期値の選び方に依存するた

め，本研究ではK-meansクラスタリングにマルチスタート探索を適用した．

マルチスタート探索とは，最適化問題の解が一般に初期値に強く依存してしまうため，

初期値を複数設定してそれぞれの解を求めておき，それらから最適解を選択する手法である．

今回のK-means法へのマルチスタート探索の適用では，複数解の中からクラスタ内分散の

和が最小となるクラスタリング結果を採用した．

3.3 K クラスタの 2 分割による 2 値化候補文字列画像の生成

K枚の分離画像群を網羅的に2つのグループに2分割して，一方を文字部分(黒)，他方を背景部分(白)として，複数の2値化候補文字列画像を生成する．

上記2分割の全ての組み合わせにより生成される2値化候補文字列画像の総数Nbinaryは次式の通りである．

2 2

1

0







^



K K

i i K

binary C

N (2)

図3に，1枚のカラー文字列に対する2値化候補画像の生成例を示す．ただし，クラスタ数はK = 5とした．

(11)

図3 2値化候補画像．

補文字列画像像の生成例．

(a)

(b)

(a) 元のカララー画像．(bb) 30枚の22値化候補文文字列

(12)

第

本章ートベ

サポ力し，

4.

ICD 平均値

カラ

式(

数S1 このにはほ

図

第 4 章

章では生成さベクターマシポートベクタ

，その出力値

1 カラー

DAR2003 ro 値alphaをあラー文字列の

(3)の計算を行 1，小数点以

の分割数S1 ほぼ1文字ず

4に，2値化

章サい 2

されたカラーシンを用いてターマシンに値を「文字ら

ー文字列

obust OCR あらかじめ求の画像サイズ

/ X S 

行うと値 S 以下を切り上

1，S2を用いずつが含まれ化候補文字列

サポーいた「

値化画

ー文字列の2 て，文字か非には，仮分割

らしさ」の評

列の 1 文字

datasetから求めておく．

ズがY×Xで

) /(Yalpha

S は一般に整上げたS2とい

いてカラー文れていると考列画像の仮分

トベク文字画像の

2値化候補文非文字かの判した2値化候評価値とする

字単位へ

ら抽出したカ

であるとき，

整数ではないいう2つの分文字列をS1個

考えてよい．

分割の例を示

(a)

クターらしさの決定

文字列画像を判定を行う手候補文字列画る．

への仮分

カラーの単一

次式で文字

ため，Sの小分割数を用い

個，S2個に各示す．

ーマシさ」の定

を1文字単位手法を提案す画像から抽出

分割

一文字画像10

列内の文字数

(3)

小数点以下をいることとす

各々仮分割す

シンをの判定

位に仮分割しする．

出した特徴量

000枚の横縦

数を推定する

を切り下げたする．

すると，分割

用定と

，サポ

量を入

縦比の

る．

た分割

割画像

(13)

図4

4.

2値ると考きさのに記す

(1)

(2)

(3)

ただ正規こではいるメメッシサイとに黒ュ特徴

図

2値化候補

よる仮分割．

2 カラー

値化候補文字考えられる．

の正規化処理す．

画像内全てる．

予め定めた決定する．

黒画素の重のサイズとし，画像の伸規化された仮は，2値画像メッシュ特徴シュ特徴

イズ 120×8

黒画素数を計徴とする．

5に，メッシ

補文字列画像

ー文字列

字列画像を1

．そこで，文理を施す．正

ての黒がその

た平均距離の

重心 g を(40 とする．

伸縮には共一仮分割画像か像についての

徴と加重方向

80 の画像を

計算して黒画

シュ特徴の概

像の仮分割の

列の 2 値化

文字単位に文字認識の前正規化後の画

の重心g，お

の正規化値r

0,60)に移動し

一次内挿法[1 から，文字かの汎用的画像向指数ヒスト

96 個の正方

画素比率を算

概念図を示す

(b) の例．(a) 分割

化候補画

に仮分割した仮前処理として画像サイズは

および重心g

r0(=25.0)に従

し，伸縮率 s

14]を用いたか非文字かを像特徴ではなトグラム特徴

方ブロック(

算出する．そ

す．

割数S1によ

画像から

仮分割画像はてよく用いら

は 120×80 と

から各黒画

従い，重心g周

s で大きさを

た．

判定するたく，文字認識徴[15]を取り

サイズ10×

それらを並べ

よる仮分割．

らの特徴量

はほぼ1文字られる，文字とした．具体

画素への平均距

周りの画像の

を正規化して

めの特徴量の識技術で従来

上げる．

×10)に分割すべた96次元ベ

(b) 分割数

量の抽出

字を含む画像字部分の位置体的な手順を

距離r，を算

の伸縮率

て，縦 120，

の抽出を行来よく用いら

する．ブロッベクトルをメ

S2に

出

像であ置と大を以下

算出す

⁄ を

横 80

う．こられて

ックごメッシ

(14)

加重方サイとに局タをか

図

4.

サポ超平面

いまする．

を入力数でマ

方向指数ヒス

イズ 120×8

局所方向ヒスかけ，96次元 6に，加重方

3 サポー

ポートベクタ面による2クま，分類すべ

．ここで，文力空間Xかマージンを最

ストグラム特

80 の画像を

ストグラムを元ベクトルへ方向指数ヒス

ートベク

ターマシン(S クラス分類器べきデータ群文字・非文字分から特徴空間

最大化するも

図

特徴

96 個の正方

を算出する．

へと次元圧縮ストグラム特

図6 加重方

ターマシ

SVM)はVap 器である[16]

群とそ分類であれば

Fへの写像ものとして，

5 メッシュ

方ブロック(

局所方向ヒ縮したものを特徴の概念図

方向指数ヒス

シンによ

pnikらによ

]．

その分類ラベば，文字で 1 像とする．SV 次式で定義

ュ特徴．

サイズ10×

ヒストグラムを加重方向指図を示す．

ストグラム特

よる文字

って提案され

ベル ∈ 1，非文字で

VMは，特徴

義される．

×10)に分割すに対し，2次指数ヒストグ

特徴．

・非文字

れたマージン

1, 1 が与 1となる．さ徴空間Fにお

する．ブロッ次元ガウスフグラム特徴と

字分類

ン最大化に基

与えられたもさらに，:X おける線形識

ックごフィルする．

基づく

ものと F X 識別関

(15)

ここ与え

と呼ば本研

本研非文字ある SVM

文字方法だ

① I べ

② 1 SVM

上記の画像

図

こで，





 

x  るカーネル

は凸二次計ばれる．

研究では，S

研究では，文字の 2 クラ

ICDAR200 M学習用の文

字データは次だけでは文字 ICDAR2003 べた手法を適り，正しい

136種類の大

M学習用の非記の方法①に像全てを学習

7に，SVM

 

x  f





 ^N

i i 1



 

y



 はデー

関数 K(x,y) 計画問題を解

SVMの実装

) , (x y K 文字列の2値ラス分類を行

3 robust OC 文字データ

次の2種類の字画像が非文 robust OCR 適用し， 2

2値化画像(

大小英文字の非文字データ

において，2 習用の非文字

M学習用デー

(a)

 

 

 N 

i

i i

iy x

1





_i





i

iyK x，x b

ータ x，y^を

y)で置き換え

解いて得られ

にSVM^light

||

exp( x

 

値化候補画像行うため，学

CR dataset

の方法で用意文字画像に比

datasetから抽 2 枚の2 1枚とは限らの活字フォン

値化候補画字データとす

ータの例を示

  

 x

b 写像した特徴えることがで

れる．非零の

t[17]を利用し )

||²

y 像を1文字単学習用データ

を用いる．

意した． 2種比べて少な過

抽出した100 値化候補画らない)を選別ントを収集し

画像 2 2 枚する．

示す．

(c)

徴空間での内できる．最大

係数に対応

し，以下に示単位に仮分割

にはカラー単

種類の方法を過ぎるからで

00枚の単一

画像を生成す別して学習用し，136×52枚

枚から正しい

(b)

(4)

内積であり，

大マージンを応するがサ

示すRBFカ (5) して特徴量を単一文字画像

を用いているである．

カラー文字画る． 2 2 用の文字デー枚の文字画像

い2値化画像

この内積をを与える非負サポートベク

ーネルを用

を抽出して文像データベー

るのは，下記

画像に第3章 2 枚から目視ータとする．

像を追加する

像を選別したを陰に負係数クター

いた．

文字・

ースで

記①の

章で述視によ

る．

た残り

(16)

フォント)．(c) 非文字画像(正しくない2値化候補画像)．

また，本研究における SVMの文字・非文字分類精度は表1の通りであった．

表1 SVMの文字・非文字分類精度．

メッシュ特徴加重方向指数ヒストグラム特徴正分類率 97.88% 89.97%

適合率 95.99% 76.52%

再現率 95.76% 87.98%

4.4 「文字らしさ」の判定と 2 値化画像の決定

本研究の目的は，1枚のカラー文字列画像から生成される 2 2 枚の2値化候補文字列画像の中から，最適な 2 値化画像を決定することである．そこで，本研究では，以下の方法で最適な2値化画像を決定する．

文字・非文字分類を学習したSVMに，仮分割画像の特徴量xを入力する．式(4)の値f(x) が仮分割画像ごとに出力されるため，各2値化候補文字列画像についてf(x)の平均値を求める．

4.1.で述べたように1枚の2値化候補文字列画像は分割数S1^，S2^で2通りに仮分割され

ているため，分割数S1^{における値}f(x)の平均値と分割数S2^{における値}f(x)の平均値とを比較し，大きい方の値をその 2 値化候補文字列画像における「文字らしさ」の評価値と考えることにする．これにより，総数 2 2 枚の2値化候補文字列画像の中で「文字らしさ」

の最大評価値，すなわち，f(x)の最大平均値をもつものを最適な2値化結果として出力する．

(17)

第 5 章実験結果

1000枚のカラー文字列画像に提案手法を適用した実験結果を述べる．K-meansクラスタリングで指定するクラスタ数はK = 5とした．式(2)より，生成される2値化候補文字列画像の総数は30枚となる．

予備実験では，K = 4, 6を用いた2値化候補文字列画像の生成も行った．その結果，K = 4では正しい2値化画像が生成されない場合が明らかに増大し，一方，K = 5では正しい2 値化画像が生成されないが，K = 6では生成される場合もあることを確認した．ただし，K

= 5の場合よりも余剰な2値化候補文字列画像が生成され，処理時間も増大したため，実験ではクラスタ数K = 5を採用した．

生成された 2値化候補文字列画像を目視で調べた結果，正しい2値化画像が含まれていたものは，カラー文字列画像1000枚中878枚であった．すなわち，正解を含む2値化候補画像の生成率は87.8%となった．この点については，次章で考察を行う．

5.1 提案手法の処理時間

開発環境は以下の通りであり，表2に処理モジュール毎の処理時間を掲げる．

・プログラミング環境： C言語，Microsoft Visual Studio 2008

・CPU： Intel CoreTM 2 Quad Q9550 2.83 GHz

・メモリ： 4GB RAM

表2 処理モジュール毎の処理時間．

処理内容処理時間(s) 2値化候補文字列画像30枚の生成 4.059

文字列の仮分割と特徴量の抽出 2.702 SVMによる文字・非文字の評価値の

出力

0.901

最大平均評価値による2値化画像の決定

0.002

合計 7.664

(18)

5.

図た提案

図正2値が，次いる．

2 提案手

8に，正し

案手法を適用 8より，メッ値化率で99 次章で分析す

．

手法によ

い2値化画用した結果のッシュ特徴で

.0%に到達しするように，

図

よる累積

像が含まれての累積正2値では正しい2 していること

これは今回

8 カラー文

2 値化率

ていた 878 値化率を示す 2値化画像のとが分かる．数

回対象とした

文字列の累積

率

枚のカラー文す．

の選択率が91 数値として十たカラー文字

積正2値化率

文字列画像に

1.6%であるこ十分に高い性字の判読の困

率．

に対し，4.で

こと，第4位性能とは言え困難性を反映

で述べ

位累積えない映して

(19)

第

本章る．

6.

提案に仮分ことはかとい行ったに予備

第 6 章

章では提案手

1 提案手

案手法では，

分割するこは行わない．

いうと，ICD た予備実験に備実験の結果

考察

手法の予備実

手法の予

情景内カラとで特徴量をではなぜこ DAR2003rob において，高果を示す．

図9 カラ

察

実験と提案手

予備実験

ラー文字列のを抽出し，実このような仮

bust OCR d 高精度で正

ラー単一文字

手法の能力の

の最適2 値化実験を行って仮分割を行っ datasetから

2 値化を行

字における各

の限界，および

化を実現するているが，従って文字列をら抽出したカ

えることが確

各特徴量のR

び今後の課題

るため，文字従来手法であを 1 文字単位ラー単一文字確認できたた

ROC曲線．

題について考

字列を 1文字あればこのよ位に切り分け字画像1000 ためである．

考察す

字単位ようなけたの 0枚で以下

(20)

図数ヒス FRR(

の5.7 では正していみ合わ響を受は採用

6.

提案

① K 候

② 1 2

9はカラー単ストグラム特 (False Reject 7%を達成し正しい2値化いることが分わせた特徴は受け易い点と用していない

2 提案手

案手法のキー K-meansクラ候補文字列画 1文字単位に 2クラス分類

図10

単一文字にお特徴を組み合 Rate) = FAR している．ま

化画像の選択分かる．ただは，加重方向と，文字列でい．

手法の能

ーアイディアラスタリング画像を生成すに仮分割した類を行うサポ

0 カラー単

おける各特徴合わせたメッ R(False Accep

た，図10よ

択率が93.7%

だし，このメ向指数ヒストでは処理時間

能力と限界

アは次の2点グで得られるする

た2値化候補ポートベクタ

単一文字の累

徴量のROC ッシュ特徴+加

ptance Rate)とより，メッシ

%であることメッシュ特徴トグラム特徴間が大幅に増

界

点である．

るK クラスタ

補文字列画像ターマシンに

累積正2値化

曲線であり，

加重方向指数となるERR(

シュ特徴+加重

，第7位累積徴と加重方向徴が文字列を増大する点を

タの網羅的な

像から特徴量に入力して「

化率．

，メッシュ特数ヒストグラ Equal Error R 重方向指数ヒ積正2値化率向指数ヒストを仮分割したを考慮し，文

な2分割によ

を抽出して，

文字らしさ」

特徴と加重方ラム特徴では Rate) の値がヒストグラム

率で99.9%に

グラム特徴た際のノイズ文字列の実験

より複数の2

，文字・非文

」を判定する方向指は，

が最小ム特徴に到達徴を組ズの影験の際

2値化

文字のる

(21)

上記文字列けされ上記なメる上で的で制補文字の学習

図

図11

一方際に，

い．特うに

図

記①により，

列画像に正しれている場合記②についてッシュ特徴，

で有効であっ制限のない非字画像で「文習を，提案手

11に，提案

提案手法択された2

方，提案手法

，文字を分断特に，加重方 2値化画像の

12に，提案

文字部分がしい 2 値化合のみでなくては， 2 値

加重方向指った．また，

非文字画像を文字でないも手法の目的に案手法により

により正し値化画像．

法の限界とし断してしまっ方向指数ヒスの選択率がメ案手法により

が複数の色相化画像が含ま

く，様々な劣値化候補文字

指数ヒストグ文字・非文を用いるので

もの」を用いに適したもの

正しく2値

く2値化画像

して，劣化のった場合などストグラム特メッシュ特徴誤った2値

相にまたがるれる可能性劣化を含む場字列画像から抽

グラム特徴を文字分類の学ではなく，カ

いることがでのに限定して値化画像が選

(a)

(b) 像が選択され

の大きい場合どは誤った 2 特徴はノイズ徴と比較して値化画像が選

(a)

る場合も，生が高くなる．

場合にも有効抽出する特徴を用いたこと

学習に用いるカラー文字画

できた．これて，効率的に

択された例

れた例．(a) 元

合や 2 値化候 2 値化画像をズの影響を受て大きく劣っ選択された例

生成された複これは，単効となる．

徴量として，

とが，「文字らる非文字デー画像から生成

れにより，文に行うことが

を示す．

元のカラー文

候補文字列画を選択してし受け易いためった結果とな

を示す．

複数の 2 値化単純に文字が

文字認識でらしさ」を評ータとして，

成された 2 値文字・非文字が出来た．

文字列画像．(

画像を仮分割しまう可能性め，図 8 で示なっている．

化候補が色分

で有効評価す一般値化候字分類

(b) 選

割した性が高示すよ

(22)

図12

図して誤

図13

この字列画に文字

図14

2 提案手法択された2

13は，カラ

誤った2値化

3 2値化候補

された2値列画像．

のように，仮画像の文字間字数を推測し

(a)

4文字間隔がが広い画像

により誤った値化画像．

ラー文字列の化画像が選択

(a)

補文字列画像値化画像．(c)

仮分割が失敗間隔が狭い画して仮分割を

が極端な2値像

た2値化画像

の文字数に対択された例で

像の仮分割が選択される

敗してしまう画像でも，広を行っている

値化候補文字

(b) 像が選択され

対して仮分割である．

(b)

(d)

が失敗した例るべき2値化

う例が発生す広い画像でもるためである

字列画像例．

れた例．(a) 元

の分割数が不

例．(a) 元の化画像．(d) 仮

するのは図14 もそれらを考る．

(b)

(a) 文字間隔

元のカラー文

不足しており

(c)

カラー文字列仮分割された

4に示すよう考慮せず，式

隔が狭い画像

文字列画像．(

り，仮分割が

列画像．(b) た2値化候補

うに2値化候式(3)によって

像．(b) 文字 (b) 選

が失敗

選択補文字

候補文て同様

字間隔

(23)

図分割数ばな

さが含ま

図

図大きい

6.

提案

①

②

③

④

14(a)の仮分数S2 = 5でらないが，実らに，第5章まれない場合

15に，正し

73 図1

15の例は人

いカラー文字

3 今後の

案手法の高度カラー文字する．これれるように

2 値化候補

る．

今回の実験いられるメ己相関関数る特徴量を

SVMでの

組織的に拡

分割数は本来で仮分割され実際には分割章で述べたよ合があった．

しい2値化画

THIRD

15 正しい2

人間でも文字字列画像につ

の課題

度化へ向けて字列画像の色れにより，最にする．

補文字列画像

験では，「文メッシュ特徴数特徴のようを採用する．

の学習に用い拡充する．

来，文字数通りる．一方，図割数S1 = 12 ように，30枚画像が生成さ

E 2値化画像が

字列として判ついては何ら

て，今後の課色空間でのク最小限の 2 値

像を仮分割す

文字らしさ」

徴と加重方向うな他の特徴

る「文字」用

り9でなけれ図14(b)の仮 2，分割数S

枚の2値化候されなかった

Engineering が生成されな

判読が困難ならかの対策を

課題は次の通クラスタリン値化候補文字

する最適な分

を評価する向指数ヒス徴量を検討し

用データにつ

ればならない仮分割数は本 S2 = 13で仮分

候補文字列画

カラー文字列

g なかったカラ

ものもある．

を講じる必要

通りである．

ングにおける字列画像の中

分割数をカラ

ための特徴量トグラム特徴し，「文字らし

ついて，劣化

いが，実際には本来，文字数

分割さていれ画像の中に正

列画像の例を

SUMM ラー文字列の

．このため，

要がある．

る最適クラス中に正しい 2

ラー文字列ご

量として，文徴を採用したしさ」の評価

・変形モデル

は分割数S1 数通り8でな

れる．

正しい2値化を示す．

MER の例．

劣化があま

スタ数を自動 2 値化画像が

ごとに自動決

文字認識技術たが，高次局価により適し

ルをも活用し

= 4，

けれ

化画像

まりに

動決定が含ま

決定す

術に用局所自してい

して，

(24)

第 7 章むすび

本研究では，認識に先立つ前処理として情景内カラー文字列の最適2値化手法を提案した．

まず，カラー空間をRGB空間からHSI空間へ変換し，K-meansクラスタリング（K = 5）

により得られたクラスタ網羅的な分割による総数30枚の2値化候補文字列画像を生成した．

次に， 2値化候補文字列画像を1文字単位に2通りの分割数で仮分割し，仮分割された各画像からメッシュ特徴と加重方向指数ヒストグラム特徴を抽出することで，SVMによる文字・非文字の評価値を出力させた．最後に，2値化候補文字列画像ごとに評価値の平均を求め，「文字らしさ」の最大平均評価値をもつ2値化候補文字列画像を最適な2値化結果として出力した．

文字・非文字の2クラス分類を行うSVMの学習にはICDAR2003 robust OCR dataset から抽出した1000枚のカラー単一文字画像と136×52枚のフォント画像を用いた．

ICDAR2003 robust word recognition datasetから抽出したカラー文字列画像1000枚を

用いて2値化実験を行った結果，正解を含む2値化候補画像の生成率が87.8%，正解を含む候補画像群からの正しい2値化画像の選択率が91.6%であった．これより，全体での正2

値化率80.4%を達成したこととなり，提案手法の有効性を確認した．

今後は2値化精度のさらなる向上のための課題として，最適クラスタ数および2値化候補文字列画像の最適分割数の自動決定，文字らしさを評価する特徴量の工夫，劣化・変形モデルをも活用した学習データの拡充について取り組んでいくつもりである．

(25)

謝辞

この論文が完成に至るまで，ご指導いただいた若原教授には大変お世話になりました．

同若原研究室の皆様も，自分の研究に行き詰った時などに，同じく遅くまで研究室に残り研究を続ける皆様の姿を見ると大変励まされました．これまで私を支えてくださった全ての方々に，心より感謝申し上げます．

2011 年 1 月 28 日

(26)

参考文献

[1] 森稔，澤木美奈子, “低品質文字の認識手法とその応用に関するサーベイ,” 信学技報, PRMU2001-275, March 2002.

[2] 黄瀬浩一，大町真一郎，内田誠一，岩村雅一, “カメラを用いた文字認識・文書画像解析の現状と課題,” 信学技報，PRMU2004-246, March 2005.

[3] D. Doermann, J. Liang, and H. Li, “Progress in camera-based document image analysis,” Proc.

of 7^th Int. Conf. on Document Analysis and Recognition, vol. I, pp. 606-616, Edinburgh, Aug.

2003.

[4] 大谷淳, 塩昭夫, “情景画像からの文字パターンの抽出と認識”, 信学論(D), vol. J71-D, no.6, pp. 1037-1047, June 1988.

[5] 松尾賢一, 上田勝彦, 梅田三千雄, “適応しきい値法を用いた情景画像からの看板文字列領域抽出”,信学論(D-II), vol. J80-D-II, no.6, pp. 1617–1626, June 1997.

[6] K. Wang and J. A. Kangus, “Character location in scene images from digital camera,” Pattern Recognition, vol. 36, no. 10, pp. 2287–2299, Oct. 2003.

[7] 芦田和毅, 永井弘樹, 岡本正行, 宮尾秀俊, 山本博章, “情景画像からの文字抽出”, 信学論(D), vol. J88-D-Ⅱ, no. 9, pp. 1817–1824, Sept. 2005.

[8] M. Yokobayashi and T. Wakahara, “Binarization and recognition of degraded characters using a maximum separability axis in color space and GAT correlation,” Proc. of 18^th Int. Conf. on Pattern Recognition, vol. II, pp. 885-888, Hong Kong, Aug. 2006.

[9] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE Trans. Systems, Man and Cybernetics, vol. SMC-9, pp. 62-69, Jan. 1979.

[10] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, and R. Young, “ICDAR 2003 robust reading competitions,” Proc. 7th Int. Conf. on Document Analysis and Recognition, vol. II, pp.

682-687, Edinburgh, Scotland, Aug. 2003.

[11] http://algoval.essex.ac.uk/icdar/Datasets.html

[12] R. C. Gonzalez and R. E. Woods, Digital Image Processing, Third Edition, Prentice Hall, 2008.

[13] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.

[14] 奥富正敏編, ディジタル画像処理, CG-ARTS協会, 2004.

[15] 大岡信治，栗田昌徳，原田智夫，木村文隆，三宅康二,“加重方向指数ヒストグラム法に

よる手書き漢字・ひらがな認識,” 信学論(D), vol. J70–D, no. 7, pp. 1390–1397, July 1987.

[16] V. N. Vapnik, The Nature of Statistical Learning Theory, Second Edition, Springer, 2000.

[17] T. Joachims, “Making large-scale SVM learning practical,” Advances in Kernel Methods:

Support Vector Learning, B. Schölkopf, C. J. Burges, and A. J. Smola (eds.). Chapter 11, MIT

(27)

Press, 1998.

マシンを用いた情景内カラー文字列の 2 値化

2010 年度修士論文

K-means クラスタリングとサポートベクター