氏名・(本 籍)
学位の種類 学位記番号 学位授与の日付 学位授与−の要件
学位論文題目
論文審査委員
MOSHE KUSHNIR (イスラエル)
工 学 博 士
工博甲第 14 号 昭和58年1月 7 日 学位規則第5条第1項該当
電子科学研究科 電子応用工学専攻
Machine Recognition of Hebrew Characters
(ヘブライ文字の機械認識)
(委員露)山田 菱
教 授 松本 欣二 助教授 阿部 圭一 助教授 鈴木 淳之
教 授 鈴木 久喜 教 授 松井 英一
論文内容の要 旨
本論文は印刷及び手書きヘブライ文字を自動的に認識する方法についての研究とその結果につい て述べたものである。
ヘブライ文字は27字種からなり,その内5字種は語の終りにだけ現れるサフィックス文字であ る。印刷文字の認識実験には各字種18サンプルが使用された。これらのサンプルはⅩ−Yプロッタ で書いたもので,実際の印刷文字に似せて適当なノイズを入れてある。
手書き文字は40人のイスラエル人に1人3字づつ書いてもらって,1字種120サンプルのデrタ ベースを作成した。記入用紙としては原稿用紙のような折目のあるものを使用したが,筆記者はこ の折目の中に書くこと以外に何の制限もうけない。文字の型は英字の大文字に相当するものであ
る。
認識手順は数ステージからなっている。本方法は手書き印刷の両者に使用可能である。ただし,
手書き文字は同じ字種でも,サンプルにより大きな変形があるから,少し変更されたものとなって いる。
第1ステージは前処理である。ノイズ除去,手書きの場合は大きさの正規化,細線化,文字の中 心の位置あわせからなっている。
第2ステージは分類である。文字のストPrクの端点の位置と数で分類する。27の字種は印刷体 では9組,手書きでは16組に分類された。同じ組に属する字種の数の一番多い組は,印刷体では7 字種,手書きでは11字種含んでいる。
−49−
ヘブライ文字を分顆しようとするとき出合う大きな問題は,よく似た字種が多いことである。10 番目の組に含まれる字種は特に興味がある。この組の字種はL形に接続した水平と垂直のストロー クからできていて,角形字種と呼ぶこととした。これらの字種を認識する唯一の方法は,ストロ・−
クの長さを測定する構造的処理である。
第3ステージは特徴の抽出である。文字バクrソをハフ変換して特徴を抽出する方法を使用し た。直線のパラメータ表示として(ク,β)を特徴として抽出した。学習の課程で,各特徴の相対的 頻度を求め,その発生度数を標準スペクトルの各要素の重みとした。各字種の標準ベクトルを20次 元とした場合,印刷文字で実験して99.6%の認識率が得られた。同じサンプルについて複合類似度 法及び重みつきテンプレート整合法で認識率を求める実験を行ったが,これらの方法より高い認識 率であった。
自動認識のアルゴリズムを評価するには,同じデrタベースに対する人間の認識率を求める必要 がある。そのため静大の10人の人達に人間の認識率を求める実験に協力してもらった。CRT上に 文字ノミターンを2値で表示し,人間が見てどの字種として認識するかを調べる実験を行った。
先づ,各字種10字(全部で270字)の中の任意の1字がCRT上に表示され,これを人間が読む 練習をする。次に別の270字の中の任意の1字をCRT上に表示して,人間の認識率を求める。こ
の実験では,10人の平均で92.4%の認識率が得られた。各字種の誤認識を分析して,このようなパ ターソを認識する場合,人間にどのような特徴を使用しているかの情報が明らかとなった。ヘブラ イ文字に対して何の知識もない人達(日本人)について実験したので,より多くの情報が得られ た。予想した通り,誤認識の多くは角形の字種によるものであった。
手書き文字の機械認識では,デrタベースを二つにわけ,各字種80字を学習用に,のこりの40字 をテスト用とした。
手書き文字にも前述の印刷体の認識方法を適用した。(ク,β)のサンプル間隔を変え,標準ベク トルの数を80に増加した。ハフ変換だけではよく似た字種を分離することが不充分であるから,事 後処理のステrジを加えた。
このステージに誤認識の多い字種を分離するための測定からなる,発見的,構造的な処理であ る。このようにして,角形字種を別として85.8%の認識率が得られた。角形字種については,分煩 のステージのあとに,構造的測定によって認識できるようにした。構造的処理にベrスの認識方法 を適用して,77.0%の認識率が得られた。角形字種に対する人間の認識率は75.0%であった。
本論文の最後の部分は,手書き文字を認識する別の方法に関するものである。この方法は二重包 含整合法と名付けられた。この方法はテンプレrト整合法の一種である。普通のテ.ソプレート整合 法と違う所は,三つの領域からなるマスクを使用している。同じ字種の学習パターンを多数重ね
重ならない部分を第3の領域としている。
構準パターン作成のアルゴリズムの中には人間の判断により進める部分があり,この判断によっ て標準パターンの数は変化するが,各字種とも15の標準バクrソを作成した。この標準バクナンを 利用した場合,角形字種をのぞいて84.1%の認識率が得られた。角形字種の認識は,前述と同じよ
うに寸法を測定して分離する方法をとった。
ー50−