安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線)

(1)

1．は　じ　め　に

世界の人口は 2050 年には 90 億人に達すると予想されており，エネルギーや食糧，水などの資源の枯渇，さらには地球温暖化や生態系の破壊など，世界的に問題が深刻化すると考えられている．NEC は，このような社会的課題を解決する会社として，「信頼性の高い情報通信インフラの構築」，「気候変動への対応と環境保全」，「安全安心な社会づくり」，「すべての人がディジタル社会の恩恵を享受」といったテーマに取り組んでいる．特に安全安心な社会づくりのために，人の目に代わる画像認識技術への期待は大きい．歴史的に見れば，文字の読取りや欠陥の検査など，人間が有する優れたパターン認識能力を用いた目視作業の代替手段として，産業の効率化のために画像認識技術は発展してきた．近年のコンピュータ技術の進展に伴い，高速かつ大量な処理が可能となり，人間の単なる代替手段としてだけでなく，ヒューマンエラーを低減するために人間の判断を支援したり，あるいは人間が取り扱えないほどの膨大な量の画像を解析することで，それまで得られなかった新たな価値を生むと期待されている．特に米国での同時多発テロ以降，ボーダーコントロール（国境管理）は一層厳しくなり，より迅速かつ正確に個人を特定することを目的に，顔認証や指紋認証といった生体認証（バイオメトリクス認証）が，出入国管理などで利用されている．これまで人手では困難だった，膨大な量の画像照合が瞬時に行えるようになり，より安全で安心な国境管理が実現されている．また，街中には防犯カメラや監視カメラが増え，犯罪の抑止力としてだけでなく，事件解決につながる記録手段として認識されつつある．さらには，単に事後の記録用としてだけでなく，事件や事故発生の即時通報や，あるいは予測までも可能にするような，映像解析技術の高度化が求められている． NECは，社会の要求に応えるべく指紋認証や顔認証の技術開発に力を入れ，世界トップの技術につくり上げてきた．近年は，公共施設や街頭での異常事態を即座に検知するための群衆行動解析や，事件や事故につながる行動の事前検知についても研究開発を進めている．本稿では，安全安心な社会を支える NEC の画像認識技術による実例をいくつか紹介するとともに，企業での研究開発を通して見た，画像認識技術における機械学習の役割と今後の期待についても述べたい．

2．顔認証技術

顔認証は生体認証の一つであり，非接触かつ遠くからでも認証が可能なこと，顔という人間にとってわかりやすい生体情報であるため応用範囲が広いこと，また顔がわかってしまうことによる犯罪の抑止効果もある点が，他の生体認証にはない利点とされる．本章では，NEC の顔認証技術 [今岡 10] を例に，実際に機械学習がどのように使われているのか，その概要を紹介する．顔認証とは，顔画像を使って本人かどうかを認証することを意味し，技術的には顔検出と顔照合から構成される． 2･1　顔検出における識別器の役割顔検出とは，画像中のどこに顔があるかを見つける処理である．具体的には，画像から切り出したある小領域 の特徴ベクトル x を識別器 f（x）に入力し，その出力値 に従って x が顔なのか，顔ではないのか（非顔）を判 定する（図 1）．例えば，顔の画像に＋1，非顔の画像に－1 なる正解ラベルを付与した学習データを用いて識別 器 f（x）を設計しておき，ある入力 x に対して f（x）の 出力が正なら顔，そうでなければ非顔と判定する．顔検出は顔と非顔を区別する 2 クラス識別問題であり，文字認識などと同様に，特徴空間のどこに識別境界を引けば誤りが最小になるか，という問題を解いている．図 2 を例に説明すると，さまざまな書体の A というクラスと B というクラスがあった場合，点線で示す位置に識別境界を設定すれば，A と B を正しく識別することができる．より正しい識別境界を引くために，正解ラベルのついた大量のサンプルを学習データとして用意し，識別器を学習することで識別境界を設定する．学習に用いる

安全安心な社会を支える画像認識技術

Image Recognition Technlology to Support Secure and Safe Societies

佐藤　　敦

NEC情報・メディアプロセッシング研究所

Atsushi Sato Information and Media Processing Laboratories, NEC Corporation. [email protected]

(2)

顔画像と非顔画像の例を図 3 に示す． 2･2　顔照合における識別器の役割顔照合とは，与えられた 2 枚の顔画像が同じ人物か，違う人物かを判定する処理である．具体的には，顔検出 によって切り出された領域から得た特徴ベクトル x と， 同様の処理によって事前にデータベースに登録した特徴 ベクトル y を識別器 f（x, y）に入力し，その出力値に従っ て x と y が同じ人物によるものなのか，そうでないのか を判定する（図 4）．顔照合の難しさは，顔が三次元物体であることと，顔が剛体でなく変化することにある．前者によって，照明や姿勢の変化によって画像の見えが大きく変化し，後者によって，表情や加齢，髭やメガネの影響を受ける．前者の問題に対しては，図 6 に示すように，1 枚の元画像から形状モデルと照明モデルによって姿勢と照明が変動した画像を生成することで対応している．後者の問題に対しては，このようなモデル化が困難なため，学習によって変動に頑健な特徴空間を設計している．顔照合における識別器の設計は，顔検出の場合とは少々異なる．例えば，図 2 に示したように，個人の ID をクラスとしてしまうと，100 万人を照合する場合は 100万クラスの大規模な識別問題になってしまう．さらに，新たな人物の顔画像を登録するたびに再学習が必要になり，実用的ではない．そこで，2 枚の顔画像が同じ人物の場合には＋1 を，異なる人物の場合には－1 を正解として与える，2 クラス識別問題とみなして識別器 f（x, y）を学習により設計しておき，ある入力の組 x, y に対して f（x, y）の出力が正なら本人同士，そうでなけ れば他人同士と判定する．ただし，識別器は f（x, y）＝ f （ y, x）を満たすものとする． 顔照合は顔検出と同様に 2 クラス識別問題とみなすことができるが，顔検出のように特徴空間に識別境界を引くのではなく，特徴空間をどのように設計すれば誤りが最小になるか，という問題を解いている．図 5 を例に説明すると，さまざまな人物 A の顔画像と人物 B の顔画像があった場合，A 同士あるいは B 同士が近づき，A と Bは互いに遠ざかる空間をつくることができれば，その空間内での近さによって，本人か他人かを判定できる．一度このような空間をつくることができれば，学習時には含まれない人物 C の顔画像を新たに登録する場合であっても，この空間におけるパターン間距離（メトリック）の特性を受け継ぐことができる．つまり，人物 C の顔画像同士は近く，異なる人物の顔画像からは遠くなるように，空間内に配置することができる．実際の利用場面では，データベースに登録する顔画像は極めて少なく，図 1 顔検出の機能． ある入力 x に対して顔か非顔かを判定する 図 2 顔検出での識別器の働き．特徴空間に識別境界を設定する図 5 顔照合での識別器の働き．特徴空間を，本人と他人の分離の良い空間につくり直す図 4 顔照合の機能． ある入力の組 {x, y} が同じ人物か，違う人物かを判定する 図 3　顔検出の学習に用いる顔画像，非顔画像の例図 6　摂動による顔画像生成．形状モデルおよび照明モデルにより，1 枚の顔画像から姿勢や照明が変動した画像を生成する元画像照明モデル形状モデル照明変動画像姿勢変動画像

(3)

合でも，メトリックがうまく設計できていれば，単純なマッチングで高い精度を得ることが可能である． 2･3　Multiple-Biometric Evaluation 米国国立標準技術研究所（NIST）では，顔認証の性能評価を 1993 年から継続的に行っており，NEC は 2010 年に行われた Multiple-Biometric Evaluation （MBE）に初めて参加した．本ベンチマークテストは，各参加機関が提出した顔認証エンジンを，NIST が自ら用意した非公開の顔画像データベースで評価したものであり，参加機関は手を出すことができない，非常に公平なテストとなっている．顔認証の評価基準には，本人確認（Verification）と検索（Identification）がある．本人確認は 1 対 1 照合とも呼ばれ，2 枚の顔画像が同じ人物か，異なる人物かを評価するものである．同じ人物同士を他人に間違える本人棄却率（FRR）と，異なる人物同士を本人に間違える他人受理率（FAR）はトレードオフの関係にある．つまり，FRR を低くしようとすると FAR が高くなり，その逆も同様である．NIST が用意したビザ申請顔画像に対する本ベンチマークテストの評価結果を，図 7 に示す．このグラフは FAR が 0.1％のときの FRR を比較したもので，NEC は FRR＝0.3％と，他の参加機関に比べて 1 桁近く少ない誤り率であった． 検索は 1 対 N 照合とも呼ばれ，N 人の顔画像の中か ら，本人の顔画像を正しく 1 位として検索する率が評価される．本ベンチマークテストで評価された，160 万人の顔画像からの 1 位検索正解率を，図 8 に示す．NEC は，ている．本ベンチマークテストでは，このほかにも照合速度の比較，加齢に対する認証精度の比較など，さまざまな項目が評価されている．これらの評価結果を含む報告書が NIST により公開されているので，詳細を知りたい読者は [Grother 11] を参照されたい．なお，NIST が 2013年に主催した顔認証ベンダテスト（FRVT）にも NECは参加し，2 位以下を大きく引き離す第 1 位の検索精度と評価されている．検索速度の評価でも，2 位の約 1.8倍となる 1 秒当たり 302 万件の顔画像検索が可能である [Grother 14]．このように，顔認証技術は近年大きく精度改善が進み，入国審査のように本人が協力的で，しかも屋内で照明が制御できるような場合の認証精度は，人間の能力を上回るとまでいわれている．しかし，監視カメラによる映像など，画像の解像度が低く，直射日光の当たる屋外だったり，あるいは非正面顔の場合は，まだ実用的な精度には至っていない．このような状況下では，単に機械学習を用いるだけでは精度改善に限界があり，精度低下を引き起こす外乱を抑える前処理や，そのような外乱に強い特徴抽出などの技術開発が必要になる．

3．群衆行動解析

画像認識で機械学習を用いたもう一つの事例として， NECの群衆行動解析技術を紹介する．安全安心な社会の実現に向けて，特に公共施設や街頭など人が多く集まるところでの群衆の行動を捉えたい，というニーズが高まっている．これはセキュリティ目的に限らず，マーケティング分野でも同様のニーズがある．そこで，人の密度と群衆の流れを数値化することで典型的な群衆の行動を検知する，群衆行動解析システムを開発した（図 9）．本章では，機械学習を用いた群衆の混雑度を推定する技術に絞って説明する．画像からの人数計測方法としては，人間の頭部を検出した後に集計する方法があるが，監視カメラのような俯角が浅いカメラ位置の場合は，多くの人が重なって写っ図 7　MBE における評価結果．他人を誤って受理する率を 0.1％としたときの，本人を誤って棄却する率．数値が小さいほど精度が良い図 9 群衆行動解析システム．人の密度と群衆としての流れを解析することで，典型的な群衆の行動を検知する異常混雑手段逃避取り囲み集団滞留図 8　MBE における評価結果． 160万人登録時の 1 位検索正解率．数値が大きいほど精度が良い

(4)

てしまい，頭部の一部でも隠れると正しく頭部を検出することが難しい．背景差分によって前景領域を切り出し，その前景の大きさや面積から人数を推定する方法もあるが，人物同士の重なりが大きいと，やはり正しく人数を計測することは難しい．人物領域をフレーム間で対応付け，人物を追跡しながら人数を計測する方法もあるが，人物の動きに対してフレームレートが低いと，追跡が正しく行えず精度が低下する．そこで，人物の頭部検出は行わず，ある小領域の中に含まれる人数を，アピアランスベースで直接計測する方法を開発した [池田 13]．この方法は 1 枚の画像から人数計測が行えるので，必ずしも動画像である必要はない．画像から切り出した小領域の例を図 10 に示す．図の上に示した数字は，各画像に含まれる人数（頭部の数）を表している．これらを学習データとして，図 11 に示す畳込みネットワークを学習する [LeCun 98]．最終層は 1ノードに統合され，小領域に対する正解人数とネットワークの出力の平均二乗誤差が最小となるようにネットワークの重みを更新する．すなわち，回帰問題として学習することで，画像内に含まれる人数を直接出力する．本手法を用いれば，頭部や身体の一部が隠れていても，精度良く人数を推定することが可能である．ただし，頭部の大きさは画像内の位置によって変わるため，人数推定時の小領域の大きさは，学習時の頭部サイズと合うように，位置ごとに違う大きさに設定し，各小領域で推定された人数の総和を，画像内の人数としている．本手法では，複数の人物が写った画像とその正解人数を付与した，大量の学習データが必要になるが，実際にこのようなデータをつくるには膨大な工数が必要になる．そこで，あらかじめ用意した人物画像を背景画像に複数貼り合わせることで，学習データを人工的に作成している．何人を貼り合わせたかはわかっているので，人手で正解付けする必要もなく，学習データ構築にかかる工数を大幅に削減できている．

4．　オートバイ認識

NECは新興国での安全安心な社会づくりに向けた取組みも行っている．本章では，アルゼンチン共和国のティグレ市での実例を紹介する．ティグレ市はリゾート地であり，安全意識が特に高い街として知られる．市内には，多数の監視カメラが設置されており，その映像を集中監視センターで多くの監視員が見ている．しかし，一人で多くのモニタを見るため，見逃しも少なくないことから，画像認識技術によってアラートを上げる機能が求められている．NEC は画像認識技術を使った映像監視システムを開発しており，その一例として，オートバイ認識を紹介する．ヘルメットを装着しないでオートバイを運転するのは，重大事故につながる危険性がある．また，路上でのカバンなどのひったくりの多くは，オートバイに乗った二人組の後部座席の人によって行われる．つまり，オートバイの二人乗りは，それ自体が事件の兆しとなる不審行動の一つに相当するという．このように，新興国ではオートバイが社会の安全安心に大きく影響しているため，オートバイ認識技術を開発した．走行中のオートバイの検出のみならず，ノーヘル（メット）検知と二人乗り検知を可能にしている（図 12）．監視カメラの映像にこれらの人物が映った場合はアラートを上げ，監視員がモニタに注目するよう誘導することで，監視員の見逃しや見落としがないようサポートしている．学習には多くの画像が必要だが，ノーヘルや二人乗りで走行するオートバイの例は少なく，学習データ不足のため精度が上がらない．この問題に対して，オートバイ本体と人物部分を別のパーツとして学習することで，組合せの数を抑えるとともに，群衆行動解析における学習と同様，画像の貼り合わせによって擬似的に学習データを生成することで，学習データ構築にかかる工数を大幅に削減している．

5．　ナンバプレート向け超解像

実例紹介の最後として，NEC で開発したナンバプレート向けの超解像技術について説明する [柴田 13]．超解像技術は，低解像画像をより高解像で鮮明な画像に復元図 10 ネットワークの学習に用いた画像の例．図の上の数字は，正解として与えた人数を表す図 11　群衆の人数計測で使われるネットワーク図 12 オートバイ認識．ノーヘル検知と二人乗り検知の例

(5)

を復元する必要がある．その方法には大きく二つあり，一つは複数枚の低解像画像を重ね合わせる複数枚超解像と呼ばれる方法であり，もう一つは，あらかじめ低解像画像に対応する高解像画像を辞書として用意しておく学習型超解像と呼ばれる方法である．学習型超解像はさらに，回帰ベースの方法と事例ベースの方法に大別でき，ここでは事例ベースの方法について述べる．パターンのバリエーションが少ない場合はこの事例ベースは非常に有効であり，例えば図 13 に示すように，人間では判別できないほどの低解像画像であっても，高解像化が可能である．ちなみに，このナンバプレート画像の正解は「11-66」である．事例ベースの学習型超解像の概要を図 14 に示す．学習フェーズでは，高解像のナンバプレート画像に対し，劣化過程モデルによって低解像度化し，対応するパッチのペアを辞書として登録する．復元フェーズでは，入力された低解像画像の小領域ごとに，辞書に登録された低解像パッチとの類似度を計算し，最も似たパッチに対応する高解像度パッチを埋め込むことを繰り返すことで，画像全体を復元する．ただし，入力された低解像画像の劣化過程に合わせるために，劣化過程モデルのパラメータに摂動を与えることで，復元される画像の精度を高めている．

6．画像認識と機械学習

安全安心な社会を支える NEC の画像認識技術の実例をいくつか紹介したが，認識精度向上には機械学習が欠かせない．そこで本章では，画像認識における機械学習の役割について述べたい．実世界は三次元であるが，その姿勢や照明の変化によって見えが大きく変わってしまう．そこで，撮影環境に制限を加えるとともに，画像変動を抑える前処理などの開発によって実用的な精度まで高めることができる．そのときの精度の底上げに，機械学習はこれまで大きく貢献してきている． 6･1　画像認識の処理過程画像認識技術は，一般的には図 15 に示すとおり，「観測」，「前処理」，「特徴抽出」，「識別」の各処理から構成されており，図の左から右へ一方向で処理される．「観測」とは，実世界の認識対象を，処理可能な電気信号に変換する処理である．通常のカメラや赤外線カメラ，イメージスキャナなどによって，信号の空間的な変化である二次元パターンを画像として捉える．信号の時間的な変化を加えた動画像や，奥行き情報からなるデプス画像なども，目的に応じて利用される．「前処理」とは，信号に含まれるノイズを低減したり，信号の大きさをそろえたりする処理である．具体的には，画像の輝度値の正規化や鮮鋭化，画像から切り出した対象領域の大きさや回転の正規化，認識対象に特化した姿勢の正規化などが含まれる．「特徴抽出」とは，認識対象の識別に有効な特徴を画 像から取り出す処理である．1 枚の画像から N 個の特徴 値を取り出した場合，これを N 次元の特徴ベクトルと して表現することが多い．抽出した N 次元特徴ベクト ルを，特徴選択や写像によって低次元化する特徴変換処理も，この処理過程に含まれる．「識別」とは，特徴ベクトルがどのクラスに属するかを判定する処理である．ここでクラスとは，認識対象がもつ属性を記号で表したもので，目的に応じて人間が定める．例えば，算用数字を認識させる場合には，数字の「0」に対するクラスとして，JIS コードの 2330h などの記号が用いられる．実際には，クラスごとに識別器を用意しておき，特徴ベクトルを入力したときのそのクラスに対する一致度（類似度）を数値で出力し，それが最も大きいクラスに対応する記号を認識結果とする．出力値から信頼度を定義し，信頼度が低い場合はクラス不明と判定する場合もある．以上のように，画像認識技術は複数の処理から構成されているため，高い認識精度を実現するには，これらすべての処理について，認識対象や利用環境に応じて最適設計する必要がある．つまり，精度が低下する要因がどこにあるのかを分析し，対策を講じなくてはならない．図 13　学習型超解像の処理例図 15　画像認識技術の処理過程観測前処理特徴_抽出識別クラス図 14　学習型超解像手法の概要

(6)

6･2　処理過程の特性画像認識技術の処理過程は，認識対象に近い前段になるほど対象依存性が高く，後段になるほど抽象度が高くなる特性があり，前段になるほど認識精度に対する影響が大きい．最前段の「観測」については，カメラなどの入力系は既成の製品を使うことが多いが，カメラに対する認識対象の距離や向き，解像度，圧縮率，フレームレート，照明環境など，撮影条件によって認識精度は大きく変化する．この条件設定が悪いと，その後の処理での精度改善に限界が生じる．したがって，この撮影条件をどのように設定するか，言い方を換えれば，撮影条件の自由度をいかに厳しく制限するかが，実用に耐え得る画像認識技術につくり上げる際には，極めて重要である．次の「前処理」も，認識対象に強く依存した処理になるため，画像認識の専門家が，対象に応じてアルゴリズムを開発する必要がある．しかも，精度を上げようと対象に特化すればするほど汎用性は低くなり，認識対象が変わる度につくり直す必要が出てくる．実際の開発現場では，精度改善作業のほとんどが，この前処理に当てられており，試行錯誤が多いことから「泥臭いパターン認識」とも揶ゆ揄やされる．しかし，精度低下の原因となる外乱を詳細に分析して対処できれば，それが逆に技術の強みになる場合もある．「特徴抽出」では識別に有効な特徴を設計する必要があるが，何が有効なのかは試してみないとわからず，「特徴抽出に王道なし」といわれるように，多くの試行錯誤が発生する．しかし，誰しも良い特徴がつくれるわけではなく，特徴設計にはある種のセンスが必要とされる．つまり，認識対象の素性をよく分析し，クラス内のばらつきが小さく，クラス間のばらつきが大きいような画像特徴を設計できる能力が求められる．ヒューリスティックな方法ではあるが，人間の先見知識を取り入れることができ，良い特徴が設計できれば，後段の識別処理が単純なマッチングであっても，非常に高い精度を出すことができる．一例として，指紋のマニューシャ特徴があげられる．指紋の隆線は，渦状紋，弓状紋，蹄状紋など，いくつかの典型的なパターンを示すが，マニューシャと呼ばれる隆線の端点や分岐点はランダムに発生する．このランダム性によって，同じ配置を示す他人の存在確率は非常に低くなるため，高い精度で本人を特定することができる．NEC で開発したマニューシャリレーション特徴では，マニューシャ間を通る隆線の本数も計測することで，より精度を高めている（図 16）．米国国立標準技術研究所（NIST）が主催した指紋ベンダ技術評価プロジェクト FpVTE2003で，18 社 34 システムの中で認証精度 1 位を獲得するなど [Wilson 04]，いくつかのベンチマークテストで 1 位を獲得しており，NEC の指紋認証技術は世界でも高い評価を受けている．特徴がベクトル表現された後の「識別」は，数理的手法との整合性が良い．以前は，識別処理も専門家がルールベースで記述したこともあったが，今では機械学習による自動設計が支配的である．画像認識における機械学習の大きな役割は，この最終過程である識別処理の精度改善にあるといっても過言ではない．これについて，次節で少し詳しく説明したい． 6･3　パターン認識と機械学習一般に，「パターン認識」はもっと広い意味で使われる用語であるが，識別処理を狭義のパターン認識と呼ぶこともあり，実際に「パターン認識＝識別処理」としている解説書も多い．パターン認識の基礎理論としては，ベイズ決定理論が ある．K をクラス数とすると，入力 x に対してクラス ωk（k＝1, …, K）が発生する事後確率 P（ωk｜x）が最大 となるクラス ωkに判定すれば，最適性が保証される＊1．すなわち，このときの平均誤り確率は最小になることが保証される（ベイズ誤り確率と呼ばれる）．したがって，パターン認識の課題は，事後確率をいかに正しく求めるかに尽きるといえる．これには，（1）確率密度関数を推定し，ベイズの定理によって間接的に事後確率を求める．（2）識別問題を回帰問題とみなし，事後確率を直接的に推定する．（3）連続化した経験損失を，直接最小化する．の三つのアプローチがある [佐藤 12]．いずれも有限個のサンプルをもとにモデルのパラメータを推定することから，機械学習が大きな役割を担っている． § 1 確率密度関数の推定第 1 のアプローチは，クラスごとの確率密度関数 p（x｜ωk）を推定し，P（ωk｜x）＝P（ωk）p（x｜ωk）/p（x） なるベイズの定理を用いて，間接的に事後確率を求めるものである．具体的な方法としては，学習を行わないノンパラメトリックな方法と，最尤推定やベイズ推定に基づいてパラメータを推定する，混合分布モデルがある． 前者の例として知られる k 近傍法（k-NN）は，客観的 図 16　指紋認証におけるマニューシャリレーション特徴＊1 正確にいえば，これは 0-1 損失のときの最適性であって，より一般的には，任意の損失に拡張したベイズ決定則によって，最適性が保証される．

(7)

計的パターン認識とも呼ばれ，正規分布の場合はパターン認識研究の初期から研究が行われ，潜在変数が扱える EM アルゴリズムの出現以降は，混合分布モデルが研究されてきた．EM アルゴリズムとは，完全データが背後にあり，観測データはその不完全データであると考えるもので，完全データの尤度の期待値を最大化することで，不完全データの尤度を間接的に最大化する．混合正規分布モデル（GMM）では，混合比を潜在変数とみなし，不完全データである観測データと合わせたものを完全データとして推定を行うが，共分散行列の要素数は次元数の二乗のオーダで増えるため，高次元では著しく精度が低下する“次元の呪い”と呼ばれる問題が指摘されている． § 2 事後確率の直接推定第 2 のアプローチは，正解クラスに 1，不正解クラスに 0 を目的関数として与え，識別器の出力との平均二乗誤差を最小化するものである．識別問題を回帰問題とみなし，事後確率を直接推定することを目指す．任意の非線形写像を構築できる多層パーセプトロン（MLP）の学習が可能な，誤差逆伝播法と呼ぶ学習方法が提案されたことを契機に，1980 年代後半はこのアプローチをとるニューラルネットモデルが一大ブームとなった．しかし，局所解に捕捉されることが多く，必ずしも望ましい非線形写像がつくれない問題があった．畳込みニューラルネット（CNN）は，視覚神経系をモデル化したネオコグニトロンと同じく，より深い多層構造でありながら，各層間の結合を少なくすることで誤差逆伝播法で学習できるようにしたモデルであり，パターンの局所変動を吸収する構造になっているため，画像認識に向いているといわれる．しかし，ネットワークの構造の決め方や重みの初期設定方法に決定打がなく，多くの試行錯誤が必要なのは，ニューラルネットモデルの共通の問題といえる．近年は，教師なし学習で低い層から構築する深層学習（Deep Learning）が注目されており，再びニューラルネットブームが到来している．これについては後述する． § 3 経験損失の最小化第 3 のアプローチは，学習サンプルに対する損失（経験損失）を直接最小化するものである．ベイズ決定理論から，事後確率の最大化は平均誤り確率の最小化に等しいといえるので，事後確率の代わりに平均誤り確率，つまり損失を直接最小化することを目指す．ただし，経験損失は離散的なので，勾配法によって探索できるように，連続化した損失を最小化する．具体的な方法としては，最小分類誤りやサポートベクタマシン（SVM）で採用されている構成的リスク最小化が知られる．特に SVM は，クラス間のマージンの最大化を導入することで，凸二次計画問題として定式化し，大域最適解への収束を保証した．ニューラルネットモデルでの課題だった局所解への捕捉が解決されたことで，1990 年代は線形識別器であるが，カーネルトリックによって非線形化することの有効性を示したことで，主成分分析や判別分析など従来の線形モデルがカーネルトリックによって非線形化されるなど，その波及効果は大きい．SVM はスパース正則化によってモデル自由度を減らす効果があるものの，動画像を扱うにはそれでも処理が遅いため，線形 SVM で代用されることが多い．著者が提案した一般化学習ベクトル量子化（GLVQ）も，同じく経験損失を最小化するものであるが，SVM が学習サンプルの重みだけを学習するのに対し，標準パターンとなる参照ベクトルの特徴空間内での位置を最適化することを目指す [Sato 96]．評価関数は凸ではないため，勾配探索による大域最適解への収束は必ずしも保 証されないが，k-means などによって良い初期値が設定 できるため，高い精度が得られる．実際に，SVM よりも圧倒的に少ないモデル自由度で，SVM と同等以上の精度が実現できており [Sato 13]，また処理が高速なため動画像へも適用できる．実例として紹介した顔認証やオートバイ認識でも，本技術が活用されている．近年はディジタルカメラに顔検出機能が搭載されているが，ここで使われているブースティングと呼ばれる技術も，このアプローチに含まれる．ブースティングとは，弱い識別器を組み合わせて，強い識別器をつくるための枠組みであり，AdaBoost では exp 型の損失が減るように，弱識別器を逐次統合していく．大域最適解が得られる保証はないが，各特徴の線形結合で識別器を構成できることから特徴選択の効果があり，モバイル向けの遅い CPUでも高速に動作する利点がある．以上，識別処理における機械学習の三つのアプローチについて述べた．アプローチは異なるものの，いずれもベイズ決定理論の枠組みを外れるものではないことに注意したい．サンプルが無限にあれば，いずれのアプローチをとっても同じ結果が得られるはずであるが，現実にはサンプルは有限であるため，結果に違いが生じる．画像認識技術の実利用に際しては，単に認識精度だけでなく，処理速度や移植のしやすさなど総合的に判断する必要がある． 6･4　機械学習への期待近年，機械学習の分野では深層学習（Deep Learning）が注目されている．深層学習とは，従来のニューラルネットワークの層をさらに多くした，深い層構造をもつニューラルネットの学習方法である．これまでのニューラルネットでは，誤差逆伝播法で学習すると下の層に行くほど誤差が分散されて，重みの学習がなかなか進まない問題と，重みに関する初期値の良い設定方法がなく，大域最適解から遠く外れたところから学習をスタートするため局所解に捕捉されやすい問題があった．同じく深層構造をもつ CNN は，層間の結合を少なくすることに

(8)

◇　参　考　文　献　◇

[Grother 11] Grother, P. J., Quinn, G. W. and Phillips, P. J.:

Multiple-Biometric Evaluation （MBE） 2010 ─ Report on the

Evaluation of 2D Still-Image Face Recognition Algorithms,

NIST Interagency Report 7709, National Institute of Standards and Technology （2011）

[Grother 14] Grother, P. and Ngan, M.: Face Recognition Vendor

Test （FRVT） ─ Performance of Face Identification Algorithms, NIST Interagency Report 8009, National Institute of Standards and Technology （2014）

[Hinton 06] Hinton, G. E., Osindero, S. and Teh, Y. W.: A fast learning algorithms for deep belief nets, Neural Computation, Vol. 18, No. 7, pp. 1527-1554 （2006）

[池田 13] 池田浩雄，大網亮磨：群衆パッチ学習に基づく人数推定，第 12回情報科学技術フォーラム（FIT2013），第 3 分冊，pp. 129-130 （2013）

[Imagenet 12] IMAGENET Large Scale Visual Recognition Challenge （2012），http://image-net.org/challenges/ LSVRC/2012/

[今岡 10] 今岡仁，早坂昭裕，森下雄介，佐藤敦，広明敏彦：顔認証技術とその応用，NEC 技報，Vol. 63, No. 3, pp. 26-30 （2010） [LeCun 98] LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P.:

Gradient-based learning applied to document recognition,

Proc. IEEE 86.11, pp. 2278-2324 （1998）

[Sato 96] Sato, A. and Yamada, K.: Generalized learning vector quantization, Advances in Neural Information Processing

Systems, Vol. 8, pp. 423-429 （1996）

[佐藤 12] 佐藤敦：パターン認識問題の数理，信学会基礎・境界 ソサイエティ Fundamentals Review, Vol. 5, No. 4, pp. 302-311 （2012）

[Sato 13] Sato, A. and Ishii, M.: Inverse of lorentzian mixture for simultaneous training of prototypes and weights, Proc.

ICPRAM, pp. 151-158 （2013）

[柴田 13] 柴田剛志，池谷彰彦，仙田修司：摂動事例によって構成される事例ベース超解像，信学論（D），Vol. J96-D, No. 8, pp. 1790-1800 （2013）

[Wilson 04] Wilson, C., Hicklin, R. A., Korves, H., Ulery, B., Zoepﬂ, M., Bone, M., Grother, P., Micheals, R., Otto, S. and Watson, C.:

Fingerprint Vendor Technology Evaluation 2003: Summary of Results and Analysis Report, NIST Interagency Report 7123,

National Institute of Standards and Technology （2004）

2014年 7 月 9 日　受理よって誤差の分散を抑え，前者の問題を軽減することに成功した．一方，深層学習では，図 17 に示すように，プレトレーニングとして下の層から 1 層ごと教師なしで学習したものを積み上げ，ファインチューニングとして最後に誤差逆伝播法で教師あり学習を行うことで，上記二つの問題を解決するといわれる [Hinton 06]．深層学習は，一般物体認識のグランドチャレンジである ILSVRC 2012 で圧倒的性能を見せつけて，大きな注目を浴びた [Imagenet 12]．深層学習が画期的なのは，識別だけでなく特徴抽出も含めて学習できることにある．深層学習に興味を示す企業も多く，1980 年代後半のニューラルネットブームの再来のようにいわれているが，単なるブームに終わらず，人間の高度なパターン情報処理の原理の解明につながるような成果を期待したい．また，機械学習の最大の課題は，大量の学習データを用意しないと，その性能が十分には発揮できないことにある．少しの教師付きデータを手掛かりに精度を改善する半教師あり学習や，効果的な正解付けを行う能動学習，あるいは異なるドメインに適応させる転移学習など，機械学習の実利用をさらに広げるような，学習の容易化に関する研究にも，より一層の成果を期待したい．

7．お　わ　り　に

安全安心な社会を支える NEC の画像認識技術として，顔認証，群衆行動解析，オートバイ認識，ナンバプレート向け超解像の実例を紹介した．また，企業での研究開発を通して見た，画像認識技術における機械学習の役割と期待について述べた．画像認識の高精度化には，観測，前処理，特徴抽出，識別のすべてを最適設計する必要があるが，機械学習はこれまで識別の高精度化に貢献してきた．近年注目されている深層学習は，特徴抽出も含めた自動設計方法として魅力的であり，今後の進展に期待したい．また，機械学習の実利用をさらに広げるような，学習の容易化に関する研究にも，より一層の成果を期待したい．図 17　深層学習によるニューラルネットワークの学習

著　者　紹　介

佐藤　　敦（正会員） 1989年東北大学大学院理学研究科博士課程後期修了，理学博士．同年，NEC に入社．中央研究所にてパターン認識，機械学習の研究開発に従事．文字認識，顔認証など画像認識の技術開発に携わる．1994 ～ 95 年米国ワシントン大学客員研究員，2008 年米国マサチューセッツ工科大学客員研究員．2010 年本学会現場イノベーション賞銀賞，2011 年情報処理学会喜安記念業績賞，第 25 回独創性を拓く先端技術大賞フジサンケイビジネスアイ賞，2012 年関東地方発明表彰神奈川県知事賞，2013 年電子情報通信学会業績賞，2014 年全国発明表彰発明賞，各受賞．電子情報通信学会，IEEE 各会員．

安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線)

1．は じ め に

2．顔 認 証 技 術

安全安心な社会を支える画像認識技術

Image Recognition Technlology to Support Secure and Safe Societies

佐藤 敦

3．群 衆 行 動 解 析

4． オートバイ認識

5． ナンバプレート向け超解像