1.は じ め に
世界の人口は 2050 年には 90 億人に達すると予想さ れており,エネルギーや食糧,水などの資源の枯渇,さ らには地球温暖化や生態系の破壊など,世界的に問題が 深刻化すると考えられている.NEC は,このような社 会的課題を解決する会社として,「信頼性の高い情報通 信インフラの構築」,「気候変動への対応と環境保全」,「安 全安心な社会づくり」,「すべての人がディジタル社会の 恩恵を享受」といったテーマに取り組んでいる.特に安 全安心な社会づくりのために,人の目に代わる画像認識 技術への期待は大きい. 歴史的に見れば,文字の読取りや欠陥の検査など,人 間が有する優れたパターン認識能力を用いた目視作業の 代替手段として,産業の効率化のために画像認識技術は 発展してきた.近年のコンピュータ技術の進展に伴い, 高速かつ大量な処理が可能となり,人間の単なる代替手 段としてだけでなく,ヒューマンエラーを低減するため に人間の判断を支援したり,あるいは人間が取り扱えな いほどの膨大な量の画像を解析することで,それまで得 られなかった新たな価値を生むと期待されている.特に 米国での同時多発テロ以降,ボーダーコントロール(国 境管理)は一層厳しくなり,より迅速かつ正確に個人を 特定することを目的に,顔認証や指紋認証といった生体 認証(バイオメトリクス認証)が,出入国管理などで利 用されている.これまで人手では困難だった,膨大な量 の画像照合が瞬時に行えるようになり,より安全で安心 な国境管理が実現されている.また,街中には防犯カメ ラや監視カメラが増え,犯罪の抑止力としてだけでなく, 事件解決につながる記録手段として認識されつつある. さらには,単に事後の記録用としてだけでなく,事件や 事故発生の即時通報や,あるいは予測までも可能にする ような,映像解析技術の高度化が求められている. NECは,社会の要求に応えるべく指紋認証や顔認証 の技術開発に力を入れ,世界トップの技術につくり上げ てきた.近年は,公共施設や街頭での異常事態を即座に 検知するための群衆行動解析や,事件や事故につながる 行動の事前検知についても研究開発を進めている.本稿 では,安全安心な社会を支える NEC の画像認識技術に よる実例をいくつか紹介するとともに,企業での研究開 発を通して見た,画像認識技術における機械学習の役割 と今後の期待についても述べたい.2.顔 認 証 技 術
顔認証は生体認証の一つであり,非接触かつ遠くから でも認証が可能なこと,顔という人間にとってわかりや すい生体情報であるため応用範囲が広いこと,また顔が わかってしまうことによる犯罪の抑止効果もある点が, 他の生体認証にはない利点とされる.本章では,NEC の顔認証技術 [今岡 10] を例に,実際に機械学習がどの ように使われているのか,その概要を紹介する.顔認証 とは,顔画像を使って本人かどうかを認証することを意 味し,技術的には顔検出と顔照合から構成される. 2・1 顔検出における識別器の役割 顔検出とは,画像中のどこに顔があるかを見つける処 理である.具体的には,画像から切り出したある小領域 の特徴ベクトル x を識別器 f(x)に入力し,その出力値 に従って x が顔なのか,顔ではないのか(非顔)を判 定する(図 1).例えば,顔の画像に+1,非顔の画像に -1 なる正解ラベルを付与した学習データを用いて識別 器 f(x)を設計しておき,ある入力 x に対して f(x)の 出力が正なら顔,そうでなければ非顔と判定する. 顔検出は顔と非顔を区別する 2 クラス識別問題であ り,文字認識などと同様に,特徴空間のどこに識別境界 を引けば誤りが最小になるか,という問題を解いている. 図 2 を例に説明すると,さまざまな書体の A というクラ スと B というクラスがあった場合,点線で示す位置に識 別境界を設定すれば,A と B を正しく識別することがで きる.より正しい識別境界を引くために,正解ラベルの ついた大量のサンプルを学習データとして用意し,識別 器を学習することで識別境界を設定する.学習に用いる安全安心な社会を支える画像認識技術
Image Recognition Technlology to Support Secure and Safe Societies
佐藤 敦
NEC情報・メディアプロセッシング研究所Atsushi Sato Information and Media Processing Laboratories, NEC Corporation. [email protected]
顔画像と非顔画像の例を図 3 に示す. 2・2 顔照合における識別器の役割 顔照合とは,与えられた 2 枚の顔画像が同じ人物か, 違う人物かを判定する処理である.具体的には,顔検出 によって切り出された領域から得た特徴ベクトル x と, 同様の処理によって事前にデータベースに登録した特徴 ベクトル y を識別器 f(x, y)に入力し,その出力値に従っ て x と y が同じ人物によるものなのか,そうでないのか を判定する(図 4). 顔照合の難しさは,顔が三次元物体であることと,顔 が剛体でなく変化することにある.前者によって,照明 や姿勢の変化によって画像の見えが大きく変化し,後者 によって,表情や加齢,髭やメガネの影響を受ける.前 者の問題に対しては,図 6 に示すように,1 枚の元画像 から形状モデルと照明モデルによって姿勢と照明が変動 した画像を生成することで対応している.後者の問題に 対しては,このようなモデル化が困難なため,学習によっ て変動に頑健な特徴空間を設計している. 顔照合における識別器の設計は,顔検出の場合とは 少々異なる.例えば,図 2 に示したように,個人の ID をクラスとしてしまうと,100 万人を照合する場合は 100万クラスの大規模な識別問題になってしまう.さら に,新たな人物の顔画像を登録するたびに再学習が必 要になり,実用的ではない.そこで,2 枚の顔画像が同 じ人物の場合には+1 を,異なる人物の場合には-1 を 正解として与える,2 クラス識別問題とみなして識別器 f(x, y)を学習により設計しておき,ある入力の組 x, y に対して f(x, y)の出力が正なら本人同士,そうでなけ れば他人同士と判定する.ただし,識別器は f(x, y)= f ( y, x)を満たすものとする. 顔照合は顔検出と同様に 2 クラス識別問題とみなすこ とができるが,顔検出のように特徴空間に識別境界を引 くのではなく,特徴空間をどのように設計すれば誤りが 最小になるか,という問題を解いている.図 5 を例に説 明すると,さまざまな人物 A の顔画像と人物 B の顔画 像があった場合,A 同士あるいは B 同士が近づき,A と Bは互いに遠ざかる空間をつくることができれば,その 空間内での近さによって,本人か他人かを判定できる. 一度このような空間をつくることができれば,学習時 には含まれない人物 C の顔画像を新たに登録する場合で あっても,この空間におけるパターン間距離(メトリッ ク)の特性を受け継ぐことができる.つまり,人物 C の 顔画像同士は近く,異なる人物の顔画像からは遠くなる ように,空間内に配置することができる.実際の利用場 面では,データベースに登録する顔画像は極めて少なく, 図 1 顔検出の機能. ある入力 x に対して顔か非顔かを判定する 図 2 顔検出での識別器の働き. 特徴空間に識別境界を設定する 図 5 顔照合での識別器の働き. 特徴空間を,本人と他人の分離の良い空間につくり直す 図 4 顔照合の機能. ある入力の組 {x, y} が同じ人物か,違う人物かを判定する 図 3 顔検出の学習に用いる顔画像,非顔画像の例 図 6 摂動による顔画像生成. 形状モデルおよび照明モデルにより,1 枚の顔画像 から姿勢や照明が変動した画像を生成する 元画像 照明モデル 形状モデル 照明変動画像 姿勢変動画像
合でも,メトリックがうまく設計できていれば,単純な マッチングで高い精度を得ることが可能である. 2・3 Multiple-Biometric Evaluation 米国国立標準技術研究所(NIST)では,顔認証の 性 能 評 価 を 1993 年 か ら 継 続 的 に 行 っ て お り,NEC は 2010 年に行われた Multiple-Biometric Evaluation (MBE)に初めて参加した.本ベンチマークテストは, 各参加機関が提出した顔認証エンジンを,NIST が自ら 用意した非公開の顔画像データベースで評価したもので あり,参加機関は手を出すことができない,非常に公平 なテストとなっている. 顔認証の評価基準には,本人確認(Verification)と 検索(Identification)がある.本人確認は 1 対 1 照合 とも呼ばれ,2 枚の顔画像が同じ人物か,異なる人物か を評価するものである.同じ人物同士を他人に間違える 本人棄却率(FRR)と,異なる人物同士を本人に間違え る他人受理率(FAR)はトレードオフの関係にある.つ まり,FRR を低くしようとすると FAR が高くなり,そ の逆も同様である.NIST が用意したビザ申請顔画像に 対する本ベンチマークテストの評価結果を,図 7 に示す. このグラフは FAR が 0.1%のときの FRR を比較したも ので,NEC は FRR=0.3%と,他の参加機関に比べて 1 桁近く少ない誤り率であった. 検索は 1 対 N 照合とも呼ばれ,N 人の顔画像の中か ら,本人の顔画像を正しく 1 位として検索する率が評価 される.本ベンチマークテストで評価された,160 万人 の顔画像からの 1 位検索正解率を,図 8 に示す.NEC は, ている.本ベンチマークテストでは,このほかにも照合 速度の比較,加齢に対する認証精度の比較など,さまざ まな項目が評価されている.これらの評価結果を含む報 告書が NIST により公開されているので,詳細を知りた い読者は [Grother 11] を参照されたい.なお,NIST が 2013年に主催した顔認証ベンダテスト(FRVT)にも NECは参加し,2 位以下を大きく引き離す第 1 位の検 索精度と評価されている.検索速度の評価でも,2 位の約 1.8倍となる 1 秒当たり 302 万件の顔画像検索が可能で ある [Grother 14]. このように,顔認証技術は近年大きく精度改善が進み, 入国審査のように本人が協力的で,しかも屋内で照明が 制御できるような場合の認証精度は,人間の能力を上回 るとまでいわれている.しかし,監視カメラによる映像 など,画像の解像度が低く,直射日光の当たる屋外だっ たり,あるいは非正面顔の場合は,まだ実用的な精度に は至っていない.このような状況下では,単に機械学習 を用いるだけでは精度改善に限界があり,精度低下を引 き起こす外乱を抑える前処理や,そのような外乱に強い 特徴抽出などの技術開発が必要になる.
3.群 衆 行 動 解 析
画像認識で機械学習を用いたもう一つの事例として, NECの群衆行動解析技術を紹介する.安全安心な社会 の実現に向けて,特に公共施設や街頭など人が多く集ま るところでの群衆の行動を捉えたい,というニーズが高 まっている.これはセキュリティ目的に限らず,マーケ ティング分野でも同様のニーズがある.そこで,人の密 度と群衆の流れを数値化することで典型的な群衆の行動 を検知する,群衆行動解析システムを開発した(図 9). 本章では,機械学習を用いた群衆の混雑度を推定する技 術に絞って説明する. 画像からの人数計測方法としては,人間の頭部を検出 した後に集計する方法があるが,監視カメラのような俯 角が浅いカメラ位置の場合は,多くの人が重なって写っ 図 7 MBE における評価結果. 他人を誤って受理する率を 0.1%としたときの,本人 を誤って棄却する率.数値が小さいほど精度が良い 図 9 群衆行動解析システム. 人の密度と群衆としての流れを解析することで,典型的な 群衆の行動を検知する 異常混雑 手段逃避 取り囲み 集団滞留 図 8 MBE における評価結果. 160万人登録時の 1 位検索正解率.数値が大きいほど 精度が良いてしまい,頭部の一部でも隠れると正しく頭部を検出す ることが難しい.背景差分によって前景領域を切り出し, その前景の大きさや面積から人数を推定する方法もある が,人物同士の重なりが大きいと,やはり正しく人数を 計測することは難しい.人物領域をフレーム間で対応付 け,人物を追跡しながら人数を計測する方法もあるが, 人物の動きに対してフレームレートが低いと,追跡が正 しく行えず精度が低下する. そこで,人物の頭部検出は行わず,ある小領域の中に 含まれる人数を,アピアランスベースで直接計測する方 法を開発した [池田 13].この方法は 1 枚の画像から人 数計測が行えるので,必ずしも動画像である必要はない. 画像から切り出した小領域の例を図 10 に示す.図の上 に示した数字は,各画像に含まれる人数(頭部の数)を 表している.これらを学習データとして,図 11 に示す 畳込みネットワークを学習する [LeCun 98].最終層は 1ノードに統合され,小領域に対する正解人数とネット ワークの出力の平均二乗誤差が最小となるようにネット ワークの重みを更新する.すなわち,回帰問題として学 習することで,画像内に含まれる人数を直接出力する. 本手法を用いれば,頭部や身体の一部が隠れていても, 精度良く人数を推定することが可能である.ただし,頭 部の大きさは画像内の位置によって変わるため,人数推 定時の小領域の大きさは,学習時の頭部サイズと合うよ うに,位置ごとに違う大きさに設定し,各小領域で推定 された人数の総和を,画像内の人数としている. 本手法では,複数の人物が写った画像とその正解人 数を付与した,大量の学習データが必要になるが,実際 にこのようなデータをつくるには膨大な工数が必要にな る. そこで,あらかじめ用意した人物画像を背景画像に複 数貼り合わせることで,学習データを人工的に作成して いる.何人を貼り合わせたかはわかっているので,人手 で正解付けする必要もなく,学習データ構築にかかる工 数を大幅に削減できている.
4. オートバイ認識
NECは新興国での安全安心な社会づくりに向けた取 組みも行っている.本章では,アルゼンチン共和国のティ グレ市での実例を紹介する.ティグレ市はリゾート地で あり,安全意識が特に高い街として知られる.市内には, 多数の監視カメラが設置されており,その映像を集中監 視センターで多くの監視員が見ている.しかし,一人で 多くのモニタを見るため,見逃しも少なくないことから, 画像認識技術によってアラートを上げる機能が求められ ている.NEC は画像認識技術を使った映像監視システ ムを開発しており,その一例として,オートバイ認識を 紹介する. ヘルメットを装着しないでオートバイを運転するの は,重大事故につながる危険性がある.また,路上での カバンなどのひったくりの多くは,オートバイに乗った 二人組の後部座席の人によって行われる.つまり,オー トバイの二人乗りは,それ自体が事件の兆しとなる不審 行動の一つに相当するという.このように,新興国では オートバイが社会の安全安心に大きく影響しているた め,オートバイ認識技術を開発した.走行中のオートバ イの検出のみならず,ノーヘル(メット)検知と二人乗 り検知を可能にしている(図 12).監視カメラの映像に これらの人物が映った場合はアラートを上げ,監視員が モニタに注目するよう誘導することで,監視員の見逃し や見落としがないようサポートしている. 学習には多くの画像が必要だが,ノーヘルや二人乗り で走行するオートバイの例は少なく,学習データ不足の ため精度が上がらない.この問題に対して,オートバイ 本体と人物部分を別のパーツとして学習することで,組 合せの数を抑えるとともに,群衆行動解析における学習 と同様,画像の貼り合わせによって擬似的に学習データ を生成することで,学習データ構築にかかる工数を大幅 に削減している.5. ナンバプレート向け超解像
実例紹介の最後として,NEC で開発したナンバプレー ト向けの超解像技術について説明する [柴田 13].超解 像技術は,低解像画像をより高解像で鮮明な画像に復元 図 10 ネットワークの学習に用いた画像の例. 図の上の数字は,正解として与えた人数を表す 図 11 群衆の人数計測で使われるネットワーク 図 12 オートバイ認識. ノーヘル検知と二人乗り検知の例を復元する必要がある.その方法には大きく二つあり, 一つは複数枚の低解像画像を重ね合わせる複数枚超解像 と呼ばれる方法であり,もう一つは,あらかじめ低解像 画像に対応する高解像画像を辞書として用意しておく学 習型超解像と呼ばれる方法である.学習型超解像はさら に,回帰ベースの方法と事例ベースの方法に大別でき, ここでは事例ベースの方法について述べる.パターンの バリエーションが少ない場合はこの事例ベースは非常に 有効であり,例えば図 13 に示すように,人間では判別 できないほどの低解像画像であっても,高解像化が可 能である.ちなみに,このナンバプレート画像の正解は 「11-66」である. 事例ベースの学習型超解像の概要を図 14 に示す.学 習フェーズでは,高解像のナンバプレート画像に対し, 劣化過程モデルによって低解像度化し,対応するパッチ のペアを辞書として登録する.復元フェーズでは,入力 された低解像画像の小領域ごとに,辞書に登録された低 解像パッチとの類似度を計算し,最も似たパッチに対応 する高解像度パッチを埋め込むことを繰り返すことで, 画像全体を復元する.ただし,入力された低解像画像の 劣化過程に合わせるために,劣化過程モデルのパラメー タに摂動を与えることで,復元される画像の精度を高め ている.
6.画像認識と機械学習
安全安心な社会を支える NEC の画像認識技術の実例 をいくつか紹介したが,認識精度向上には機械学習が欠 かせない.そこで本章では,画像認識における機械学習 の役割について述べたい.実世界は三次元であるが,そ の姿勢や照明の変化によって見えが大きく変わってしま う.そこで,撮影環境に制限を加えるとともに,画像変 動を抑える前処理などの開発によって実用的な精度まで 高めることができる.そのときの精度の底上げに,機械 学習はこれまで大きく貢献してきている. 6・1 画像認識の処理過程 画像認識技術は,一般的には図 15 に示すとおり,「観 測」,「前処理」,「特徴抽出」,「識別」の各処理から構成 されており,図の左から右へ一方向で処理される. 「観測」とは,実世界の認識対象を,処理可能な電気 信号に変換する処理である.通常のカメラや赤外線カメ ラ,イメージスキャナなどによって,信号の空間的な変 化である二次元パターンを画像として捉える.信号の時 間的な変化を加えた動画像や,奥行き情報からなるデプ ス画像なども,目的に応じて利用される. 「前処理」とは,信号に含まれるノイズを低減したり, 信号の大きさをそろえたりする処理である.具体的には, 画像の輝度値の正規化や鮮鋭化,画像から切り出した対 象領域の大きさや回転の正規化,認識対象に特化した姿 勢の正規化などが含まれる. 「特徴抽出」とは,認識対象の識別に有効な特徴を画 像から取り出す処理である.1 枚の画像から N 個の特徴 値を取り出した場合,これを N 次元の特徴ベクトルと して表現することが多い.抽出した N 次元特徴ベクト ルを,特徴選択や写像によって低次元化する特徴変換処 理も,この処理過程に含まれる. 「識別」とは,特徴ベクトルがどのクラスに属するか を判定する処理である.ここでクラスとは,認識対象が もつ属性を記号で表したもので,目的に応じて人間が定 める.例えば,算用数字を認識させる場合には,数字の 「0」に対するクラスとして,JIS コードの 2330h などの 記号が用いられる.実際には,クラスごとに識別器を用 意しておき,特徴ベクトルを入力したときのそのクラス に対する一致度(類似度)を数値で出力し,それが最も 大きいクラスに対応する記号を認識結果とする.出力値 から信頼度を定義し,信頼度が低い場合はクラス不明と 判定する場合もある. 以上のように,画像認識技術は複数の処理から構成さ れているため,高い認識精度を実現するには,これらす べての処理について,認識対象や利用環境に応じて最適 設計する必要がある.つまり,精度が低下する要因がど こにあるのかを分析し,対策を講じなくてはならない. 図 13 学習型超解像の処理例 図 15 画像認識技術の処理過程 観測 前処理 特徴抽出 識別 クラス 図 14 学習型超解像手法の概要6・2 処理過程の特性 画像認識技術の処理過程は,認識対象に近い前段にな るほど対象依存性が高く,後段になるほど抽象度が高く なる特性があり,前段になるほど認識精度に対する影響 が大きい. 最前段の「観測」については,カメラなどの入力系は 既成の製品を使うことが多いが,カメラに対する認識対 象の距離や向き,解像度,圧縮率,フレームレート,照 明環境など,撮影条件によって認識精度は大きく変化す る.この条件設定が悪いと,その後の処理での精度改善 に限界が生じる.したがって,この撮影条件をどのよう に設定するか,言い方を換えれば,撮影条件の自由度を いかに厳しく制限するかが,実用に耐え得る画像認識技 術につくり上げる際には,極めて重要である. 次の「前処理」も,認識対象に強く依存した処理にな るため,画像認識の専門家が,対象に応じてアルゴリズ ムを開発する必要がある.しかも,精度を上げようと対 象に特化すればするほど汎用性は低くなり,認識対象が 変わる度につくり直す必要が出てくる.実際の開発現場 では,精度改善作業のほとんどが,この前処理に当てら れており,試行錯誤が多いことから「泥臭いパターン認 識」とも揶ゆ揄やされる.しかし,精度低下の原因となる外 乱を詳細に分析して対処できれば,それが逆に技術の強 みになる場合もある. 「特徴抽出」では識別に有効な特徴を設計する必要が あるが,何が有効なのかは試してみないとわからず,「特 徴抽出に王道なし」といわれるように,多くの試行錯誤 が発生する.しかし,誰しも良い特徴がつくれるわけで はなく,特徴設計にはある種のセンスが必要とされる. つまり,認識対象の素性をよく分析し,クラス内のばら つきが小さく,クラス間のばらつきが大きいような画像 特徴を設計できる能力が求められる.ヒューリスティッ クな方法ではあるが,人間の先見知識を取り入れること ができ,良い特徴が設計できれば,後段の識別処理が単 純なマッチングであっても,非常に高い精度を出すこと ができる. 一例として,指紋のマニューシャ特徴があげられる. 指紋の隆線は,渦状紋,弓状紋,蹄状紋など,いくつか の典型的なパターンを示すが,マニューシャと呼ばれる 隆線の端点や分岐点はランダムに発生する.このランダ ム性によって,同じ配置を示す他人の存在確率は非常 に低くなるため,高い精度で本人を特定することができ る.NEC で開発したマニューシャリレーション特徴で は,マニューシャ間を通る隆線の本数も計測することで, より精度を高めている(図 16).米国国立標準技術研究 所(NIST)が主催した指紋ベンダ技術評価プロジェクト FpVTE2003で,18 社 34 システムの中で認証精度 1 位 を獲得するなど [Wilson 04],いくつかのベンチマーク テストで 1 位を獲得しており,NEC の指紋認証技術は 世界でも高い評価を受けている. 特徴がベクトル表現された後の「識別」は,数理的手 法との整合性が良い.以前は,識別処理も専門家がルー ルベースで記述したこともあったが,今では機械学習に よる自動設計が支配的である.画像認識における機械学 習の大きな役割は,この最終過程である識別処理の精度 改善にあるといっても過言ではない.これについて,次 節で少し詳しく説明したい. 6・3 パターン認識と機械学習 一般に,「パターン認識」はもっと広い意味で使われ る用語であるが,識別処理を狭義のパターン認識と呼ぶ こともあり,実際に「パターン認識=識別処理」として いる解説書も多い. パターン認識の基礎理論としては,ベイズ決定理論が ある.K をクラス数とすると,入力 x に対してクラス ωk(k=1, …, K)が発生する事後確率 P(ωk|x)が最大 となるクラス ωkに判定すれば,最適性が保証される*1. すなわち,このときの平均誤り確率は最小になることが 保証される(ベイズ誤り確率と呼ばれる).したがって, パターン認識の課題は,事後確率をいかに正しく求める かに尽きるといえる.これには, (1)確率密度関数を推定し,ベイズの定理によって間 接的に事後確率を求める. (2)識別問題を回帰問題とみなし,事後確率を直接的 に推定する. (3)連続化した経験損失を,直接最小化する. の三つのアプローチがある [佐藤 12].いずれも有限個 のサンプルをもとにモデルのパラメータを推定すること から,機械学習が大きな役割を担っている. § 1 確率密度関数の推定 第 1 のアプローチは,クラスごとの確率密度関数 p(x|ωk) を 推 定 し,P(ωk|x)=P(ωk)p(x|ωk)/p(x) なるベイズの定理を用いて,間接的に事後確率を求める ものである.具体的な方法としては,学習を行わないノ ンパラメトリックな方法と,最尤推定やベイズ推定に基 づいてパラメータを推定する,混合分布モデルがある. 前者の例として知られる k 近傍法(k-NN)は,客観的 図 16 指紋認証におけるマニューシャリレーション特徴 *1 正確にいえば,これは 0-1 損失のときの最適性であって,よ り一般的には,任意の損失に拡張したベイズ決定則によって, 最適性が保証される.
計的パターン認識とも呼ばれ,正規分布の場合はパター ン認識研究の初期から研究が行われ,潜在変数が扱え る EM アルゴリズムの出現以降は,混合分布モデルが研 究されてきた.EM アルゴリズムとは,完全データが背 後にあり,観測データはその不完全データであると考え るもので,完全データの尤度の期待値を最大化すること で,不完全データの尤度を間接的に最大化する.混合正 規分布モデル(GMM)では,混合比を潜在変数とみな し,不完全データである観測データと合わせたものを完 全データとして推定を行うが,共分散行列の要素数は次 元数の二乗のオーダで増えるため,高次元では著しく精 度が低下する“次元の呪い”と呼ばれる問題が指摘され ている. § 2 事後確率の直接推定 第 2 のアプローチは,正解クラスに 1,不正解クラス に 0 を目的関数として与え,識別器の出力との平均二乗 誤差を最小化するものである.識別問題を回帰問題とみ なし,事後確率を直接推定することを目指す.任意の非 線形写像を構築できる多層パーセプトロン(MLP)の 学習が可能な,誤差逆伝播法と呼ぶ学習方法が提案され たことを契機に,1980 年代後半はこのアプローチをと るニューラルネットモデルが一大ブームとなった.しか し,局所解に捕捉されることが多く,必ずしも望ましい 非線形写像がつくれない問題があった.畳込みニューラ ルネット(CNN)は,視覚神経系をモデル化したネオコ グニトロンと同じく,より深い多層構造でありながら, 各層間の結合を少なくすることで誤差逆伝播法で学習で きるようにしたモデルであり,パターンの局所変動を吸 収する構造になっているため,画像認識に向いていると いわれる.しかし,ネットワークの構造の決め方や重み の初期設定方法に決定打がなく,多くの試行錯誤が必要 なのは,ニューラルネットモデルの共通の問題といえる. 近年は,教師なし学習で低い層から構築する深層学習 (Deep Learning)が注目されており,再びニューラルネッ トブームが到来している.これについては後述する. § 3 経験損失の最小化 第 3 のアプローチは,学習サンプルに対する損失(経 験損失)を直接最小化するものである.ベイズ決定理論 から,事後確率の最大化は平均誤り確率の最小化に等し いといえるので,事後確率の代わりに平均誤り確率,つ まり損失を直接最小化することを目指す.ただし,経験 損失は離散的なので,勾配法によって探索できるように, 連続化した損失を最小化する.具体的な方法としては, 最小分類誤りやサポートベクタマシン(SVM)で採用 されている構成的リスク最小化が知られる. 特に SVM は,クラス間のマージンの最大化を導入す ることで,凸 二次計画問題として定式化し,大域最適解 への収束を保証した.ニューラルネットモデルでの課題 だった局所解への捕捉が解決されたことで,1990 年代 は線形識別器であるが,カーネルトリックによって非線 形化することの有効性を示したことで,主成分分析や判 別分析など従来の線形モデルがカーネルトリックによっ て非線形化されるなど,その波及効果は大きい.SVM はスパース正則化によってモデル自由度を減らす効果が あるものの,動画像を扱うにはそれでも処理が遅いため, 線形 SVM で代用されることが多い. 著者が提案した一般化学習ベクトル量子化(GLVQ) も,同じく経験損失を最小化するものであるが,SVM が学習サンプルの重みだけを学習するのに対し,標準パ ターンとなる参照ベクトルの特徴空間内での位置を最適 化することを目指す [Sato 96].評価関数は凸ではない ため,勾配探索による大域最適解への収束は必ずしも保 証されないが,k-means などによって良い初期値が設定 できるため,高い精度が得られる.実際に,SVM より も圧倒的に少ないモデル自由度で,SVM と同等以上の 精度が実現できており [Sato 13],また処理が高速なた め動画像へも適用できる.実例として紹介した顔認証や オートバイ認識でも,本技術が活用されている. 近年はディジタルカメラに顔検出機能が搭載されてい るが,ここで使われているブースティングと呼ばれる技 術も,このアプローチに含まれる.ブースティングとは, 弱い識別器を組み合わせて,強い識別器をつくるための 枠組みであり,AdaBoost では exp 型の損失が減るよう に,弱識別器を逐次統合していく.大域最適解が得られ る保証はないが,各特徴の線形結合で識別器を構成でき ることから特徴選択の効果があり,モバイル向けの遅い CPUでも高速に動作する利点がある. 以上,識別処理における機械学習の三つのアプローチ について述べた.アプローチは異なるものの,いずれも ベイズ決定理論の枠組みを外れるものではないことに注 意したい.サンプルが無限にあれば,いずれのアプロー チをとっても同じ結果が得られるはずであるが,現実に はサンプルは有限であるため,結果に違いが生じる.画 像認識技術の実利用に際しては,単に認識精度だけでな く,処理速度や移植のしやすさなど総合的に判断する必 要がある. 6・4 機械学習への期待 近年,機械学習の分野では深層学習(Deep Learning) が注目されている.深層学習とは,従来のニューラル ネットワークの層をさらに多くした,深い層構造をもつ ニューラルネットの学習方法である.これまでのニュー ラルネットでは,誤差逆伝播法で学習すると下の層に行 くほど誤差が分散されて,重みの学習がなかなか進まな い問題と,重みに関する初期値の良い設定方法がなく, 大域最適解から遠く外れたところから学習をスタートす るため局所解に捕捉されやすい問題があった.同じく深 層構造をもつ CNN は,層間の結合を少なくすることに
◇ 参 考 文 献 ◇
[Grother 11] Grother, P. J., Quinn, G. W. and Phillips, P. J.:
Multiple-Biometric Evaluation (MBE) 2010 ─ Report on the
Evaluation of 2D Still-Image Face Recognition Algorithms,
NIST Interagency Report 7709, National Institute of Standards and Technology (2011)
[Grother 14] Grother, P. and Ngan, M.: Face Recognition Vendor
Test (FRVT) ─ Performance of Face Identification Algorithms, NIST Interagency Report 8009, National Institute of Standards and Technology (2014)
[Hinton 06] Hinton, G. E., Osindero, S. and Teh, Y. W.: A fast learning algorithms for deep belief nets, Neural Computation, Vol. 18, No. 7, pp. 1527-1554 (2006)
[池田 13] 池田浩雄,大網亮磨:群衆パッチ学習に基づく人数推定,第 12回情報科学技術フォーラム (FIT2013),第 3 分冊,pp. 129-130 (2013)
[Imagenet 12] IMAGENET Large Scale Visual Recognition Challenge (2012),http://image-net.org/challenges/ LSVRC/2012/
[今岡 10] 今岡 仁,早坂昭裕,森下雄介,佐藤 敦,広明敏彦:顔認 証技術とその応用,NEC 技報,Vol. 63, No. 3, pp. 26-30 (2010) [LeCun 98] LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P.:
Gradient-based learning applied to document recognition,
Proc. IEEE 86.11, pp. 2278-2324 (1998)
[Sato 96] Sato, A. and Yamada, K.: Generalized learning vector quantization, Advances in Neural Information Processing
Systems, Vol. 8, pp. 423-429 (1996)
[佐藤 12] 佐藤 敦:パターン認識問題の数理,信学会基礎・境界 ソサイエティ Fundamentals Review, Vol. 5, No. 4, pp. 302-311 (2012)
[Sato 13] Sato, A. and Ishii, M.: Inverse of lorentzian mixture for simultaneous training of prototypes and weights, Proc.
ICPRAM, pp. 151-158 (2013)
[柴田 13] 柴田剛志,池谷彰彦,仙田修司:摂動事例によって構成 される事例ベース超解像,信学論(D),Vol. J96-D, No. 8, pp. 1790-1800 (2013)
[Wilson 04] Wilson, C., Hicklin, R. A., Korves, H., Ulery, B., Zoepfl, M., Bone, M., Grother, P., Micheals, R., Otto, S. and Watson, C.:
Fingerprint Vendor Technology Evaluation 2003: Summary of Results and Analysis Report, NIST Interagency Report 7123,
National Institute of Standards and Technology (2004)
2014年 7 月 9 日 受理 よって誤差の分散を抑え,前者の問題を軽減することに 成功した.一方,深層学習では,図 17 に示すように, プレトレーニングとして下の層から 1 層ごと教師なしで 学習したものを積み上げ,ファインチューニングとして 最後に誤差逆伝播法で教師あり学習を行うことで,上記 二つの問題を解決するといわれる [Hinton 06]. 深層学習は,一般物体認識のグランドチャレンジで ある ILSVRC 2012 で圧倒的性能を見せつけて,大き な注目を浴びた [Imagenet 12].深層学習が画期的なの は,識別だけでなく特徴抽出も含めて学習できることに ある.深層学習に興味を示す企業も多く,1980 年代後 半のニューラルネットブームの再来のようにいわれてい るが,単なるブームに終わらず,人間の高度なパターン 情報処理の原理の解明につながるような成果を期待した い. また,機械学習の最大の課題は,大量の学習データを 用意しないと,その性能が十分には発揮できないことに ある.少しの教師付きデータを手掛かりに精度を改善す る半教師あり学習や,効果的な正解付けを行う能動学習, あるいは異なるドメインに適応させる転移学習など,機 械学習の実利用をさらに広げるような,学習の容易化に 関する研究にも,より一層の成果を期待したい.