2017 年度 修士論文
位置変化に頑健な Attention 付き Convolutional Neural Network の提案
2018 年 1 月 30 日 提出
指導教授
小林 哲則 教授
早稲田大学 基幹理工学部 情報理工学科 知覚情報システム 研究室
5116F003-1
浅 野 秀 平
目 次
第1章 序論 1
1.1 研究背景と 目的 . . . 1
1.2 提案手法の特徴 . . . 2
第2章 関連研究 4 2.1 一般物体検出アルゴリ ズム . . . 4
2.2 畳み込み層の受容野を 変形さ せる 試み . . . 5
第3章 Attentive Convolutional Neural Network 7 3.1 Attentive Convolutional Neural Network . . . 7
3.1.1 Attention Network . . . 7
3.1.2 Attentionによ る 特徴抽出と 識別. . . 8
3.1.3 再構成誤差 . . . 9
第4章 評価実験 12 4.1 実験1 平行移動を 加え たデータ セッ ト に対する 性能の検証 . . . 12
4.1.1 実験設定 . . . 12
4.1.2 実験1.1の結果 . . . 13
4.1.3 実験1.2の結果 . . . 14
4.1.4 実験1.3の結果 . . . 14
4.1.5 考察 . . . 14
4.2 実験2: 同一の空間特徴量によ る 異な る 数字の再構成 . . . 16
第5章 結論 24 5.1 ま と め . . . 24
5.2 課題と 展望 . . . 24
参考文献 27
表 目 次
4.1 平行移動を 加え た MNISTに対する accuracy . . . 13 4.2 少量データ に対する accuracy . . . 14 4.3 未知のアフ ィ ン 変換に対する accuracy . . . 15
図 目 次
1.1 CNNのアーキテク チャ 例(LeNet-5). [8]よ り 引用. . . . 2
1.2 人の視覚的注意の模式図. . . . 3
2.1 RCNNの処理過程. [17]よ り 引用. . . . 4
2.2 Spatial Transformer Network. [6]よ り 引用. . . . 6
3.1 ACNN概要 . . . 8
3.2 Attention network . . . 9
3.3 特徴マ ッ プの行列化 . . . 10
3.4 再構成ネ ッ ト ワ ーク . . . 11
3.5 再構成ネ ッ ト ワ ーク を 加え たACNN . . . 11
4.1 ACNNのattention . . . 17
4.2 ACNN-Rのattention . . . 18
4.3 チャ ン ネ ル毎に彩色し た attention . . . 19
4.4 ベースラ イ ン CNNのtrainと test accuracyの推移 . . . 20
4.5 ACNNのtrainと test accuracyの推移 . . . 21
4.6 ACNN-Rのtrainと test accuracyの推移 . . . 22
4.7 同一の空間特徴量によ る 異な る ラ ベルの再構成. . . 23
概要
本論文では, 物体の位置変化に対し よ り 頑健な画像処理を 目的と し てConvolutional Neural Network(CNN)に attentionの構造を 取り 入れる 手法を 提案する .
近年, ニュ ーラ ルネ ッ ト の一手法である CNNは, 物体認識や背景分離と いっ た幅広い 画像処理のタ スク に用いら れて いる . CNNは, poolingと 呼ばれる 特徴マ ッ プ上の局所的 な特徴を ま と め上げる 処理を 含み, 画像処理において 重要な物体の位置ずれに対する 頑健 性を 有し て いる . し かし , poolingによ る 不変性は限定的であり , 大域的な位置変化を 含む データ を 効率的に処理する 事が出来ない. ま た, poolingを 重ねる と 特徴マッ プの空間解像 度が指数的に低下し て いき , 物体がど こ にあっ たかと いう レ アイ アウ ト に関する 情報が失 われて し ま う . こ れら の性質は, 物体の位置ずれを 形状の固定さ れた静的な 受容野によ っ て 吸収し よ う と する 為に生じ る .
一方, 人は広大な環境にあっ て も , 高い空間解像度を 維持し ながら 複雑な処理を 高速に 行っ て いる . こ れは視覚的注意によ っ て , 環境の中から 処理する 領域を 取捨選択する 事が 可能な為である . こ の仕組みでは, 物体の像が視野の中央から ずれて いて も , スポッ ト ラ イ ト のよ う に注意が動く 事で出力を 一定に保つこ と が出来る .
そ こ で本研究では, こ の人の注意の仕組みを 参考に , CNNに 注意の構造を 取り 入れた Attentive Convolutional Neural Network(ACNN)を 提案する . ACNNは通常のCNNの畳み 込み層と 全結合層の間に, 空間的なattentionを 生成する ネッ ト ワ ーク (attention network) を 持つ. Attentionを 入力画像に応じ て変化さ せる 事で, 全結合層へ入力する 範囲を 制御す る 事が可能と なる . 特徴マッ プから の部分的な特徴の読み出し は, attentionと 特徴マッ プ の単純な行列積によ っ て 実現さ れる . こ の行列積を ニュ ーラ ルネ ッ ト の重みを 掛ける 操作 と し て 解釈する と , ACNNは入力データ に応じ て モデルの構造が変化する メ タ ネ ッ ト ワ ー ク [22]と し ての側面を 持つ. 学習には位置の情報と いっ た追加の教師データ を 必要と せず,
既存のCNNを そのま ま ACNNに置き 換え る 事が可能である . ま た, 物体の配置に関する 情報はattention networkによ っ て 抽出さ れ保存さ れる .
検証では, 平行移動を 加え た手書き 数字データ セッ ト MNISTに対する 性能比較を 通常 のCNNと 行っ た. ACNNはCNNの1割ほどのパラ メ ータ で, 同等以上の識別性能を 持つ
事を 定量的に確認し た. ま た, 少量データ を 用いた検証によ り , ACNNがCNNよ り も 過 学習を 起こ し にく い性質を 持つ事を 確認し た. 更に, モデルにと っ て 未知のアフ ィ ン 変換 に対し て も , ACNNは高い汎化性能を 持つ事を 確認し た.
第 1 章 序論
1.1 研究背景と 目的
机や椅子の置かれた教室や多く の人が行き 交う 交差点など , 我々 のいる 実世界は複数の 形状も 大き さ も 異なる 物体が多様な規則に沿っ て 配置さ れた, 非常に複雑でバラ エティ に 富んだ構造を 持つ. 一般に, こ のよ う な実世界の画像を 扱う システムは, 画像中の物体の 位置ずれやスケールの変化に対し て 応答が不変である 事が望ま し い. 例え ば, 歩行者検出 のよ う なタ スク では, 対象が画像内を 自由に動き 回っ て も , 検出結果が保たれる よ う にシ ステム を 設計し な け ればな ら な い.
近年, Convolutional Neural Network (CNN) [8]は, 物体認識[9,11]や前景分離 [12], 画 像生成[13, 14]と いっ た幅広いタ スク で用いら れ優れた性能を 示し ている . CNNは, 図1.1 のよ う に, 畳み込みを 行う ネ ッ ト ワ ーク と 全結合層を 直列に並べた構造を 持つ. 畳み込み を 行う ネ ッ ト ワ ーク は, 更に局所的な特徴抽出を 行う 畳み込み層と , 特徴を 局所的にま と め上げる pooling層に分けら れる . Pooling層は, 局所領域内の最大値や平均値と いっ た代 表値を 出力と する 事で, 局所領域内の特徴の配置が変わっ て も 同じ 反応を 保つこ と が出来 る . し かし , その範囲は一般的に2× 2程度の微小な 大き さ し か持たず, 単層ではわずか な位置の変化に対し て し か不変性を 持たない. よ り 大き な位置の変化を 扱う には, 畳み込 みと pooling層を 積み重ねる 必要がある [10]. し かし , 入力画像に写っ た物体の複雑さ に 関係なく , 単にその大き さ に応じ て ネ ッ ト ワ ーク の層を 積み重ねる のは, 計算資源や学習 の収束速度の観点から 効率的である と は言えない. ま た, poolingを 行う と 空間解像度が指 数的に落ち る 為, 画像の持つ空間的な情報(物体の配置や傾き)は層を 重ねる ごと に失われ て し ま う .
YOLO [21]やSSD [21]と いっ た最新の一般物体検出の手法では, 複数のスケールと アス ペク ト 比を 持っ たanchor boxを 用いる 事で物体の大き さ や形状の違いに対処し て いる . し かし , 物体の位置の検出はあく ま で画像全体を 走査する 事で実現さ れており , CNNと 同様 に不変性には限界がある .
一方, 人の視覚は高い空間解像度を 保っ たま ま , 複雑な処理を 同時かつ高速に行う 事が
第 1 章 序論
図 1.1: CNNのアーキテク チャ 例(LeNet-5). [8]よ り 引用.
可能である . こ の能力は, 視覚的注意と よ ばれる 有限な認知資源を 空間に割り 振る 機構に よ っ て 実現さ れる . 認知心理学の分野ではこ の視覚的注意に関する 数多く の知見が積み上 げら れており , そのメ カニズムが明ら かになり つつある . 人の視覚的情報処理は, 図1.2の よ う に, 視覚的注意を 適用する 前後で, 異なっ た性質を 持つ事が分かっ て いる [1]. 前注意 的過程では, 色や傾き と いっ た単純特徴を 視覚空間全体に渡っ て 並列に計算する 事が可能 である . し かし , 単純特徴を 組み合わせて 行う 処理(例え ばリ ン ゴを 認識する には色と 形 状特徴を 組み合わせる 必要がある)を 行う 事は出来な い. 次に集中的注意過程では, 単純 特徴を 組み合わせた有機的な 認知を 行う 事が可能である . し かし , 処理容量に限り があっ て , 一度に狭い領域し か処理でき ず, 注意によ る 誘導を 必要と する . こ の枠組みでは, 特 徴マ ッ プの空間解像度を 高く 保ち つつ, 物体の位置の変化は注意が動く こ と で吸収する 事 ができ る . 本研究では, こ れら の人の認知の仕組みを 参考に, CNNに注意の構造を 加え た Attentive Convolutional Neural Network(ACNN)モデルを 提案する .
1.2 提案手法の特徴
提案手法である ACNNは, CNNの畳み込み層と 全結合層の間に空間的なattentionを 生 成する ネッ ト ワ ーク (attention network)を 加えた構造を 持ち , attentionを 変化さ せる 事で 全結合層へ入力する 特徴マ ッ プの領域を 制御する . Attentionに よ る 特徴マ ッ プから の特 徴の読み出し は, 単純な 行列積に よ っ て 実現さ れる . 物体が大き く 位置を 変化さ せて も , attention networkがその位置を 捉え, attentionを 変化さ せる 事で全結合層への入力を 一定 に保つ. ま た, ACNNは特徴マッ プの一部のみを 全結合層の入力と し て 用いる 為, モデル の持つパラ メ ータ 数はCNNと 比較し て大幅に小さ く 出来る . 更に, attenton netowrk内に
第 1 章 序論
図 1.2: 人の視覚的注意の模式図.
は識別に必要な情報(物体)の位置が保存さ れており , 画像の再構成などに利用可能である .
第 2 章 関連研究
2.1 一般物体検出ア ルゴリ ズム
画像内の物体の位置と そのク ラ スを 分けて 処理する アルゴリ ズムは, その両方の推定を 目的と する 一般物体検出の分野において 盛んに研究が行われて き た. 一般物体検出を 実現 する 方法と し て , 画像内から 複数の物体候補領域を 抜き 出し , 各候補領域について 物体の ク ラ スを 推定する 方法が考え ら れる . Girshickら の提案し たR-CNN [17]は, 図2.1のよ う に, 候補領域の推定を Slective Search [16]と 呼ばれる 画素間の類似度に基づいたセグメ ン テーショ ン によ っ て 行い, 切り 出し た各候補領域に対し て 個別に CNNによ る 特徴抽出と SVMによ る ク ラ ス分類を 行っ た. 以降, こ のRCNNを ベースと し て アルゴリ ズム の高速 化[15, 18]や候補領域の推定と ク ラ スの推定を 一つのニュ ーラ ルネッ ト によ っ て学習する 試 み [19]が行われて き た. し かし , 候補領域の提案に基づく 物体検出は手続き が複雑で計算 負荷が大き く , リ アルタ イ ムな処理や計算資源の限ら れた組み込みシステムへの応用が難 し いと いう 問題があっ た.
近年では, 物体の位置の検出と ク ラ スの推定を ネッ ト ワ ーク の中で並列に行う 手法[20,21]
が提案さ れて いる . こ れら の手法では, 畳み込みによ っ て 作成し た特徴マ ッ プ上を , 複数 の形状と 大き さ を 持っ た矩形(default box)によ っ て 走査し , 各矩形領域で位置と ク ラ スの スコ アリ ン グを 同時に行う 事で高速化を 実現し て いる .
図 2.1: RCNNの処理過程. [17]よ り 引用.
第 2章 関連研究
2.2 畳み込み層の受容野を 変形さ せる 試み
あるCNNの畳み込み層のユニッ ト が影響を 受けている 入力画像の範囲を 受容野(receptive field)と 呼ぶ. 通常のCNNの場合では, こ の受容野は全て 同じ 大き さ と 形状を 持ち , 入力 画像全体に等間隔に敷き 詰めら れて いる . し かし , 物体の形状や大き さ は本来その種類や 状態によ っ て 千差万別であり , それら を 検出する のに最も 適し た受容野の形状も ま た異な る . 例え ば歩行者の検出を 行いたい場合には, 受容野の形状は縦長である こ と が望ま し い.
そこ で近年, 畳み込み層の受容野の形状や位置を データ に合わせて 最適化する 研究が行わ れて いる .
Cheungら の研究[3]では, 人の視覚が周辺視と 中心視で空間解像度が異なる 事を 参考に
CNNの受容野の構造の最適化を 行っ た, 受容野の配置を 2 次元正規分布の集合と し て表現 し , 各正規分布の分散と 平均(位置)を 最適化する こ と で柔軟な 受容野の配置を 実現し た.
ま た, Jeonら の研究 [4]では, 畳み込み層の各受容野に接続位置の変位量を 直接パラ メ ー タ と し て 持たせ, 学習を 通し て 最適化を 行っ た. し かし , こ れら の研究では受容野の形状 そのも のを 学習パラ メ ータ と し て 最適化し て おり , 学習後はその形状や位置が変化する 事 はな い.
次にJaderbergら の研究[6]では, 図2.2のよ う に, 物体の位置や回転の検出を 目的と し たネ ッ ト ワ ーク (localisation network)を 畳み込み層に追加し , localisation networkから 出 力し たアフ ィ ン 変換のパラ メ ータ によ っ て受容野の位置を 変形し た. し かし , 変形はアフ ィ ン 変換で表現可能な も のに 限ら れ, 局所的に 密な サン プリ ン グを 行う 事はでき な かっ た.
Daiら の研究[5]では, 受容野毎に接続位置の変位量を 直接決定する ネッ ト ワ ーク を 新たに 畳み込み層に付け加え た. 任意の配置の受容野を 表現可能になっ たが, 各受容野の変位量 を 決定する ネ ッ ト ワ ーク が畳み込み層によ っ て 構成さ れて おり , ある 受容野の変位量を 同 じ 受容野を 持つ別のネ ッ ト ワ ーク が決定する 構造と なっ て いる . よ っ て , 単層では受容野 の外の状況に応じ て 受容野の変位量を 決める 事が出来ず, 変形のモデリ ン グ能力を 上げる 為には層を 積み重ねる 必要がある .
こ れら の受容野の変位量を 連続変数と し て 持つ手法は, 特徴マ ッ プから 特徴を 読み出す 際に, 変位量を 連続変数から 整数座標に床関数等を 用いて 離散化する 必要がある . こ の離 散化の操作は微分不能であり , 誤差逆伝搬を 用いて ネ ッ ト ワ ーク を 学習する 上で問題と な る . そこ で, 適当なカーネ ルによ る 補間によ る 微分可能化の操作を 必要と する が, こ れは
第 2章 関連研究
図 2.2: Spatial Transformer Network. [6]よ り 引用.
高いオーバーヘッ ド と な る [4].
第 3 章 Attentive Convolutional Neural Network
本章では, CNNに 注意の構造を 取り 入れた , Attentive Convolutional Neural Network
(ACNN) モデルの構造について 述べる .
3.1 Attentive Convolutional Neural Network
ま ず, ACNNの概要を 図3.1に 示す. ACNNは, CNNの畳み込みネ ッ ト ワ ーク と 全結 合ネ ッ ト ワ ーク の間に 空間的な attentionを 生成する ネ ッ ト ワ ーク (attention network)を 持つ. 人の視覚と 対応付ける と , 畳み込みネ ッ ト ワ ーク が単純特徴抽出を 並列に行う 前注 意過程に相当し , attentionによ る 部分特徴の読み出し と 全結合ネ ッ ト ワ ーク が, 単純特徴 を 組み合わせて 処理する 集中的注意過程に相当する . Attention networkは特徴マッ プを 入 力に持ち , 特徴マッ プと 同じ 空間サイ ズのattentionを ボト ムアッ プに生成する . 人の視覚 的注意はボト ムアッ プな要因に加え , 目的や記憶に依存する ト ッ プダウ ン な要因も 持つが,
本提案ではト ッ プダウ ン な視覚的注意のモデル化は行わない. 部分的な特徴の読み出し は,
生成し たattentionと 特徴マッ プ間で行列積を 取る こ と で実現さ れる . 読み出し た部分特徴 は全結合ネ ッ ト ワ ーク に入力さ れ, 物体のク ラ スの推定に使われる .
3.1.1 Attention Network
ま ず, attention networkの例を 図3.2に示す. Attention networkの目的は, 画像中の物 体の位置や大き さ を 捉え , 識別に 必要な 領域を 表すattentionを 生成する こ と である . 畳 み込みネ ッ ト ワ ーク から 出力さ れた特徴マ ッ プを U ∈ RH× W× C と する . こ こ でH, W は特徴マッ プの縦と 横の大き さ , Cはチャ ン ネ ル数を 表す. Attention networkはこ の特徴 マッ プU を 入力と し , attentionA∈RH× W × V を 生成する . V は生成する attentionの本 数を 表す.
Attention networkは画像全体の情報を 集約し た上で注目領域を 決める 為に, 必ず全結合 層を 含む. し かし , 空間解像度を 維持し たま ま 全結合を 行う と パラ メ ータ 数を 大き く なる
第 3 章 Attentive Convolutional Neural Network
図 3.1: ACNN概要
ため, 畳み込みよ っ て空間解像度を 落と し てから 全結合を 行う . 特に全結合層のボト ルネッ ク 部分には, 入力画像の空間的な情報が集約さ れて いる 事が期待でき , こ の部分を 空間特 徴量と 呼称する .
Attention networkは物体の配置の特定のみを 目的と し , 種類の特定ま では行わな い為,
畳み込み層が持つフ ィ ルタ の次元は特徴マ ッ プよ り も 小さ く て 良い. 図3.2では, 64次元 ある 特徴マ ッ プを , 最初の畳み込みに よ っ て 3次元ま で圧縮し て いる . こ の次元圧縮は,
attention networkのパラ メ ータ 数を 減ら し , 計算効率を 高める 上で重要である .
最後に逆畳み込みによ っ て , 空間特徴量から 特徴マ ッ プU と 同じ 大き さ H, W を も つ attentionA を 生成する . こ の時, A はsigmoid関数によ っ て[0〜1]の範囲に正規化を 行う .
3.1.2 Attention によ る 特徴抽出と 識別
図3.3のよ う に空間の次元H と W を 1次元に展開し た特徴マッ プU ∈RHW × C , 及び attentionA∈RHW× V を 用い, 次式によ っ て 特徴M ∈RC× V を 抽出する .
M =UT ⊗A (3.1)
こ こ で, ⊗は行列積を 表す. こ の行列積に よ り , atttentionを 空間方向の重みと し て 特 徴マ ッ プから 特徴量が抜き 出さ れる . Mの大き さ は, U と A のそれぞれチャ ン ネ ルの次 元の積C× V と なり , 元と なる 特徴マッ プの空間の大き さ には依存し ない. ま た, 離散的
第 3 章 Attentive Convolutional Neural Network
図 3.2: Attention network
各層の上の数字はチャ ン ネ ル数を 表す. カ ーネ ルサイ ズはEncoder側の畳み込み層は(9
× 9), decoder側の逆畳み込み層は(3× 3). Strideは全て(2× 2). 中心のボト ルネ ッ ク 部分を 空間特徴ベク ト ルと 呼ぶ.
な画素のサン プリ ン グによ っ て局所的な特徴を 抜き 出す既存手法[5, 6]と 異なり , 単純な行 列積を 用いて 特徴量を 抜き 出すので, 線形補完等の操作を 加え る こ と なく 微分可能である . ま た, attentionを ニュ ーラ ルネ ッ ト の重みと し て 解釈する と , 入力データ に応じ て モデル の構造が変化する メ タ ネ ッ ト ワ ーク [22]と し て の側面も 持つ.
識別を 行う 為に, 特徴M を 1 次元に展開し , 全結合層から な る 識別用のネ ッ ト ワ ーク に入力する . 全結合層の最終層は識別する ク ラ ス数と 同じ ユニッ ト を 持ち , 活性化関数と し てsoftmaxを 用いる . 学習に用いる 損失関数lossは, こ の最終層と 正解ラ ベルと の予測 誤差に加え , Aに対する 正則化項と し て , A のL1ノ ルムを 用いる . こ の時, AのL1ノ ル ム には1e−5程度の小さ い係数を 与え る .
3.1.3 再構成誤差
更に, Hintonら の研究[7]を 参考に, 付加的な制約項と し て 再構成誤差を 用いる . 図3.5 のよ う に, attention networkの空間特徴量と , ラ ベルの予測結果を 元に入力画像の再構成 を 行い, 入力画像と の再構成誤差を lossに加え る . こ の制約項によ っ て , 再構成に必要な 物体の配置に関する 完全な 情報が空間特徴量に保存さ れる こ と を 期待する .
第 3 章 Attentive Convolutional Neural Network
図 3.3: 特徴マ ッ プの行列化
再構成ネ ッ ト ワ ーク の構成例を 図3.4に示す. 入力にはラ ベルの予測結果と 空間特徴量 の要素積を 取っ たも のを 用い, 逆畳み込みによ っ て 入力画像と 同じ 大き さ のマ ッ プを 生成 する . 最終層の活性化関数にsigmoidを 用いて 出力を 正規化し , 再構成画像と する . 再構 成誤差の値は, 入力画像と 再構成画像の画素毎にク ロ スエン ト ロ ピーを 取り , 画素全体で 平均を 取っ たも の用いる . 再構成ネ ッ ト ワ ーク の学習は, 他のネ ッ ト ワ ーク と 同時に行う .
第 3 章 Attentive Convolutional Neural Network
図 3.4: 再構成ネ ッ ト ワ ーク
図 3.5: 再構成ネ ッ ト ワ ーク を 加え たACNN 青く 塗っ た層は空間特徴量を 表す.
第 4 章 評価実験
実験1では, 平行移動を 加え た手書き 数字データ セッ ト によ っ て 学習を 行い, 大き な 物体 の位置変化を 含むデータ セッ ト に 対する ACNNの性能を 通常のCNNと 比較する . ま た,
データ が少量の場合の過学習の起こ り 易さ と , 学習用データ に加え て いな い未知のアフ ィ ン 変換が与え ら れた場合の汎化性能も 合わせて 検証する .
実験2では, 空間特徴量が物体の位置に関する 情報を 保存し て いる こ と を 確認する . な お, 実験に使用し た各モデルの実装には, 全てtensorflow1を 用いた.
4.1 実験 1 平行移動を 加えたデータ セッ ト に対する 性能の検 証
4.1.1 実験設定
本実験では, 平行移動を 加え た手書き 文字データ セッ ト のMNIST [8]を 用い, 数字の種 類を モデルに識別さ せる . 実験に用いる 学習用データ の条件毎に, 実験を 3 つに分け た.
実験1.1ではMNISTの5万枚の全て の学習用データ を 用い, 加え る 平行移動はstep毎 に新たにラ ン ダムに生成し たも のを 用いた. こ れは, 一般的にデータ 拡張と し て 用いら れ る 方法である .
実験1.2では, 5000枚のみを 学習用データ と し て MNISTから 切り 出し , 更に平行移動 は学習前にデータ に加え た. 実験1.1と 異な り , 学習全体を 通し て 平行移動は各数字に対 し て 1 パタ ーン し か与え ら れな い.
実験1.3では, 実験1.1と 同様の設定で学習を 行う が, 性能のテスト には公開データ セッ ト affNIST2を 用いて 行う . affNISTは平行移動に加え て , 回転, 拡大縮小, せん断を ラ ン ダム に加え たMNISTに加え たデータ セッ ト である .
平行移動は, 黒背景のラ ン ダム位置に数字を 置く こ と によ っ て 生成し た. 黒背景の大き さ は, 実験1.1, およ び実験1.2では64× 64のサイ ズと し た. オリ ジナルのMNISTの数 字の大き さ は28× 28である ので, 上下左右に最大±18の範囲でラ ン ダムに平行移動が加
1https://www.tensorflow.org/
2http://www.cs.toronto.edu/~tijmen/affNIST/
第 4章 評価実験 えら れる . 実験1.3ではaffNISTデータ の大き さ である , 40× 40のサイ ズで学習を 行っ た.
比較を 行う CNNは, 畳み込み層と max-pooling層を 2 回繰り 返し た後, 2つの全結合層 に繋いだも のを 用意し た. 畳み込み層のカ ーネ ルサイ ズは3× 3, チャ ン ネ ル数はそれぞ れ32と 64, max-pooling層のstrideは2と し た. ま た, 全結合層のユニッ ト 数はそれぞれ 128, 10と し た.
次に ACNNは, 2回の畳み込み層を 経たも のを 特長マ ッ プ U と し , 図3.2のattention networkによ っ て 特徴M を 抽出後、 2 層の全結合層に接続し た. 畳み込み層のカーネ ルサ イ ズは3× 3, チャ ンネル数はそれぞれ32と 64, strideはそれぞれ1と 2と し , max-pooling 層は含ま ない. 全結合層のユニッ ト 数はベースラ イ ン と 同様に, それぞれ128, 10と し た.
生成する attentionの数V は9枚と し た. ま た, 再構成誤差を 正則化項と し て 用いる モデ ル(ACNN-R)は再構成ネ ッ ト ワ ーク を 追加し て 学習を 行っ た.
活性化関数はsoftmaxを 用いる 全結合層の最終層, 及びsigmoidを 用いる attention net- workと 再構成ネッ ト ワ ーク の最終層を 除き , 両モデルで共通し てreluを 用いた. 全て の実 験を 通し て optimizerにはadamを 使用し , 学習率は0.001で固定し た. ま た, batchの大 き さ は100と し た.
4.1.2 実験 1.1 の結果
100epochの学習を 行っ た後のテスト 用データ に対する accuracy, およ び学習に使用し た パラ メ ータ 数を 表4.1に示す. ま た, 学習後に生成さ れたACNNと ACNN-Rのattention を 図4.1, 図4.2に示す. ま た, attentionのチャ ン ネ ル毎に異なる 彩色を 施し たも のを 図4.3 に示す.
表 4.1: 平行移動を 加え たMNISTに対する accuracy method test accuracy (%) パラ メ ータ 数
CNN (baseline) 99.02 2117k
ACNN 99.21 115k
ACNN-R 99.25 202k
第 4章 評価実験
4.1.3 実験 1.2 の結果
学習用データ を 少量にし た条件で, 100epochの学習を 行っ た後のテスト データ に対する accuracyを 表4.2に示す. なお, trainデータ に対する accuracyは全て のモデルで100%と な っ た. 各モデルの学習中のtrainと testのaccuracyの変化を , 図4.4, 4.5, 4.6に示す.
4.1.4 実験 1.3 の結果
モデルにと っ て未知のアフ ィ ン 変換を 含むaffNISTのtestデータ 32万枚に対する 正解率 を 表4.3に示す. な お, 平行移動のみを 加え たテスト データ に対する 正解率は, 全て のモ デルが99%を 超え て いる .
4.1.5 考察
表4.1よ り , ACNNRと ACNN-Rは共に CNNよ り も 高い識別性能を 示し て いる . 後段 の全結合層の構成は全て のモデルで同一である 為, attention networkを 用いた特徴抽出は よ り 平行移動によ り 頑健である と 言え る . 今回の実験設定では数字の移動範囲が±18ある のに 対し , ベース ラ イ ン と な る CNNの全結合層の直前のpooling層が持つ受容野の広さ は10× 10し かなく , ベースラ イ ン のCNNでは位置の変動を 吸収し き れなかっ たと 考えら れる .
次に, 図4.1と 図4.2を 見る と , 生成さ れたattentionは教師データ と し て数字の位置を 与 えていないにも 関わら ず, 数字の位置に集ま っ ている . 識別に必要な情報を 全結合層に集め る 為に, attention networkが数字の位置の捉え 方を 学習し たと 考え ら れる . ま た, ACNN と ACNN-Rのattentionを 比較する と , 再構成誤差を 加えたACNN-Rの方が数字全体を 覆 う attentionが生成さ れやすい傾向が見ら れた. 再構成を 行う 為には, 数字の大き さ や傾き
表 4.2: 少量データ に対する accuracy method test accuracy (%)
CNN (baseline) 79.45
ACNN 92.07
ACNN-R 94.28
第 4章 評価実験 と いっ た属性の情報が必要である ため, 数字全体を 見る よ う 学習が進んだと 考え ら れる .
更に, 図4.3のチャ ン ネ ル毎に彩色を 施し たattentionを 見る と , ACNN-Rから 生成さ れ たattentionには, 入力画像に関係なく 層状の構造が安定し て見ら れる . Attentionの構造が 安定し ている と いう 事は, 後段の全結合層への入力が安定し ている こ と を 意味し , ACNN-R の正解率がACNNを 上回る 結果に繋がっ たと 考え ら え る .
次に , 各モデルのパラ メ ータ 数を 比較する と , ACNNはベース ラ イ ン のCNNの 6%,
ACNN-Rは10%程度と 大幅に抑えら えている . こ れは最も パラ メ ータ を 必要と する 畳み込 み層と 全結合層の繋ぎ目の部分のネ ッ ト ワ ーク が, ACNNではattentionによ っ て 小部分 のみを 繋ぐ よ う 置き 換わっ た為である . ACNNも attention network内に全結合層を 含んで いる 為, 計算量はCNNと 変わら ず画像の面積に比例し て 増加する が, attention network のフ ィ ルタ の次元数が十分小さ い為にこ の影響は小さ い.
表4.2よ り , CNNと 比較し てACNNは10%以上高いacuuracyを 維持し た. 図4.4, 4.5,
4.6の学習中のacuuracyの推移を 見る と , CNNは早い段階から trainと testの間でaccuracy に大き な差が生じ ている が分かる . 一方, ACNN, 及びACNN-Rも 10epoch付近から 過学 習が始ま っ て いる が, その開き はCNNと 比較し て 緩やかである .
学習用データ が少量である 場合には, 画像内の物体の位置と そのラ ベルに相関が無く て も , 位置と ラ ベルの組み合わせを 全結合ネ ッ ト ワ ーク が記憶し て し ま う こ と で過学習が起 こ る . 一方, ACNNでは, attention networkが物体の位置, 全結合層が物体のラ ベルと い う よ う に別々 のネ ッ ト ワ ーク で学習する 為, 過学習を 防ぐ こ と ができ たと 考え ら れる .
表4.3よ り , 未知のアフ ィ ン 変換に対し て も ベースラ イ ン のCNNと 比較し て ACNNと
ACNN-Rは共に高い正解率を 維持し た. オリ ジナルの手書き 数字が自然に含む小さ な回転
や大き さ のバラ エティ から , こ れら に影響を 受けにく いattentionの配置を attntion network が学習し たも のと 考え ら れる .
以上よ り , 物体の大き な 位置変化に対し , ACNNはattentionを 動かす事で頑健に識別 表 4.3: 未知のアフ ィ ン 変換に対する accuracy
Method affNIST accuracy (%)
CNN 77.62
ACNN 85.33
ACNN-R 87.55
第 4章 評価実験 を 行う 事ができ る と 言え る .
4.2 実験 2: 同一の空間特徴量によ る 異なる 数字の再構成
本実験では, 同じ 画像から 抽出し た空間特徴量を 異なる 数字のラ ベルと 組み合わせて も , 数字の再構成でき る かを 検証し た. 再構成を 行う ネッ ト ワ ーク は, 実験1.1の実験設定で学 習済みのACNN-Rを 用い, 予測ラ ベルは各数字を one-hotに変換し たベク ト ルを 与え た.
再構成結果を 図4.7に示す.
図4.7を 見る と , 数字の種類が与え たラ ベルと 同一で, 位置は空間特徴量の元と な っ た 画像と 同じ 位置に数字が再構成さ れて いる こ と が分かる . こ の事から , 空間特徴量には画 像中の物体の位置情報が保存さ れて いる こ と が確認でき る .
第 4章 評価実験
図 4.1: ACNNのattention
左上は入力画像, 右の9枚の画像はattentionの各チャ ン ネ ルの重みを [0〜1]に正規化し た結果を 表す. 左下の画像は全て のattentionを 足し 合わせた上で赤く 彩色し , 入力画像
に重ねた結果を 表す.
第 4章 評価実験
図 4.2: ACNN-Rのattention
第 4章 評価実験
図 4.3: チャ ン ネ ル毎に彩色し た attention
図4.1と 図4.2の9枚のattentionにそれぞれ異なる 色を 付けた上で一枚に重ねて 作成し た.
第 4章 評価実験
図 4.4: ベースラ イ ン CNNのtrainと test accuracyの推移
第 4章 評価実験
図 4.5: ACNNのtrainと test accuracyの推移
第 4章 評価実験
図 4.6: ACNN-Rのtrainと test accuracyの推移
第 4章 評価実験
図 4.7: 同一の空間特徴量によ る 異な る ラ ベルの再構成 各行が再構成に使用し た空間特徴量, 各列が使用し たラ ベルを 表す.
第 5 章 結論
5.1 ま と め
本論文では人の視覚的情報処理の過程を 参考に , CNNに attentionの構造を 取り 入れ た Attentive Convolutional Neural Network(ACNN)モデルを 提案し た . 従来のCNNの pooling層に替わっ て attentionを 生成する attention networkを 用いる 事で, 大域的な位置 ずれに頑健になる こ と を 確認し た. ま た, 空間特徴量に対する 付加的な制約項と し て 再構 成ネ ッ ト ワ ーク によ る 再構成誤差が用いる と , よ り 汎化性能が上げら れる 事を 確認し た.
実験では, 複数の条件でアフ ィ ン 変換を 加え た手書き 文字データ セッ ト MNISTの識別 性能を CNNと 比較し た. 実験1 では, 平行移動を データ 拡張と し て MNISTに加えたデー タ セッ ト に対する 性能を CNNと 比較し , 1割未満のパラ メ ータ 数で同等以上の識別率を 得 た. 計算資源の観点から , ACNNは物体の平行移動を よ り 効率的に学習可能なモデルであ る と 考え ら れる . ま た, 学習データ が少量である 条件でも 学習を 行い, ACNNが過学習を 起こ し 難いモデルである 事を 確認し た. 更に, 学習時に与え ら れて いない未知のアフ ィ ン 変換に対する 性能も 検証し , 高い汎化性能を 持つ事を 確認し た. 最後に実験2では, 画像 中の物体の位置に関する 情報が, attention networkに保存さ れて いる 事を 確認し た.
5.2 課題と 展望
本研究は黒背景に合成さ れた手書き 数字と いう 特殊な条件下での実験し か行っ て おら ず,
一般物体認識のよ う な複雑な背景を 持つ条件でも , 同様にattentionが有効に働く かについ て は更なる 検証を 必要と する . 背景が複雑になる と , attention networkの構造も それに応 じ て 複雑にする 必要がある と 考え ら れる .
実世界において 起こ り う る アフ ィ ン 変換以外の膨張収縮や部分的な変形と いっ た複雑な 設定下でのモデルの頑健性も 未検証である . Jaderbergら 研究 [6]と 異なり , ACNNは受容 野の形状や密度を 柔軟に変更でき る . こ の性質は, 複雑な形状変化に対し て 有効に働く 事 が期待でき る .
ま た, 画像中に複数の識別対象がある よ う な状況を 考え た時, attentionを 向ける 先を 動
第 5 章 結論 的に制御する 仕組みが必要である . こ れに対し ては, 外部メ モリ を 扱う ネッ ト ワ ーク [23,24]
を 参考に, attentionを 制御する RNN式のコ ン ト ロ ーラ の導入を 検討し て いる .
謝辞
本研究の着手及び方針について , 多く の御指導, 御助言を 頂いた小林 哲則教授に, 心よ り 感謝申し 上げま す.
ま た研究に関し , 多く の御提案, 御助言を 頂いた, 藤江 真也氏, 小川 哲司氏, 俵 直弘 氏に深く 感謝致し ま す.
最後に, 研究生活の中で, 多く の議論に付き 合っ て く れた菊池 康太郎氏, 赤川 優斗氏,
金田 健太郎氏, 研究室の皆さ ま に深く 感謝致し ま す
参考文献
[1] A. Treisman, “A feature-integration theory of attention,” Cognitive Psychology, vol.12, no.1, pp.97–136, 1979.
[2] D. Hubel, T. Wiesel, “Receptive fields of single neurones in the cat s striate cortex,”
The Journal of physiology, vol.160, pp.106–154, 1962.
[3] B. Cheung, E. Weiss, and B. Olshausen, “The Emergence of a Fovea while Learning to Attend, ” International Conference on Learning Representations, 2017.
[4] Y. Jeon, J. Kim, “Active Convolution: Learning the Shape of Convolution for Image Classification, ” Computer Vision and Pattern Recognition, pp.1846–1854, 2017.
[5] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, Y Wei, “Deformable Convolutional Networks ,” International Conference on Computer Vision, pp.764–773, 2017.
[6] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, “Spatial Transformer Networks, ” Advances in Neural Information Processing Systems, pp.2017–2025, 2015.
[7] S. Sabour, N. Frosst, and G. E Hinton, “Dynamic Routing Between Capsules, ” Advances in Neural Information Processing Systems, pp.3859–3869, 2017.
[8] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition, ” Proceedings of the IEEE, pp.2278-2324, 1998.
[9] Z. Cao, T. Simon, S. Wei, Y. Sheikh, “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, ” Computer Vision and Pattern Recognition, 2017.
[10] K. Lenc and A. Vedaldi, “Understanding image representations by measuring their equivariance and equivalence, ” Computer Vision and Pattern Recognition, pp.991–
999, 2015.
第 5章 参考文献 [11] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, and et.al, “Going Deeper with Convolu-
tions, ” Computer Vision and Pattern Recognition, pp.1–9, 2015.
[12] ] E. Shelhamer, J. Long and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation, ” Pattern Analysis and Machine Intelligence, vol.39, no.4, pp.640–651, 2017.
[13] A. Radford, L. Metz, S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, ” arXiv, 2015.
[14] J. Zhu, T. Park, P. Isola, and A. Efros, “Unpaired Image-to-Image Translation us- ing Cycle-Consistent Adversarial Networks, ” International Conference on Computer Vision, 2017.
[15] M. Cheng, Z. Zhang, W. Lin, and P. Torr, “BING: Binarized Normed Gradients for Objectness Estimation at 300fps, ” Computer Vision and Pattern Recognition, pp.3286–3293, 2014.
[16] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders, “Selective Search for Object Recognition, ” International Journal of Computer Vision, vol.104, no.2, pp.154–171, 2013.
[17] R. Girshick, J. Donahue, T. Darrell, J. Malik, “Rich feature hierarchies for accu- rate object detection and semantic segmentation, ” Computer Vision and Pattern Recognition, pp.580–587, 2014.
[18] R. Girshick, “Fast R-CNN, ” International Conference on Computer Vision, pp.1440–
1448, 2015.
[19] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Ob- ject Detection with Region Proposal Networks, ” Advances in Neural Information Processing Systems, pp.91–99, 2015.
第 5章 参考文献 [20] J. Redmon, S. Divvala, R. Girshick and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection, ” Computer Vision and Pattern Recognition, pp.779–
788, 2016.
[21] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, Cheng-Yang Fu, A. C. Berg,
“SSD: Single Shot MultiBox Detector, ” European Conference on Computer Vision, pp.21–37, 2016.
[22] D. Ha, A. Dai, Q. V. Le, “HyperNetworks, ” International Conference on Learning Representations, 2016.
[23] G. Edward, and et.al, “Hybrid computing using a neural network with dynamic ex- ternal memory, ” Nature(journal), vol.538, pp.471-476, 2016.
[24] S. Sainbayar, S. Arthur, W. Jason, F. Rob, “End-To-End Memory Networks, ” Ad- vances in Neural Information Processing Systems, pp.2440–2448, 2015.