• 検索結果がありません。

浅野秀平 ConvolutionalNeuralNetwork の提案 位置変化に頑健な Attention 付き

N/A
N/A
Protected

Academic year: 2022

シェア "浅野秀平 ConvolutionalNeuralNetwork の提案 位置変化に頑健な Attention 付き"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

2017 年度 修士論文

位置変化に頑健な Attention 付き Convolutional Neural Network の提案

2018 1 30 日 提出

指導教授

小林 哲則 教授

早稲田大学 基幹理工学部 情報理工学科 知覚情報システム 研究室

5116F003-1

浅 野 秀 平

(2)

目 次

第1章 序論 1

1.1 研究背景と 目的 . . . 1

1.2 提案手法の特徴 . . . 2

第2章 関連研究 4 2.1 一般物体検出アルゴリ ズム . . . 4

2.2 畳み込み層の受容野を 変形さ せる 試み . . . 5

第3章 Attentive Convolutional Neural Network 7 3.1 Attentive Convolutional Neural Network . . . 7

3.1.1 Attention Network . . . 7

3.1.2 Attentionによ る 特徴抽出と 識別. . . 8

3.1.3 再構成誤差 . . . 9

第4章 評価実験 12 4.1 実験1 平行移動を 加え たデータ セッ ト に対する 性能の検証 . . . 12

4.1.1 実験設定 . . . 12

4.1.2 実験1.1の結果 . . . 13

4.1.3 実験1.2の結果 . . . 14

4.1.4 実験1.3の結果 . . . 14

4.1.5 考察 . . . 14

4.2 実験2: 同一の空間特徴量によ る 異な る 数字の再構成 . . . 16

第5章 結論 24 5.1 ま と め . . . 24

5.2 課題と 展望 . . . 24

参考文献 27

(3)

表 目 次

4.1 平行移動を 加え た MNISTに対する accuracy . . . 13 4.2 少量データ に対する accuracy . . . 14 4.3 未知のアフ ィ ン 変換に対する accuracy . . . 15

(4)

図 目 次

1.1 CNNのアーキテク チャ 例(LeNet-5). [8]よ り 引用. . . . 2

1.2 人の視覚的注意の模式図. . . . 3

2.1 RCNNの処理過程. [17]よ り 引用. . . . 4

2.2 Spatial Transformer Network. [6]よ り 引用. . . . 6

3.1 ACNN概要 . . . 8

3.2 Attention network . . . 9

3.3 特徴マ ッ プの行列化 . . . 10

3.4 再構成ネ ッ ト ワ ーク . . . 11

3.5 再構成ネ ッ ト ワ ーク を 加え たACNN . . . 11

4.1 ACNNのattention . . . 17

4.2 ACNN-Rのattention . . . 18

4.3 チャ ン ネ ル毎に彩色し た attention . . . 19

4.4 ベースラ イ ン CNNのtrainと test accuracyの推移 . . . 20

4.5 ACNNのtrainと test accuracyの推移 . . . 21

4.6 ACNN-Rのtrainと test accuracyの推移 . . . 22

4.7 同一の空間特徴量によ る 異な る ラ ベルの再構成. . . 23

(5)

概要

本論文では, 物体の位置変化に対し よ り 頑健な画像処理を 目的と し てConvolutional Neural Network(CNN)に attentionの構造を 取り 入れる 手法を 提案する .

近年, ニュ ーラ ルネ ッ ト の一手法である CNNは, 物体認識や背景分離と いっ た幅広い 画像処理のタ スク に用いら れて いる . CNNは, poolingと 呼ばれる 特徴マ ッ プ上の局所的 な特徴を ま と め上げる 処理を 含み, 画像処理において 重要な物体の位置ずれに対する 頑健 性を 有し て いる . し かし , poolingによ る 不変性は限定的であり , 大域的な位置変化を 含む データ を 効率的に処理する 事が出来ない. ま た, poolingを 重ねる と 特徴マッ プの空間解像 度が指数的に低下し て いき , 物体がど こ にあっ たかと いう レ アイ アウ ト に関する 情報が失 われて し ま う . こ れら の性質は, 物体の位置ずれを 形状の固定さ れた静的な 受容野によ っ て 吸収し よ う と する 為に生じ る .

一方, 人は広大な環境にあっ て も , 高い空間解像度を 維持し ながら 複雑な処理を 高速に 行っ て いる . こ れは視覚的注意によ っ て , 環境の中から 処理する 領域を 取捨選択する 事が 可能な為である . こ の仕組みでは, 物体の像が視野の中央から ずれて いて も , スポッ ト ラ イ ト のよ う に注意が動く 事で出力を 一定に保つこ と が出来る .

そ こ で本研究では, こ の人の注意の仕組みを 参考に , CNNに 注意の構造を 取り 入れた Attentive Convolutional Neural Network(ACNN)を 提案する . ACNNは通常のCNNの畳み 込み層と 全結合層の間に, 空間的なattentionを 生成する ネッ ト ワ ーク (attention network) を 持つ. Attentionを 入力画像に応じ て変化さ せる 事で, 全結合層へ入力する 範囲を 制御す る 事が可能と なる . 特徴マッ プから の部分的な特徴の読み出し は, attentionと 特徴マッ プ の単純な行列積によ っ て 実現さ れる . こ の行列積を ニュ ーラ ルネ ッ ト の重みを 掛ける 操作 と し て 解釈する と , ACNNは入力データ に応じ て モデルの構造が変化する メ タ ネ ッ ト ワ ー ク [22]と し ての側面を 持つ. 学習には位置の情報と いっ た追加の教師データ を 必要と せず,

既存のCNNを そのま ま ACNNに置き 換え る 事が可能である . ま た, 物体の配置に関する 情報はattention networkによ っ て 抽出さ れ保存さ れる .

検証では, 平行移動を 加え た手書き 数字データ セッ ト MNISTに対する 性能比較を 通常 のCNNと 行っ た. ACNNはCNNの1割ほどのパラ メ ータ で, 同等以上の識別性能を 持つ

(6)

事を 定量的に確認し た. ま た, 少量データ を 用いた検証によ り , ACNNがCNNよ り も 過 学習を 起こ し にく い性質を 持つ事を 確認し た. 更に, モデルにと っ て 未知のアフ ィ ン 変換 に対し て も , ACNNは高い汎化性能を 持つ事を 確認し た.

(7)

第 1 章 序論

1.1 研究背景と 目的

机や椅子の置かれた教室や多く の人が行き 交う 交差点など , 我々 のいる 実世界は複数の 形状も 大き さ も 異なる 物体が多様な規則に沿っ て 配置さ れた, 非常に複雑でバラ エティ に 富んだ構造を 持つ. 一般に, こ のよ う な実世界の画像を 扱う システムは, 画像中の物体の 位置ずれやスケールの変化に対し て 応答が不変である 事が望ま し い. 例え ば, 歩行者検出 のよ う なタ スク では, 対象が画像内を 自由に動き 回っ て も , 検出結果が保たれる よ う にシ ステム を 設計し な け ればな ら な い.

近年, Convolutional Neural Network (CNN) [8]は, 物体認識[9,11]や前景分離 [12], 画 像生成[13, 14]と いっ た幅広いタ スク で用いら れ優れた性能を 示し ている . CNNは, 図1.1 のよ う に, 畳み込みを 行う ネ ッ ト ワ ーク と 全結合層を 直列に並べた構造を 持つ. 畳み込み を 行う ネ ッ ト ワ ーク は, 更に局所的な特徴抽出を 行う 畳み込み層と , 特徴を 局所的にま と め上げる pooling層に分けら れる . Pooling層は, 局所領域内の最大値や平均値と いっ た代 表値を 出力と する 事で, 局所領域内の特徴の配置が変わっ て も 同じ 反応を 保つこ と が出来 る . し かし , その範囲は一般的に2× 2程度の微小な 大き さ し か持たず, 単層ではわずか な位置の変化に対し て し か不変性を 持たない. よ り 大き な位置の変化を 扱う には, 畳み込 みと pooling層を 積み重ねる 必要がある [10]. し かし , 入力画像に写っ た物体の複雑さ に 関係なく , 単にその大き さ に応じ て ネ ッ ト ワ ーク の層を 積み重ねる のは, 計算資源や学習 の収束速度の観点から 効率的である と は言えない. ま た, poolingを 行う と 空間解像度が指 数的に落ち る 為, 画像の持つ空間的な情報(物体の配置や傾き)は層を 重ねる ごと に失われ て し ま う .

YOLO [21]やSSD [21]と いっ た最新の一般物体検出の手法では, 複数のスケールと アス ペク ト 比を 持っ たanchor boxを 用いる 事で物体の大き さ や形状の違いに対処し て いる . し かし , 物体の位置の検出はあく ま で画像全体を 走査する 事で実現さ れており , CNNと 同様 に不変性には限界がある .

一方, 人の視覚は高い空間解像度を 保っ たま ま , 複雑な処理を 同時かつ高速に行う 事が

(8)

第 1 章 序論

図 1.1: CNNのアーキテク チャ 例(LeNet-5). [8]よ り 引用.

可能である . こ の能力は, 視覚的注意と よ ばれる 有限な認知資源を 空間に割り 振る 機構に よ っ て 実現さ れる . 認知心理学の分野ではこ の視覚的注意に関する 数多く の知見が積み上 げら れており , そのメ カニズムが明ら かになり つつある . 人の視覚的情報処理は, 図1.2の よ う に, 視覚的注意を 適用する 前後で, 異なっ た性質を 持つ事が分かっ て いる [1]. 前注意 的過程では, 色や傾き と いっ た単純特徴を 視覚空間全体に渡っ て 並列に計算する 事が可能 である . し かし , 単純特徴を 組み合わせて 行う 処理(例え ばリ ン ゴを 認識する には色と 形 状特徴を 組み合わせる 必要がある)を 行う 事は出来な い. 次に集中的注意過程では, 単純 特徴を 組み合わせた有機的な 認知を 行う 事が可能である . し かし , 処理容量に限り があっ て , 一度に狭い領域し か処理でき ず, 注意によ る 誘導を 必要と する . こ の枠組みでは, 特 徴マ ッ プの空間解像度を 高く 保ち つつ, 物体の位置の変化は注意が動く こ と で吸収する 事 ができ る . 本研究では, こ れら の人の認知の仕組みを 参考に, CNNに注意の構造を 加え た Attentive Convolutional Neural Network(ACNN)モデルを 提案する .

1.2 提案手法の特徴

提案手法である ACNNは, CNNの畳み込み層と 全結合層の間に空間的なattentionを 生 成する ネッ ト ワ ーク (attention network)を 加えた構造を 持ち , attentionを 変化さ せる 事で 全結合層へ入力する 特徴マ ッ プの領域を 制御する . Attentionに よ る 特徴マ ッ プから の特 徴の読み出し は, 単純な 行列積に よ っ て 実現さ れる . 物体が大き く 位置を 変化さ せて も , attention networkがその位置を 捉え, attentionを 変化さ せる 事で全結合層への入力を 一定 に保つ. ま た, ACNNは特徴マッ プの一部のみを 全結合層の入力と し て 用いる 為, モデル の持つパラ メ ータ 数はCNNと 比較し て大幅に小さ く 出来る . 更に, attenton netowrk内に

(9)

第 1 章 序論

図 1.2: 人の視覚的注意の模式図.

は識別に必要な情報(物体)の位置が保存さ れており , 画像の再構成などに利用可能である .

(10)

第 2 章 関連研究

2.1 一般物体検出ア ルゴリ ズム

画像内の物体の位置と そのク ラ スを 分けて 処理する アルゴリ ズムは, その両方の推定を 目的と する 一般物体検出の分野において 盛んに研究が行われて き た. 一般物体検出を 実現 する 方法と し て , 画像内から 複数の物体候補領域を 抜き 出し , 各候補領域について 物体の ク ラ スを 推定する 方法が考え ら れる . Girshickら の提案し たR-CNN [17]は, 図2.1のよ う に, 候補領域の推定を Slective Search [16]と 呼ばれる 画素間の類似度に基づいたセグメ ン テーショ ン によ っ て 行い, 切り 出し た各候補領域に対し て 個別に CNNによ る 特徴抽出と SVMによ る ク ラ ス分類を 行っ た. 以降, こ のRCNNを ベースと し て アルゴリ ズム の高速 化[15, 18]や候補領域の推定と ク ラ スの推定を 一つのニュ ーラ ルネッ ト によ っ て学習する 試 み [19]が行われて き た. し かし , 候補領域の提案に基づく 物体検出は手続き が複雑で計算 負荷が大き く , リ アルタ イ ムな処理や計算資源の限ら れた組み込みシステムへの応用が難 し いと いう 問題があっ た.

近年では, 物体の位置の検出と ク ラ スの推定を ネッ ト ワ ーク の中で並列に行う 手法[20,21]

が提案さ れて いる . こ れら の手法では, 畳み込みによ っ て 作成し た特徴マ ッ プ上を , 複数 の形状と 大き さ を 持っ た矩形(default box)によ っ て 走査し , 各矩形領域で位置と ク ラ スの スコ アリ ン グを 同時に行う 事で高速化を 実現し て いる .

図 2.1: RCNNの処理過程. [17]よ り 引用.

(11)

第 2章 関連研究

2.2 畳み込み層の受容野を 変形さ せる 試み

あるCNNの畳み込み層のユニッ ト が影響を 受けている 入力画像の範囲を 受容野(receptive field)と 呼ぶ. 通常のCNNの場合では, こ の受容野は全て 同じ 大き さ と 形状を 持ち , 入力 画像全体に等間隔に敷き 詰めら れて いる . し かし , 物体の形状や大き さ は本来その種類や 状態によ っ て 千差万別であり , それら を 検出する のに最も 適し た受容野の形状も ま た異な る . 例え ば歩行者の検出を 行いたい場合には, 受容野の形状は縦長である こ と が望ま し い.

そこ で近年, 畳み込み層の受容野の形状や位置を データ に合わせて 最適化する 研究が行わ れて いる .

Cheungら の研究[3]では, 人の視覚が周辺視と 中心視で空間解像度が異なる 事を 参考に

CNNの受容野の構造の最適化を 行っ た, 受容野の配置を 2 次元正規分布の集合と し て表現 し , 各正規分布の分散と 平均(位置)を 最適化する こ と で柔軟な 受容野の配置を 実現し た.

ま た, Jeonら の研究 [4]では, 畳み込み層の各受容野に接続位置の変位量を 直接パラ メ ー タ と し て 持たせ, 学習を 通し て 最適化を 行っ た. し かし , こ れら の研究では受容野の形状 そのも のを 学習パラ メ ータ と し て 最適化し て おり , 学習後はその形状や位置が変化する 事 はな い.

次にJaderbergら の研究[6]では, 図2.2のよ う に, 物体の位置や回転の検出を 目的と し たネ ッ ト ワ ーク (localisation network)を 畳み込み層に追加し , localisation networkから 出 力し たアフ ィ ン 変換のパラ メ ータ によ っ て受容野の位置を 変形し た. し かし , 変形はアフ ィ ン 変換で表現可能な も のに 限ら れ, 局所的に 密な サン プリ ン グを 行う 事はでき な かっ た.

Daiら の研究[5]では, 受容野毎に接続位置の変位量を 直接決定する ネッ ト ワ ーク を 新たに 畳み込み層に付け加え た. 任意の配置の受容野を 表現可能になっ たが, 各受容野の変位量 を 決定する ネ ッ ト ワ ーク が畳み込み層によ っ て 構成さ れて おり , ある 受容野の変位量を 同 じ 受容野を 持つ別のネ ッ ト ワ ーク が決定する 構造と なっ て いる . よ っ て , 単層では受容野 の外の状況に応じ て 受容野の変位量を 決める 事が出来ず, 変形のモデリ ン グ能力を 上げる 為には層を 積み重ねる 必要がある .

こ れら の受容野の変位量を 連続変数と し て 持つ手法は, 特徴マ ッ プから 特徴を 読み出す 際に, 変位量を 連続変数から 整数座標に床関数等を 用いて 離散化する 必要がある . こ の離 散化の操作は微分不能であり , 誤差逆伝搬を 用いて ネ ッ ト ワ ーク を 学習する 上で問題と な る . そこ で, 適当なカーネ ルによ る 補間によ る 微分可能化の操作を 必要と する が, こ れは

(12)

第 2章 関連研究

図 2.2: Spatial Transformer Network. [6]よ り 引用.

高いオーバーヘッ ド と な る [4].

(13)

第 3 Attentive Convolutional Neural Network

本章では, CNNに 注意の構造を 取り 入れた , Attentive Convolutional Neural Network

(ACNN) モデルの構造について 述べる .

3.1 Attentive Convolutional Neural Network

ま ず, ACNNの概要を 図3.1に 示す. ACNNは, CNNの畳み込みネ ッ ト ワ ーク と 全結 合ネ ッ ト ワ ーク の間に 空間的な attentionを 生成する ネ ッ ト ワ ーク (attention network)を 持つ. 人の視覚と 対応付ける と , 畳み込みネ ッ ト ワ ーク が単純特徴抽出を 並列に行う 前注 意過程に相当し , attentionによ る 部分特徴の読み出し と 全結合ネ ッ ト ワ ーク が, 単純特徴 を 組み合わせて 処理する 集中的注意過程に相当する . Attention networkは特徴マッ プを 入 力に持ち , 特徴マッ プと 同じ 空間サイ ズのattentionを ボト ムアッ プに生成する . 人の視覚 的注意はボト ムアッ プな要因に加え , 目的や記憶に依存する ト ッ プダウ ン な要因も 持つが,

本提案ではト ッ プダウ ン な視覚的注意のモデル化は行わない. 部分的な特徴の読み出し は,

生成し たattentionと 特徴マッ プ間で行列積を 取る こ と で実現さ れる . 読み出し た部分特徴 は全結合ネ ッ ト ワ ーク に入力さ れ, 物体のク ラ スの推定に使われる .

3.1.1 Attention Network

ま ず, attention networkの例を 図3.2に示す. Attention networkの目的は, 画像中の物 体の位置や大き さ を 捉え , 識別に 必要な 領域を 表すattentionを 生成する こ と である . 畳 み込みネ ッ ト ワ ーク から 出力さ れた特徴マ ッ プを U ∈ RH× W× C と する . こ こ でH, W は特徴マッ プの縦と 横の大き さ , Cはチャ ン ネ ル数を 表す. Attention networkはこ の特徴 マッ プU を 入力と し , attentionA∈RH× W × V を 生成する . V は生成する attentionの本 数を 表す.

Attention networkは画像全体の情報を 集約し た上で注目領域を 決める 為に, 必ず全結合 層を 含む. し かし , 空間解像度を 維持し たま ま 全結合を 行う と パラ メ ータ 数を 大き く なる

(14)

第 3 章 Attentive Convolutional Neural Network

図 3.1: ACNN概要

ため, 畳み込みよ っ て空間解像度を 落と し てから 全結合を 行う . 特に全結合層のボト ルネッ ク 部分には, 入力画像の空間的な情報が集約さ れて いる 事が期待でき , こ の部分を 空間特 徴量と 呼称する .

Attention networkは物体の配置の特定のみを 目的と し , 種類の特定ま では行わな い為,

畳み込み層が持つフ ィ ルタ の次元は特徴マ ッ プよ り も 小さ く て 良い. 図3.2では, 64次元 ある 特徴マ ッ プを , 最初の畳み込みに よ っ て 3次元ま で圧縮し て いる . こ の次元圧縮は,

attention networkのパラ メ ータ 数を 減ら し , 計算効率を 高める 上で重要である .

最後に逆畳み込みによ っ て , 空間特徴量から 特徴マ ッ プU と 同じ 大き さ H, W を も つ attentionA を 生成する . こ の時, A はsigmoid関数によ っ て[0〜1]の範囲に正規化を 行う .

3.1.2 Attention によ る 特徴抽出と 識別

図3.3のよ う に空間の次元H と W を 1次元に展開し た特徴マッ プU ∈RHW × C , 及び attentionA∈RHW× V を 用い, 次式によ っ て 特徴M ∈RC× V を 抽出する .

M =UT ⊗A (3.1)

こ こ で, ⊗は行列積を 表す. こ の行列積に よ り , atttentionを 空間方向の重みと し て 特 徴マ ッ プから 特徴量が抜き 出さ れる . Mの大き さ は, U と A のそれぞれチャ ン ネ ルの次 元の積C× V と なり , 元と なる 特徴マッ プの空間の大き さ には依存し ない. ま た, 離散的

(15)

第 3 章 Attentive Convolutional Neural Network

図 3.2: Attention network

各層の上の数字はチャ ン ネ ル数を 表す. カ ーネ ルサイ ズはEncoder側の畳み込み層は(9

× 9), decoder側の逆畳み込み層は(3× 3). Strideは全て(2× 2). 中心のボト ルネ ッ ク 部分を 空間特徴ベク ト ルと 呼ぶ.

な画素のサン プリ ン グによ っ て局所的な特徴を 抜き 出す既存手法[5, 6]と 異なり , 単純な行 列積を 用いて 特徴量を 抜き 出すので, 線形補完等の操作を 加え る こ と なく 微分可能である . ま た, attentionを ニュ ーラ ルネ ッ ト の重みと し て 解釈する と , 入力データ に応じ て モデル の構造が変化する メ タ ネ ッ ト ワ ーク [22]と し て の側面も 持つ.

識別を 行う 為に, 特徴M を 1 次元に展開し , 全結合層から な る 識別用のネ ッ ト ワ ーク に入力する . 全結合層の最終層は識別する ク ラ ス数と 同じ ユニッ ト を 持ち , 活性化関数と し てsoftmaxを 用いる . 学習に用いる 損失関数lossは, こ の最終層と 正解ラ ベルと の予測 誤差に加え , Aに対する 正則化項と し て , A のL1ノ ルムを 用いる . こ の時, AのL1ノ ル ム には1e5程度の小さ い係数を 与え る .

3.1.3 再構成誤差

更に, Hintonら の研究[7]を 参考に, 付加的な制約項と し て 再構成誤差を 用いる . 図3.5 のよ う に, attention networkの空間特徴量と , ラ ベルの予測結果を 元に入力画像の再構成 を 行い, 入力画像と の再構成誤差を lossに加え る . こ の制約項によ っ て , 再構成に必要な 物体の配置に関する 完全な 情報が空間特徴量に保存さ れる こ と を 期待する .

(16)

第 3 章 Attentive Convolutional Neural Network

図 3.3: 特徴マ ッ プの行列化

再構成ネ ッ ト ワ ーク の構成例を 図3.4に示す. 入力にはラ ベルの予測結果と 空間特徴量 の要素積を 取っ たも のを 用い, 逆畳み込みによ っ て 入力画像と 同じ 大き さ のマ ッ プを 生成 する . 最終層の活性化関数にsigmoidを 用いて 出力を 正規化し , 再構成画像と する . 再構 成誤差の値は, 入力画像と 再構成画像の画素毎にク ロ スエン ト ロ ピーを 取り , 画素全体で 平均を 取っ たも の用いる . 再構成ネ ッ ト ワ ーク の学習は, 他のネ ッ ト ワ ーク と 同時に行う .

(17)

第 3 章 Attentive Convolutional Neural Network

図 3.4: 再構成ネ ッ ト ワ ーク

図 3.5: 再構成ネ ッ ト ワ ーク を 加え たACNN 青く 塗っ た層は空間特徴量を 表す.

(18)

第 4 章 評価実験

実験1では, 平行移動を 加え た手書き 数字データ セッ ト によ っ て 学習を 行い, 大き な 物体 の位置変化を 含むデータ セッ ト に 対する ACNNの性能を 通常のCNNと 比較する . ま た,

データ が少量の場合の過学習の起こ り 易さ と , 学習用データ に加え て いな い未知のアフ ィ ン 変換が与え ら れた場合の汎化性能も 合わせて 検証する .

実験2では, 空間特徴量が物体の位置に関する 情報を 保存し て いる こ と を 確認する . な お, 実験に使用し た各モデルの実装には, 全てtensorflow1を 用いた.

4.1 実験 1 平行移動を 加えたデータ セッ ト に対する 性能の検 証

4.1.1 実験設定

本実験では, 平行移動を 加え た手書き 文字データ セッ ト のMNIST [8]を 用い, 数字の種 類を モデルに識別さ せる . 実験に用いる 学習用データ の条件毎に, 実験を 3 つに分け た.

実験1.1ではMNISTの5万枚の全て の学習用データ を 用い, 加え る 平行移動はstep毎 に新たにラ ン ダムに生成し たも のを 用いた. こ れは, 一般的にデータ 拡張と し て 用いら れ る 方法である .

実験1.2では, 5000枚のみを 学習用データ と し て MNISTから 切り 出し , 更に平行移動 は学習前にデータ に加え た. 実験1.1と 異な り , 学習全体を 通し て 平行移動は各数字に対 し て 1 パタ ーン し か与え ら れな い.

実験1.3では, 実験1.1と 同様の設定で学習を 行う が, 性能のテスト には公開データ セッ ト affNIST2を 用いて 行う . affNISTは平行移動に加え て , 回転, 拡大縮小, せん断を ラ ン ダム に加え たMNISTに加え たデータ セッ ト である .

平行移動は, 黒背景のラ ン ダム位置に数字を 置く こ と によ っ て 生成し た. 黒背景の大き さ は, 実験1.1, およ び実験1.2では64× 64のサイ ズと し た. オリ ジナルのMNISTの数 字の大き さ は28× 28である ので, 上下左右に最大±18の範囲でラ ン ダムに平行移動が加

1https://www.tensorflow.org/

2http://www.cs.toronto.edu/~tijmen/affNIST/

(19)

第 4章 評価実験 えら れる . 実験1.3ではaffNISTデータ の大き さ である , 40× 40のサイ ズで学習を 行っ た.

比較を 行う CNNは, 畳み込み層と max-pooling層を 2 回繰り 返し た後, 2つの全結合層 に繋いだも のを 用意し た. 畳み込み層のカ ーネ ルサイ ズは3× 3, チャ ン ネ ル数はそれぞ れ32と 64, max-pooling層のstrideは2と し た. ま た, 全結合層のユニッ ト 数はそれぞれ 128, 10と し た.

次に ACNNは, 2回の畳み込み層を 経たも のを 特長マ ッ プ U と し , 図3.2のattention networkによ っ て 特徴M を 抽出後、 2 層の全結合層に接続し た. 畳み込み層のカーネ ルサ イ ズは3× 3, チャ ンネル数はそれぞれ32と 64, strideはそれぞれ1と 2と し , max-pooling 層は含ま ない. 全結合層のユニッ ト 数はベースラ イ ン と 同様に, それぞれ128, 10と し た.

生成する attentionの数V は9枚と し た. ま た, 再構成誤差を 正則化項と し て 用いる モデ ル(ACNN-R)は再構成ネ ッ ト ワ ーク を 追加し て 学習を 行っ た.

活性化関数はsoftmaxを 用いる 全結合層の最終層, 及びsigmoidを 用いる attention net- workと 再構成ネッ ト ワ ーク の最終層を 除き , 両モデルで共通し てreluを 用いた. 全て の実 験を 通し て optimizerにはadamを 使用し , 学習率は0.001で固定し た. ま た, batchの大 き さ は100と し た.

4.1.2 実験 1.1 の結果

100epochの学習を 行っ た後のテスト 用データ に対する accuracy, およ び学習に使用し た パラ メ ータ 数を 表4.1に示す. ま た, 学習後に生成さ れたACNNと ACNN-Rのattention を 図4.1, 図4.2に示す. ま た, attentionのチャ ン ネ ル毎に異なる 彩色を 施し たも のを 図4.3 に示す.

表 4.1: 平行移動を 加え たMNISTに対する accuracy method test accuracy (%) パラ メ ータ 数

CNN (baseline) 99.02 2117k

ACNN 99.21 115k

ACNN-R 99.25 202k

(20)

第 4章 評価実験

4.1.3 実験 1.2 の結果

学習用データ を 少量にし た条件で, 100epochの学習を 行っ た後のテスト データ に対する accuracyを 表4.2に示す. なお, trainデータ に対する accuracyは全て のモデルで100%と な っ た. 各モデルの学習中のtrainと testのaccuracyの変化を , 図4.4, 4.5, 4.6に示す.

4.1.4 実験 1.3 の結果

モデルにと っ て未知のアフ ィ ン 変換を 含むaffNISTのtestデータ 32万枚に対する 正解率 を 表4.3に示す. な お, 平行移動のみを 加え たテスト データ に対する 正解率は, 全て のモ デルが99%を 超え て いる .

4.1.5 考察

表4.1よ り , ACNNRと ACNN-Rは共に CNNよ り も 高い識別性能を 示し て いる . 後段 の全結合層の構成は全て のモデルで同一である 為, attention networkを 用いた特徴抽出は よ り 平行移動によ り 頑健である と 言え る . 今回の実験設定では数字の移動範囲が±18ある のに 対し , ベース ラ イ ン と な る CNNの全結合層の直前のpooling層が持つ受容野の広さ は10× 10し かなく , ベースラ イ ン のCNNでは位置の変動を 吸収し き れなかっ たと 考えら れる .

次に, 図4.1と 図4.2を 見る と , 生成さ れたattentionは教師データ と し て数字の位置を 与 えていないにも 関わら ず, 数字の位置に集ま っ ている . 識別に必要な情報を 全結合層に集め る 為に, attention networkが数字の位置の捉え 方を 学習し たと 考え ら れる . ま た, ACNN と ACNN-Rのattentionを 比較する と , 再構成誤差を 加えたACNN-Rの方が数字全体を 覆 う attentionが生成さ れやすい傾向が見ら れた. 再構成を 行う 為には, 数字の大き さ や傾き

表 4.2: 少量データ に対する accuracy method test accuracy (%)

CNN (baseline) 79.45

ACNN 92.07

ACNN-R 94.28

(21)

第 4章 評価実験 と いっ た属性の情報が必要である ため, 数字全体を 見る よ う 学習が進んだと 考え ら れる .

更に, 図4.3のチャ ン ネ ル毎に彩色を 施し たattentionを 見る と , ACNN-Rから 生成さ れ たattentionには, 入力画像に関係なく 層状の構造が安定し て見ら れる . Attentionの構造が 安定し ている と いう 事は, 後段の全結合層への入力が安定し ている こ と を 意味し , ACNN-R の正解率がACNNを 上回る 結果に繋がっ たと 考え ら え る .

次に , 各モデルのパラ メ ータ 数を 比較する と , ACNNはベース ラ イ ン のCNNの 6%,

ACNN-Rは10%程度と 大幅に抑えら えている . こ れは最も パラ メ ータ を 必要と する 畳み込 み層と 全結合層の繋ぎ目の部分のネ ッ ト ワ ーク が, ACNNではattentionによ っ て 小部分 のみを 繋ぐ よ う 置き 換わっ た為である . ACNNも attention network内に全結合層を 含んで いる 為, 計算量はCNNと 変わら ず画像の面積に比例し て 増加する が, attention network のフ ィ ルタ の次元数が十分小さ い為にこ の影響は小さ い.

表4.2よ り , CNNと 比較し てACNNは10%以上高いacuuracyを 維持し た. 図4.4, 4.5,

4.6の学習中のacuuracyの推移を 見る と , CNNは早い段階から trainと testの間でaccuracy に大き な差が生じ ている が分かる . 一方, ACNN, 及びACNN-Rも 10epoch付近から 過学 習が始ま っ て いる が, その開き はCNNと 比較し て 緩やかである .

学習用データ が少量である 場合には, 画像内の物体の位置と そのラ ベルに相関が無く て も , 位置と ラ ベルの組み合わせを 全結合ネ ッ ト ワ ーク が記憶し て し ま う こ と で過学習が起 こ る . 一方, ACNNでは, attention networkが物体の位置, 全結合層が物体のラ ベルと い う よ う に別々 のネ ッ ト ワ ーク で学習する 為, 過学習を 防ぐ こ と ができ たと 考え ら れる .

表4.3よ り , 未知のアフ ィ ン 変換に対し て も ベースラ イ ン のCNNと 比較し て ACNNと

ACNN-Rは共に高い正解率を 維持し た. オリ ジナルの手書き 数字が自然に含む小さ な回転

や大き さ のバラ エティ から , こ れら に影響を 受けにく いattentionの配置を attntion network が学習し たも のと 考え ら れる .

以上よ り , 物体の大き な 位置変化に対し , ACNNはattentionを 動かす事で頑健に識別 表 4.3: 未知のアフ ィ ン 変換に対する accuracy

Method affNIST accuracy (%)

CNN 77.62

ACNN 85.33

ACNN-R 87.55

(22)

第 4章 評価実験 を 行う 事ができ る と 言え る .

4.2 実験 2: 同一の空間特徴量によ る 異なる 数字の再構成

本実験では, 同じ 画像から 抽出し た空間特徴量を 異なる 数字のラ ベルと 組み合わせて も , 数字の再構成でき る かを 検証し た. 再構成を 行う ネッ ト ワ ーク は, 実験1.1の実験設定で学 習済みのACNN-Rを 用い, 予測ラ ベルは各数字を one-hotに変換し たベク ト ルを 与え た.

再構成結果を 図4.7に示す.

図4.7を 見る と , 数字の種類が与え たラ ベルと 同一で, 位置は空間特徴量の元と な っ た 画像と 同じ 位置に数字が再構成さ れて いる こ と が分かる . こ の事から , 空間特徴量には画 像中の物体の位置情報が保存さ れて いる こ と が確認でき る .

(23)

第 4章 評価実験

図 4.1: ACNNのattention

左上は入力画像, 右の9枚の画像はattentionの各チャ ン ネ ルの重みを [0〜1]に正規化し た結果を 表す. 左下の画像は全て のattentionを 足し 合わせた上で赤く 彩色し , 入力画像

に重ねた結果を 表す.

(24)

第 4章 評価実験

図 4.2: ACNN-Rのattention

(25)

第 4章 評価実験

図 4.3: チャ ン ネ ル毎に彩色し た attention

図4.1と 図4.2の9枚のattentionにそれぞれ異なる 色を 付けた上で一枚に重ねて 作成し た.

(26)

第 4章 評価実験

図 4.4: ベースラ イ ン CNNのtrainと test accuracyの推移

(27)

第 4章 評価実験

図 4.5: ACNNのtrainと test accuracyの推移

(28)

第 4章 評価実験

図 4.6: ACNN-Rのtrainと test accuracyの推移

(29)

第 4章 評価実験

図 4.7: 同一の空間特徴量によ る 異な る ラ ベルの再構成 各行が再構成に使用し た空間特徴量, 各列が使用し たラ ベルを 表す.

(30)

第 5 章 結論

5.1 ま と め

本論文では人の視覚的情報処理の過程を 参考に , CNNに attentionの構造を 取り 入れ た Attentive Convolutional Neural Network(ACNN)モデルを 提案し た . 従来のCNNの pooling層に替わっ て attentionを 生成する attention networkを 用いる 事で, 大域的な位置 ずれに頑健になる こ と を 確認し た. ま た, 空間特徴量に対する 付加的な制約項と し て 再構 成ネ ッ ト ワ ーク によ る 再構成誤差が用いる と , よ り 汎化性能が上げら れる 事を 確認し た.

実験では, 複数の条件でアフ ィ ン 変換を 加え た手書き 文字データ セッ ト MNISTの識別 性能を CNNと 比較し た. 実験1 では, 平行移動を データ 拡張と し て MNISTに加えたデー タ セッ ト に対する 性能を CNNと 比較し , 1割未満のパラ メ ータ 数で同等以上の識別率を 得 た. 計算資源の観点から , ACNNは物体の平行移動を よ り 効率的に学習可能なモデルであ る と 考え ら れる . ま た, 学習データ が少量である 条件でも 学習を 行い, ACNNが過学習を 起こ し 難いモデルである 事を 確認し た. 更に, 学習時に与え ら れて いない未知のアフ ィ ン 変換に対する 性能も 検証し , 高い汎化性能を 持つ事を 確認し た. 最後に実験2では, 画像 中の物体の位置に関する 情報が, attention networkに保存さ れて いる 事を 確認し た.

5.2 課題と 展望

本研究は黒背景に合成さ れた手書き 数字と いう 特殊な条件下での実験し か行っ て おら ず,

一般物体認識のよ う な複雑な背景を 持つ条件でも , 同様にattentionが有効に働く かについ て は更なる 検証を 必要と する . 背景が複雑になる と , attention networkの構造も それに応 じ て 複雑にする 必要がある と 考え ら れる .

実世界において 起こ り う る アフ ィ ン 変換以外の膨張収縮や部分的な変形と いっ た複雑な 設定下でのモデルの頑健性も 未検証である . Jaderbergら 研究 [6]と 異なり , ACNNは受容 野の形状や密度を 柔軟に変更でき る . こ の性質は, 複雑な形状変化に対し て 有効に働く 事 が期待でき る .

ま た, 画像中に複数の識別対象がある よ う な状況を 考え た時, attentionを 向ける 先を 動

(31)

第 5 章 結論 的に制御する 仕組みが必要である . こ れに対し ては, 外部メ モリ を 扱う ネッ ト ワ ーク [23,24]

を 参考に, attentionを 制御する RNN式のコ ン ト ロ ーラ の導入を 検討し て いる .

(32)

謝辞

本研究の着手及び方針について , 多く の御指導, 御助言を 頂いた小林 哲則教授に, 心よ り 感謝申し 上げま す.

ま た研究に関し , 多く の御提案, 御助言を 頂いた, 藤江 真也氏, 小川 哲司氏, 俵 直弘 氏に深く 感謝致し ま す.

最後に, 研究生活の中で, 多く の議論に付き 合っ て く れた菊池 康太郎氏, 赤川 優斗氏,

金田 健太郎氏, 研究室の皆さ ま に深く 感謝致し ま す

(33)

参考文献

[1] A. Treisman, “A feature-integration theory of attention,” Cognitive Psychology, vol.12, no.1, pp.97–136, 1979.

[2] D. Hubel, T. Wiesel, “Receptive fields of single neurones in the cat s striate cortex,”

The Journal of physiology, vol.160, pp.106–154, 1962.

[3] B. Cheung, E. Weiss, and B. Olshausen, “The Emergence of a Fovea while Learning to Attend, ” International Conference on Learning Representations, 2017.

[4] Y. Jeon, J. Kim, “Active Convolution: Learning the Shape of Convolution for Image Classification, ” Computer Vision and Pattern Recognition, pp.1846–1854, 2017.

[5] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, Y Wei, “Deformable Convolutional Networks ,” International Conference on Computer Vision, pp.764–773, 2017.

[6] M. Jaderberg, K. Simonyan, A. Zisserman, K. Kavukcuoglu, “Spatial Transformer Networks, ” Advances in Neural Information Processing Systems, pp.2017–2025, 2015.

[7] S. Sabour, N. Frosst, and G. E Hinton, “Dynamic Routing Between Capsules, ” Advances in Neural Information Processing Systems, pp.3859–3869, 2017.

[8] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition, ” Proceedings of the IEEE, pp.2278-2324, 1998.

[9] Z. Cao, T. Simon, S. Wei, Y. Sheikh, “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, ” Computer Vision and Pattern Recognition, 2017.

[10] K. Lenc and A. Vedaldi, “Understanding image representations by measuring their equivariance and equivalence, ” Computer Vision and Pattern Recognition, pp.991–

999, 2015.

(34)

第 5章 参考文献 [11] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, and et.al, “Going Deeper with Convolu-

tions, ” Computer Vision and Pattern Recognition, pp.1–9, 2015.

[12] ] E. Shelhamer, J. Long and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation, ” Pattern Analysis and Machine Intelligence, vol.39, no.4, pp.640–651, 2017.

[13] A. Radford, L. Metz, S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, ” arXiv, 2015.

[14] J. Zhu, T. Park, P. Isola, and A. Efros, “Unpaired Image-to-Image Translation us- ing Cycle-Consistent Adversarial Networks, ” International Conference on Computer Vision, 2017.

[15] M. Cheng, Z. Zhang, W. Lin, and P. Torr, “BING: Binarized Normed Gradients for Objectness Estimation at 300fps, ” Computer Vision and Pattern Recognition, pp.3286–3293, 2014.

[16] J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders, “Selective Search for Object Recognition, ” International Journal of Computer Vision, vol.104, no.2, pp.154–171, 2013.

[17] R. Girshick, J. Donahue, T. Darrell, J. Malik, “Rich feature hierarchies for accu- rate object detection and semantic segmentation, ” Computer Vision and Pattern Recognition, pp.580–587, 2014.

[18] R. Girshick, “Fast R-CNN, ” International Conference on Computer Vision, pp.1440–

1448, 2015.

[19] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Ob- ject Detection with Region Proposal Networks, ” Advances in Neural Information Processing Systems, pp.91–99, 2015.

(35)

第 5章 参考文献 [20] J. Redmon, S. Divvala, R. Girshick and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection, ” Computer Vision and Pattern Recognition, pp.779–

788, 2016.

[21] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, Cheng-Yang Fu, A. C. Berg,

“SSD: Single Shot MultiBox Detector, ” European Conference on Computer Vision, pp.21–37, 2016.

[22] D. Ha, A. Dai, Q. V. Le, “HyperNetworks, ” International Conference on Learning Representations, 2016.

[23] G. Edward, and et.al, “Hybrid computing using a neural network with dynamic ex- ternal memory, ” Nature(journal), vol.538, pp.471-476, 2016.

[24] S. Sainbayar, S. Arthur, W. Jason, F. Rob, “End-To-End Memory Networks, ” Ad- vances in Neural Information Processing Systems, pp.2440–2448, 2015.

参照

関連したドキュメント

Key words: Convolution, Heat source, Weighted convolution inequalities, Young’s in- equality, Hölder’s inequality, Reverse Hölder’s inequality, Green’s func- tion, Stability

Order parameters were introduced to characterize special features of these systems, notably the state of the capsule; the dispersal of the therapeutic compound, siRNA, gene, or

Finally, in Section 7 we illustrate numerically how the results of the fractional integration significantly depends on the definition we choose, and moreover we illustrate the

This phenomenon can be fully described in terms of free probability involving the subordination function related to the free additive convolution of ν by a semicircular

Theorem 1.6 For every f in the group M 1 of 1. 14 ) converts the convolution of multiplicative functions on non-crossing partitions into the multiplication of formal power

Key words and phrases: Quasianalytic ultradistributions; Convolution of ultradistributions; Translation-invariant Banach space of ultradistribu- tions; Tempered

This is a special case of end invariants for general (geometrically tame) Kleinian groups, coming from the work of Ahlfors, Bers and Maskit for geometrically finite ends (where

We establish the various relationships that exist among the integral transform Ᏺ α,β F, the convolution product (F ∗G) α , and the first variation δF for a class of