• 検索結果がありません。

PDFファイル 3H4OS24b オーガナイズドセッション「OS24 Deep Learning 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 3H4OS24b オーガナイズドセッション「OS24 Deep Learning 」"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

力学的解析

Analysis of Deep Neural Network Using by Dynamical Systems Analysis

本武

陽一

*1

瑞起

*2

高志

*1

Mototake Yhoichi Oka Mizuki Ikegami Takashi

*1

東京大学総合文化研究科

*2

筑波大学大学院

情報工学研究科

Graduate School of Arts and Science, The University of Tokyo Graduate School of Systems and Information Engineering, University of Tsukuba

Since Hinton et al. (2006) came back with a multilayered feed-forward network, called a deep neural network, many people have started to investigate its potential capability and applications. For example, Google Inc. showed that the deep learning automatically extracted cat face and human body images from the millions of randomly selected youtube images[Quoc 12] .In this study, we compute the information flow within a deep neural network in order to reveal the underlying dynamical systems properties. Unexpected power law behavior of Eigen values computed from the Jacobian matrices of the deep net will be reported.

1.

じめに

多 層 ン け ッ ョ ン

限界 発 見 以来 , ュ ッ 注 目 度

い ,[Hinton 06] い 有効 学習 発

見 ,比較的簡便 深い階層 持 ュ ッ ワ

学 習 可 能 . , Deep Neural

Network 以 DNN , 驚異的 認 識精 度 記録 ,

ュ ッ ワ ,再び脚 浴び う い .

, ン 以 DL う くい

く い 基 本 的 問 題 , 未 未 解 明 部 分 多 い . [Saxe 14]

本研究 ,DNN い ッ ワ 内 力

学的 分析 , 問題 試

2.

ープラー

DNN ,次 2 考え .1

,学習中 重 時間発展 あ . う1 , 1 う

DNN 各階層 時間 対応付け ,層 進 従 変化

ュ ン 発火 ン 時間発展 考え 視 あ .

本研究 特 後者 視 重視 .

, 時 ュ ン 発 火 時 間 発 展 , 次 式 定

義 .

(1)

g ン 表わ .

,DL 一口 言 ,関連 技術 範 広い.

従 ,本研究 , 要因 程度 う

ン 向 貢 献 い 知 , 要素 毎

性質 調 考え .

一 方 , 比 較 対 象 , 複 雑 学 習 実 現 い , 多 数

要素 組 込 条件 分析 .

従 本研究 ,両者 採用 .

前者 ,以 目 う 要因 い ,

一 分析 .

学習 drop out ,pooling etc.

ン ッ 種類 手書 文字,画像 etc.

ッ ワ 構造 各層 数 etc.

一 方 , 後 者 分 析 , 分 析 対 象 Convolutional Neural Netやdrop out[Hinton 12]等 提供 い DL

あ DeCAF[Donahue 13] , 提供 い pre

training済 重 ッ 用い .

1.階層方向 時間発展

3.

先行研究

3.1 pre training

DNN け , 1 う 対象 研究

,[Ganguli 14] あ . 研究 ,特 pre training 着目

,各種近 似 , 無限層 ュ ッ

解 析 的 求 い . ,100 層 DNN

Restricted Boltzmann Machine 以 ,RBM 用 い pre

training , 合わ pre training ,重 行列 直交

行列 う,初期化 い 対応 結論 .同時

, う 初 期 値 い , 無 限 階 層 ュ ッ ワ

学習 ,有限時間 収束 示 い .

研 究 , 入 力 対 , 直 交 性

仮定 い . ,実際 計算 ,比較的単純

手書 文字 ッ MINIST[LeCun 98] 用い ュ

ョン 終わ い .

[email protected]

3H4-OS-24b-4

 

i

t j t

ij t i t

j sigmoid g h w Bias

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

3.2 縁とpre training

ン ュ ッ ワ 知 見 ,

縁 呼ば ,系 相転移 い ,高い学習性能 実現

う いう あ [Bertschinger 04]. 行研究

ン DL 適用 ,(1)式 g ,output

層周辺 分散特性 相転移 注目 , , ッ ワ 全

体 特異値 関係 分析 い .特異値 ,入力層 微

小 変 化 , 出 力 層 け 伝 わ 表 わ 値 あ , up-down path 重 行列 転置関係 場合, Back Propagation

以 BP , 特異値 ,微小変化 方向 O(1)

程度 あ , 伝搬 有用 あ わ .

計算 結果,g=1付近 相転移 生 , g<1 場合,特

異値 総 小 く,一方 g>1 場合 ,一部 大 特

異 値 持 一 方 , ほ 方 向 特 異 値 非 常 小 い値

持 , 的 偏 分 布 示 . 従 ,

状態 BP 対 良い状態 いえ い. 一方 ,

縁 g≒1付近 ,O(1)程度 特異値 多く含 ,

分布 現 . 状態 ,BP 対 適 い .

以 う , pre training g 値 ,最適 初期状

態 得 示 い . ,臨界指数

,g い 考え [Bertschinger 04].例えば,

入力 性質や,重 分散 あ . 行研究

,入力 分散 計算 行 い . ,

実 際 ッ 分 散 一 定 い . , 結 果

実際 pre training 用い 示 わけ い.

3.3 先行研究 まとめ

以 , 行研究 ,pre training 重 直交

行 列 初期 化 近 い 示 , 初期 化

実現 状態 い , 縁 周辺 BP 最適

状態 え 示 い . , 行研究 ,

多様 ッ pre training 行う 言及 足

い 側 面 あ 考 え , 本 稿 着 目

分析 行 .

4.

実験とそ

分析

MINIST 及 び , 複 雑 画 像 ッ

(CIFAR-100[Krizhevsky 09]) 使用 ,[Hinton 06] 従 ,RBM 用

い pre training 行 . ,(1)式 あ う , ュ

ン 連続値 ュ ン , ッ ワ 階層 10 . ,

g=1.05,学習 ン 数 12,800 . 得

学 習結 果 用 い , 以 う 手 , 特異 値 計 算 .

(1)式 ,

従 ,各層間 変換 Jacobean ,以 う .

, ッ ワ 全体 変換 Jacobean(J) 以 う

求 .

行列J J J* 求 非負 固有値 特異値

求 .

計算 結果 , 2, 3 示 . 結果 ,

乗 う 分布 い わ . ,特異値 値

非 常 小 く, 前 述 理 由 , 良 い初 期 化 実 現

状態 言え い. 原因 ,実 ン

分散 一定 い 等 考え ,pre training う

くい い い 考え , 原因 い ,

分析 発表時 説明 い.

5.

まとめ

本稿 DL pre training後 実現

い 着目 分 析 結 果 BP

情 報 伝 搬 や い 状 態 実 現 縁

実際 同様 形 現 い可能性 示唆

発表 CNN や drop out 正則化 構造

違い等 う 変化 述

DeCAF 学習済 用い 実

際的 条件 分析 い 論 予定 あ .

2.MNIST 特異値分布

3.Cifar-100 特異値分布

) ( ) ( ) ( ) 1 ( ) ( ) 1 ( t ij t j t j t i t j w h h h h                                            ) ( ) ( ) ( ) ( 1 ) ( ) ( ) ( 1 ) ( 1 ) ( 1 ) ( 11 ) ( 1 ) ( 1 ) 1 ( ) ( ) 1 ( 1 ) ( ) 1 ( ) ( 1 ) 1 ( 1 ) ( 1 ) ( ) 1 ( ) 1 ( ) 1 ( ) 1 ( t NN t N t N t N t N t N t N t t t t t t N t N t t N t N t t t t w h h w h h w h h w h h h h h h h h h h J           0 1

J

J

J

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

参考文献

[Bertschinger 04] Bertschinger, N. and Natschläger, T.Real-time computation at the edge of chaos in recurrent neural networks,Neural Computation, 16(7):1413-1436, 2004. [Donahue 13] Donahue, J.,Jia, Y., Vinyals, O., Ning -Zhang,

J., Tzeng,E., Darrell,T. DeCAF: A Deep Convolutiona- Activation Feature for Generic Visual Recognition,arXiv preprint arXiv:1310.1531 ,2013.

[Hinton 06] Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets.Neural Computation, 18, pp 1527-1554, 2006.

[Hinton 12] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov: Improving neural networks by preventing co-adaptation of feature detectors, arXiv:1207.0580v1 ,2012.

[Krizhevsky 09] Krizhevsky,A., Learning Multiple Layers o Features from Tiny Images,2009.

[LeCun 98] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document

recognition. Proceedings of the IEEE, 86(11):2278-2324, November 1998.

[Saxe 14] Saxe, A. M. , Berschinger, N., and Legenstein R. Exact solutions to the nonlinear dynamics of learning in deep linear neural network,NIPS Workshop on Deep Learning , 2013.

参照

関連したドキュメント

Research in mathematics education should address the relationship between language and mathematics learning from a theoretical perspective that combines current perspectives

Therefore, with the weak form of the positive mass theorem, the strict inequality of Theorem 2 is satisfied by locally conformally flat manifolds and by manifolds of dimensions 3, 4

Thus as a corollary, we get that if D is a finite dimensional division algebra over an algebraic number field K and G = SL 1,D , then the normal subgroup structure of G(K) is given

A key step in the earlier papers is the use of a global conformal capacity es- timate (the so-called Loewner estimate ) to prove that all quasiconformal images of a uniform

We consider numerical simulations of a compressible fluid in a spherical shell rotating at a constant rotation rate ⌦ about the z-axis.. Entropy is given in units of s, the

Motivated by ongoing work on related monoids associated to Coxeter systems, and building on well-known results in the semi-group community (such as the description of the simple

More recently, Hajdu and Szikszai [12] have investigated the original problem of Pillai when applied to sets of consecutive terms of Lucas and Lehmer sequences.. It is easy to see

Note that, while in (21)-domination the decrease (ab) &amp; automatically implies that (ab) lands in Y , the definition of (12)-domination requires this “landing” property sepa-