The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
ュ
ッ
ワ
内
力学的解析
Analysis of Deep Neural Network Using by Dynamical Systems Analysis
本武
陽一
*1
岡
瑞起
*2
池
高志
*1
Mototake Yhoichi Oka Mizuki Ikegami Takashi
*1
東京大学総合文化研究科
*2
筑波大学大学院
情報工学研究科
Graduate School of Arts and Science, The University of Tokyo Graduate School of Systems and Information Engineering, University of Tsukuba
Since Hinton et al. (2006) came back with a multilayered feed-forward network, called a deep neural network, many people have started to investigate its potential capability and applications. For example, Google Inc. showed that the deep learning automatically extracted cat face and human body images from the millions of randomly selected youtube images[Quoc 12] .In this study, we compute the information flow within a deep neural network in order to reveal the underlying dynamical systems properties. Unexpected power law behavior of Eigen values computed from the Jacobian matrices of the deep net will be reported.
1.
じめに
多 層 ン け ッ ョ ン
限界 発 見 以来 , ュ ッ 注 目 度
い ,[Hinton 06] い 有効 学習 発
見 ,比較的簡便 深い階層 持 ュ ッ ワ
学 習 可 能 . , Deep Neural
Network 以 DNN , 驚異的 認 識精 度 記録 ,
ュ ッ ワ ,再び脚 浴び う い .
, ン 以 DL う くい
く い 基 本 的 問 題 , 未 未 解 明 部 分 多 い . [Saxe 14]
本研究 ,DNN い ッ ワ 内 力
学的 分析 , 問題 試
.
2.
デ
ープラー
ン
ダ
DNN ,次 2 考え .1
,学習中 重 時間発展 あ . う1 , 1 う
DNN 各階層 時間 対応付け ,層 進 従 変化
ュ ン 発火 ン 時間発展 考え 視 あ .
本研究 特 後者 視 重視 .
, 時 ュ ン 発 火 時 間 発 展 , 次 式 定
義 .
(1)
g ン 表わ .
,DL 一口 言 ,関連 技術 範 広い.
従 ,本研究 , 要因 程度 う
ン 向 貢 献 い 知 , 要素 毎
性質 調 考え .
一 方 , 比 較 対 象 , 複 雑 学 習 実 現 い , 多 数
要素 組 込 条件 分析 .
従 本研究 ,両者 採用 .
前者 ,以 目 う 要因 い ,
一 分析 .
学習 drop out ,pooling etc.
ン ッ 種類 手書 文字,画像 etc.
ッ ワ 構造 各層 数 etc.
一 方 , 後 者 分 析 , 分 析 対 象 Convolutional Neural Netやdrop out[Hinton 12]等 提供 い DL
あ DeCAF[Donahue 13] , 提供 い pre
training済 重 ッ 用い .
1.階層方向 時間発展
3.
先行研究
3.1 pre training
DNN け , 1 う 対象 研究
,[Ganguli 14] あ . 研究 ,特 pre training 着目
,各種近 似 , 無限層 ュ ッ
解 析 的 求 い . ,100 層 DNN
Restricted Boltzmann Machine 以 ,RBM 用 い pre
training , 合わ pre training ,重 行列 直交
行列 う,初期化 い 対応 結論 .同時
, う 初 期 値 い , 無 限 階 層 ュ ッ ワ
学習 ,有限時間 収束 示 い .
研 究 , 入 力 対 , 直 交 性
仮定 い . ,実際 計算 ,比較的単純
手書 文字 ッ MINIST[LeCun 98] 用い ュ
ョン 終わ い .
3H4-OS-24b-4
i
t j t
ij t i t
j sigmoid g h w Bias
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
3.2 縁とpre training
ン ュ ッ ワ 知 見 ,
縁 呼ば ,系 相転移 い ,高い学習性能 実現
う いう あ [Bertschinger 04]. 行研究
ン DL 適用 ,(1)式 g ,output
層周辺 分散特性 相転移 注目 , , ッ ワ 全
体 特異値 関係 分析 い .特異値 ,入力層 微
小 変 化 , 出 力 層 け 伝 わ 表 わ 値 あ , up-down path 重 行列 転置関係 場合, Back Propagation
以 BP , 特異値 ,微小変化 方向 O(1)
程度 あ , 伝搬 有用 あ わ .
計算 結果,g=1付近 相転移 生 , g<1 場合,特
異値 総 小 く,一方 g>1 場合 ,一部 大 特
異 値 持 一 方 , ほ 方 向 特 異 値 非 常 小 い値
持 , 的 偏 分 布 示 . 従 ,
状態 BP 対 良い状態 いえ い. 一方 ,
縁 g≒1付近 ,O(1)程度 特異値 多く含 ,
分布 現 . 状態 ,BP 対 適 い .
以 う , pre training g 値 ,最適 初期状
態 得 示 い . ,臨界指数
,g い 考え [Bertschinger 04].例えば,
入力 性質や,重 分散 あ . 行研究
,入力 分散 計算 行 い . ,
実 際 ッ 分 散 一 定 い . , 結 果
実際 pre training 用い 示 わけ い.
3.3 先行研究 まとめ
以 , 行研究 ,pre training 重 直交
行 列 初期 化 近 い 示 , 初期 化
実現 状態 い , 縁 周辺 BP 最適
状態 え 示 い . , 行研究 ,
多様 ッ pre training 行う 言及 足
い 側 面 あ 考 え , 本 稿 着 目
分析 行 .
4.
実験とそ
分析
MINIST 及 び , 複 雑 画 像 ッ
(CIFAR-100[Krizhevsky 09]) 使用 ,[Hinton 06] 従 ,RBM 用
い pre training 行 . ,(1)式 あ う , ュ
ン 連続値 ュ ン , ッ ワ 階層 10 . ,
g=1.05,学習 ン 数 12,800 . 得
学 習結 果 用 い , 以 う 手 , 特異 値 計 算 .
(1)式 ,
従 ,各層間 変換 Jacobean ,以 う .
, ッ ワ 全体 変換 Jacobean(J) 以 う
求 .
行列J J J* 求 非負 固有値 特異値
求 .
計算 結果 , 2, 3 示 . 結果 ,
乗 う 分布 い わ . ,特異値 値
非 常 小 く, 前 述 理 由 , 良 い初 期 化 実 現
状態 言え い. 原因 ,実 ン
分散 一定 い 等 考え ,pre training う
くい い い 考え , 原因 い ,
分析 発表時 説明 い.
5.
まとめ
本稿 DL pre training後 実現
い 着目 分 析 結 果 BP
情 報 伝 搬 や い 状 態 実 現 縁
実際 同様 形 現 い可能性 示唆
発表 CNN や drop out 正則化 構造
違い等 う 変化 述
DeCAF 学習済 用い 実
際的 条件 分析 い 論 予定 あ .
2.MNIST 特異値分布
3.Cifar-100 特異値分布
) ( ) ( ) ( ) 1 ( ) ( ) 1 ( t ij t j t j t i t j w h h h h ) ( ) ( ) ( ) ( 1 ) ( ) ( ) ( 1 ) ( 1 ) ( 1 ) ( 11 ) ( 1 ) ( 1 ) 1 ( ) ( ) 1 ( 1 ) ( ) 1 ( ) ( 1 ) 1 ( 1 ) ( 1 ) ( ) 1 ( ) 1 ( ) 1 ( ) 1 ( t NN t N t N t N t N t N t N t t t t t t N t N t t N t N t t t t w h h w h h w h h w h h h h h h h h h h J 0 1
J
J
J
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
参考文献
[Bertschinger 04] Bertschinger, N. and Natschläger, T.Real-time computation at the edge of chaos in recurrent neural networks,Neural Computation, 16(7):1413-1436, 2004. [Donahue 13] Donahue, J.,Jia, Y., Vinyals, O., Ning -Zhang,
J., Tzeng,E., Darrell,T. DeCAF: A Deep Convolutiona- Activation Feature for Generic Visual Recognition,arXiv preprint arXiv:1310.1531 ,2013.
[Hinton 06] Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets.Neural Computation, 18, pp 1527-1554, 2006.
[Hinton 12] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R. R. Salakhutdinov: Improving neural networks by preventing co-adaptation of feature detectors, arXiv:1207.0580v1 ,2012.
[Krizhevsky 09] Krizhevsky,A., Learning Multiple Layers o Features from Tiny Images,2009.
[LeCun 98] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document
recognition. Proceedings of the IEEE, 86(11):2278-2324, November 1998.
[Saxe 14] Saxe, A. M. , Berschinger, N., and Legenstein R. Exact solutions to the nonlinear dynamics of learning in deep linear neural network,NIPS Workshop on Deep Learning , 2013.