視覚野の計算モデル：教師なし学習手法による視覚情報の表現分離

(1)

視覚野の計算モデル：

教師なし学習手法による視覚情報の表現分離

林

隆介

国立研究開発法人産業技術総合研究所〒305–₈₅₆₈茨城県つくば市梅園1–1–1 中央第2 [email protected]

はじめに

コンピュータビジョン研究の分野では， AlexNetの登場以降1)深層畳み込みニューラルネットワーク（Deep Convolutional Neural Network, 以下DCN）による一般物体認識精度の向上が競われてきた．当初は，識別すべき物体のラベル情報を用いた「教師あり学習」 (supervised learning)による研究が主流であったが，近年は，ラベル情報を用いず，画像データだけからDCNの学習を行う「教師なし学習」 (unsupervised learning)に関する研究が盛んである．本解説論文では，AlexNet登場以降のコンピュータビジョン／AI関連研究の動向を，視覚神経科学の視点から概説する．

AlexNetの登場と多層化によるDCNの一般

物体認識性能の向上

インターネットの普及に伴い，画像データを大量に収集し，クラウドソーシングを利用した人海戦術により，ラベル情報を付与した大規模なデータベースを構築することが可能となった．そしてImageNet2（語彙関連辞書である） WordNetに登録された名詞ラベルにしたがって画像を分類したデータベース）が公開され，コンピュータビジョン研究の技術評価を目的としたコンペティション(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)に，ベンチマークとして提供された．こうした大規模な学習用画像データの普及を背景に登場したのがDCNを基本アーキテクチャとしたAlexNet1）（筆頭著者のAlex Krizhevskyの名をとった通称）である．従来手法の多くは，人が一般物体認識に有効な画像特徴量を設計し，識別学習を行っていた．これに対し，AlexNetは古典的な畳み込みニューラルネットワークを，単純に多層化し，物体ラベル情報を用いたBackpropagationによる学習を行うだけで，他を凌駕する識別性能を実現した（ニューラルネットワーク全般に関する詳細は，他の研究書を参照されたい）．階層的に畳み込み処理を行うDCNのアーキテクチャは，もともと脳の視覚野の情報処理様式から着想を得ている3, 4）．興味深いことに，大量の画像データを使って一般物体認識機能をゼロから学習したDCNでも，脳の腹側視覚経路と相同性のある，階層的な情報表現が認められることが報告された．すなわち，DCN第1 層のニューロンの畳み込み重みは，V1野の神経細胞のように，さまざまな方位と空間周波数からなるガボール・フィルタのような重み分布を示し，高次層のニューロンは，下側頭葉の神経細胞が示す物体カテゴリ選択性を示していた．このことから，DCNは，腹側視覚経路の計算論的モデルとしても注目されることとなった．具体的には，腹側視覚経路の各領域から記録したサル神経細胞の活動データ5–7）やヒトfMRI データ8）と，DCN各層のニューロン応答との間で，線形回帰モデルによる予測性能比較やデータベース画像に対する表現類似度の比較9）が行われ，脳とDCNの相同性に関する定量的 2021年冬季大会．シンポジウム講演．

(2)

な検証がすすんだ． AlexNetは，5つの畳み込み層と3つの全結合層からなる8層のニューラルネットワークであったが，その後登場したVGGNetは16–19層10）， GoogleNetは22層11），ResNetは34–152層以上12）と，DCNを多層化することで性能向上を目指した研究が相次いだ．このため，最先端モデルは，物体認識性能の点でヒトの視覚機能に近づいたものの，極端に多層化された点で，脳モデルとして妥当性を見出しにくいものとなっていった．そこで，単純に物体認識性能に基づくのではなく，神経活動データに対する予測性能であるBrain Scoreに基づき脳モデルとしての妥当性を定量的に評価することが提案された13）．さらに，脳との階層的相同性を含めた指標化なども提案されている14）．

脳と

DCN の視覚情報処理の違い：

教師あり学習の欠点

脳の視覚情報処理やヒトの認識能力との類似性や相同性が注目されるDCNだが，その違いも指摘されている．ラベル情報に基づき教師あり学習したDCNでは，訓練データに依存した識別基準の学習が行われてしまう．このため，未学習のデータに対しては，ヒトが間違えようのない画像であっても，識別誤りが生じることがある（汎化generalizationの問題）．こうしたDCN の脆弱性を意図的に作り出す敵対的攻撃 (adversarial attacks)に関する研究も高い注目を集めた．一連の研究では，攻撃対象となるDCN とは別に，もう一つニューラルネットワークを用意し，DCNの誤識別を引き起こす外乱操作や画像を生成する手法が研究された．例えば，ヒトには気にならないようなわずかな外乱であっても，DCNが全く無関係な物体として誤識別してしまうことや15），物体画像とは似ても似つかないノイズパターンや幾何学的図形をDCMが特定の物体カテゴリとして誤識別してしまうことが明らかにされた16）．この他，画像のごく一部分だけに外乱を入れる攻撃方法や17），さまざまな画像変換に対してもロバストに攻撃できるパターン生成方法18）も報告されている．教師あり学習したDCNが脆弱な理由として，自然画像の適切な情報表現形式を学習しきれないことが挙げられる．表現形式が適切でなければ，本来判別が容易な画像であっても，識別が微妙な境界付近に表現されてしまう可能性が生じる．したがって，より大規模な画像データベースを用いて，ラベル情報に依存せずに，自然画像の統計的性質を反映した内部表現を DCNが獲得できれば，敵対的攻撃に対してロバストになるだけでなく，物体認識以外のさまざまな視覚課題にも適応性が高まると期待される．汎化の問題に関連したトピックスとして，教師あり学習したDCNは，新規データセットや新しいタスクに対し，識別精度が低下することも広く知られており，fine tuningあるいは，転移学習(transfer learning)といった追加的な学習によって対処されることが多い．このほか，画像のボケや，ノイズ，色や形状歪みなど，人間には容易に対処できる画像の変化であっても， DCNは当該変化を直接学習しないと高い識別能力を維持できないことも報告されている19）．こうした汎化能力の低さについても，訓練データの不足と偏り，ならびに過学習の弊害といった要因に帰着できると考えられる．教師あり学習したDCNが，物体認識を行う際に用いる手がかりについても，ヒトと異なることが指摘されている．例えば，image style transfer20）と呼ばれる手法を用いて，画像に含まれる形状情報を保持したまま，そのテクスチャだけを別の画像テクスチャに変換すると，多くのDCNモデルは，変換後のテクスチャに基づき物体識別する傾向が強い21）．これに対し，ヒトはテクスチャの矛盾を無視して，形状に基づく物体識別が可能である．発達心理学的観点から考えてみても，逐一言語的なラベル情報を与えられることによって，ヒトが一般物体認識能力を獲得しているとは考えにくい．同様に進化的な観点から，比較行動学や比較神経科学的知見と照らしてみても，教師あり学習によって一般物体認識能力を獲得し

(3)

たとする脳の計算論的モデルには無理がある．多くの動物種では，ヒトのように言語的なラベル情報を持たないにも関わらず，物体を認識する能力が認められる．サルの視覚野から神経細胞の活動を記録し，脳内でどのように画像情報が神経表現されているのか，階層クラスタリングにより解析すると，ヒトが用いる物体カテゴリに相同する分類構造が認められることが報告されている22）．また，サルの視覚野の神経活動とヒトの視覚野のfMRI活動それぞれの，刺激画像セットに対する表現類似度パターンを比較すると，やはり相同性が認められることが報告されている23）．したがって，発達過程での経験に匹敵する，膨大な画像データを使い，自然画像の統計的性質を反映した内部表現を教師なし学習するモデルの方が，脳の情報処理やヒトの視覚認知特性をより良く再現できると「期待」される．

教師なし表現学習への注目

コンピュータビジョンやAI研究の分野においても，教師なし学習による画像認識性能の向上やニューラルネットワークによる表現の学習 (representation learning)に関する研究が大きな注目を集めている．データ効率性が高く，汎化能力の拡張，ロバスト性の向上などが期待できるからである．教師あり学習に必要なラベル情報の収集には，人が手動でラベリングを行う必要があるため，コストがかかり，データベースの規模拡大には自ずと限界がある（ JFT-300M24）という18,000クラス，3億枚のデータセットなどもあるが一般公開されていない）．また，一つの画像に対し，ラベル情報は必ずしも一意に定まらないうえ，ラベル付けした人のバイアスや，ラベル付けの誤りも生じる．ラベル情報に頼らず学習できるのであれば，画像データはほぼ無尽蔵に利用可能である．訓練データの大規模化により，サンプリングの偏りなく，自然画像のもつ画像統計量を学習すれば，画像認識タスク全般に共通して有用な情報表現が獲得できると期待され，汎用性が高まると考えられる．さらに，膨大な画像のなかには，さまざまな外乱が含まれるので，学習後には，外乱に対するロバスト性も期待される．あわせて，ニューラルネットワークが獲得する内部表現（潜在変数空間：latent space, 埋め込み空間：embedding space, 特徴空間：feature space

などとも呼ばれる）が，「意味のある」「解釈可能な」要素に分離した表現になることにも注目が集まっている．より汎用性の高い機能を実現するために，「意味のある」要素に分離した表現をいかにして学習するか＝disentanglement（解きほぐし）が課題となっている．表現学習におけるdisentanglementは，明確な定義がなく，定性的に議論される場合が多い．これは，真の「意味のある」要素や要因の定義が困難だからである．広い意味のdisentanglementとは，潜在変数空間に「意味のある」要素に分かれた表現が認められることとされるが，狭い意味には，潜在変数の各次元（＝潜在変数空間における各軸）に対応して，「意味のある」要因が分離して表現されることを指す．教師なし学習により，表現のdisentanglement が実現できる前提として，(0)「外界から入力される多次元データxは，その次元より少数の変動の要因によって生じている」という仮定がある．この仮定のもと，disentanglementには， (1)「データxとの相互情報量を最大化する潜在変数z（ないし要素変数c）を学習すること」が求められる（式(1)）．データxと潜在変数z の相互情報量が最大であるということは，潜在変数zが，データxに対するコンパクトな表現となっており，その変動を最大限表現していることに対応する．外界の大きな変動を説明する要因を，われわれは「意味のある」要素と解釈しているとも言い換えられる．そして，狭義の disentanglementでは，(2)「潜在変数zの各次元同士が互いに独立ないし無相関となるように学習すること」が求められる．

∑

x z p | I p p , ( ) ( ; ) ( , ) log ( ) ＝ x z x z x z x (1)

(4)

教師なし学習の手法は，学習のための損失関数ないし目的関数の設計方法の違いからa) Generative/Predictiveな手法とb) Contrastiveな手法に大別することができる．a)のGenerative/ Predictiveな手法は（図1a），データx₀を入力したときのモデル出力z₀が，どういった値をとるべきか損失関数／目的関数として設計し，学習する手法である．これに対し，b)のContrastive な手法は（図1b），データx₀とデータx₁をそれぞれ入力したとき，出力における両者の関係（z₀とz₁の関係）を損失関数／目的関数として設計し，学習する手法である．さらに，表現学習する際に，i)データxから潜在変数zへの符号化モデルのみを用いるアプローチと，ii)符号化モデルだけでなく，潜在変数zからデータxへの復号化／生成モデルと合わせて学習するアプローチが存在する．これまでに，さまざまな教師なし学習手法が提唱され，今では教師あり学習手法に匹敵する高精度な一般物体認識が実現されている．次章では，画像認識課題に関連した教師なし学習手法の研究動向について概説する．

自己教師あり学習手法　

etc.

DCNを使った広い意味での教師なし学習手法として，いわゆる自己教師あり学習 (self-supervised learning)に関する研究が行われてきた．多くは，名目上のタスク(pretext task) ないし，missing-dataの予測タスクを解決するようDCNを訓練する手法である．すなわち，画像に対し，何らかの操作を施したのち，操作量の推定や，操作前の元画像を復元するよう DCNの学習を行う．この場合，「正解」となる情報を使った教師あり学習ではあるものの，画像操作は自動実行できるので，手動によるデータのラベリングが不要となる．名目上のタスクとしては，画像を9つ程度のパッチに分割し，うち2つのパッチの相対位置を回答させるrelative position task25），画像の中央部を虫食いにし，生成モデルが元画像を復元するように学習させる filling-in task26），モノクロ変換した画像から，元のカラー画像に復元するcolorization task27），画像をパッチに分割し，パッチの位置関係をシャッフルした状態から，元の位置関係を復元させるjigsaw puzzle task28），画像を回転操作した状態から，回転角を推定させるrotation task29），画像のチャンネル情報を分離し，独立した処理同士が互いに欠損した情報を復元する split brain手法30）などが提案されてきた．しかしながら，自己教師あり学習手法は，タスクをを恣意的に設定する点に難がある．このほか，deep clusteringと呼ばれる教師なし学習手法も提案されてきた31）．これは， DCNの内部表現に基づき，k-meansなどのクラスタリング手法を使って，訓練画像をラベリングしたのち，DCNを学習する手法で，クラスタリングによるラベル作成と，DCNによる識別学習を交互に繰り返すことで，よりよい内部表現とクラスタリングの学習を目指す手法である．また，instance learningと呼ばれる，訓練画像の1枚1枚を独立したクラスとして識別する学習手法も注目された32）．この手法では，個々の訓練画像のインデックスとその内部表現をメモリに保持しながら学習しなければならないという制約があるものの，次節で説明するcontrastive learning（対照学習）の一種として実装され，自図1　学習手法の分類．a) Generative/Predictiveな手法．データx₀を入力したときのモデル出力z₀が，どういった値をとるべきか損失関数／目的関数として設計する．b) Contrastiveな方法．データx₀とデータx₁ をそれぞれ入力したとき，出力における両者の関係（z₀とz₁の関係）を損失関数／目的関数として設計する．

(5)

然画像のロバストな内部表現の学習を実現している．従来の教師あり学習したDCNよりも，脳情報表現との対応が良いとも指摘されている33）．

Contrastive learning による一般物体認識

性能の向上

2019年以降，contrastive learningを使った教師なし学習モデルによって，教師あり学習したDCNに匹敵する，高精度な一般物体認識の実現が相次いで報告されている34）．2021年 1月現在，最高性能モデルとされているのが SimCLR35）であり，他の手法も非常によく似たアイデアの下に実装されている．ここでは， SimCLRの実装方法を中心に，一般物体認識精度を効率よく向上できる表現学習手法としての contrastive learningについて解説する． Contrastive learningでは，画像どうしが，潜在変数空間において，どのような位置関係に投射されるべきかを損失関数／目的関数として設計することで学習を行う．一般物体認識課題では，ある物体が，観察条件の違いによって，画像上見た目が大きく異なったとしても，同一物体として判定できるとともに，異なる物体画像とは峻別できることが要請される．そこで ①元画像からさまざまな画像操作（異なる

view）でpositive sampleを作る．

②別画像の画像操作により作成されたサンプルは，negative sampleとする． ③ Positive sample＝類似画像どうしは近くに， negative sample＝非類似画像どうしは遠くになるような内部表現空間へのマッピングを学習する．という手続きが図2 のフレームワークで行われる．画像操作としては，DCNの教師あり学習で

も用いられるdata augmentation手法（crop, flip, rotation, scale, gaussian noise, color distortion な

ど）が用いられる．符号化モデル/Encoderとし

て，例えばResNet50など，適当なDCNを用意

し，その出力を潜在変数zとして，式(2)で示し

たinformation noise contrastive lossを使って学習を行う．各画像サンプルの潜在変数表現は，

ノルム1に正規化され，多次元超球面上に分布

するものとし，画像間の潜在変数表現の類似度（sim(zi, zj)）はコサイン距離で算出される．式 (2)のように，Positive sampleどうしの距離の exponentialを分子に，negative sampleを含め

た全画像サンプルの距離のexponentialの総和を分母とした損失関数を設計することで，図3 の模式図で示したように，類似画像同士は近傍に，非類似画像は遠方へとマッピングするような学習が促進される36）．これにより，data augmentationで事前設定した外乱に対して不変な画像特徴量に基づく情報表現が獲得される．図2　SimCLRのフレームワーク．ネットワーク全体の投射先である，潜在変数zを，式₍₂₎に示した損失関数に基づき学習することで，_Encoderは，一般物体認識に役立つ特徴表現hを獲得する．

(6)

SimCLRにおける実装方法は，物体認識性能を効率よく学習できる利点がある一方，ロバストな物体認識に寄与する外乱を事前に設定するという点で，純粋な脳の計算論的モデル実装として難がある．これに対し，van den Oordら37）は， contrastive predictive codingと呼ばれる脳の情報処理を意識したフレームワークを提案している．同フレームワークでは，空間的・時間的な近傍の情報をその周辺情報から予測する contextの学習をタスクとして設定している．事前知識として，contextは，時間的・空間的に連続に変化しており，そうした連続的な変化は，潜在変数空間での共起関係ないしパターンから予測できると仮定している．実際，このフレームワークによって，画像認識に有用な内部表現が学習可能であることが示されている．また，contrastive learningで広く用いられる information noise contrastive lossは，潜在変数

zとデータxの相互情報量と式(3)の関係にあり，同損失関数の最適化学習は，同相互情報量を最大化する学習であることが示されている．ただし，式(3)が示すように，よりよい表現学習には，画像サンプルのサイズNを大きくとることも求められており，多くのnegative sampleをどのように保持するかについては，脳の計算論的モデルとして課題があるように思われる． ∈       

∑

 i j N N i k i k k sim τ L E sim τ 2 [ ! ] 1 exp( ( , )/ ) log 1 ＝ exp( ( , )/ ) ＝－＝ _{x X} z z z z (2) Nは，訓練サンプル数ないし学習時のバッチサイズ．τは，温度定数である．関数1_[i!＝k]は，i＝k の時0，それ以外で1となる関数である． I(x; z)≥log(N)−LN (3)

自然言語処理モデルの画像処理への展開

自然言語処理(Natural Language Processing) の分野では，BERTやGPT-nなどTransformer を基本アーキテクチャとして，教師なし学習するモデル研究が席巻している．Transformerを用いた手法では，文章データを学習する際，単語をtokenとしたシーケンスを入力データとする（図4）．そして，Normalization層–_Attention 層-MLP (Multi-Layer Perceptron)からなる情報処理を基本ユニットとして，これを何層も繰り返すことで，シーケンス内での語順に基づく共起関係だけから，次に出現する文章や，虫食い状態の文章の穴埋め予測を，教師なし学習するアプローチがとられる（詳細は自然言語処理に関連した研究書を参照されたい）．同手法を用いると，学習に使うデータ量とネットワークのパラメータサイズをスケールアップすることにより，飛躍的な精度向上が可能となり，直接学習していないタスクに対しても，わずかなサンプルによる学習だけで高い性能が発揮できる (few shot learning)など，きわめて高い汎化性

を示している．汎用性も高く，画像を1次元配列に変換すれば，Transformerのアーキテクチャを画像処理に適用することもできる．実際，Transformerを画像処理に利用した研究報告が相次いでいる．例えば，画像を単純に複数のパッチに分割したのち，直接Transformerに代入すると，非常に大きなラベル付き画像デー図3　Contrastive lossの模式図．a) positive（_＝類似）

サンプルどうし（黒丸●）は，パラメータ更新の際，近くに配置されるよう，距離に依存した引力が作用する．b) negative（_{＝非類似）サンプルどうし（白} 丸◯）は，パラメータ更新の際，遠くに配置されるよう，距離に依存した斥力が作用する．

(7)

タベースで学習すれば，従来の教師あり学習し

たDCNの物体識別性能を超えたと報告されて

いる38）．また，画像をpixelレベルで1次元配列化し，next pixelないしmissing pixelの予測を教師なし学習させると，画像認識に適した内部表現が獲得できることが報告されている39）． Transformerに基づくcontextないし要素間の共起関係の学習を行う手法は，シンプルなだけに汎用性が高く，言語や画像の処理だけでなく他のモダリティに対しても適用可能である．また，異なるモダリティ間の情報変換も可能で，例えば言語から画像への変換を学習することで，学習後は，任意の文章を入力すると，その内容に即した自然な画像が生成できることも示されている(DALL-E)．ただし，pixelレベルで画像の学習を行う際には，画像を低解像度に設定するなど，入力シーケンスの長さを制限しないと，膨大なパラメータの学習が必要となってしまう．このため，ある程度DCNを利用してデータの次元数を圧縮したのち，Transformer などAttention機構を利用してcontext＝空間的・時間的近傍の情報予測の学習を行うのが妥当な印象を受ける．

生成モデルを用いた教師なし学習に基づ

く表現学習手法

教師なし学習に基づく画像生成フレームワークとしては，GAN (Generative Adversarial Neural network)とVAE (Variational Auto Encoder)の

2つの手法が広く利用されている． GANは，潜在変数zから画像データx′を生成するニューラルネットワーク(Generator)と， Generatorが生成した画像x′とあらかじめ準備した訓練画像データxとを識別するニューラルネットワーク(Discriminator)を基本構成要素とする40, 41）．Generatorは，Discriminatorが訓練画像xと判別できないような画像x′を生成するように学習するのに対し，Discriminator は，訓練画像xと生成画像x′を正しく判別するように学習する．両者が競合的に，式(4)の min–_{max loss}を最適化する学習を行い，適切な均衡点に収束できれば，きわめて訓練画像に似た精緻な画像をGeneratorが生成可能となる．

{

}

data z p G D z p E D E D G ~ ( ~ ) ( ) minmax log ( ) log 1 [ ( )] ＋－ x x x z z (4) pdata (x)は，実世界/訓練データにおける画像xの分布．pz(z)は，潜在変数zの分布で，正図4　自然言語処理で用いられるTransformerを用いたフレームワーク．a) シーケンス処理の概略図． b) Transformerの基本構成要素の概略図．

(8)

規分布として実装される．Generatorによる生成画像x′の分布をpG (x′)とおくと，GANの学習では，式(4)の最適化によりpG (x′)＝pdata (x) となる均衡点への収束をめざす． GANを用いた表現学習手法としては， Info-GANが知られている42）．Info-GANでは図6a に示したように，潜在変数zに加えて要素変数 cを仮定し，cの各次元に互いに独立に2値乱数を入力して画像の生成を行う．さらに，生成画像x′から要素変数の復元(c′)も行い，要素変数 cとの相互エントロピーが最大となるよう学習することで，生成画像データx′との間の相互情報量が最大となる要素変数表現cが得られる．ただし，通常のGANの枠組みで実装される Info-GANには，画像から内部表現へと変換する Encoderが存在しない．これに対し，Bi-GAN43）， ALI44）， BigBiGAN45）などは，図6bのように Generator, DiscriminatorにEncoderを加え，内部表現学習を行うフレームワークである．著者は，Encoderを加えたInfo-GANを着想し，かつ各層ごとに内部表現の相互情報量を最大化するアーキテクチャを実装しており，各層において，色選択性や背景選択性，形状選択性，カテゴリ選択性などが階層的に学習できることを示している．同内部表現に基づく自己組織化マップを作製すると，これまでの視覚神経科学研究で報告されてきた，皮質の機能マップと相同なマップが再現できることを明らかにしている(Hayashi, in preparation)．GANを利用した表現学習研究の欠点としては，理論的裏付けが弱く，表現のdisentanglementに関しては，画像の生成結果に基づく定性的な議論で終わることが多い46）．また，脳の計算論的モデルからは乖離したDiscriminatorが必要な点にも難がある．一般にDiscriminatorは，Encoderとアーキテクチャの相同性が高いが，獲得される内部表現の違いも大きいことが指摘されている47）． VAEは，画像データxから潜在変数zへの表現変換を行うEncoderと，潜在変数zから元の画像データへの復元x′を担うDecoderを基本構成要素とする（図5b）48）．VAEでは，潜在変数z（砂時計型のアーキテクチャであるため bottle neckとも呼ばれる）の分布を正規分布に制約した条件下で，訓練／元画像xと生成／復元画像x′の復元誤差が最小となるようEncoder とDecoderの学習が行われる．真のデータ分布図6　GANを用いた表現学習のフレームワーク例． a) Info-GAN. 潜在変数_z（正規分布を仮定）だけでなく，各次元が独立な要素変数_cを加味し，_cとの相互情報量が最大となる画像の生成を学習する．_{b) BiGAN.} Encoderによる潜在変数の復元も考慮し，潜在変数 z, z′と画像データ_x,_x′の両方を_{Discriminator}への入力とし，学習を行う．図5　代表的な画像生成フレームワーク．a) GAN: Discriminator（識別器）と_Generator（生成器）から構成され，_mini–_{max loss}の最適化により学習を行う．_{b) VAE: Encoder}（符号化器）と_Decoder（復号化器）から構成され，復元画像と元画像の誤差が最小となるよう，_ELBOの最適化により学習を行う．

(9)

（pdata(x)）を近似する生成モデル分布（pθ (x)）を得るには，2つの分布のカルバック・ライブラー (KL)距離を最小化するパラメータを学習すればよく，式(5)より，モデルの対数尤度関数の期待値を最大化するパラメータを求める問題に帰着される（第1項は，データサンプルで決まる定数項）． x x x x x x x x x data data data KL data θ data p θ p data p θ D p p p E p E p E p ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) || log log log [ ( )] [ ( )]       ＝＝－ (5) VAEの目的関数は，対数尤度関数の変分下限

(ELBO, Evidence Lower Bound)を最大することであり，negative reconstruction errorとも呼ばれる再構成に関わる誤差項と正則化項である KL距離項で表される（式(6)）．

(

)

z x x z z x z φ n N β _{φ θ} q θ n n KL φ n z L E p | N βD q | p ( | ) , ₁ [ ( ) 1 ] ( ( ) ( )) max log ||

∑

＝＝－ (6) ただし，qφ（z|xn）は，画像xnが与えられたときのzに関する符号化モデル分布であり，pz (z)は正規分布に設定される． VAEを用いた，内部表現のdisentanglement に関する研究は，理論的裏付けをもつ研究が多い．特に広く利用されるのがβ -VAE49）で， VAEの目的関数（式(6)）のうち，KL距離項のペナルティを，β＞1で調整することで表現の分離度を向上させる手法である（通常のVAE では，β＝1）．また，β-VAEの内部表現とサル視覚野の神経情報表現を比較した研究も行われている50）．ただし，第1項は，画像の再構成に関連した誤差項であるため，βのペナルティを大きくすると，第1項の寄与が低下し，生成画像の質は低下するというトレードオフが生じる．β-TCVAE51）は，KL距離項をさらに式(7) に分解し，潜在変数zの次元間で相関を持たないよう，Total Correlation項だけにペナルティ (β＞1)を科して学習を行う手法で，生成画像の質や，表現の分離に改善が認められる． z z z z φ φ β TC _{φ θ} q n p n θ q KL φ φ j j KL φ j z j j L max E p n| I n βD q q z D q z p z ( | ) ( ) , [ ( )] ( ) ( ) ( ) log ; | ( ( ) ( ) | || ) −     

∏



∑

－＝－－ ₍₇₎ 一方，真の変動要因が未知であることから，表現分離の性能を定量的に評価することは困難である．ある程度，フェアな評価方法としては，対象とする物体画像のCG生成モデルを既知と

し，要因(view angle, lightning etc.)ごとの違いが事前に分かった画像を作成し，訓練画像とすることである．これにより，「真の要因」に対して，提案モデルがどれだけ，disentanglement できたか定量的に評価可能である．Chenら51）は，潜在変数の第1次元の相互情報量と第2次元の相互情報量の差を正規化した指標(mutual information gap)により，情報の分離を評価しようと試みている．VAEによって学習される潜在変数zとデータxの間の相互情報量は，比較的高い値に収束する傾向があるが，これは，目的関数であるELBOのKL距離項を式展開すると，式(8)のように相互情報量と関係するからである（ただし，式(6)のように，相互情報量にペナルティを科しているため，大きなβに対しては，相互情報量は低下する．相互情報量の最大化と，表現の分離を同時にみたす目的関数の設定が探求されている）． DKL (qφ (z|x)||pz (z))＝I(x; z)＋DKL (q(z)||pz (z)) (8) ただし，q(z)は，周辺事後分布である52）．上記の比較から，脳の計算論に沿った表現学習を研究するにあたり，Discriminator/識別器が必要で，理論的裏付けの乏しいGANよりも VAEの方が優れているようにも見えるが， VAEにも欠点がある．VAEでは，生成画像がぼやける傾向が指摘されている．これは訓練画像データxの分布（pdata (x)）を近似する，生

(10)

成画像x′の分布（pθ (x)）が十分に学習しきれていないことを示している．自然画像の分布は，確率空間内のほとんどの点でゼロになる分布である（ホワイトノイズのように，各ピクセルの輝度分布が一様となる画像は，自然界でほとんど生起しないことからも，直感的に理解できるであろう）．VAEは，式(5)のようにKL距離に基づき学習しているが，最終的には対数尤度を計算しており，logゼロの点は発散してしまうため，自然画像の分布を学習するのに適したフレームワークになっていないと指摘されている．一方，最近の高性能なGANは，従来実装における収束の不安定性を改善するため，データ分布と生成モデル分布のWasserstein距離を用いて学習を行っている．すなわち，Discriminator は，Wasserstein距離を計算し，Generatorは Wasserstein距離を最小化する画像生成を学習している．このため，確率ゼロが多い自然画像の分布学習に適しているといわれる．また，VAEでは，潜在変数zの分布（pz (z)）を正規分布に制約しているが，正規分布は等方性があるので，目的関数が画像回転に対し変化しない性質がある53）．このため，画像の回転操作など重要な要因を潜在変数表現として，教師なし学習できない欠点も指摘されている．こうした欠点は，潜在変数の分布関数を変えることで解決できる可能性があるが，理論的定式化が難しくなる側面もある．

おわりに　～脳の視覚情報処理モデルと

して求めるもの

AlexNet登場以降の大まかなコンピュータビジョン研究の動向を説明しつつ，主に内部表現の教師なし学習と，表現の分離＝disentanglement に関する研究を概説した．表現学習における disentanglementの基本的な枠組みとしては，「潜在変数zとデータxとの間の相互情報量を高める学習」と「潜在変数zの次元間の独立性を高める学習」の組み合わせであり，二つの要請をどのようなアーキテクチャと，学習タスクで実現するかが研究されてきた．私見だが，脳の視覚情報処理モデルとしては，時間的・空間的な近傍情報の予測という， contextの学習を教師なし学習するフレームワークが妥当であると考えている．近年の Transformerの成功は，潜在変数空間内における空間的・時間的な共起関係やパターンだけから外界情報が予測できると考えて良いように思われる．一方，低次層の情報処理は，神経科学的エビデンスに基づきDCNによる実装が良いように思われる．Transformerで用いられる， Attention層のような演算要素をどのように DCNに埋め込むべきか，さらなる研究発展が求められる．一方，再帰型ニューラルネットワークを用いて，脳内におけるfeedback信号の役割やダイナミックスを考慮することの重要性が指摘されているが54），時間方向のcontextを学習するうえでは，Transformerのように，時間要素を空間的に展開して学習する方が，「意味のある」「解釈できる」表現の学習に向いているように感じる．実際，再帰型ニューラルネットワークと脳の神経活動との適合度は，非常に深層に拡張したDCNと同程度と指摘されている．また， feedbackによる脳内の神経活動変調は，early 成分とlate成分に分けた解析で十分な印象でもある55）．したがって，feedback要素としては，表現学習において，生成モデルを考慮すれば十分ではないだろうか．自由エネルギー原理に基づく，生成モデルを含めた脳の計算論的モデル構築が進むと予想される．近年，Contrastive learningに基づく教師なし学習モデルにより，物体認識性能が大幅に向上することが相次いで報告されているが，脳の学習モデルとしては，直接data augmentationを設定せず，negative sampleの扱いを工夫する必要があるように思われる．disentanglementされた潜在変数表現を学習したのち，さらに各要因のinvariantな表現を学習する仕組みが提案できると興味深い．このほか，最新の神経科学研究によれば，サルの下側頭葉では，大まかに4つの視覚カテゴ

(11)

リが別々のネットワークで階層処理されることが報告されている56）．脳の解剖学的構造，とくに視覚情報処理の分岐も考えたモデル構築を考えた方が良い時期に来ているようにも思われる．以上，20分間のチュートリアルという制限のなかで，視覚研究に関連する深層ニューラルネットワーク研究を紹介した．本チュートリアルでは紹介できなかった論点や重要論文がまだ多数あるが，限られた時間と紙面の中での解説であることをご理解いただきたい（AI研究は日進月歩なので，最新の研究を拾い切れてもいないであろう．視覚研究に直接関係しない文献についても，引用から除外した）. また，大まかな研究動向の把握を重視したため，厳密な実装方法や正確な数学的記述という点で齟齬もあると思われる．関連原著論文を調べるための補助資料として利用いただければ幸いである．文献

1) A. Krizhevsky, I. Sutskever and G. E. Hinton: ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105, 2012.

2) J. Deng, W. Dong, R. Socher, L. J. Li, K. Li and F. F. Li: ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference of Computer Vision and Pattern Recognition, 248–_{255, 2009.}

3) K. Fukushima: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biologial Cybernernetics, 36_{, 193}–_{202, 1980.}

4) Y. LeCun, B. Bose, J. S. Denker, R. E. Howard, W. Habbard, L. D. Jackel and D. Henderson: Hand-written digit recognition with a back-propagation network. Advances in Neural Information Processing Systems, 2, 396–404, 1990.

5) R. Hayashi and S. Nishimoto: Decoding visual information in monkey IT cortex using

deep neural network. Proceedings of Life Engineering Symposium 2013, 511–_{514, 2013.} 6) R. Hayashi and H. Kawata: Image

reconstruction from neural activity recorded from monkey inferior temporal cortex using generative adversarial networks, in 2018 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 105–_{109, 2018.} 7) D. L. K. Yamins, H. Hong, C. F. Fadieu, E. A.

Solomon, D. Seibert and J. J. DiCarlo: Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proceedings of the National Academy Sciences of the United States of America, 111, 8619–_{8624, 2014.}

8) U. Güçlü and M. A. J. van Gerven: Deep neural networks reveal a gradient in the complexity of neural representations across the ventral stream. Journal of Neuroscience, 35, 10005–_{10014, 2015.}

9) N. Kriegeskorte, M. Mur and P. Bandettini: Representational similarity analysis: Con-necting the branches of systems neuro-science. Frontiers Systems Neuroscience, 2_, 1–_{28, 2008.}

10) K. Simonyan and A. Zisserman: Very deep convolutional networks for large-scale image recognition. ICLR 2015, 1–14, 2015.

11) C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vamjpicke and A. Rabinovich: Going deeper with convolutions. Proceedings of IEEE Conference on Computer Vision Pattern Recognition, 1–_9, 2015.

12) K. He, X. Zhang, S. Ren and J. Sun: Deep residual learning for image recognition. Proceedings of IEEE Conference on Computer Vision Pattern Recognition, 770–_{778, 2016.} Available: http://www.cv-foundation.org/ openaccess/content_cvpr_2016/html/He_ Deep_Residual_Learning_CVPR_2016_ paper.html

13) M. Schrimpf, J. Kubilius, H. Hong, N. J. Majaj, R. Rajalingham, E. B. Issa, K. Kar, P.

(12)

Bashivan, J. Prescott-Roy, K. Schmidt, D. L. Yamins and J. J. DiCarlo: Brain-Score: Which artificial neural network for object recognition is most brain-like? bioRxiv, 1–_9, 2018. doi: https://doi.org/10.1101/407007 14) S. Nonaka, K. Majima, S. C. Aoki and Y.

Kamitani: Brain hierarchy score: Which deep neural networks are hierarchically brain-like? bioRxiv, 2020. doi: https://doi.org/ 10.1101/2020.07.22.216713

15) C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erthan, I. Goodfellow and R. Fergus: Intriguing properties of neural networks. 2nd International Conference of Learning Representations ICLR 2014—_Conf. Track Proc., 1–_{10, 2014.}

16) A. Nguyen, J. Yoshinski and J. Clune: Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 427–_{436, 2015.}

17) D. Karmon, D. Zoran and Y. Goldberg: LaVAN: Localized and visible adversarial noise. 35th International Conference of Machine Learnning, ICML 2018, 6, 3903– 3911, 2018.

18) A. Athalye, L. Engstrom, A. Ilyas and K. Kwok: Synthesizing robust adversarial examples. 35th International Conference of Machine Learnning, ICML 2018, 1, 449–468, 2018.

19) R. Geirhos, C. R. Medina Temme, J. Rauber, and H. H. Schütt: Generalisation in humans and deep neural networks. Advances in Neural Information Processing Systems, 7538– 7550, 2018.

20) L. A. Gatys, A. S. Ecker and M. Bethge: Image style transfer using convolutional neural networks. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 2414–_{2423, 2016.}

21) R. Geirhos, P. Rubisch, C. Micaelis, M. Bethge, F. A. Wichmann and W. Brendel:

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. arXiv: 1811.12231, 1–_{22, 2018.}

22) R. Kiani, H. Esteky, K. Mirpour and K. Tanaka: Object category structure in response patterns of neuronal population in monkey inferior temporal cortex. Journal of Neurophysiology, 97, 4296–4309, 2007. 23) N. Kriegeskorte, M. Mur, D. A. Ruff and

R. Kiani: Matching categorical object representations in inferior temporal cortex of man and monkey. Neuron, 26, 1126–1141, 2008.

24) C. Sun, A. Shrivastava, S. Singh and A. Gupta: Revisiting unreasonable effectiveness of data in deep learning era. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 843–_{852, 2017.}

25) C. Doersch, A. Gupta and A. A. Efros: Unsupervised visual representation learning by context prediction. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 1422–_{1430, 2015.}

26) D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell and A. A. Efros: Context encoders: Feature learning by inpainting. arXiv: 1604.07379, 2016.

27) R. Zhang, P. Isola and A. A. Efros: Colorful image colorization. European Confernce on Computer Vision, 649–666, 2016.

28) M. Noroozi and P. Favaro: Unsupervised learning of visual representations by solving jigsaw puzzles. European Confernce on Computer Vision, 69–_{84, 2016.}

29) S. Gidaris, P. Singh and N. Komodakis: Unsupervised representation learning by predicting image rotations. ICLR 2018, 1–_16, 2018.

30) R. Zhang, P. Isola and A. A. Efros: Split-brain autoencoders: Unsupervised learning by cross-channel prediction. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 1058–1067, 2017.

(13)

31) M. Caron, M. Caron, P. Bojanowski, A. Joulin and M. Douze: Deep clustering for unsupervised learning of visual features. ECCV 2018, 2018.

32) Z. Wu, Y. Xiong, S. Yu and D. Lin: Unsuper-vised feature learning via non-parametric instance discrimination. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 3733–3742, 2018.

33) T. Konkle and G. A. Alvarez: Instance-level contrastive learning yields human brain-like representation without category-supervision. bioRxiv, 1–17, 2020.

34) K. He, H. Fan, Y. Wu, S. Xie and R. Girshick: Momentum contrast for unsupervised visual representation learning. Proceedings of IEEE/ CVF Conference of Computer Vision and Pattern Recognition, 9729–_{9738, 2020.}

35) T. Chen, S. Kornblith, M, Norouzi and G. Hinton: A simple framework for contrastive learning of visual representations. ICML 2020, 1–_{20, 2020.}

36) R. Hadsell, S. Chopra and Y. Lecun: Dimensionality reduction by learning an invariant mapping. 2006 Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 2, 1735–1742, 2006.

37) A. van den Oord, Y. Li and O. Vinyals: Representation learning with contrastive predictive coding. arXiv:1807.03748, 2018. 38) A. Dosovitskiy, L. Beyer, A. Kolesnikov, D.

Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit and N. Houlsby: An image is worth 16X16 words: Transformers for image recognition at scale. ICLR 2021, 1–_{21, 2021.} Available: http://proceedings.mlr.press/v119/ chen20s.html

39) M. Chen, A. Radford, R. Child, J. Wu, H. Jun, P. Dhariwal, D. Luan and I. Sutskever: Generative pretraining from pixels. Proceeding 37th International Conference Machine Learning, 119, 1691–1703, 2020. Available: http://proceedings.mlr.press/v119/

chen20s.html

40) I. J. Goodfellow, J. P. Abradie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville and Y. Bengio: Generative adversarial nets. NIPS 2014, 1–_{9, 2014.}

41) A. Radford, L. Mets and S. Chintala: Unsupervised representation learning with deep convolutional generative adversarial ntworks. ICLR 2016, 1–16, 2016.

42) X. Chen, Y. Duan, R. Houthhooft, J. Schulman, I. Sutskever and P. Abbeel: InfoGan: Interpretable representation learning by information maximizing generative adversarial nets. NeurIPS 2016, 1–14, 2016. 43) J. Donahue, P. Krähenbühl and T. Darrell:

Adversarial feature learning. ICLR 2017, 1–_{18, 2017.}

44) V. Dumoulin, I. Belghazi, B. Poole, O. Mastropietro, A. Lamb, M. Arjovsky and A. Courville: Adversarially learned inference. ICLR2017, 1–_{18, 2017.}

45) J. Donahue and K. Simonyan: Large scale adversarial representation learning. NeurIPS 2019, 1–_{32, 2019.}

46) A. Gonzalez-Garcia, J. van de Weijer and Y. Bengio: Image-to-image translation for cross-domain disentanglement. NeurIPS 2018, 1–12, 2018.

47) X. Mao, Z. Su, P. S. Tan, J. K. Chow and Y.-H. Wang: Is discriminator a good feature extractor? arXiv:1912.00789, 1–12, 2020. 48) D. P. Kingma and M. Welling:

Auto-encoding variational bayes. arXiv: 1312.6114, 1–_{14, 2013. https://arxiv.org/abs/1312.6114} 49) I. Higgins, L. Matthey, A. pal, C. Burgess, X.

Glorot, M. Botvinick, S. Mohamed and A. Lerchner: β-VAE: Learning basic visual concepts with a constrained variational framework. ICLR 2017, 1–_{22, 2017.}

50) I. Higgins: Unsupervised deep learning identifies semantic disentanglement in single inferotemporal neurons. arXiv: 2006.14304, 1–24, 2020.

(14)

Duve-naud: Isolating sources of disentanglement in VAEs. NeurIPS 2018, 1–_{18, 2018.}

52) H. Kim and A. Mnih: Disentangling by factorising. 35th International Conference Machine Learning, ICML 2018, 6, 4153–_4171, 2018.

53) E. Mathieu, T. Rainforeth, N. Siddharth and Y. W. Teh: Disentangling disentanglement in variational autoencoders. Proceedings 36th International Conference Machine Learning, 4402–4412, 2019.

54) K. Kar, J. Kubilius, K. Schmidt, E. B. Issa and

J. J. DiCarlo: Evidence that recurrent circuits are critical to the ventral stream’s execution of core object recognition behavior. Nature Neuroscience, 22, 974–_{983, 2019.}

55) C. M. Schwiedrzik and W. A. Freiwald: High-level prediction signals in a low-High-level area of the macaque face-processing hierarchy. Neuron, 96_{, 89}–_{97, 2017.}

56) P. Bao, L. She, M. McGill and D. Y. Tsao: A map of object space in primate inferotemporal cortex. Nature, 583, 103–108, 2020.

視覚野の計算モデル：教師なし学習手法による視覚情報の表現分離