• 検索結果がありません。

視覚野の計算モデル:教師なし学習手法による視覚情報の表現分離

N/A
N/A
Protected

Academic year: 2021

シェア "視覚野の計算モデル:教師なし学習手法による視覚情報の表現分離"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

視覚野の計算モデル:

教師なし学習手法による視覚情報の表現分離

隆介

国立研究開発法人 産業技術総合研究所 〒305–8568 茨城県つくば市梅園1–1–1 中央第2 [email protected]

はじめに

コ ン ピ ュ ー タ ビ ジ ョ ン 研 究 の 分 野 で は, AlexNetの 登 場 以 降1)深 層 畳 み 込 み ニ ュ ー ラルネットワーク(Deep Convolutional Neural Network, 以下DCN)による一般物体認識精度 の向上が競われてきた.当初は,識別すべき物 体 の ラ ベ ル 情 報 を 用 い た「教 師 あ り 学 習」 (supervised learning)による研究が主流であった が,近年は,ラベル情報を用いず,画像データ だけからDCNの学習を行う「教師なし学習」 (unsupervised learning)に関する研究が盛んで ある.本解説論文では,AlexNet登場以降のコ ンピュータビジョン/AI関連研究の動向を,視 覚神経科学の視点から概説する.

AlexNetの登場と多層化によるDCNの一般

物体認識性能の向上

インターネットの普及に伴い,画像データを 大量に収集し,クラウドソーシングを利用した 人海戦術により,ラベル情報を付与した大規模 なデータベースを構築することが可能となっ た.そ し てImageNet2(語 彙 関 連 辞 書 で あ る) WordNetに登録された名詞ラベルにしたがっ て画像を分類したデータベース)が公開され, コンピュータビジョン研究の技術評価を目的と し た コ ン ペ テ ィ シ ョ ン(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)に, ベ ンチマークとして提供された.こうした大規模 な学習用画像データの普及を背景に登場したの がDCNを基本アーキテクチャとしたAlexNet1) (筆頭著者のAlex Krizhevskyの名をとった通 称)である.従来手法の多くは,人が一般物体認 識に有効な画像特徴量を設計し,識別学習を行っ ていた.これに対し,AlexNetは古典的な畳み込 みニューラルネットワークを,単純に多層化し, 物体ラベル情報を用いたBackpropagationによ る学習を行うだけで,他を凌駕する識別性能を 実現した(ニューラルネットワーク全般に関す る詳細は,他の研究書を参照されたい). 階層的に畳み込み処理を行うDCNのアーキ テクチャは,もともと脳の視覚野の情報処理様 式から着想を得ている3, 4).興味深いことに, 大量の画像データを使って一般物体認識機能を ゼロから学習したDCNでも,脳の腹側視覚経 路と相同性のある,階層的な情報表現が認めら れることが報告された.すなわち,DCN第1 層のニューロンの畳み込み重みは,V1野の神 経細胞のように,さまざまな方位と空間周波数 からなるガボール・フィルタのような重み分布 を示し,高次層のニューロンは,下側頭葉の神 経細胞が示す物体カテゴリ選択性を示してい た.このことから,DCNは,腹側視覚経路の計 算論的モデルとしても注目されることとなった. 具体的には,腹側視覚経路の各領域から記録し たサル神経細胞の活動データ5–7)やヒトfMRI データ8)と,DCN各層のニューロン応答との 間で,線形回帰モデルによる予測性能比較や データベース画像に対する表現類似度の比較9) が行われ,脳とDCNの相同性に関する定量的 2021年冬季大会.シンポジウム講演.

(2)

な検証がすすんだ. AlexNetは,5つの畳み込み層と3つの全結合 層からなる8層のニューラルネットワークであっ た が,そ の 後 登 場 し たVGGNetは16–19層10), GoogleNetは22層11),ResNetは34–152層以上12) と,DCNを多層化することで性能向上を目指 した研究が相次いだ.このため,最先端モデル は,物体認識性能の点でヒトの視覚機能に近づ いたものの,極端に多層化された点で,脳モデ ルとして妥当性を見出しにくいものとなって いった.そこで,単純に物体認識性能に基づく のではなく,神経活動データに対する予測性能 であるBrain Scoreに基づき脳モデルとしての妥 当性を定量的に評価することが提案された13). さらに,脳との階層的相同性を含めた指標化な ども提案されている14).

脳と

DCN の視覚情報処理の違い:

教師あり学習の欠点

脳の視覚情報処理やヒトの認識能力との類似 性や相同性が注目されるDCNだが,その違いも 指摘されている.ラベル情報に基づき教師あり 学習したDCNでは,訓練データに依存した識別 基準の学習が行われてしまう.このため,未学 習のデータに対しては,ヒトが間違えようのな い画像であっても,識別誤りが生じることがあ る(汎化generalizationの問題).こうしたDCN の 脆 弱 性 を 意 図 的 に 作 り 出 す 敵 対 的 攻 撃 (adversarial attacks)に関する研究も高い注目を 集めた.一連の研究では,攻撃対象となるDCN とは別に,もう一つニューラルネットワークを 用意し,DCNの誤識別を引き起こす外乱操作や 画像を生成する手法が研究された.例えば,ヒ トには気にならないようなわずかな外乱であっ ても,DCNが全く無関係な物体として誤識別し てしまうことや15),物体画像とは似ても似つか ないノイズパターンや幾何学的図形をDCMが 特定の物体カテゴリとして誤識別してしまうこ とが明らかにされた16).この他,画像のごく一 部分だけに外乱を入れる攻撃方法や17),さまざ まな画像変換に対してもロバストに攻撃できる パターン生成方法18)も報告されている. 教師あり学習したDCNが脆弱な理由とし て,自然画像の適切な情報表現形式を学習しき れないことが挙げられる.表現形式が適切でな ければ,本来判別が容易な画像であっても,識 別が微妙な境界付近に表現されてしまう可能性 が生じる.したがって,より大規模な画像デー タベースを用いて,ラベル情報に依存せずに, 自然画像の統計的性質を反映した内部表現を DCNが獲得できれば,敵対的攻撃に対してロバ ストになるだけでなく,物体認識以外のさまざ まな視覚課題にも適応性が高まると期待される. 汎化の問題に関連したトピックスとして,教 師あり学習したDCNは,新規データセットや 新しいタスクに対し,識別精度が低下すること も広く知られており,fine tuningあるいは,転 移学習(transfer learning)といった追加的な学 習によって対処されることが多い.このほか, 画像のボケや,ノイズ,色や形状歪みなど,人 間には容易に対処できる画像の変化であっても, DCNは当該変化を直接学習しないと高い識別能 力を維持できないことも報告されている19).こ うした汎化能力の低さについても,訓練データ の不足と偏り,ならびに過学習の弊害といった 要因に帰着できると考えられる. 教師あり学習したDCNが,物体認識を行う 際に用いる手がかりについても,ヒトと異なる ことが指摘されている.例えば,image style transfer20) と呼ばれる手法を用いて,画像に含 まれる形状情報を保持したまま,そのテクス チャだけを別の画像テクスチャに変換すると, 多くのDCNモデルは,変換後のテクスチャに 基づき物体識別する傾向が強い21).これに対 し,ヒトはテクスチャの矛盾を無視して,形状 に基づく物体識別が可能である. 発達心理学的観点から考えてみても,逐一言 語的なラベル情報を与えられることによって, ヒトが一般物体認識能力を獲得しているとは考 えにくい.同様に進化的な観点から,比較行動 学や比較神経科学的知見と照らしてみても,教 師あり学習によって一般物体認識能力を獲得し

(3)

たとする脳の計算論的モデルには無理がある. 多くの動物種では,ヒトのように言語的なラベ ル情報を持たないにも関わらず,物体を認識す る能力が認められる.サルの視覚野から神経細 胞の活動を記録し,脳内でどのように画像情報 が神経表現されているのか,階層クラスタリン グにより解析すると,ヒトが用いる物体カテゴ リに相同する分類構造が認められることが報告 されている22).また,サルの視覚野の神経活 動とヒトの視覚野のfMRI活動それぞれの,刺 激画像セットに対する表現類似度パターンを比 較すると,やはり相同性が認められることが報 告されている23). したがって,発達過程での経験に匹敵する, 膨大な画像データを使い,自然画像の統計的性 質を反映した内部表現を教師なし学習するモデ ルの方が,脳の情報処理やヒトの視覚認知特性 をより良く再現できると「期待」される.

教師なし表現学習への注目

コンピュータビジョンやAI研究の分野にお いても,教師なし学習による画像認識性能の向 上やニューラルネットワークによる表現の学習 (representation learning)に 関 す る 研 究 が 大 き な注目を集めている.データ効率性が高く,汎 化能力の拡張,ロバスト性の向上などが期待で きるからである.教師あり学習に必要なラベル 情報の収集には,人が手動でラベリングを行う 必要があるため,コストがかかり,データベー ス の 規 模 拡 大 に は 自 ず と 限 界 が あ る( JFT-300M24) という18,000クラス,3億枚のデータ セットなどもあるが一般公開されていない). また,一つの画像に対し,ラベル情報は必ずし も一意に定まらないうえ,ラベル付けした人の バイアスや,ラベル付けの誤りも生じる.ラベ ル情報に頼らず学習できるのであれば,画像 データはほぼ無尽蔵に利用可能である.訓練 データの大規模化により,サンプリングの偏り なく,自然画像のもつ画像統計量を学習すれ ば,画像認識タスク全般に共通して有用な情報 表現が獲得できると期待され,汎用性が高まる と考えられる.さらに,膨大な画像のなかには, さまざまな外乱が含まれるので,学習後には, 外乱に対するロバスト性も期待される. あわせて,ニューラルネットワークが獲得する 内部表現(潜在変数空間:latent space, 埋め込み 空間:embedding space, 特徴空間:feature space

などとも呼ばれる)が,「意味のある」「解釈可 能な」要素に分離した表現になることにも注目 が集まっている.より汎用性の高い機能を実現 するために,「意味のある」要素に分離した表現 をいかにして学習するか=disentanglement(解 きほぐし)が課題となっている.表現学習にお け るdisentanglementは,明 確 な 定 義 が な く, 定性的に議論される場合が多い.これは,真の 「意味のある」要素や要因の定義が困難だから である.広い意味のdisentanglementとは,潜 在変数空間に「意味のある」要素に分かれた表 現が認められることとされるが,狭い意味に は,潜在変数の各次元(=潜在変数空間におけ る各軸)に対応して,「意味のある」要因が分 離して表現されることを指す. 教師なし学習により,表現のdisentanglement が実現できる前提として,(0)「外界から入力 される多次元データxは,その次元より少数の 変動の要因によって生じている」という仮定が ある.この仮定のもと,disentanglementには, (1)「データxとの相互情報量を最大化する潜 在変数z(ないし要素変数c)を学習すること」 が求められる(式(1)).データxと潜在変数z の相互情報量が最大であるということは,潜在 変数zが,データxに対するコンパクトな表現 となっており,その変動を最大限表現している ことに対応する.外界の大きな変動を説明する 要因を,われわれは「意味のある」要素と解釈 しているとも言い換えられる.そして,狭義の disentanglementでは,(2)「潜在変数zの各次 元同士が互いに独立ないし無相関となるように 学習すること」が求められる.

x z p | I p p , ( ) ( ; ) ( ,  ) log ( ) = x z x z x z x (1)

(4)

教師なし学習の手法は,学習のための損失関 数 な い し 目 的 関 数 の 設 計 方 法 の 違 い か らa) Generative/Predictiveな手法とb) Contrastiveな 手法に大別することができる.a)のGenerative/ Predictiveな手法は(図1a),データx0を入力し たときのモデル出力z0が,どういった値をとる べきか損失関数/目的関数として設計し,学習 する手法である.これに対し,b)のContrastive な手法は(図1b),データx0とデータx1をそれ ぞれ入力したとき,出力における両者の関係 (z0z1の関係)を損失関数/目的関数として 設計し,学習する手法である. さらに,表現学習する際に,i)データxから 潜在変数zへの符号化モデルのみを用いるアプ ローチと,ii)符号化モデルだけでなく,潜在 変数zからデータxへの復号化/生成モデルと 合わせて学習するアプローチが存在する. これまでに,さまざまな教師なし学習手法が 提唱され,今では教師あり学習手法に匹敵する 高精度な一般物体認識が実現されている.次章 では,画像認識課題に関連した教師なし学習手 法の研究動向について概説する.

自己教師あり学習手法 

etc.

DCNを使った広い意味での教師なし学習手 法 と し て,い わ ゆ る 自 己 教 師 あ り 学 習 (self-supervised learning)に関する研究が行われて き た.多 く は,名 目 上 の タ ス ク(pretext task) ないし,missing-dataの予測タスクを解決する ようDCNを訓練する手法である.すなわち, 画像に対し,何らかの操作を施したのち,操作 量の推定や,操作前の元画像を復元するよう DCNの学習を行う.この場合,「正解」となる 情報を使った教師あり学習ではあるものの,画 像操作は自動実行できるので,手動によるデー タのラベリングが不要となる.名目上のタスク としては,画像を9つ程度のパッチに分割し,う ち2つのパッチの相対位置を回答させるrelative position task25) ,画像の中央部を虫食いにし,生 成モデルが元画像を復元するように学習させる filling-in task26) ,モノクロ変 換した画 像から, 元のカラー画像に復元するcolorization task27), 画像をパッチに分割し,パッチの位置関係を シャッフルした状態から,元の位置関係を復元 させるjigsaw puzzle task28),画像を回転操作し た 状 態 か ら,回 転 角 を 推 定 さ せ るrotation task29) ,画像のチャンネル情報を分離し,独立 した処理同士が互いに欠損した情報を復元する split brain手法30)などが提案されてきた.しか しながら,自己教師あり学習手法は,タスクを を恣意的に設定する点に難がある. このほか,deep clusteringと呼ばれる教師な し 学 習 手 法 も 提 案 さ れ て き た31).こ れ は, DCNの内部表現に基づき,k-meansなどのク ラスタリング手法を使って,訓練画像をラベリ ングしたのち,DCNを学習する手法で,クラス タリングによるラベル作成と,DCNによる識別 学習を交互に繰り返すことで,よりよい内部表 現とクラスタリングの学習を目指す手法である. また,instance learningと呼ばれる,訓練画像 の1枚1枚を独立したクラスとして識別する学習 手法も注目された32).この手法では,個々の訓 練画像のインデックスとその内部表現をメモリ に保持しながら学習しなければならないという 制約があるものの,次節で説明するcontrastive learning(対照学習)の一種として実装され,自 図1 学習手法の分類.a) Generative/Predictiveな手法.データx0を入力したときのモデル出力z0が,ど ういった値をとるべきか損失関数/目的関数として設計する.b) Contrastiveな方法.データx0とデータx1 をそれぞれ入力したとき,出力における両者の関係(z0z1の関係)を損失関数/目的関数として設計する.

(5)

然画像のロバストな内部表現の学習を実現して いる.従来の教師あり学習したDCNよりも,脳 情報表現との対応が良いとも指摘されている33).

Contrastive learning による一般物体認識

性能の向上

2019年 以 降,contrastive learningを 使 っ た 教師なし学習モデルによって,教師あり学習し たDCNに匹敵する,高精度な一般物体認識の 実 現 が 相 次 い で 報 告 さ れ て い る34).2021年 1月現在,最高性能モデルとされているのが SimCLR35) であり,他の手法も非常によく似 たアイデアの下に実装されている.ここでは, SimCLRの実装方法を中心に,一般物体認識精 度を効率よく向上できる表現学習手法としての contrastive learningについて解説する. Contrastive learningでは,画像どうしが,潜 在変数空間において,どのような位置関係に投 射されるべきかを損失関数/目的関数として設 計することで学習を行う.一般物体認識課題で は,ある物体が,観察条件の違いによって,画 像上見た目が大きく異なったとしても,同一物 体として判定できるとともに,異なる物体画像 とは峻別できることが要請される.そこで ①元 画 像 か ら さ ま ざ ま な 画 像 操 作(異 な る

view)でpositive sampleを作る.

②別画像の画像操作により作成されたサンプル は,negative sampleとする. ③ Positive sample=類似画像どうしは近くに, negative sample=非類似画像どうしは遠く になるような内部表現空間へのマッピング を学習する. という手続きが図2 のフレームワークで行われ る. 画像操作としては,DCNの教師あり学習で

も用いられるdata augmentation手法(crop, flip, rotation, scale, gaussian noise, color distortion な

ど)が用いられる.符号化モデル/Encoderとし

て,例えばResNet50など,適当なDCNを用意

し,その出力を潜在変数zとして,式(2)で示し

たinformation noise contrastive lossを使って学 習を行う.各画像サンプルの潜在変数表現は,

ノルム1に正規化され,多次元超球面上に分布

するものとし,画像間の潜在変数表現の類似度 (sim(zi, zj))はコサイン距離で算出される.式 (2)のように,Positive sampleどうしの距 離 の exponentialを 分 子 に,negative sampleを 含 め

た全画像サンプルの距離のexponentialの総和 を分母とした損失関数を設計することで,図3 の模式図で示したように,類似画像同士は近傍 に,非類似画像は遠方へとマッピングするよう な 学 習 が 促 進 さ れ る36).こ れ に よ り,data augmentationで事前設定した外乱に対して不変 な画像特徴量に基づく情報表現が獲得される. 図2 SimCLRのフレームワーク.ネットワーク全体の投射先である,潜在変数zを,式(2)に示 した損失関数に基づき学習することで,Encoderは,一般物体認識に役立つ特徴表現hを獲得する.

(6)

SimCLRにおける実装方法は,物体認識性能を 効率よく学習できる利点がある一方,ロバスト な物体認識に寄与する外乱を事前に設定すると いう点で,純粋な脳の計算論的モデル実装とし て難がある.これに対し,van den Oordら37)は, contrastive predictive codingと呼ばれる脳の情 報処理を意識したフレームワークを提案してい る.同フレームワークでは,空間的・時間的な 近 傍 の 情 報 を そ の 周 辺 情 報 か ら 予 測 す る contextの学習をタスクとして設定している. 事前知識として,contextは,時間的・空間的 に連続に変化しており,そうした連続的な変化 は,潜在変数空間での共起関係ないしパターン から予測できると仮定している.実際,このフ レームワークによって,画像認識に有用な内部 表現が学習可能であることが示されている.ま た,contrastive learningで 広 く 用 い ら れ る information noise contrastive lossは,潜在変数

zとデータxの相互情報量と式(3)の関係にあ り,同損失関数の最適化学習は,同相互情報量 を最大化する学習であることが示されている. ただし,式(3)が示すように,よりよい表現学 習には,画像サンプルのサイズNを大きくと る こ と も 求 め ら れ て お り,多 く のnegative sampleをどのように保持するかについては, 脳の計算論的モデルとして課題があるように思 われる. ∈       

i j N N i k i k k sim τ L E sim τ 2 [ ! ] 1 exp( ( , )/ ) log 1 = exp( ( , )/ ) = - = x X z z z z (2) Nは,訓練サンプル数ないし学習時のバッチサイ ズ.τは,温度定数である.関数1[i!k]は,ik の時0,それ以外で1となる関数である. I(x; z)≥log(N)LN (3)

自然言語処理モデルの画像処理への展開

自 然 言 語 処 理(Natural Language Processing) の 分 野 で は,BERTやGPT-nなどTransformer を基本アーキテクチャとして,教師なし学習す るモデル研究が席巻している.Transformerを用 いた手法では,文章データを学習する際,単語 をtokenとしたシーケンスを入力データとする (図4).そ し て,Normalization層–Attention 層-MLP (Multi-Layer Perceptron)か ら な る 情 報処理を基本ユニットとして,これを何層も繰 り返すことで,シーケンス内での語順に基づく 共起関係だけから,次に出現する文章や,虫食 い状態の文章の穴埋め予測を,教師なし学習す るアプローチがとられる(詳細は自然言語処理 に関連した研究書を参照されたい).同手法を 用いると,学習に使うデータ量とネットワーク のパラメータサイズをスケールアップすること により,飛躍的な精度向上が可能となり,直接 学習していないタスクに対しても,わずかなサ ンプルによる学習だけで高い性能が発揮できる (few shot learning)など,きわめて高い汎化性

を示している.汎用性も高く,画像を1次元配 列 に 変 換 す れ ば,Transformerの ア ー キ テ ク チャを画像処理に適用することもできる.実 際,Transformerを画像処理に利用した研究報 告が相次いでいる.例えば,画像を単純に複数 のパッチに分割したのち,直接Transformerに 代入すると,非常に大きなラベル付き画像デー 図3 Contrastive lossの模式図.a) positive(=類似)

サンプルどうし(黒丸●)は,パラメータ更新の際, 近くに配置されるよう,距離に依存した引力が作用 する.b) negative(=非類似)サンプルどうし(白 丸◯)は,パラメータ更新の際,遠くに配置される よう,距離に依存した斥力が作用する.

(7)

タベースで学習すれば,従来の教師あり学習し

たDCNの物体識別性能を超えたと報告されて

いる38).また,画像をpixelレベルで1次元配 列化し,next pixelないしmissing pixelの予測 を教師なし学習させると,画像認識に適した内 部表現が獲得できることが報告されている39). Transformerに基づくcontextないし要素間の 共起関係の学習を行う手法は,シンプルなだけ に汎用性が高く,言語や画像の処理だけでなく 他のモダリティに対しても適用可能である.ま た,異なるモダリティ間の情報変換も可能で, 例えば言語から画像への変換を学習すること で,学習後は,任意の文章を入力すると,その 内容に即した自然な画像が生成できることも示 されている(DALL-E).ただし,pixelレベルで 画像の学習を行う際には,画像を低解像度に設 定するなど,入力シーケンスの長さを制限しな いと,膨大なパラメータの学習が必要となって しまう.このため,ある程度DCNを利用して データの次元数を圧縮したのち,Transformer な どAttention機 構 を 利 用 し てcontext=空間 的・時間的近傍の情報予測の学習を行うのが妥 当な印象を受ける.

生成モデルを用いた教師なし学習に基づ

く表現学習手法

教師なし学習に基づく画像生成フレームワー クとしては,GAN (Generative Adversarial Neural network)とVAE (Variational Auto Encoder)の

2つの手法が広く利用されている. GANは,潜在変数zから画像データx′を生 成するニューラルネットワーク(Generator)と, Generatorが生成した画像x′とあらかじめ準備 した訓練画像データxとを識別するニューラル ネットワーク(Discriminator)を基本構成要素 と す る40, 41).Generatorは,Discriminatorが 訓練画像xと判別できないような画像x′を生成 するように学習するのに対し,Discriminator は,訓練画像xと生成画像x′を正しく判別する よ うに 学 習 す る.両 者 が 競 合 的 に,式(4)の min–max lossを最適化する学習を行い,適切な 均衡点に収束できれば,きわめて訓練画像に似 た精緻な画像をGeneratorが生成可能となる.

{

}

data z p G D z p E D E D G ~ ( ~ ) ( ) minmax log ( ) log 1 [ ( )] + - x x x z z (4) pdata (x)は,実世界/訓練データにおける画 像xの分布.pz(z)は,潜在変数zの分布で,正 図4 自然言語処理で用いられるTransformerを用いたフレームワーク.a) シーケンス処理の概略図. b) Transformerの基本構成要素の概略図.

(8)

規分布として実装される.Generatorによる生 成画像x′の分布をpG (x′)とおくと,GANの学 習では,式(4)の最適化によりpG (x′)=pdata (x) となる均衡点への収束をめざす. GANを用いた表現学習手法としては, Info-GANが知られている42).Info-GANでは図6a に示したように,潜在変数zに加えて要素変数 cを仮定し,cの各次元に互いに独立に2値乱数 を入力して画像の生成を行う.さらに,生成画 像x′から要素変数の復元(c′)も行い,要素変数 cとの相互エントロピーが最大となるよう学習 することで,生成画像データx′との間の相互情 報量が最大となる要素変数表現cが得られる.た だし,通常のGANの枠組みで実装される Info-GANに は,画 像 か ら 内 部 表 現 へ と 変 換 す る Encoderが存在しない.これに対し,Bi-GAN43), ALI44) , BigBiGAN45)な ど は,図6bの よ う に Generator, DiscriminatorにEncoderを 加 え,内 部表現学習を行うフレームワークである. 著者は,Encoderを加えたInfo-GANを着想 し,かつ各層ごとに内部表現の相互情報量を最 大化するアーキテクチャを実装しており,各層 において,色選択性や背景選択性,形状選択性, カテゴリ選択性などが階層的に学習できること を示している.同内部表現に基づく自己組織化 マップを作製すると,これまでの視覚神経科学 研究で報告されてきた,皮質の機能マップと相 同なマップが再現できることを明らかにしてい る(Hayashi, in preparation).GANを利用した 表現学習研究の欠点としては,理論的裏付けが 弱く,表現のdisentanglementに関しては,画 像の生成結果に基づく定性的な議論で終わるこ とが多い46).また,脳の計算論的モデルから は乖離したDiscriminatorが必要な点にも難が ある.一般にDiscriminatorは,Encoderとアー キテクチャの相同性が高いが,獲得される内部 表現の違いも大きいことが指摘されている47). VAEは,画像データxから潜在変数zへの表 現変換を行うEncoderと,潜在変数zから元の 画像データへの復元x′を担うDecoderを基本 構成要素とする(図5b)48).VAEでは,潜在変 数z(砂時計型のアーキテクチャであるため bottle neckとも呼ばれる)の分布を正規分布に 制約した条件下で,訓練/元画像xと生成/復 元画像x′の復元誤差が最小となるようEncoder とDecoderの学習が行われる.真のデータ分布 図6 GANを用いた表現学習のフレームワーク例. a) Info-GAN. 潜在変数z(正規分布を仮定)だけでなく, 各次元が独立な要素変数cを加味し,cとの相互情報 量が最大となる画像の生成を学習する.b) BiGAN. Encoderによる潜在変数の復元も考慮し,潜在変数 z, z′と画像データx,x′の両方をDiscriminatorへの入 力とし,学習を行う. 図5 代表的な画像生成フレームワーク.a) GAN: Discriminator(識別器)とGenerator(生成器)から 構成され,minimax lossの最適化により学習を行 う.b) VAE: Encoder(符号化器)とDecoder(復号 化器)から構成され,復元画像と元画像の誤差が最 小となるよう,ELBOの最適化により学習を行う.

(9)

pdata(x))を近似する生成モデル分布(pθ (x)) を得るには,2つの分布のカルバック・ライブ ラー (KL)距離を最小化するパラメータを学習 すればよく,式(5)より,モデルの対数尤度関 数の期待値を最大化するパラメータを求める問 題に帰着される(第1項は,データサンプルで 決まる定数項). x x x x x x x x x data data data KL data θ data p θ p data p θ D p p p E p E p E p ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) || log log log [ ( )] [ ( )]       = = - (5) VAEの目的関数は,対数尤度関数の変分下限

(ELBO, Evidence Lower Bound)を 最 大 す る こ とであり,negative reconstruction errorとも呼 ばれる再構成に関わる誤差項と正則化項である KL距離項で表される(式(6)).

(

)

z x x z z x z φ n N β φ θ q θ n n KL φ n z L E p | N βD q | p ( | ) , 1 [ ( ) 1 ] ( ( ) ( )) max log ||

= = - (6) ただし,qφ(z|xn)は,画像xnが与えられたとき のzに関する符号化モデル分布であり,pz (z)は 正規分布に設定される. VAEを用いた,内部表現のdisentanglement に関する研究は,理論的裏付けをもつ研究が多 い.特 に 広 く 利 用 さ れ る の がβ -VAE49)で, VAEの目的関数(式(6))のうち,KL距離項の ペナルティを,β>1で調整することで表現の 分離度を向上させる手法である(通常のVAE では,β=1).また,β-VAEの内部表現とサル 視覚野の神経情報表現を比較した研究も行われ ている50).ただし,第1項は,画像の再構成に 関連した誤差項であるため,βのペナルティを 大きくすると,第1項の寄与が低下し,生成画 像の質は低下するというトレードオフが生じ る.β-TCVAE51)は,KL距離項をさらに式(7) に分解し,潜在変数zの次元間で相関を持たな いよう,Total Correlation項だけにペナルティ (β>1)を科して学習を行う手法で,生成画像 の質や,表現の分離に改善が認められる. z z z z φ φ β TC φ θ q n p n θ q KL φ φ j j KL φ j z j j L max E p n| I n βD q q z D q z p z ( | ) ( ) , [ ( )] ( ) ( ) ( )   log ; | ( ( ) ( ) | || ) −     

- = - - (7) 一方,真の変動要因が未知であることから, 表現分離の性能を定量的に評価することは困難 である.ある程度,フェアな評価方法としては, 対象とする物体画像のCG生成モデルを既知と

し,要因(view angle, lightning etc.)ごとの違い が事前に分かった画像を作成し,訓練画像とす ることである.これにより,「真の要因」に対 して,提案モデルがどれだけ,disentanglement できたか定量的に評価可能である.Chenら51) は,潜在変数の第1次元の相互情報量と第2次 元の相互情報量の差を正規化した指標(mutual information gap)により,情報の分離を評価し ようと試みている.VAEによって学習される 潜在変数zとデータxの間の相互情報量は,比 較的高い値に収束する傾向があるが,これは, 目的関数であるELBOのKL距離項を式展開す ると,式(8)のように相互情報量と関係するか らである(ただし,式(6)のように,相互情報 量にペナルティを科しているため,大きなβに 対しては,相互情報量は低下する.相互情報量 の最大化と,表現の分離を同時にみたす目的関 数の設定が探求されている). DKL (qφ (z|x)||pz (z))=I(x; z)DKL (q(z)||pz (z)) (8) ただし,q(z)は,周辺事後分布である52). 上記の比較から,脳の計算論に沿った表現学 習を研究するにあたり,Discriminator/識別器 が必要で,理論的裏付けの乏しいGANよりも VAEの 方 が 優 れ て い る よ う に も 見 え る が, VAEにも欠点がある.VAEでは,生成画像が ぼやける傾向が指摘されている.これは訓練画 像データxの分布(pdata (x))を近似する,生

(10)

成画像x′の分布(pθ (x))が十分に学習しきれ ていないことを示している.自然画像の分布 は,確率空間内のほとんどの点でゼロになる分 布である(ホワイトノイズのように,各ピクセ ルの輝度分布が一様となる画像は,自然界でほ とんど生起しないことからも,直感的に理解で きるであろう).VAEは,式(5)のようにKL距 離に基づき学習しているが,最終的には対数尤 度を計算しており,logゼロの点は発散してしま うため,自然画像の分布を学習するのに適した フレームワークになっていないと指摘されてい る.一方,最近の高性能なGANは,従来実装に おける収束の不安定性を改善するため,データ 分布と生成モデル分布のWasserstein距離を用い て学習を行っている.すなわち,Discriminator は,Wasserstein距 離 を 計 算 し,Generatorは Wasserstein距離を最小化する画像生成を学習し ている.このため,確率ゼロが多い自然画像の 分布学習に適しているといわれる. また,VAEでは,潜在変数zの分布(pz (z)) を正規分布に制約しているが,正規分布は等方 性があるので,目的関数が画像回転に対し変化 しない性質がある53).このため,画像の回転 操作など重要な要因を潜在変数表現として,教 師なし学習できない欠点も指摘されている.こ うした欠点は,潜在変数の分布関数を変えるこ とで解決できる可能性があるが,理論的定式化 が難しくなる側面もある.

おわりに ~脳の視覚情報処理モデルと

して求めるもの

AlexNet登場以降の大まかなコンピュータビ ジョン研究の動向を説明しつつ,主に内部表現の 教師なし学習と,表現の分離=disentanglement に関する研究を概説した.表現学習における disentanglementの基本的な枠組みとしては, 「潜在変数zとデータxとの間の相互情報量を 高める学習」と「潜在変数zの次元間の独立性 を高める学習」の組み合わせであり,二つの要 請をどのようなアーキテクチャと,学習タスク で実現するかが研究されてきた. 私見だが,脳の視覚情報処理モデルとして は,時間的・空間的な近傍情報の予測という, contextの 学 習 を 教 師 な し 学 習 す る フ レ ー ム ワ ー ク が 妥 当 で あ る と 考 え て い る.近 年 の Transformerの成功は,潜在変数空間内におけ る空間的・時間的な共起関係やパターンだけか ら外界情報が予測できると考えて良いように思 われる.一方,低次層の情報処理は,神経科学 的エビデンスに基づきDCNによる実装が良いよ う に 思 わ れ る.Transformerで 用 い ら れ る, Attention層 の よ う な 演 算 要 素 を ど の よ う に DCNに埋め込むべきか,さらなる研究発展が 求められる. 一方,再帰型ニューラルネットワークを用い て,脳内におけるfeedback信号の役割やダイ ナミックスを考慮することの重要性が指摘され ているが54),時間方向のcontextを学習するう えでは,Transformerのように,時間要素を空 間的に展開して学習する方が,「意味のある」 「解釈できる」表現の学習に向いているように 感じる.実際,再帰型ニューラルネットワーク と脳の神経活動との適合度は,非常に深層に拡 張したDCNと同程度と指摘されている.また, feedbackによる脳内の神経活動変調は,early 成分とlate成分に分けた解析で十分な印象でも ある55).したがって,feedback要素としては, 表現学習において,生成モデルを考慮すれば十 分ではないだろうか.自由エネルギー原理に基 づく,生成モデルを含めた脳の計算論的モデル 構築が進むと予想される. 近年,Contrastive learningに基づく教師なし 学習モデルにより,物体認識性能が大幅に向上 することが相次いで報告されているが,脳の学 習モデルとしては,直接data augmentationを 設定せず,negative sampleの扱いを工夫する必 要があるように思われる.disentanglementさ れた潜在変数表現を学習したのち,さらに各要 因のinvariantな表現を学習する仕組みが提案 できると興味深い. このほか,最新の神経科学研究によれば,サ ルの下側頭葉では,大まかに4つの視覚カテゴ

(11)

リが別々のネットワークで階層処理されること が報告されている56).脳の解剖学的構造,とく に視覚情報処理の分岐も考えたモデル構築を考 えた方が良い時期に来ているようにも思われる. 以上,20分間のチュートリアルという制限 のなかで,視覚研究に関連する深層ニューラル ネットワーク研究を紹介した.本チュートリア ルでは紹介できなかった論点や重要論文がまだ 多数あるが,限られた時間と紙面の中での解説 であることをご理解いただきたい(AI研究は 日進月歩なので,最新の研究を拾い切れてもい ないであろう.視覚研究に直接関係しない文献 についても,引用から除外した). また,大ま かな研究動向の把握を重視したため,厳密な実 装方法や正確な数学的記述という点で齟齬もあ ると思われる.関連原著論文を調べるための補 助資料として利用いただければ幸いである. 文 献

1) A. Krizhevsky, I. Sutskever and G. E. Hinton: ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105, 2012.

2) J. Deng, W. Dong, R. Socher, L. J. Li, K. Li and F. F. Li: ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference of Computer Vision and Pattern Recognition, 248255, 2009.

3) K. Fukushima: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biologial Cybernernetics, 36, 193202, 1980.

4) Y. LeCun, B. Bose, J. S. Denker, R. E. Howard, W. Habbard, L. D. Jackel and D. Henderson: Hand-written digit recognition with a back-propagation network. Advances in Neural Information Processing Systems, 2, 396–404, 1990.

5) R. Hayashi and S. Nishimoto: Decoding visual information in monkey IT cortex using

deep neural network. Proceedings of Life Engineering Symposium 2013, 511514, 2013. 6) R. Hayashi and H. Kawata: Image

reconstruction from neural activity recorded from monkey inferior temporal cortex using generative adversarial networks, in 2018 IEEE International Conference on Systems, Man, and Cybernetics (SMC), 105109, 2018. 7) D. L. K. Yamins, H. Hong, C. F. Fadieu, E. A.

Solomon, D. Seibert and J. J. DiCarlo: Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proceedings of the National Academy Sciences of the United States of America, 111, 8619–8624, 2014.

8) U. Güçlü and M. A. J. van Gerven: Deep neural networks reveal a gradient in the complexity of neural representations across the ventral stream. Journal of Neuroscience, 35, 10005–10014, 2015.

9) N. Kriegeskorte, M. Mur and P. Bandettini: Representational similarity analysis: Con-necting the branches of systems neuro-science. Frontiers Systems Neuroscience, 2, 1–28, 2008.

10) K. Simonyan and A. Zisserman: Very deep convolutional networks for large-scale image recognition. ICLR 2015, 1–14, 2015.

11) C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vamjpicke and A. Rabinovich: Going deeper with convolutions. Proceedings of IEEE Conference on Computer Vision Pattern Recognition, 19, 2015.

12) K. He, X. Zhang, S. Ren and J. Sun: Deep residual learning for image recognition. Proceedings of IEEE Conference on Computer Vision Pattern Recognition, 770778, 2016. Available: http://www.cv-foundation.org/ openaccess/content_cvpr_2016/html/He_ Deep_Residual_Learning_CVPR_2016_ paper.html

13) M. Schrimpf, J. Kubilius, H. Hong, N. J. Majaj, R. Rajalingham, E. B. Issa, K. Kar, P.

(12)

Bashivan, J. Prescott-Roy, K. Schmidt, D. L. Yamins and J. J. DiCarlo: Brain-Score: Which artificial neural network for object recognition is most brain-like? bioRxiv, 19, 2018. doi: https://doi.org/10.1101/407007 14) S. Nonaka, K. Majima, S. C. Aoki and Y.

Kamitani: Brain hierarchy score: Which deep neural networks are hierarchically brain-like? bioRxiv, 2020. doi: https://doi.org/ 10.1101/2020.07.22.216713

15) C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erthan, I. Goodfellow and R. Fergus: Intriguing properties of neural networks. 2nd International Conference of Learning Representations ICLR 2014Conf. Track Proc., 110, 2014.

16) A. Nguyen, J. Yoshinski and J. Clune: Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 427–436, 2015.

17) D. Karmon, D. Zoran and Y. Goldberg: LaVAN: Localized and visible adversarial noise. 35th International Conference of Machine Learnning, ICML 2018, 6, 3903– 3911, 2018.

18) A. Athalye, L. Engstrom, A. Ilyas and K. Kwok: Synthesizing robust adversarial examples. 35th International Conference of Machine Learnning, ICML 2018, 1, 449–468, 2018.

19) R. Geirhos, C. R. Medina Temme, J. Rauber, and H. H. Schütt: Generalisation in humans and deep neural networks. Advances in Neural Information Processing Systems, 7538– 7550, 2018.

20) L. A. Gatys, A. S. Ecker and M. Bethge: Image style transfer using convolutional neural networks. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 2414–2423, 2016.

21) R. Geirhos, P. Rubisch, C. Micaelis, M. Bethge, F. A. Wichmann and W. Brendel:

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness. arXiv: 1811.12231, 1–22, 2018.

22) R. Kiani, H. Esteky, K. Mirpour and K. Tanaka: Object category structure in response patterns of neuronal population in monkey inferior temporal cortex. Journal of Neurophysiology, 97, 4296–4309, 2007. 23) N. Kriegeskorte, M. Mur, D. A. Ruff and

R. Kiani: Matching categorical object representations in inferior temporal cortex of man and monkey. Neuron, 26, 1126–1141, 2008.

24) C. Sun, A. Shrivastava, S. Singh and A. Gupta: Revisiting unreasonable effectiveness of data in deep learning era. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 843852, 2017.

25) C. Doersch, A. Gupta and A. A. Efros: Unsupervised visual representation learning by context prediction. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 14221430, 2015.

26) D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell and A. A. Efros: Context encoders: Feature learning by inpainting. arXiv: 1604.07379, 2016.

27) R. Zhang, P. Isola and A. A. Efros: Colorful image colorization. European Confernce on Computer Vision, 649–666, 2016.

28) M. Noroozi and P. Favaro: Unsupervised learning of visual representations by solving jigsaw puzzles. European Confernce on Computer Vision, 6984, 2016.

29) S. Gidaris, P. Singh and N. Komodakis: Unsupervised representation learning by predicting image rotations. ICLR 2018, 116, 2018.

30) R. Zhang, P. Isola and A. A. Efros: Split-brain autoencoders: Unsupervised learning by cross-channel prediction. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 1058–1067, 2017.

(13)

31) M. Caron, M. Caron, P. Bojanowski, A. Joulin and M. Douze: Deep clustering for unsupervised learning of visual features. ECCV 2018, 2018.

32) Z. Wu, Y. Xiong, S. Yu and D. Lin: Unsuper-vised feature learning via non-parametric instance discrimination. Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 3733–3742, 2018.

33) T. Konkle and G. A. Alvarez: Instance-level contrastive learning yields human brain-like representation without category-supervision. bioRxiv, 1–17, 2020.

34) K. He, H. Fan, Y. Wu, S. Xie and R. Girshick: Momentum contrast for unsupervised visual representation learning. Proceedings of IEEE/ CVF Conference of Computer Vision and Pattern Recognition, 97299738, 2020.

35) T. Chen, S. Kornblith, M, Norouzi and G. Hinton: A simple framework for contrastive learning of visual representations. ICML 2020, 1–20, 2020.

36) R. Hadsell, S. Chopra and Y. Lecun: Dimensionality reduction by learning an invariant mapping. 2006 Proceedings of IEEE Conference of Computer Vision and Pattern Recognition, 2, 1735–1742, 2006.

37) A. van den Oord, Y. Li and O. Vinyals: Representation learning with contrastive predictive coding. arXiv:1807.03748, 2018. 38) A. Dosovitskiy, L. Beyer, A. Kolesnikov, D.

Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit and N. Houlsby: An image is worth 16X16 words: Transformers for image recognition at scale. ICLR 2021, 121, 2021. Available: http://proceedings.mlr.press/v119/ chen20s.html

39) M. Chen, A. Radford, R. Child, J. Wu, H. Jun, P. Dhariwal, D. Luan and I. Sutskever: Generative pretraining from pixels. Proceeding 37th International Conference Machine Learning, 119, 1691–1703, 2020. Available: http://proceedings.mlr.press/v119/

chen20s.html

40) I. J. Goodfellow, J. P. Abradie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville and Y. Bengio: Generative adversarial nets. NIPS 2014, 19, 2014.

41) A. Radford, L. Mets and S. Chintala: Unsupervised representation learning with deep convolutional generative adversarial ntworks. ICLR 2016, 1–16, 2016.

42) X. Chen, Y. Duan, R. Houthhooft, J. Schulman, I. Sutskever and P. Abbeel: InfoGan: Interpretable representation learning by information maximizing generative adversarial nets. NeurIPS 2016, 1–14, 2016. 43) J. Donahue, P. Krähenbühl and T. Darrell:

Adversarial feature learning. ICLR 2017, 1–18, 2017.

44) V. Dumoulin, I. Belghazi, B. Poole, O. Mastropietro, A. Lamb, M. Arjovsky and A. Courville: Adversarially learned inference. ICLR2017, 118, 2017.

45) J. Donahue and K. Simonyan: Large scale adversarial representation learning. NeurIPS 2019, 132, 2019.

46) A. Gonzalez-Garcia, J. van de Weijer and Y. Bengio: Image-to-image translation for cross-domain disentanglement. NeurIPS 2018, 1–12, 2018.

47) X. Mao, Z. Su, P. S. Tan, J. K. Chow and Y.-H. Wang: Is discriminator a good feature extractor? arXiv:1912.00789, 1–12, 2020. 48) D. P. Kingma and M. Welling:

Auto-encoding variational bayes. arXiv: 1312.6114, 1–14, 2013. https://arxiv.org/abs/1312.6114 49) I. Higgins, L. Matthey, A. pal, C. Burgess, X.

Glorot, M. Botvinick, S. Mohamed and A. Lerchner: β-VAE: Learning basic visual concepts with a constrained variational framework. ICLR 2017, 122, 2017.

50) I. Higgins: Unsupervised deep learning identifies semantic disentanglement in single inferotemporal neurons. arXiv: 2006.14304, 1–24, 2020.

(14)

Duve-naud: Isolating sources of disentanglement in VAEs. NeurIPS 2018, 118, 2018.

52) H. Kim and A. Mnih: Disentangling by factorising. 35th International Conference Machine Learning, ICML 2018, 6, 4153–4171, 2018.

53) E. Mathieu, T. Rainforeth, N. Siddharth and Y. W. Teh: Disentangling disentanglement in variational autoencoders. Proceedings 36th International Conference Machine Learning, 4402–4412, 2019.

54) K. Kar, J. Kubilius, K. Schmidt, E. B. Issa and

J. J. DiCarlo: Evidence that recurrent circuits are critical to the ventral stream’s execution of core object recognition behavior. Nature Neuroscience, 22, 974–983, 2019.

55) C. M. Schwiedrzik and W. A. Freiwald: High-level prediction signals in a low-High-level area of the macaque face-processing hierarchy. Neuron, 96, 8997, 2017.

56) P. Bao, L. She, M. McGill and D. Y. Tsao: A map of object space in primate inferotemporal cortex. Nature, 583, 103–108, 2020.

参照

関連したドキュメント

文献資料リポジトリとの連携および横断検索の 実現である.複数の機関に分散している多様な

3月6日, 認知科学研究グループが主催す るシンポジウム「今こそ基礎心理学:視覚 を中心とした情報処理研究の最前線」を 開催しました。同志社大学の竹島康博助 教,

活用のエキスパート教員による学力向上を意 図した授業設計・学習環境設計,日本教育工

(質問者 1) 同じく視覚の問題ですけど我々は脳の約 3 分の 1

一五七サイバー犯罪に対する捜査手法について(三・完)(鈴木) 成立したFISA(外国諜報監視法)は外国諜報情報の監視等を規律する。See

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例

また、視覚障害の定義は世界的に良い方の眼の矯正視力が基準となる。 WHO の定義では 矯正視力の 0.05 未満を「失明」 、 0.05 以上

視覚障がいの総数は 2007 年に 164 万人、高齢化社会を反映して 2030 年には 200