はじめに（pdf）

全文

(1)はじめに. 情報論的学習理論とは学習とは，大量データから，これを生成するメカニズムに関する知識を獲得する営みである．もともと生物に備わっている特質であるが，この本質を抽象化し，計算機などの人工物に適用させる試みが行われている．これが機械学習

(2) とよばれるものである．. 機械学習を実現するためには，学習の本質を普遍的な形で抽象化し，理論化しなければならない．その際，. 学習基準の定義：学習とは何か？どう形式的に定義できるのか？学習が成功するとはどういうことか？何を評価基準にするのか？. 学習アルゴリズムの設計と解析：学習を成功させるアルゴリズムはどのように設計すればよいのか？そして実際にアルゴリズムを設計した場合，それらはどのような限界があるのか？を考えることが重要になってくる．そういった問題を議論する理論的枠組みのことを学習理論

(3) と呼んでいる．学習理論には様々なアプローチがある．統計的アプローチ，計算理論的アプローチ，統計物理的アプローチ，情報理論的アプローチ，. .

(4).

(5)

(6) からのアプローチ，生物学的アプローチ等などである．それらは学習のどういった側面に主に焦点をあてるかによって異なる．例えば，.

(7) . はじめに. 知識表現の側面：どこまで豊かな知識の表現を獲得できるか？情報論的側面：どこまでデータから情報量を獲得できるか？計算論的側面：どこまで効率的に知識を獲得できるか？といった側面が考えられる．例えば，アプローチでは，知識表現の側面に重きをおきつつ，情報論的側面と計算論的側面を考慮しながら「学習」にアプローチしている．本書では，「情報論的側面」を中心に据えながら他の側面を考慮するといった視点で「学習」へアプローチする．このような立場をとる学習の理論を情報論的学習理論とここでは呼ぶことにする．特に，本書では，情報論的学習理論の中でも，情報理論におけるデータ圧縮の立場から，「学習とはできるだけデータを圧縮できるような構造を見つけ出すことである」という指針の下で統一的に学習アルゴリズムを設計し，解析することを試みる．このような考え方は，古くはオッカムの剃刀

(8) ，この年来は記述長最小原理

(9). と呼ばれている．データ及び，それを映し出す知識構造をもひっくるめてデータ圧縮して得られる符号列の長さを確率的コンプレキシティ

(10) と呼ぶ．本書は，「確率的コンプレキシティ」こそが学習によって獲得すべき本質を捉えた量であり，学習過程は確率的コンプレキシティを最小化するプロセスとして実現できることを主張する．つまり，確率的コンプレキシティは記述長最小原理の目的関数である．それは学習の状況や場面によって，異なる形式で定義できる．例えば，以下のような場面の学習問題を考える．一括学習：データが一括与えられたもとで知識表現をつ学習する．逐次的学習（予測）：. つずつデータを取り込みながら逐次的に学習していく．. 一般の歪み測度に関する学習：データ圧縮の歪み測度として，いろいろな損失関数を用いて，目的に応じて自由に測りたい状況で学習する．分散協調学習：分散した複数のデータ源からの情報を統合して学習する．.

(11) 情報論的学習理論とは. . 動的非定常な学習：データの発生源の性質が非定常な場合に学習する．いずれも確率的コンプレキシティを中心に置くことにより，最適な学習戦略が統一的に得られるのだ，ということを本書は主張する．つまり，個々の問題に応じた形で確率的コンプレキシティを最小化する過程として，情報論的に最適な学習アルゴリズムを導出することができる．ただし，「記述長最小原理」はあくまで原理であって，その原理がもたらした戦略の良し悪しは，メタな学習基準によって評価されなければならない．本書でも各学習の場面ごとに客観的な基準を採用しながら，その理論的妥当性を立証することを試みた．確率的コンプレキシティを中心に据えた学習理論は，狭義の情報論的学習理論といってよいだろう．しかし，その適用範囲は広く，そして深い．本書では，「情報論的学習理論」という言葉を，この狭義の意味で用いることにする．この狭義に限らず，学習の情報論的側面を通じて，統計学，統計物理学，情報理論，生物学といった基礎分野から，データマイニング，画像処理，言語処理，バイオ，などの応用分野が，共通性の高い問題を扱っている．日本では「情報論的学習理論.

(12)

(13)

(14) ワークショッ. プ」（略して）と呼ばれる，学習を通じた異文化交流のための学際的研究. 会が年に生まれ，年々発展してきている．また，年度からは電子情報通信学会第一種研究会として「情報論的学習理論と機械学習研究会」（略し. て研究会）が発足し，日本最大の機械学習コミュニティとして発展し. ている．本書はそういった情報論的学習理論に対するつの見方を提供するものとして読んでもらいたい．. 機械学習並びに学習理論は年代後半から世界的に発展してきている．今や様々な方法論が存在し，混沌としている．研究者はそれらをばらばらに吸収しているのが実情であろう．本書が説く情報論的学習理論は，機械学習を確率的コンプレキシティの概念を軸にして統一的に体系づける枠組みである．そのようなメタな視点から，機械学習の様々な手法を整理し，俯瞰することは機械学習及びその応用研究にとって強い基盤となるであろう．本書の目的は，機械学習を貫くつの視点を読者に提示することにある．.

(15) . はじめに. はじめに. 第1章符号化と学習. 第2章. 基本問題. 一括学習とモデル選択. 第4章拡張型確率的コンプレキシティと学習. 様々な学習問題. 第6章アンサンブル学習. 第3章逐次符号化と逐次的予測. 第5章学習と最適化アルゴリズム第7章動的モデル選択. 第8章完全なるMDL原理に向けて第9章おわりにー情報論的学習理論の今後. 図½. 本書の構成. 本書の構成について本書の構成は以下の通りである（図）．. まず，「はじめに」で本書で扱う情報論的学習理論の範囲を示した後，第 . 章では，情報理論の基本的な考え方である「符号化」と「学習」がどのように関連しているかを示す．ここで，本書の中心的概念である確率的コンプレキシティを導入する．第章と第章では，それぞれ，機械学習の基本問題のつである一括学習. と逐次予測の問題を符号化を通じて捉える．特に，第章では一括学習を記述.

(16) 謝辞. 長最小原理（. . 原理）に基づくモデル選択の問題として扱う考え方を示す．. 第章では逐次的予測を逐次符号化の設計問題として扱う考え方を示す．. 第 ! 章から第 " 章までは，様々な学習問題に対して第，，章の考え方を. 発展させた立場から，学習アルゴリズムの設計と解析の理論を示す．特に，第. ! 章では一般の損失関数や仮説空間を対象にした統計的決定理論の枠組みの中で第，章の理論をいかに拡張できるかを示す．第 # 章では，学習の局面で登場する基本的な最適化問題を取り上げ，標準的手法を概括する．第 $ 章では，いくつかの仮説を組み合わせてより良い学習結果を生み出すためのアンサンブル学習の手法を紹介する．第 " 章では，非定常情報源に対して，モデルが時間とともに変化する場合の動的なモデル選択の手法を紹介する．第章では確率的コンプレキシティや . 原理に関する理論の最終版とも. いえる最新の発展形と確率的コンプレキシティの効率的計算方法についてダイジェスト的に紹介する．第章では，本書に登場してきた概念を模式的にまとめ，情報論的学習理論が今後発展する方向性について述べる．. 謝辞理化学研究所の甘利俊一先生には，筆者が学習理論の研究を始める時から直接ご指導賜り，情報論的学習理論の構築に大きな影響を与えて頂いた．また，本書を執筆するにあたり，% &

(17) ' (

(18) ) 兼 *+

(19)

(20) % &

(21) ' . *

(22) , ' の -. / 0

(23) の存在は大きい．0

(24) 氏は原理の創始者であり，筆者は，この年来，氏との幾度もコミュニケーションを重ねた中から原理の哲学を学び，多大な影響を受けてきた．原理の根本的な思想から技術的な詳細まで 0

(25) 氏と交わした議論のつつが本書の執筆の動機になっている．また，% &

(26) ' (

(27) ) の -. -

(28) '. '1)，*

(29)

(30) 0 氏，-

(31) 2 )

(32) 氏及び 3

(33) & 4)

(34)

(35) の -

(36)

(37) 51 6 氏とは原理を巡る最新の情報を交換し合い，多くの議論をして頂いた．彼らとの対話が本書を執筆する上で貴重な情報源となっている．九州大学大学院システム情報科学研究院の竹内純一教授.

(38) . はじめに. には，筆者が本稿に含めた研究成果を生み出す中で多くの議論をして頂いた．東京大学大学院情報理工学研究科数理情報学専攻の早矢仕裕氏，平井聡氏，櫻井瑛一氏，冨岡亮太氏からは本書のドラフトに関して貴重なコメントを頂いた．日本電気株式会社中央研究所では本書の草稿をもとに連続講義をさせて頂き，聴講された皆様からは多数のコメントを頂いた．以上の方々に深謝いたします．.

(39)