• 検索結果がありません。

博 士 ( 工 学 ) 内 田 真 人

N/A
N/A
Protected

Academic year: 2021

シェア "博 士 ( 工 学 ) 内 田 真 人"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 内 田 真 人

     学 位 論 文 題 名

Information‑Based Modeling of Data Learning Algorithms      ( デ ー 夕 学 習 ア ル ゴ リ ズ ム の 情 報 論 的 モ デ ル 化 )

学 位 論 文 内 容 の 要 旨

  近年,情報工学の分野において,様々なデー夕(情報)を処理するための道具立てとして学習理論が 注目を集めており,計算機技術の進歩に伴い,その有用性はデータを扱う様々な分野に渡って広く認知 されている.また,神経回路網の数理モデルに端を発する学習理論の研究は,昨今では,確率・統計・

情報理論・統計物理などにおける解析手法を取り入れながら,情報に関する理論的研究分野として急速 に発展している,しかしながら,これまで行われてきた学習理論の研究の多くは,個別の学習アルゴリ ズムに特化した解析に留まっており,それらの根底にある共通の数理的枠組に着目した体系的な研究は それほど多くなかった.

  そこで本研究では,情報論的モデル化という一貫した立場から様々な学習アルゴリズムの解析を行う,

この 立場は ,学習機 械を規定 するた めの確率 分布( 確率モデル),及びその確率分布を比較するた めの 尺度( 分布間情 報量)の 設定が ,情報論 的観点 から学習アルゴリズムを構成する際の基本要件 であ るとい う考え方 に根ざし ている .すなわ ち,本 研究の目的は,確率分布と分布間情報量を軸と するという立場が,様々な学習アルゴリズムの特性やそれらの関係の明確化,或いは,実用上の制約条 件 や 目的 に 応 じた学 習アルゴ リズムの 設計を 行う上で 有用で あるとい うこと を示すも のである .   本論 文は,6つの章から構成される.第1章では,自乗誤差関数を損失関数とする入出力学習機械の 学習アルゴリズム(自乗誤差最小学習)を議論の出発点とし,本研究の動機付けについて述べた.これ は,入カに対する出カの条件付確率分布を分散が定数の正規分布として与え,確率分布を比較するため の情報量基準としてカルパック―ダイバージェンスを与えることが,自乗誤差最小学習と等価な学習ア ルゴリズムを導くことに着目したものである.本研究では,この特徴を発展させることによって,様々 な学習アルゴリズムの解析を行った,

  第2章では,正則化項と類似した付加項を持つ学習アルゴリズムの情報論的モデル化を行った.この モデル化は,入カに対する出カの条件付確率分布として分散が関数(学習機械が持っパラメータを用い て定義される正値関数)の正規分布を用い,確率分布を比較するための情報量基準としてカルバック―

ダイバージェンスを用いるものであり,自乗誤差最小学習の一種の拡張となっている.本章では,この よう にして導入された学習アルゴリズムの付加項が確率分布の分散と関連していることを明らかにし た.また,このことに着目し,付加項付き学習アルゴリズムがある種の口バスト性,すなわち,データ に含まれる特殊なノイズを除去する性質を持つことを明らかにした.

  第3章では,アンサンブル学習の情報論的モデル化を行った.良く知られたアンサンブル学習には,

自乗誤差関数を損失関数とし,複数の学習機械の重み付け平均を新たな学習機械とするものがある,本 章では,このアンサンブル学習を特別な場合として含む一般化を行しゝ,そのアルゴリズム構造を特徴付 ける以下の知見を得た.

    ・  アンサンブル学習のアルゴリズムは,カルバックーダイバージェンスに関する三段階の最小     ―107―

(2)

    化操 作に帰着できる.

    ・ ア ン サ ン ブ ル 学 習 機 械 に 対 応 す る 確 率 分 布 は , そ れ を 構 成 す る 個 々 の 学 習 機 械 に 対 応 す る 確     率分 布の指数型混合分布族とし て与えられる.

    さ ら に , こ の 結 果 を 利 用 す る こ と で ア ン サ ン ブ ル 学 習 の 有 効 性 に 関 す る 以 下 の 知 見 を 得 た .     ・ 学 習 サ ン プ ル を 分 割 し て ア ン サ ン ブ ル 学 習 機 械 を 構 成 す る 個 々 の 学 習 機 械 の 学 習 を 行 う よ り     も , 学 習 サ ン プ ル を 分 割 せ ず に 単 一 の 学 習 機 械 の 学 習 を 行 う 方 が 効 果 的 で あ る . た だ し , 学     習 サ ン プ ル を 分 割 せ ず に そ れ ぞ れ 異 な る 方 法 で 個 々 の 学 習 機 械 の 学 習 を 行 う 場 合 , ア ン サ ン     ブ ル 学 習 は 効 果 的 で あ る . ま た , 学 習 済 み の 複 数 の 学 習 機 械 が 与 え ら れ て い る 場 合 , ア ン サ     ンブ ル学習は効果的である.

    . 性 能 の 低 い 学 習 機 械 を 用 い て ア ン サ ン ブ ル 学 習 機 械 を 構 成 し た 場 合 , そ の 重 み は 負 の 値 を 取     る, また,この逆も成り立っ.

一 方, カル ノ ヾッ クー ダイ パ ージ ェン スに 関す る 三段 階の 最小 化操作によるアンサンブ ル学習の特徴付け は ,a− ダ イ パ ー ジ ェ ン ス を 用 い た 場合 にも 自然 に 拡張 でき るこ とを 明 らか にし た. 例 えば ,双 対カ ル バ ッ ク ― ダ イ バ ー ジ ェ ン ス を 用 い た ア ン サ ン ブ ル 学 習 に お ける 確率 分 布は 線型 混合 分 布族 に対 応す る ことが分 かった.

  第2,3章 で は , 主 に , 確 率 分 布 の 設 定 方 法 に 着 目 し , 分 布間 情報 量 とし てカ ルバ ッ クー ダイ バー ジ エ ン ス を 用い る 学習 アル ゴリ ズ ムの 特徴 付け を行 っ た. カル バッ クー ダ イパ ージ ェン ス 以外 の分 布間 情 報 量 に は ,d― ダ イ パ ー ジ ェ ン ス や そ の 一 般 化 で あ るf― ダ イパ ージ ェ ンス が知 られ て いる .し かし . こ れ ら の 分布 間 情報 量を 用い た 場合 ,カ ルバ ック ー ダイ バー ジェ ンス を 用い た場 合と は 異な り, 実装 が 容 易 な 学 習ア ル ゴリ ズム を構 築 する こと が困 難で あ ると いう 問題 点が あ る, すな わち , 学習 サン プル の 単 純 な 代 入 操 作 に よ る 学 習 ア ル ゴ リ ズ ム の 構 築 が 困 難 と な る. こう し た背 景を 受け , 第4章 では ,f− ダ イ パ ー ジェ ン スの 不定 性と 呼 ばれ る特 徴を 用い る こと で, 正値 有限 測 度へ の適 用を 背 景と した 新し い 分 布 間 情 報量 の クラ スを 導い た ,こ れは ,こ れま で 良く 用い られ てき た 分布 聞情 報量 と は異 なる クラ ス の 情 報 量 であ る が, 学習 アル ゴ リズ ムの 構築 や実 装 を容 易に する 情報 量 や, アン サン ブ ル学 習を 陽に 定 式 化 し て 解析 す るの に適 した 情 報量 を含 むこ とを 明 らか にす るこ とで , 適用 対象 に応 じ て分 布間 情報 量 を 拡 張 す るこ と の有 効性 の一 端 を示 すこ とが でき た .例 えば ,本 章で 導 入さ れる 分布 間 情報 量の ーつ で あ る( ア,1+ ア) − ダイ バー ジェ ンス は,学習サンプルの 単純な代入操作に基づく簡便 な学習アルゴリズ ムの構成 を可能にするという特徴を 持つことを示した.また,(1,2)−ダイバージェンス((ア,1+ア)―

ダ イバ ージ ェ ンス のァ 1の場 合) を用 い たア ンサ ンブ ル 学習 の構 成が 可能 で あり ,こ のアンサンブル学 習 で 用 い ら れ る 確 率 モ デ ル は 双 対 カ ル バ ッ ク ー ダ イ バ ー ジ ェン スを 用 いて 構成 され る アン サン ブル 学 習 と 同 じ 線型 混 合型 分布 族で あ るこ とを 示し た. 双 対カ ルバ ック ーダ イ バー ジェ ンス を 用い て構 成さ れ る ア ン サ ン ブ ル 学 習 は , 学 習 サ ン プ ル の 単 純 な 代 入 操 作 に よる 学習 ア ルゴ リズ ムと は なら ない ため ,

(1,2) ―ダイバージェンスを用い る事でこの問題を回避するこ とができる.

  また ,第5章 では , 第4章 で 導入 され た( ア,1+ ア) ― ダイ パー ジェ ンス を ,通 信ト ラヒックデータの 従 う 裾 野 分布 の 分析 ヘ応 用し た ,こ れは ,高 速の イ ンタ ーネ ッ卜 回線 に おい てり アル タ イム の分 析を 可 能 と す る もの で ある .本 章で は ,イ ンタ ーネ ッ卜 上 の異 なる ポイ ン卜 で 実測 され たデ ー タに 対し て, 上 記の分析 方法は高精度の結果を与え ることを確認した.

  第6章 は,本論文の結論である.

  本 研 究 によ る 成果 は, 確率 分 布と 情報 量基 準を 軸 とし た情 報論 的モ デ ル化 とい う枠 組 によ り, 様々 ぬ 学 習 ア ル ゴリ ズ ムの 特性 の解 明 や, 従来 では 得ら れ なか った 実用 的な 学 習ア ルゴ リズ ム の構 築に 利便 性 を与える ものである.

108

(3)

学位 論文審査の要旨

     学位論文題名

Information‑Based Modeling of Data Learning Algorithms      ( デ ー 夕 学 習 ア ルゴ リ ズ ムの 情 報 論 的モ デ ル 化)

  近年,情報工学の分野において,様々なデー夕(情報)を処理するための道具立てとして学習理論が 注目を集めており,その有用性は様々な分野に渡って広く認知されてきた,学習理論の研究は,昨今で は,確率・統計・情報理論・統計物理などにおける解析手法を取り入れながら,情報に関する理論的研 究分野として急速に発展している.しかし,これまでの学習理論の研究の多くは,個別の学習アルゴリ ズムに特化した解析に留まり,それらの根底にある共通の数理的枠組についての体系的な研究は多くは ない,

  この認識のもとで本研究は,情報論的モデル化という立場から様々な学習アルゴリズムの解析を行な っている.この基本は,学習を規定する確率分布(確率モデル),及びその分布を比較する尺度(分 布間情報 量)の 設定が, 情報論 的観点か ら学習 アルゴリズムを構成する際の基本要件になるという 考え方である.すなわち本研究では,確率分布と分布間情報量を軸として,様々な学習アルゴリズム の特性やそれらの関係の明確化,さらには実用上の制約や目的に応じた学習アルゴリズムの設計に有用 であることを示している.

  この主張に基づき本論文は,6つの章から構成される.第1章は,自乗誤差関数を損失関数とする入 出力学習機械の学習アルゴリズム(自乗誤差最小学習)を出発点として,入カに対する出カの条件付確 率分布を分散が定数の正規分布として与え,確率分布を比較するための情報量規準としてカルパックー ダイバージェンス(KLD)を与えることが,自乗誤差最小学習と等価な学習アルゴリズムを導くとした.

本論文では,この特徴を多様な方面に発展させ,様々な学習アルゴリズムの解析を行ない,新たな知見 を得ている,

  第2章では,正則化項と類似した付加項を持つ学習アルゴリズムの情報論的モデル化を行っている,

このモデル化は,入カに対する出カの条件付確率分布として分散が関数の正規分布を用い,確率分布を 比較するための情報量規準としてKLDを用い,自乗誤差最小学習の一種の拡張となっている.本章では,

このようにして導入された学習アルゴリズムの付加項が確率分布の分散と関連していることを明らか・

にした.また,付加項付き学習アルゴリズムがある種の口パスト性,すなわち,データのノイズを除去 する性質を持つことを明らかにした.

  第3章では,アンサンブル学習の情報論的モデル化を行っている,アンサンブル学習には,自乗誤差 関数を損失関数とし,複数の学習機械の重み付け平均を新たな学習機械とするものがある.本章では,

この ア ン サン ブ ル 学習 を 含 む 一般 化 を 行い , そ のア ル ゴリ ズムを 特徴付け る知見を 得てい る.

109

司 東

隆  

  充

森 内

大 大

授 授

教 教

査 査

主 副

(4)

    ・  アン サン ブル 学習 のア ルゴ リズ ム は,KLDに関 する 三段 階の 最 小化操作に帰着できる.

    ・  アンサンプル学習機械の確率分布は,個々の学習機械の確率分布の指数型混合分布族として     与えられる.

一方,KLDに関する三 段階の最小化操作によるアンサンブル学習の特徴付けは,0−ダイパージェンス を用しゝた場合にも自然に拡張でき,例えば双対KLDを用しゝたアンサンブル学習の確率分布は線型混合分 布族に対応することを明らかにした.

  KLD以外の分布間情 報量であるf一ダイバージェンスは,実装が容易な学習アルゴリズムを構築する ことが困難であるという問題がある.そこで第4章では,f−ダイバージェンスの不定性を用い,正値 有限測度への適用を背景とした新しい分布間情報量のクラスを導いた,これは,学習アルゴルズムの構 築や実装を容易にする情報量や,アンサンブル学習を陽に定式化して解析するのに適した情報量を含む ことを明らかにし,適用対象に応じて分布間情報量を拡張することの有効性を示した.例えば,(1,2)

−ダイバージェンスを用いたアンサンブル学習が構成可能であり,この学習の確率モデルは双対KLDを 用いたアンサンブル学習と同じ線型混合型分布族であることを示した.

  第5章では,第4章で導入された(ア,1+ア)一ダイバージェンスを,通信トラヒックデータの従う裾 野分布の分析アルゴリズムの合成へ応用した.これは,高速インターネット回線のりアルタイム分析を 可能とし,インターネット上の実測データに対して,上記の方法による分布推定モデルは高精度の結果 を与えることを確認した.

  第6章は,本論文の結諭である.確率分布と情報量規準を軸とした情報論的モデル化という枠組によ り,様々な学習アルゴリズムの特性の解明や,従来では得られなかった実用的な学習アルゴリズムの構 築に利便性を与えるとしている.

  これを要するに本論文は、デー夕学習のアルゴルズム群に対して統一的な視点を提供し,問題に応じ た学習アルゴリズムを設計する方式についての知見を得たものであり、学習の理論の構築に対して貢献 するところが大である。よって著者は,北海道大学博士(工学)の学位を授与される資格あるものと認 める。

110

参照

関連したドキュメント

   第5

  

コ ラ― ゲン の 熱変 性温 度 はク 口ム 鞣 製に よっ て 顕著 に上昇し た。 同―ク□ム含量の 場合、硫酸ク口ムや

安田教授からは、in vivo におけるbFGF‑Chitosan の分解とbFGF の徐放される機序と熱 によってbFGF が失活しなかった機序について、さらには

第 3 章 で 取り 上げ た AR ラテ イス フイ ル タの 実現 手法 を, ARMA 型の フイ ルタ に適 用す る場合の問題 を指摘し,これを解決することにより,CORDIC

[r]

バリ ヤを 高配 向膜 とすることで、W/Si 界面での シリサイド反応をも均一化 することが可能となり、高温 領域 (690 ℃) まで 、 Cu の 拡散 を効 果的 に 抑制 でき るこ と を実 証し た。

   この酵素の種々な糖に対する反応速度定数を決定した。ショ糖からの1 .ケストー ス 精 製の Km と Vm は そ れぞ れ 0.82M と 1.71flmole/min/ml で、 1‑