• 検索結果がありません。

学習について

N/A
N/A
Protected

Academic year: 2021

シェア "学習について"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

学習について

浅川伸一 <[email protected]>

ニューラルネットワークモデルでは、シナプスの結合係数を変更すること をニューラルネットワークの学習と呼ぶ。学習時における結合係数の変化を 記述したルールを学習則 (learning rule) という。ここでは 2 つのニューラル ネットワークの学習規則を紹介する。これら 2 つ学習規則はいずれも歴史的 な価値があり、かつ、現在でもその応用が研究されていたり、そのまま形式で 用いられたりする基本的な学習則である。それから厳密にはニューラルネッ トワークの学習則ではないが、ニューラルネットワークとの関連で言及され たり、ニューラルネットワークとの組み合わせて用いられる、強化学習と遺 伝的アルゴリズムについて紹介する。

1

ヘッブ則

Hebb の原文では以下のような記述である。

When an axon of cell A is near enough to excite cell B and repeatedly or consistently takes part in firing it, some growth process or metabolic changes takes place in one or both cells such that A’s efficiency, as one of the cell B, is increased.

—Hebb,D.O.,(1949), The Organization of Behavior— 「同時に発火したニューロン間のシナプス結合は強められる」ことを主張して いるのがヘッブ則 (Hebbian rule) である [1]。ヘッブの学習則とも表記され るヘッブ則は以下のように定式化できる。 ニューロンの発火状態を 1、休止 状態を 0 と表現することにし、ニューロン yi から ニューロン xj へのシナ プス結合係数を wij とする。このときヘッブの学習則は、シナプス結合係数 の変化 ∆wij として表現され、 ∆wij = λxjyi, (1) と書くことができる。ここで λ(≥ 0) を学習定数という。xj と yi は 1 と 0 の 2 とおりの状態にしかならないため、可能な組み合わせは 4 通りになる。 このうち ∆wij6= 0 となる組み合わせは、(xj = 1) かつ (yi= 1) の場合だけ である。

(2)

y

i

w

i

j

x

i

図 1: ヘッブの学習則 xj 1 0 yi 1 λ 0 0 0 0 表 1: ヘッブの学習則 y が 1または 0の値しか取らないことに注意すれば、(1) は ∆w = ( λx if y is fire, 0 otherwise, (2) と書くことができる。すわなち結合係数は、入力ニューロンと出力ニューロ ンの同時発火頻度に比例して、入力ニューロン xλ倍だけ増大すること を意味する。ある時刻tで、入力xyを発火させたとき、次回t + 1に同 じ入力が与えられるとより強く発火させる効果を持つようになると考えるこ ともできる。逆に言えば同じ刺激を入力し続けると|w|が限りなく大きな値 になってしまうことも意味している。このようにヘッブ則には、学習回数を 重ねても一定の値に収束しないという特徴を持っている。 ヘッブ則の変形はさまざまに考えられていて、例えば同時に発火しなかっ た時にシナプス結合を弱めるアンチヘッブ則、減衰項を加える方法、入力と 出力の差(の2乗)を利用する方法、などが考案されている。ヘッブ則の変形 (の一部)は、自己組織化の章でもう一度取り上げる。

2

デルタ則

デルタ則は LMS則、あるいは Widrow–Hoffの学習則などと呼ばれるこ ともある。 デルタ則の説明のために、n個の入力層ユニットと1個の出力ユニットy からなる単純な2層のネットワークを考える。出力ユニット yの活動は、入 力ユニットからの信号xi(i = 1 . . . n)の重みつき荷重和 P wixi で定まると する。教師信号をy∗ とすれば、デルタ則は、教師信号yと実際の出力y

(3)

差 (デルタ) に入力信号 x を掛けた形 wt+1= wt+ η δtxt= wt+ η (y∗t− yt) xt, (3) で表現される。ここで η は学習係数と呼ばれる定数である。 デルタ則とは δ2を最小にする規準を導入した学習則である。すなわち、入 力信号と教師信号とが与えられたとき f (w) = lim n→∞ 1 n X i=1 δ2= lim n→∞ 1 n X i=1 (y∗ i − yi)2 (4) という関数の極限を考え、この関数 f (w) を最小化することを考える。(4) は w の 2 次関数とみなすことができるので、f ≥ 0 であり、f = 0 とな るのは、すべての y∗i に対して y∗i − yi = 0 のとき、すなわち完全に学習 が成立したときだけである。そこで、任意の初期値 w0 から出発して漸化式 wt+1= wt+∆wtに従って逐次結合係数を更新して行くことを考える。f (w) は入力データと結合係数 w とで決まるので、w を微小に変化させたとき (微 分係数) の f (w) 変化量の逆方向 ( f を w で微分しマイナスをかける) に逐 次 w を変化させていくことで極小解に達する (図 2) ことが予想できる。これ は、勾配降下法と呼ばれる最適化問題の解法の一つである。 より厳密に (3) 式が f (w) の最小値に確率収束することを証明することが できる。δ は確率変数であると考えれば、E£δすなわち誤差の 2 乗の期待 値を最小にするような w を求める問題となります。実際 f (w) を w で微分 すると d dwf (w) = d dwn→∞lim 1 n X i=1 δi2 = lim n→∞ 1 n d dw X i=1 (y∗ i − yi)2 = lim n→∞ 1 n X i=1 2 (y∗ i − yi) d dw(−y) = lim n→∞ 1 n X i=1 2 (y∗ i − yi) (−x) = lim n→∞ 1 n X i=1 2δi(−x) = −2E [δx] となってこの関係を用いれば、漸化式 wt+1= wt+ δtxt= wt+ (yt∗− yt) xt (5) が w の最小値に確率収束する。ところで y = w0x であるから、この関係を (4) に代入すれば最小二乗法の導出と同じ論旨の展開の仕方である。

(4)

               図 2: 最急降下法 (例えば伊理 (1981)) は接線の傾きと反対方向に向かって進 めば極小点に達するというアイデアに基づいている。図にあるとおり接線の 傾きが正であれば負の方向に、反対に接線の傾きが負であれば正の方向に少 しだけ進めば極小点に近付くことができる。この操作を繰り返せばやがて極 小点に達することができる。移動量は学習係数に比例する。学習係数が小さ いと極小点に達するまでに時間がかかるが、学習係数が大きいと極小点を飛 び越してしまい収束しない。統計的最適化理論、数値計算などの分野との関 連から、2 次の微分係数の逆数を利用して移動量を決定する方法も提案され ている デルタ則の欠点は 2 層の結合係数しか扱えないことである。デルタ則を多 層の回路での学習に適用できるようにしたものが一般化デルタルール、ある いは、バックプロパゲーション法とよばれる学習則である。

3

強化学習

ニューラルネットワーク研究あるいは機械学習の分野で長いこと手が付け られずに残っていた重要な考え方がある。それは「生体が何かを欲求し、環 境から来るある特定の信号を最大化させるように、自らの行動を適合させる」 という、いわば当たり前の考え方、しかし生物の進化や適応にとって重要な メカニズムである。 この考え方は近年「強化学習 reinforcement learning 」という名で注目を 集めるようになって来ている [2]。心理学の世界では「道具的条件づけ instru-mental conditioning」と呼ばれる学習理論の一般化、あるいはニューラルネッ トワーク的実装と言える側面も持っているが、強化学習の枠組みは、行動主 義心理学者たちの考える道具的条件付けよりも広くて一般的な意味で用いら

(5)

れる。 例えば、幼児は感覚系 (眼や耳や皮膚) と運動系 (声や手足) との連係を用い て環境 (母親や自分の身の回りのもの) に直接的に働きかける。この連係を用 いることで原因と結果の推論や、目標を達成するために何をすべきかについ て多くの情報を取りだすことができる。このような環境との相互作用が我々 自身に関する主要な知識源であると言える。

3.1

強化学習の特徴

強化学習の特徴を挙げると、試行錯誤的な探索 trail–and–error search と 遅延報酬 delayed reward の 2 点になる。行動は直接的な報酬のみならず、そ の次の情况に影響を与え、そのことを通じて、その後に続く全ての報酬に影 響を与える。ニューラルネットワークにおける教師あり学習は外界から与え られる教師信号によって自らの行動を適応させていく、例からの学習である。 例からの学習も重要な要素の1つであるが、相互作用を介した学習では未知 の問題領域で学習者自らが経験から学ぶ必要がある。 教師あり学習では、与えられた入力に対して最初はランダムな結合係数に よって答えを出し、その答えを教師信号の示す方向に変化させていく。この 意味では結合係数によって定義される空間の探索を行なっていると見なすこ とができる。一方、強化学習では自身の取りうる行動のレパートリーの中か ら最適な行動を探索していると見なすことができる。 強化学習には、他の手法と異なる抽象的な概念 —ポリシー、プランニング、 価値関数、報酬関数、環境のモデルなど— を直接取り扱う。 ポリシーはある時点での学習者の振舞い方を定義する確率として扱われる。 報酬関数は目標を定義する。強化学習者 (エージェント) の目的は最終的に受 け取る総報酬を最大化することである。価値関数は最終的に何がよいのかを 指定する。ある状態の価値とは、エージェントがその状態を起点として将来 にわたって蓄積することを期待する報酬の総量である。人間にたとえれば報 酬は喜びや苦痛のようなものであるが、価値は我々の環境が特定の状態にあ るとき、どれだけ満足あるいは不満であるかに関して、もっと洗練された長 期的観点からの判断に相当する。すなわちエージェントはもっとも高い報酬 ではなくもっとも高い価値 (しばしば総報酬量の関数として定義される) を持 つ状態につながるような行動を見つけ出そうとするわけである。 強化学習が他のタイプの学習ともっとも異なる特徴は正しい行動を直接与 えて教示するのではなく、実行した行動の評価を訓練情報として利用するこ とである。従って、よい行動を直接探索するために試行錯誤による能動的な 探索が必要になる。行なった行動がどれくらい良いのかが知らされ、それが 可能な行動の中で最良または最悪であるかについては知らされない。 それぞれの行動に対して、その行動が選ばれた場合の報酬の期待値が定まっ

(6)

        S  a TD  ていて、この値を価値と呼ぶ。強化学習では価値が確実に知られているわけ ではないと仮定する。その場合でも価値の推定値を持つことができる。行動 の価値の推定値を常に持っていれば、どの時点でも、価値の推定値を最大と するような行動が少なくとも 1 つ見つかることになる。価値の推定値を最大 とするような行動を選択することをグリーディ greedy な行動と呼ぶ。グリー ディでない行動は探索を行なっていると言う。なぜならグリーディでない行 動を選択すれば、その価値の推定値を改良できる可能性があるからである。 探索はより大きい総報酬を最終的に作りだす可能性を持っている。たまに小 さい確率 ² でグリーディな行動選択とは無関係に一様に任意の行動を選ぶよ うな方法を ² グリーディ法と言う。² グリーディ法ではすべての行動 a に対 して行動 a の価値の推定量 Qt(a) が真の推定量 Q∗(a) に収束することが保 証されている。² グリーディ法の欠点の1つは探索を行なう際にすべての行 動を等しく選択してしまうことである。つまりほとんど最悪と思われる行動 を選択する可能性とほとんど最適行動に近いような良い行動を選択する可能 性が同程度に高いことを意味する。これを解決するのがソフトマックス行動 基準 eQt(a)/τ Pn b=1eQt(b)/τ (6) である。ここで τ は温度と呼ばれ温度が高い程全ての行動がほぼ同程度に起 こることになる。τ → 0 の極限ではグリーディ行動選択と一致する。

3.2

目標と報酬

強化学習ではエージェントの目的あるいは目標は、環境からエージェント に送られる特殊な信号として形式化することができる。各時間ステップにお いて、報酬は単純に数値 rt∈ R である。非型式的には、エージェントの目 標は自分が受け取る報酬の総量を最大化することである。これは、直接的な 報酬を最大化することではなく、最終的な累積報酬を最大化することを意味 している。 目標に関する考え方を形式化するために報酬信号を用いることは、強化学

(7)

習の大きな特徴の1つである。例えばロボットに迷路から抜け出すことを学 習させる際には、脱出して報酬が 1 になるときまでは報酬を 0 にすることが よく行なわれる。迷路の学習においてよく行なわれることは、脱出する前の あらゆる時間ステップで-1 の報酬を与えることである。これによってロボッ トは出来る限り迅速に迷路を脱出するように仕向けられる。

3.3

時間差分学習 Temporal Difference Learning 法

強化学習の難しさの1つは、必ずしも動作の直後に強化信号が得られない というところにある。強化学習では数値化された報酬信号を最大にするため に、何をすべきかを (どのようにして情况に基づく動作選択を行なうか) を学 習する。通常のニューラルネットワークの学習方式のように学習者がどの行 動をとるべきかは教えられず、その代わり、どの行動をとればよりいっそう の報酬に結びつくかを見つけ出す必要がある。

時間差分学習 Temporal Difference Learning (TD) 法では時刻 t + 1 で目

標値を作り、観測した報酬 rt+1と価値の推定量 V (St+1) とを使って適切な 更新を行なう。もっとも単純な TD 法は TD(0) と呼ばれ以下のようになる。 V (St) ← V (St) + α [rt+1+ γV (St+1) − V (St)] (7) V (St) は時刻 t における状態 S の価値であり、rt+1とは時刻 t + 1 すなわち 次の時刻における報酬である。γ は割引率、α はステップサイズパラメータ と呼ばれる。0 ≤ γ ≤ 1 であり、γ が小さいと将来における価値の推定量が低 く見積もられることを示している。逆に γ が 1 に近いと遠い将来に得られる であろう報酬を考慮した評価になる。次の時刻における報酬と次の時刻にお ける価値の推定量が大きければ大きい程ステップサイズパラメータに比例し てその価値の推定量が大きくなる。いかなるポリシー π に対してもステップ サイズパラメータが十分小さい定数ならばポリシー π に従うときの価値 (期 待収益) Vπ に収束する TD アルゴリズムは次のようになる。 • V (S) すなわち状態 S における価値の推定量を初期化し、ポリシー π を評価対象のポリシーに初期化する • 各エピソード (試行) に対して繰り返し: – 状態 S を初期化する – 状態 S のとき行動 a (π で与えられる) を決める – 行動 a を取り、報酬 r と次の状態 S0 を観測する – V (S) ← V (S) + α [r + γV (S0) − V (S)] – S ← S0 • S が終端記号なら繰り返しを終了

(8)

4

遺伝的アルゴリズム

ニューラルネットワークではないが、より広く一般に最適化問題を解くア ルゴリズムとして遺伝的アルゴリズムが挙げられる。ニューラルネットワー クによる学習がある個体での神経細胞間の結合強度を学習するものであるの に対して、遺伝的アルゴリズムはそのような個体の集団を考えて、この集団 が突然変異と自然淘汰を通して進化する樣をシミュレートしようとする。す なわち個による学習ではなく遺伝子集団全体としての学習 (進化) を扱ってい ることになる。 遺伝的アルゴリズムとは名前が示すとおり生物の遺伝と進化を模倣するモ デルとして考えられた計算理論である。地球上に存在する生物は原核生物か ら人間まで、生体を構成する基本要素として DNA を持っている。DNA は 4 種類の塩基を持つ一次元配列で、その組み合わせによって遺伝子型と呼ば れる基本情報がコーディングされている。DNA にコーディングされた遺伝 情報をもとにアミノ酸が作られ、アミノ酸からタンパク質を経て、最終的に は多用な生物が形作られている。 遺伝子集団としての生物の進化を考えるとき、最初にある一定規模の生物 集団が存在する。各個体は集団の中で何らかの生存競争を行なう。生存競争 に勝ち残った個体は生き残り、次の世代に子孫を残す。生殖過程を経て新し い世代が生み出される。新しい世代は、親同士の遺伝子の組み合わせにより 新しい遺伝子を持つことになる。新しい遺伝子には新しい能力が備わり、再 び集団の中で生存競争を行なう。 生殖などの過程で、突然変異による変化が起こる。これにより、親の代の 遺伝子の組み合わせでは考えられなかった新しい能力を持つようになる。 遺伝的アルゴリズムの最大の特徴はソフトウェアで定義した遺伝子を人工 的に進化させることでシステム全体のパフォーマンスを向上させることであ る。遺伝的アルゴリズムは次のようなステップを踏む。 1. ある遺伝子型を定め、これに基づいて初期集団を生成する。 2. ある評価関数を定め、この評価関数によって各個体の適応度を評価する。 3. 選択:評価関数に従って次の世代に生き残れる個体を選択する。自然淘 汰に相当するプロセスである。 4. 交叉:評価値の高い個体を一定の比率で増加させる。このとき遺伝子集 団から交換可能な遺伝子対を選び、その部位を入れ換えた新たな遺伝 子を作りだす。 5. 突然変異:特定部位の遺伝子をある確率でランダムに入れ換えて突然変 異を起こさせる。 このうち、2 から 5 までを十分なパフォーマンスが得られるまでくり返す。

(9)

参考文献

[1] D.O. Hebb. The organization of behavior. In J.A. Anderson and E. Rose-feld, editors, Neurocomputing, chapter 4. MIT press, New York, 1949. [2] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning. MIT

参照

関連したドキュメント

マーカーによる遺伝子型の矛盾については、プライマーによる特定遺伝子型の選択によって説明す

 私は,2 ,3 ,5 ,1 ,4 の順で手をつけたいと思った。私には立体図形を脳内で描くことが難

• 問題が解決しない場合は、アンテナレベルを確認し てください(14

問題はとても簡単ですが、分からない 4人います。なお、呼び方は「~先生」.. 出席について =

5 タンク、タンクキ ップ、ワイパー ッド、 ーター ッド、スプレー ボトル、ボトルキ ップ 洗い する.

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

問題集については P28 をご参照ください。 (P28 以外は発行されておりませんので、ご了承く ださい。)

児童について一緒に考えることが解決への糸口 になるのではないか。④保護者への対応も難し