• 検索結果がありません。

後半

N/A
N/A
Protected

Academic year: 2021

シェア "後半"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)強化学習 強化学習とは 環境 報酬 エージェントの方策. 「ソフトコンピューティング」(後半). 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. 北海道大学 大学院情報科学研究科  山下 裕 2009 年後期. 強化学習. SVM. 2009 年後期 – 1 / 42. ソフトコンピューティング. 強化学習とは 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. 環境. 強化学習 (Reinforcement Learning) とは: あるエージェントが試行 錯誤を通じて未知の環境に適応する学習制御の枠組。機械学習の一種。 一般的な教師付き学習とは異なり、明示的な教師が存在せず、かわり に報酬というスカラーの情報を手がかりに学習する。つまり、報酬が 最も多く得られるような方策 (policy) を学習する。. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. State: st Reward: rt. Action: at. 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数. ここでは、環境 (Environment) は、有限状態数のマルコフ決定過程 (Markov decision process:MDP) であるとする。 つまり、離散的な時刻 t における環境の状態を st とし、環境への行動 を at とすると、次の時刻 t + 1 における状態 st+1 の確率密度が、. 予測問題と制御問題. a  Pss  = P r(st+1 = s | st = s, at = a). モンテカルロ法. のように、st と at によって決まるとする。 a Pss  は遷移確率 (Transition probabilities) と呼ばれる。. SVM. Environment (= Controlled object). ソフトコンピューティング. 強化学習. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. Agent (= Controller). SVM. 2009 年後期 – 2 / 42. ソフトコンピューティング. 2009 年後期 – 3 / 42. ソフトコンピューティング. 2009 年後期 – 4 / 42.

(2) 報酬 強化学習 強化学習とは. エージェントの方策. 即時報酬 (Reward):. また、環境からの (即時) 報酬の確率密度も、. 環境. 報酬. P r(rt+1 | st+1 = s , st = s, at = a). エージェントの方策 動的計画法 予測問題と制御問題. エージェントの方策 (Policy) とは、状態 st = s のとき、行動 at = a を 取る確率密度 π(s, a) を考える。. エージェントの方策 動的計画法 行動価値関数. のように与えられ、その期待値は、. ✔. 予測問題と制御問題 モンテカルロ法. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. 強化学習とは 環境. 報酬. 行動価値関数. 強化学習. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. Rass = E(rt+1 | st+1 = s , st = s, at = a) 時間 t 以降の累積報酬は、. SVM. SVM. Rt = rt+1 + γrt+2 + · · · + γ T rt+T +1 =. T . γ k rt+k+1. ✔. Rt の何らかの予測ができれば、それを最大化する行動 a を取るの が最適であり、それをグリーディな方策という。 一方確率  でランダムな行動を取り、それ以外はグリーディな方策 を取る場合は、-グリーディ方策という。. 方策 π を固定して考える。st = s のときの Rt の期待値を値関数 (Value function) という。 V π (s) = E{Rt | st = s}. k=0. で与えられる。ここで、0 < γ < 1 は割引率で遠い未来に得られる報 酬を割り引いて評価するためのものである。T は無限大のこともある。 a a これら、Pss  , Rss が未知のときに、より多くの累積報酬を得るように 学習する方法が強化学習である。 2009 年後期 – 5 / 42. ソフトコンピューティング. 動的計画法=Bellman 方程式 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題. SVM. 行動価値関数. a a Pss  , Rss が既知で、T = ∞ の場合、値関数は次の方程式を満たす。. 強化学習 強化学習とは. 行動価値関数:. 環境. π. V (s) = Eπ {Rt | st = s} = Eπ {rt+1 + γRt+1 | st = s}   a a  = π(s, a) Pss  [Rss + γEπ {Rt+1 | st+1 = s }] a. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. 2009 年後期 – 6 / 42. ソフトコンピューティング. =. . s. π(s, a). a. . . π(s, a). a. 行動価値関数 予測問題と制御問題. . SVM. a a π  Pss (s )]  [Rss + γV. T = ∞ のとき、 Qπ (s, a) = Eπ {rt+1 + γV π (st+1 ) | st = s, at = a} 行動価値関数を用いた Bellman 方程式:    a Pss Q∗ (s , a ) Q∗ (s, a) = Rass + γ max  . a. a. s. s. 最適な方策の下での Bellman 方程式:  a a ∗  Pss V ∗ (s) = max  [Rss + γV (s )]. ソフトコンピューティング. 動的計画法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. s. Qπ (s, a) = Eπ {Rt | st = s, at = a}. エージェントの方策. モンテカルロ法. a a π  Pss (s )]  [Rss + γV. Bellman 方程式: V π (s) =. 報酬. グリーディな行動: argmax Q∗ (st , a) a  値関数との関係: V π (s) = π(s, a)Qπ (s, a), V ∗ (s) = max Q∗ (s, a). s. a. 2009 年後期 – 7 / 42. ソフトコンピューティング. a. 2009 年後期 – 8 / 42.

(3) 予測問題と制御問題 強化学習 強化学習とは 環境 報酬. ここでは、2 つの問題を考える。 ✔. エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. モンテカルロ法. ✔. 強化学習 強化学習とは. 予測問題: 方策は固定する。値関数 V (s) を学習し、今後の累積報 酬の見込みを予測する。 制御問題: 行動価値関数 Q(s, a) を学習し、今後の累積報酬を最大 化するような行動に漸近する。. 適格度トレースなし 適格度トレースあり. 予測問題 TD(0) TD(λ). 制御問題 Q 学習, Sarsa, Actor-Critic Q(λ), Sarsa(λ), Actor-Critic(λ). SVM. 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. まず、予測問題を考える。つまり、π は固定。 V (s) を推定する問題であるので、その推定途中の V (s) を V (i) (s) と書 く。i は学習回数。 γ < 1 であるから、時刻 t から始めて十分長い試行後に、Rt が観測で きる。 V π (s) = Eπ {Rt | st = s} であるから、V i (s) を Rt に近づければよい。 モンテカルロ法 (Monte-Carlo method; MC 法):. SVM. V (i+1) (st ) = V (i) (st ) + α[Rt − V (i) (st )] ここで、0 < α < 1。 時刻 t における状態 st に関する学習は、即時にできず、十分長い試行 後に可能。(Rt が即時にわからないため。). 2009 年後期 – 9 / 42. ソフトコンピューティング. ソフトコンピューティング. TD(0) 学習 (1) 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数. TD(0) 学習 (2). モンテカルロ法の欠点 (=学習が即時にできない) を改良する。 st = s と st+1 = s と rt+1 = r がわかっているものとする。. 強化学習 強化学習とは. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. 報酬 エージェントの方策. Rt = rt+1 + γrt+2 + γ 2 rt+3 + · · · = rt+1 + γRt+1. 動的計画法 行動価値関数. SVM. 予測問題と制御問題. であるので、. モンテカルロ法. . TD(0) 学習のアルゴリズム:. 環境. 予測問題と制御問題 モンテカルロ法. 2009 年後期 – 10 / 42. . Eπ {Rt | st = s, st+1 = s , rt+1 = r} = r + γEπ {Rt+1 | st+1 = s } = r + γV π (s ) そこで、モンテカルロ法の Rt を rt+1 + γV (i) (st+1 ) に置き換える。. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. V (s) のテーブルを初期化 s を初期化 各ステップに対して繰り返し 方策 π により行動 a を得る 行動 a をとり、報酬 r と次の状態 s を観測 V (s) ← V (s) + α[r + γV (s ) − V (s)] s ← s 試行が終端するまで繰り返し. TD(0) 学習 (Temporal-Difference Learning): V (i+1) (st ) = V (i) (st ) + α[rt+1 + γV (i) (st+1 ) − V (i) (st )] rt+1 + γV (i) (st+1 ) − V (i) (st ) は TD 誤差とよばれる。 ソフトコンピューティング. 2009 年後期 – 11 / 42. ソフトコンピューティング. 2009 年後期 – 12 / 42.

(4) Sarsa (1) 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. Sarsa (2). 次に、制御問題について考える。制御問題においては値関数 V π (s) よ りも、行動価値関数 Qπ (s, a) を学習するほうが都合が良い。 もし、Qπ (st , at ) がわかっているならば、. 強化学習とは 報酬. π. Q (s, a) = E{rt + γV (st+1 ) | st = s, at = a}. 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. ✔. 2009 年後期 – 13 / 42. エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. ここでは、at+1 を 1 ステップ前に既に求めていることが前提。 一般の π に対して Qπ (s, a) を求めてもあまり意味は無いので、制 御を考えると、グリーディな方策を取って Q∗ を求めたい。しかし、 グリーディな方策では全ての s と a の組を学習できないので、ラン ダム性を取り入れ -グリーディ方策を用いればよい。そして、 は 学習回数に応じて徐々に減らしてゼロに近づければ、Q∗ を求めら れることが期待できる。 求めている Q は方策に依存するので、方策 on 型 TD 学習といわ れる。. 2009 年後期 – 14 / 42. ソフトコンピューティング. Q 学習 (1) 強化学習. Sarsa のアルゴリズム:. 強化学習とは. 環境 報酬. ✔ ✔. SVM. の代わりに、st+1 = s と rt+1 = r がわかっているとき. Sarsa (3). 強化学習とは. + αt [rt+1 + γQ(i) (st+1 , at+1 ) − Q(i) (st , at )]. 行動価値関数. E{rt+1 + γV π (st+1 ) | st = s, at = a, st+1 = s , rt+1 = r} = r + γV π (s ) = r + E{Qπ (st+1 , a ) | st+1 = s }. 強化学習. Q(i+1) (st , at ) = Q(i) (st , at ). 動的計画法. とすればよいが、実際は Qπ (st , at ) は不明。そこで次の関係を使う。. ソフトコンピューティング. Sarsa:. 環境 エージェントの方策. Q(i+1) (st , at ) = Q(i) (st , at ) + α[Qπ (st , at ) − Q(i) (st , at )]. π. 強化学習. 環境. Q(s, a) のテーブルを初期化 s を初期化 ある方策により行動 a を得る 各ステップに対して繰り返し 行動 a をとり、報酬 r と次の状態 s を観測 s に対し、ある方策 a を求める Q(s, a) ← Q(s, a) + αt [r + γQ(s , a ) − Q(s, a)] s ← s , a ← a 試行が終端するまで繰り返し. 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. 次に、最適な Q∗ を直接学習する方法を考えよう。 もし、Q∗ (st , at ) がわかっているならば、. Q(i+1) (st , at ) = Q(i) (st , at ) + α[Q∗ (st , at ) − Q(i) (st , at )] とすればよいが、実際は Q∗ (st , at ) は不明。そこで次の関係を使う。. Q∗ (s, a) = E{rt + γV ∗ (st+1 ) | st = s, at = a} であるが、st+1 = s と rt+1 = r がわかっているとき. E{rt+1 + γV ∗ (st+1 ) | st = s, at = a, st+1 = s , rt+1 = r} = r + γV ∗ (s ) = r + max Q∗ (s , a )  a. s と r は、ある「標本過程」のデータということになる。. ソフトコンピューティング. 2009 年後期 – 15 / 42. ソフトコンピューティング. 2009 年後期 – 16 / 42.

(5) Q 学習 (2). Q 学習 (3). 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法. 強化学習. Q 学習:. 強化学習とは. Q(i) (st+1 , a )−Q(i) (st , at )] Q(i+1) (st , at ) = Q(i) (st , at )+αt [rt+1 +γ max . 報酬. a. 行動価値関数. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. エージェントの方策 動的計画法 行動価値関数. 予測問題と制御問題. 予測問題と制御問題. モンテカルロ法. ✔ ✔. at を与えている実際の方策とは無関係に、最適な Q∗ (st , at ) を学 習できる。⇒ 方策 off 型 TD 学習 全ての s と a の組み合わせが十分な回数現れ、かつ ∞ . SVM. αt → ∞,. t=0. ✔. ∞ . αt2. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. <∞. 環境. と言う仮定のもとで、確率 1 で最適な Q∗ (st , at ) に収束。 at を与える方策としてはランダムでも理論的には収束するが、収束 を早めるために、-グリーディ方策や、ボルツマン分布を利用した ソフトマックス手法などが使用されている。. 2009 年後期 – 17 / 42. 動的計画法 行動価値関数. アクター・クリティック手法は様々なバリエーションがあるので、ここ で示すのはあくまで 1 つの方法である。 アクター: 方策をつかさどる部分 クリティック: 値関数の評価をする部分. 強化学習 強化学習とは 環境. 動的計画法 行動価値関数 予測問題と制御問題. Ǣǯǿȸ. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. ૾ሊ ǯȪȆǣȃǯ ͌᧙ૠ ‫إ‬ᣛ. 6&ᛚࠀ. ✔ ✔. TD 誤差が正: rt+1 が比較的大きい = at は選ばれるべき。 TD 誤差が負: rt+1 が比較的小さい = at を選ぶ確率を下げるべき。. アクター: ソフトマックス手法 (Gibbs 分布). ep(s,a) πt (s, a) = Pr{at | st = s} =  p(s,b) be. SVM. ᘍѣ. ཞ७. SVM. クリティック: TD 学習を採用 TD 誤差: δt = rt+1 + γV (st+1 ) − V (st ). エージェントの方策. 予測問題と制御問題 モンテカルロ法. 2009 年後期 – 18 / 42. ソフトコンピューティング. 報酬. ✔ ✔. a. アクター・クリティック手法 (2). 報酬 エージェントの方策. a. Q(s, a) ← Q(s, a) + αt [r + γ max Q(s , a ) − Q(s, a)] . s ← s 試行が終端するまで繰り返し. アクター・クリティック手法 (1). 強化学習とは. Q(s, a) のテーブルを初期化 s を初期化 各ステップに対して繰り返し ある方策により行動 a を得る 行動 a をとり、報酬 r と次の状態 s を観測 全ての a に対し Q(s , a ) のテーブルを検索。最大値 max Q(s , a ) を探す . SVM. t=0. ソフトコンピューティング. 強化学習. Q 学習のアルゴリズム:. 環境. 行動優先度: p(s, a). p(st , at ) ← p(st , at ) + βδt. ࿢‫ؾ‬. ソフトコンピューティング. 2009 年後期 – 19 / 42. ソフトコンピューティング. 2009 年後期 – 20 / 42.

(6) TD(λ) 法 (1) 強化学習 強化学習とは. TD(λ) 法 (2). 1 ステップの TD 法:. 強化学習 強化学習とは. 環境. Rt = rt+1 + γVt (st+1 ). エージェントの方策. 報酬. 予測問題と制御問題. 動的計画法. n ステップの TD 法:. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. V (i+1) (st ) = V (i) (st ) + α[Rtλ − V (i) (st )]. エージェントの方策. 動的計画法 行動価値関数. λ 収益アルゴリズム:. 環境. 報酬. [n] Rt. 行動価値関数 予測問題と制御問題. = rt+1 + γrt+2 + · · · + γ. n−1. rt+n + γ Vt (st+n ). ただし、モンテカルロ法と同じく事後学習となってしまう。 [n] st だけを固定すれば、E[Rt ] = E[Rt ]。. λ 収益 (λ return):. Rtλ = (1 − λ). ∞ . この方法を素直に考えれば事後学習となる。. モンテカルロ法. n. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM. [n]. λn−1 Rt. n=1. ✔ ✔. λ = 0 のとき、TD(0) λ = 1 のとき、(無限回試行後の) モンテカルロ法. st だけを固定すれば、E[Rt ] = E[Rtλ ] ソフトコンピューティング. 2009 年後期 – 21 / 42. ソフトコンピューティング. TD(λ) 法 (3) 強化学習 強化学習とは 環境 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. TD(λ) 法 (4). 適格度トレースを用いた TD(λ) 法:. 強化学習 強化学習とは. TD(λ) 学習のアルゴリズム (適格度トレースの表を用いた実装):. 環境. 適格度トレース (eligibility trace): 全ての s に対し、  γλet−1 (s) (s = st ) et (s) = γλet−1 (s) + 1 (s = st ). 報酬 エージェントの方策 動的計画法 行動価値関数 予測問題と制御問題 モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. st が “訪問” すれば 1 増加。それ以外は徐々に減衰。. SVM. SVM. ソフトコンピューティング. 2009 年後期 – 22 / 42. 2009 年後期 – 23 / 42. V (s) のテーブルを初期化 全ての s に対し適格度トレース e(s) をゼロに初期化 s を初期化 各ステップに対して繰り返し 方策 π により行動 a を得る 行動 a をとり、報酬 r と次の状態 s を観測 δt = r + γV (s ) − V (s) e(s) ← e(s) + 1 全ての σ に対して: V (σ) ← V (σ) + αδe(σ) e(σ) ← γλe(σ) s ← s 試行が終端するまで繰り返し. ソフトコンピューティング. 2009 年後期 – 24 / 42.

(7) TD(λ) 法 (5) 強化学習 強化学習とは. ✔. 環境 報酬 エージェントの方策 動的計画法 行動価値関数. ✔ ✔. Sarsa(λ) 法. st だけではなく適格度トレースがゼロでない状態に対する V も同 様に変更 実は、λ 収益アルゴリズムと等価。(証明は省略) 完全にオンラインで実行可能. 強化学習 強化学習とは. Q(s, a) を学習する場合は適格度トレース e(s, a) も s と a の関数。. 環境 報酬 エージェントの方策 動的計画法 行動価値関数. 予測問題と制御問題. 予測問題と制御問題. モンテカルロ法. モンテカルロ法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法. SVM. SVM. Sarsa(λ) のアルゴリズム: Q(s, a) のテーブルを初期化し、また、全ての s, a に対し e(s, a) = 0 s を初期化 ある方策により行動 a を得る 各ステップに対して繰り返し 行動 a をとり、報酬 r と次の状態 s を観測 s に対し、ある方策 a を求める δ ← r + γQ(s , a ) − Q(s, a) e(s, a) ← e(s, a) + 1 全ての s¯, a ¯ に対して: Q(¯ s, a ¯) ← Q(¯ s, a ¯) + αδe(¯ s, a ¯) e(¯ s, a ¯) ← γλe(¯ s, a ¯) s ← s , a ← a 試行が終端するまで繰り返し 同様に Q(λ) も考えられるが、Watkins の Q(λ) はあまり良くない。. 2009 年後期 – 25 / 42. ソフトコンピューティング. 2009 年後期 – 26 / 42. ソフトコンピューティング. 識別問題 強化学習. 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. サポートベクターマシン. 識別問題: 入力ベクトル x を 2 つ (以上) のクラスに分類する問題。サ ポートベクターマシンを使う場合は、通常 2 クラス分類問題を考える。 学習サンプル. (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), ... から学習。xi はベクトル、yi はクラス (±1)。 線形識別器:. y = sgn[wT x + b] = sgn[w1 x1 + · · · + wn xn + b]    1 (u ≥ 0) sgn[u] = −1 (u < 0). ソフトコンピューティング. 2009 年後期 – 27 / 42. ソフトコンピューティング. y=1 wT x + b = 0 y = −1. 2009 年後期 – 28 / 42.

(8) マージンの導入 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 2 次計画問題への帰着 強化学習. 正しい識別を行う超平面は一意に決まらない。. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. ⇒ 真ん中を通る平面が望ましい. |wT xi + b| d = min i w. wTx + b = 0 d.  . d. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 1 w2 − αi {yi (wT xi + b) − 1} → min, 2 i=1. . ∂L(w, b, α) ∂w ∂L(w, b, α) ∂b. T =w−. N . αi ≥ 0. αi yi xi = 0. i=1. T =−. N . SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 2009 年後期 – 30 / 42. ハードマージン・線形 SVM のパラメータを求める問題 (双対問題):. LD (α) =. N . αi −. i=1. subject to. N . N 1  αi αj yi yj xTi xj → max 2 i,j=1. αi yi = 0, αi ≥ 0. i=1. 双対問題の解 αi から、パラメータを求める式は、. αi yi = 0. i=1. w=. N . αi yi xi. i=1. これを拡張評価関数に代入. ソフトコンピューティング. subject to yi (wT xi + b) ≥ 1. ソフトコンピューティング. 強化学習. w, b による偏微分より、 . 1 w2 → min 2. ハードマージン SVM の双対問題 (2). ラグランジュ乗数 αi (≥ 0) の導入 (拡張評価関数):. L(w, b, α) =. ハードマージン・線形 SVM のパラメータを求める問題 (主問題):. 凸制約を持つ 2 次計画問題は様々な方法で解くことができる。(内点法 など). 2009 年後期 – 29 / 42. N . ✔. ⇒ 2 次計画問題. ハードマージン SVM の双対問題 (1) 強化学習. ✔. とりあえず線形分離可能性を仮定。つまり、学習データを完全に分 類できる超平面が存在するとする。 y = 1 のクラスとの分離平面を wT x + b = 1, y = −1 のクラスとの 分離平面を wT x + b = −1 とおいても、一般性を失われない。 このとき、マージンは、 1 d= w. L(w) =. d を最大化する w と b を求めたい。 このようにして求めた識別器をハー ドマージンの線形サポートベクタマ シン (Support Vector Machine; SVM) という。. ソフトコンピューティング. ✔. b = yi − wT xi ,. 2009 年後期 – 31 / 42. ソフトコンピューティング. such that αi = 0. 2009 年後期 – 32 / 42.

(9) ハードマージン SVM の双対問題 (3) 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. ソフトマージン SVM (1) 強化学習. Karush-Kuhn-Tucker 条件: N . SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. αi yi = 0. i=1. αi ≥ 0,. i = 1, . . . , N. yi (wT xi + b) ≥ 1, w=. i = 1, . . . , N. N . αi yi xi i=1 αi {yi (wT xi + b). − 1} = 0,. 「厳密に線形分離」でない場合について考える。 制約を満たさないデータ点に関して、それを許すかわりにペナルティを 評価関数に加える。. C · Plus[1 − yi (wT x + b)] がペナルティ。ここで、. wT x + b = 1 Surface for green points. 1 (s + |s|) 2  s (s ≥ 0) = 0 (s < 0). Plus[s] =. i = 1, . . . , N.  . wTx + b = 0 wTx + b = −1 Surface for red points.. 代数方程式・不等式の組に変換された。 最後の式より、ほとんどの αi はゼロ。マージンを表す超平面上のデー タ点に対応する αi のみ、非ゼロ。 非ゼロな αi に対応する xi をサポートベクターという。 2009 年後期 – 33 / 42. ソフトコンピューティング. ソフトマージン SVM (2) 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 2009 年後期 – 34 / 42. ソフトコンピューティング. ソフトマージン SVM の双対問題. ソフトマージン線形 SVM の主問題:. 以下の w, b を見つけること. N.  1 Plus[1 − yi (wT x + b)] → min w2 + C 2 i=1           ⇓ スラック変数の導入 以下のような w, b, ξi を見つける。. 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. Lagrange 乗数の導入: L=.    1 ξi − αi (ξ − 1 + yi (wT xi + b)) − βi ξi w2 + C 2 i i i. 偏微分すると、  w= αi yi xi ,. . i. i. yi αi = 0,. αi + βi = C. ⇒. αi ≤ C. ソフトマージン SVM の双対問題:. N.  1 ξi → min w2 + C 2 i=1. max α. subject to ξi ≥ 1 − yi (wT xi + b). . αi −. i. 1 αi αj yi yj xTi xj 2 i,j. subject to 0 ≤ αi ≤ C  yi αi = 0. ξi ≥ 0. i. ソフトコンピューティング. 2009 年後期 – 35 / 42. ソフトコンピューティング. 2009 年後期 – 36 / 42.

(10) 高次元への射影 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. カーネルトリック. そもそも、線形分離というより非線形分離が適している場合がある。. y=1 y = −1. そのような場合、ベクトル x を高次元のベクトルに非線形写像で写して 考えればよい。 z = φ(x). 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 高次元に射影した場合の SVM パラメータ決定:. . 1 αi αj yi yj φ(xi )T φ(xj ) α 2 i i,j  αi yi = 0 subject to 0 ≤ αi ≤ C, max. αi −. i. ここで、高次元同士の内積を 1 つのカーネルで書き表す。. k(xi , xj ) = φ(xi )T φ(xj ) → カーネルトリック (計算量の削減になる). [例] x = (x1 , x2 )T を射影して、z = (x21 , x1 x2 , x22 , x1 , x2 , 1)T のように取っ て、2 次の関数による判別器を作ることができる。 この例では、定数 1  をベクトルに含んでいるので、b は不要。 よって、このとき、 i yi αi = 0 の条件も不要。. ソフトコンピューティング. 2009 年後期 – 37 / 42. 正定値カーネル 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. カーネルの例. 正定値カーネル: ✔ (対称性) k(xi , xj ) = k(xj , xi ) ✔ (正定性) 任意の x1 , x2 ,... に対して、グラム行列 ⎤ ⎡ k(x1 , x1 ) · · · k(x1 , xp ) ⎥ ⎢ .. .. [k(xi , xj )](i,j) = ⎣ ⎦ . . k(xp , x1 ) · · · k(xp , xp ) が準正定 非線形分離をする SVM は、内積を正定値カーネルに置き換える。 マーセルの定理により、正定値カーネルは k(x, y) = φ(x)T φ(y) のよう に分解できる。. ソフトコンピューティング. 2009 年後期 – 38 / 42. ソフトコンピューティング. 2009 年後期 – 39 / 42. 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. ✔. 多項式カーネル:. ✔. Gaussian カーネル:. k(x, y) = (1 + xT y)p.  k(x, y) = exp ✔. −x − y2 2σ 2. . シグモイドカーネル: (正定値カーネルではないが、使われること もある) k(x, y) = tanh(axT y − b). ソフトコンピューティング. 2009 年後期 – 40 / 42.

(11) カーネル化 SVM 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. ニューラルネットワークとの関連. カーネル化 SVM は以下の手順で解くことができる。. 強化学習. SVM 識別問題 マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題 高次元への射影 カーネルトリック 正定値カーネル カーネルの例 カーネル化 SVM NN との関連. 1. 最適化問題 (双対問題) を解く . 1 αi αj yi yj k(xi , xj ) 2 i,j i  αi yi = 0 subject to 0 ≤ αi ≤ C,. max α. αi −. i. 2. 次のようにサポートベクトルを見つける S = {i|0 < αi < C},. O = {i|αi = C},. ソフトコンピューティング. ✔. シグモイドカーネルを使った判別関数は 3 層のニューラルネット ワーク (出力層は sign 関数) になる。 ただし、I → H の重みは学習データのベクトルそのもので、 H → O の重みは双対問題の最適化から決定される。つまり、通常 の学習ではない。 同様に、Gaussian カーネルを使った判別関数は、RBF ネットワーク (ニューラルネットワークの一種) に sign 関数を付けたものとして実 現される。. I = {i|αi = 0}. 3. 識別関数は、以下のように求まる。     y = sgn αi k(xi , x) + b , b = yi − αj k(xj , xi ) i∈S∪O. ✔. (i ∈ S). j. 2009 年後期 – 41 / 42. ソフトコンピューティング. 2009 年後期 – 42 / 42.

(12)

参照

関連したドキュメント

(質問者 1) 同じく視覚の問題ですけど我々は脳の約 3 分の 1

現実感のもてる問題場面からスタートし,問題 場面を自らの考えや表現を用いて表し,教師の

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

• また, C が二次錐や半正定値行列錐のときは,それぞれ二次錐 相補性問題 (Second-Order Cone Complementarity Problem) ,半正定値 相補性問題 (Semi-definite

基本的金融サービスへのアクセスに問題が生じている状態を、英語では financial exclusion 、その解消を financial

2013

難病対策は、特定疾患の問題、小児慢性 特定疾患の問題、介護の問題、就労の問題