PDF版

(1)

「ソフトコンピューティング」

(

後半

)

北海道大学大学院情報科学研究科山下裕

(2)

強化学習

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM

(3)

強化学習とは

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 強化学習 (Reinforcement Learning) とは: あるエージェントが試行錯誤を通じて未知の環境に適応する学習制御の枠組。機械学習の一種。一般的な教師付き学習とは異なり、明示的な教師が存在せず、かわりに報酬というスカラーの情報を手がかりに学習する。つまり、報酬が最も多く得られるような方策 (policy) を学習する。 Agent (= Controller) Environment (= Controlled object) State: st Reward: rt Action: at

(4)

環境

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM ここでは、環境 (Environment) は、有限状態数のマルコフ決定過程

(Markov decision process:MDP) であるとする。

つまり、離散的な時刻 _t における環境の状態を _s_t とし、環境への行動を _a_t とすると、次の時刻 _{t + 1} における状態 _s_t+1 の確率密度が、 P_ssa = P r(s_t+1 = s | s_t = s, a_t = a) のように、_s_t と _a_t によって決まるとする。 Pa ss は遷移確率 (Transition probabilities) と呼ばれる。

(5)

報酬

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 即時報酬 (Reward): また、環境からの (即時) 報酬の確率密度も、 P r(rt+1 | st+1 = s, st = s, at = a) のように与えられ、その期待値は、 Ra_ss = E(r_t+1 | s_t+1 = s, s_t = s, a_t = a) 時間 _t 以降の累積報酬は、 Rt = rt+1 + γrt+2 + · · · + γTrt+T +1 = T k=0 γkrt+k+1 で与えられる。ここで、0 < γ < 1 は割引率で遠い未来に得られる報酬を割り引いて評価するためのものである。_T は無限大のこともある。これら、P_ssa , Ra_ss が未知のときに、より多くの累積報酬を得るように

(6)

エージェントの方策

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM エージェントの方策 (Policy) とは、状態 _s_t = s のとき、行動 _a_t = a を取る確率密度 _{π(s, a)} を考える。 ✔ _R_t _{の何らかの予測ができれば、それを最大化する行動} _a _を取るのが最適であり、それをグリーディな方策という。 ✔ _一方確率 _{でランダムな行動を取り、それ以外はグリーディな方策} を取る場合は、_-グリーディ方策という。方策 _π を固定して考える。_s_t = sのときの _R_t の期待値を値関数 (Value function) という。 V π(s) = E{Rt | st = s}

(7)

動的計画法

=Bellman

方程式

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM Pa ss, Ra_ss が既知で、T = ∞ の場合、値関数は次の方程式を満たす。 V π(s) = Eπ{Rt | st = s} = Eπ{rt+1 + γRt+1 | st = s} = a π(s, a) s P_ssa [Ra_ss + γEπ{Rt+1 | st+1 = s}] = a π(s, a) s P_ssa [Ra_ss + γV π(s)] Bellman 方程式: V π(s) = a π(s, a) s P_ssa [Ra_ss + γV π(s)] 最適な方策の下での Bellman 方程式: V ∗(s) = max_a s P_ssa [Ra_ss + γV ∗(s)]

(8)

行動価値関数

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 行動価値関数: Qπ(s, a) = Eπ{Rt | st = s, at = a} T = ∞ のとき、 Qπ(s, a) = Eπ{rt+1 + γV π(st+1) | st = s, at = a} 行動価値関数を用いた Bellman 方程式: Q∗(s, a) = s P_ssa Ra_ss + γ max a Q ∗_(s , a) グリーディな行動: argmax a Q ∗_(s t, a)

(9)

予測問題と制御問題

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM ここでは、2 つの問題を考える。 ✔ _予測問題: _{方策は固定する。値関数} _{V (s)} _{を学習し、今後の累積報} 酬の見込みを予測する。 ✔ _制御問題: _{行動価値関数} _{Q(s, a)} _{を学習し、今後の累積報酬を最大} 化するような行動に漸近する。予測問題制御問題適格度トレースなし TD(0) Q 学習, Sarsa, Actor-Critic 適格度トレースあり TD(λ) Q(λ), Sarsa(λ), Actor-Critic(λ)

(10)

モンテカルロ法

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM まず、予測問題を考える。つまり、_π は固定。 V (s) を推定する問題であるので、その推定途中の _{V (s)} を _V (i)(s) と書く。_i は学習回数。 γ < 1 であるから、時刻 _t から始めて十分長い試行後に、_R_t が観測できる。 V π(s) = Eπ{Rt | st = s} であるから、_V i(s) を _R_t に近づければよい。モンテカルロ法 (Monte-Carlo method; MC 法):

V (i+1)(st) = V (i)(st) + α[Rt − V (i)(st)]

ここで、0 < α < 1。

時刻 _t における状態 _s_t に関する学習は、即時にできず、十分長い試行

(11)

TD(0)

学習

(1)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM モンテカルロ法の欠点 (=学習が即時にできない) を改良する。 st = s と st+1 = s と rt+1 = r がわかっているものとする。 Rt = rt+1 + γrt+2 + γ2rt+3 + · · · = rt+1 + γRt+1 であるので、 Eπ{Rt | st = s, st+1 = s, rt+1 = r} = r + γEπ{Rt+1 | st+1 = s} = r + γV π(s) そこで、モンテカルロ法の _R_t を _r_t+1 + γV (i)(s_t+1) に置き換える。 TD(0) 学習 (Temporal-Diﬀerence Learning):

V (i+1)(st) = V (i)(st) + α[rt+1 + γV (i)(st+1) − V (i)(st)]

(12)

TD(0)

学習

(2)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM TD(0) 学習のアルゴリズム: V (s) のテーブルを初期化 s を初期化各ステップに対して繰り返し方策 _π により行動 _a を得る行動 _a をとり、報酬 _r と次の状態 _s を観測 V (s) ← V (s) + α[r + γV (s) − V (s)] s ← s 試行が終端するまで繰り返し

(13)

Sarsa (1)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 次に、制御問題について考える。制御問題においては値関数 _V π(s) よりも、行動価値関数 _Qπ(s, a) を学習するほうが都合が良い。もし、_Qπ(s_t_{, a}_t) がわかっているならば、

Q(i+1)(st, at) = Q(i)(st, at) + α[Qπ(st, at) − Q(i)(st, at)]

とすればよいが、実際は _Qπ(s_t_{, a}_t) は不明。そこで次の関係を使う。

Qπ(s, a) = E{rt + γV π(st+1) | st = s, at = a}

の代わりに、_s_t+1 = s と _r_t+1 = r がわかっているとき

E{rt+1 + γV π(st+1) | st = s, at = a, st+1 = s, rt+1 = r}

(14)

Sarsa (2)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM Sarsa: Q(i+1)(st, at) = Q(i)(st, at) + αt[rt+1 + γQ(i)(st+1, at+1) − Q(i)(st, at)] ✔ _{ここでは、}_a_t+1 _を 1 _{ステップ前に既に求めていることが前提。} ✔ _一般の _π _に対して _Qπ(s, a) _{を求めてもあまり意味は無いので、制} 御を考えると、グリーディな方策を取って _Q∗ を求めたい。しかし、グリーディな方策では全ての _s と _a の組を学習できないので、ランダム性を取り入れ _-グリーディ方策を用いればよい。そして、は学習回数に応じて徐々に減らしてゼロに近づければ、_Q∗ を求められることが期待できる。 ✔ _{求めている} _Q _{は方策に依存するので、方策} on _型 TD _{学習といわ} れる。

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM Q 学習のアルゴリズム: Q(s, a) のテーブルを初期化 s を初期化各ステップに対して繰り返しある方策により行動 _a を得る行動 _a をとり、報酬 _r と次の状態 _s を観測全ての _a に対し Q(s, a) のテーブルを検索。最大値 max a Q(s _{, a}₎ _を探す Q(s, a) ← Q(s, a) + αt[r + γ max a Q(s _{, a}_{) − Q(s, a)]} s ← s 試行が終端するまで繰り返し

(19)

アクター・クリティック手法

(1)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM アクター・クリティック手法は様々なバリエーションがあるので、ここで示すのはあくまで 1 つの方法である。 ✔ _アクター: _{方策をつかさどる部分} ✔ _{クリティック}: _{値関数の評価をする部分}

࿢ؾ

૾ሊ

͌᧙ૠ

ǯȪȆǣȃǯ

Ǣǯǿȸ

6&ᛚࠀ

ཞ७

ᘍѣ

إᣛ

(20)

アクター・クリティック手法

(2)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM クリティック: TD 学習を採用 TD 誤差: δ_t = r_t+1 + γV (s_t+1) − V (s_t) ✔ TD _誤差が正: r_t+1 _{が比較的大きい} = a_t _{は選ばれるべき。} ✔ TD _誤差が負: r_t+1 _{が比較的小さい} = a_t _{を選ぶ確率を下げるべき。} アクター: ソフトマックス手法 (Gibbs 分布) πt(s, a) = Pr{at | st = s} = e p(s,a) b ep(s,b) 行動優先度: p(s, a) p(st, at) ← p(st, at) + βδt

(21)

TD(

λ)

法

(1)

強化学習強化学習とは環境報酬エージェントの方策動的計画法行動価値関数予測問題と制御問題モンテカルロ法 TD(0) 学習 Sarsa Q 学習 AC 手法 TD(λ) 法 Sarsa(λ) 法 SVM 1 ステップの TD 法: Rt = rt+1 + γVt(st+1) n ステップの TD 法: R_t[n] = rt+1 + γrt+2 + · · · + γn−1rt+n + γnVt(st+n) ただし、モンテカルロ法と同じく事後学習となってしまう。 st だけを固定すれば、E[R[n]_t ] = E[Rt]。 λ 収益 _{(λ return):} _R_tλ = (1 − λ) ∞ n=1 λn−1R[n]_t ✔ _{λ = 0} _のとき、TD(0) ✔ _{λ = 1} _のとき、(_{無限回試行後の}) _{モンテカルロ法} st だけを固定すれば、E[Rt] = E[Rλ]

(22)

TD(

サポートベクターマシン

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連

(28)

識別問題

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連識別問題: 入力ベクトル _x を 2 つ (以上) のクラスに分類する問題。サポートベクターマシンを使う場合は、通常 2 クラス分類問題を考える。学習サンプル (x1, y1), (x2, y2), (x3, y3), ... から学習。_x_i はベクトル、_y_i はクラス (±1)。線形識別器: y = sgn[wTx + b] = sgn[w1x1 + · · · + wnxn + b] sgn[u] = 1 (u ≥ 0) −1 (u < 0) wTx + b = 0 y = 1 y = −1

(29)

マージンの導入

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連正しい識別を行う超平面は一意に決まらない。 ⇒ 真ん中を通る平面が望ましい wT_{x + b = 0} d d d = min i |wT_x i + b| w d を最大化する _w と _b を求めたい。このようにして求めた識別器をハードマージンの線形サポートベクタマシン (Support Vector Machine; SVM) という。

(30)

2 次計画問題への帰着

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連 ✔ _{とりあえず線形分離可能性を仮定。つまり、学習データを完全に分} 類できる超平面が存在するとする。 ✔ _{y = 1} _{のクラスとの分離平面を} _wT_{x + b = 1, y = −1} _{のクラスとの} 分離平面を _wT_{x + b = −1} とおいても、一般性を失われない。 ✔ _{このとき、マージンは、} d = _w1 ハードマージン・線形 SVM のパラメータを求める問題 (主問題): L(w) = 1₂w2 → min subject to yi(wTxi + b) ≥ 1 ⇒ 2 次計画問題凸制約を持つ 2 次計画問題は様々な方法で解くことができる。(内点法など)

(31)

ハードマージン

SVM

の双対問題

(1)

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連ラグランジュ乗数 _α_i (≥ 0) の導入 (拡張評価関数): L(w, b, α) = 1 2w2 − N i=1 αi{yi(wTxi + b) − 1} → min, αi ≥ 0 w, b による偏微分より、 ∂L(w, b, α) ∂w _T = w − N i=1 αiyixi = 0 ∂L(w, b, α) ∂b _T = − N i=1 αiyi = 0 これを拡張評価関数に代入

(32)

ハードマージン

SVM

の双対問題

(2)

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連ハードマージン・線形 SVM のパラメータを求める問題 (双対問題): LD(α) = N i=1 αi − 1₂ N i,j=1 αiαjyiyjxT_i xj → max subject to N i=1 αiyi = 0, αi ≥ 0 双対問題の解 _α_i から、パラメータを求める式は、 w = N i=1 αiyixi b = yi − wTxi, such that αi = 0

(33)

ハードマージン

SVM

の双対問題

(3)

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連 Karush-Kuhn-Tucker 条件: N i=1 αiyi = 0 αi ≥ 0, i = 1, . . . , N yi(wTxi + b) ≥ 1, i = 1, . . . , N w = N i=1 αiyixi αi{yi(wTxi + b) − 1} = 0, i = 1, . . . , N 代数方程式・不等式の組に変換された。最後の式より、ほとんどの _α_i はゼロ。マージンを表す超平面上のデータ点に対応する _α_i のみ、非ゼロ。

(34)

ソフトマージン

SVM (1)

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連「厳密に線形分離」でない場合について考える。制約を満たさないデータ点に関して、それを許すかわりにペナルティを評価関数に加える。 C · Plus[1 − yi(wTx + b)] がペナルティ。ここで、 Plus[s] = 1₂(s + |s|) = s (s ≥ 0) 0 (s < 0)

w

ソフトマージン

SVM (2)

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連ソフトマージン線形 SVM の主問題: 以下の _{w, b} を見つけること 1 2w2 + C N i=1 Plus[1 − yi(wTx + b)] → min ⇓ スラック変数の導入以下のような _{w, b, ξ}_i を見つける。 1 2w2 + C N i=1 ξi → min subject to ξi ≥ 1 − yi(wTxi + b) ξi ≥ 0

(36)

ソフトマージン

SVM

の双対問題

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連 Lagrange 乗数の導入: L = 1₂w2 + C i ξi − i αi(ξ − 1 + yi(wTxi + b)) − i βiξi 偏微分すると、 w = i αiyixi, i yiαi = 0, αi + βi = C ⇒ αi ≤ C ソフトマージン SVM の双対問題: max_α i αi − 1₂ i,j αiαjyiyjxT_i xj subject to 0 ≤ αi ≤ C

(37)

高次元への射影

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連そもそも、線形分離というより非線形分離が適している場合がある。 y = 1 y = −1 そのような場合、ベクトル _x を高次元のベクトルに非線形写像で写して考えればよい。 z = φ(x) [例] x = (x1, x2)T を射影して、z = (x2₁, x1x2, x2₂, x1, x2, 1)T のように取って、2 次の関数による判別器を作ることができる。この例では、定数 1 をベクトルに含んでいるので、_b は不要。よって、このとき、_i _y_i_α_i = 0 の条件も不要。

(38)

カーネルトリック

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連高次元に射影した場合の SVM パラメータ決定: max_α i αi − 1₂ i,j αiαjyiyjφ(xi)Tφ(xj) subject to 0 ≤ αi ≤ C, i αiyi = 0 ここで、高次元同士の内積を 1 つのカーネルで書き表す。 k(xi, xj) = φ(xi)Tφ(xj) → カーネルトリック (計算量の削減になる)

(39)

正定値カーネル

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連正定値カーネル: ✔ (_対称性) k(x_i_{, x}_j) = k(x_j_{, x}_i) ✔ (_正定性) _任意の _x₁, x₂,... _{に対して、グラム行列} [k(xi, xj)]_(i,j) = ⎡ ⎢ ⎣ k(x1, x1) · · · k(x1, xp) .. . ... k(xp, x1) · · · k(xp, xp) ⎤ ⎥ ⎦ が準正定非線形分離をする SVM は、内積を正定値カーネルに置き換える。マーセルの定理により、正定値カーネルは _{k(x, y) = φ(x)}T_φ(y) のように分解できる。

(40)

カーネルの例

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連 ✔ _{多項式カーネル}: k(x, y) = (1 + xTy)p ✔ Gaussian カーネル: k(x, y) = exp −x − y2 2σ2 ✔ _{シグモイドカーネル}: (_{正定値カーネルではないが、使われること} もある) k(x, y) = tanh(axTy − b)

(41)

カーネル化

SVM

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連カーネル化 SVM は以下の手順で解くことができる。 1. 最適化問題 (双対問題) を解く max_α i αi − 1₂ i,j αiαjyiyjk(xi, xj) subject to 0 ≤ αi ≤ C, i αiyi = 0 2. 次のようにサポートベクトルを見つける

S = {i|0 < αi < C}, O = {i|αi = C}, I = {i|αi = 0}

3. 識別関数は、以下のように求まる。 y = sgn i∈S∪O αik(xi, x) + b , b = yi − j αjk(xj, xi) (i ∈ S)

(42)

ニューラルネットワークとの関連

強化学習 SVM 識別問題マージンの導入 2 次計画問題への帰着 HM-SVM の双対問題 SM-SVM SM-SVM の双対問題高次元への射影カーネルトリック正定値カーネルカーネルの例カーネル化 SVM NN との関連 ✔ _{シグモイドカーネルを使った判別関数は} 3 _{層のニューラルネット} ワーク (出力層は sign 関数) になる。ただし、_{I → H} の重みは学習データのベクトルそのもので、 H → O の重みは双対問題の最適化から決定される。つまり、通常の学習ではない。 ✔ _同様に、Gaussian _{カーネルを使った判別関数は、}RBF _{ネットワーク} (ニューラルネットワークの一種) に sign 関数を付けたものとして実現される。