強化学習

第 3 章感情を表現する旋法の生成 31

3.3 強化学習

報を含めた旋法を対象とすれば，旋法のバリエーションはほとんど無限である．

そこで本研究では，心理学的な実験ではなく，強化学習[27]を用いた工学的アプローチでこの困難を回避する手法を提案する．それは，目的となる特定の感情に対して人間からの感情の評価のフィードバックを用いて，旋法の方を感情に適合するように適応変化させるというものである．これにより，固定した旋法を無数に用意してそれぞれを評価するという作業を行わずに，目的の旋法を獲得できる可能性がある．また，この方法は，個人差や文化の違いの問題を回避できるという利点がある．

強化学習を音楽へ応用する既存研究としては，人間の望む音楽的緊張感の高低に対して，音楽エージェントのパラメータを自律的に適応変化させる研究[28]がある．エージェントがコントロールできるパラメータはテンポ，音量，アーティキュレーションの三つであり，エージェントが実際に適応変化しうることが示された．それらのパラメータはそれぞれ１次元のスカラー量で表現されるため，単独では学習が比較的容易であると考えられる．しかし，旋法の場合は多くの音の組み合わせであるため，より難易度の高い課題であると考えられる．強化学習の音楽への応用については，感情に関する研究以外にも，音楽スタイルを楽譜から学習し，

その曲のスタイルを摸倣した音楽を生成する研究[29]などがある．強化学習を用いて旋法を感情に適応させる研究は，私の知る限りでは本研究が最初である．

3.3 ^強化学習

3.3.1 基本的な枠組み

本節では，旋法の獲得に用いる強化学習の数理的枠組みについて述べる．強化学習は教師無し機械学習法の一つであり，ある環境内に置かれたエージェントに，試行錯誤に基づく経験から適切な行動を学習させる方法論である．強化学習の枠組みでは，環境は状態空間S^内をタイムステップtごとに遷移を繰り返す．エージェントは，状態s∈Sを観測し，遷移ごとにある行動a∈A(s)（a∈A(s)は状態sでとることのできる行動の集合）をとって環境に働きかけ，行動の結果の善し悪しに応じて環境から報酬rを受け取る．エージェントは次式などの形で表されるr^{の関数としての収益}Rtを最大化できるように学習を行う:

Rt=

∑∞ k=0

γ^krt+k+1, (3.1)

ここで，γ ^は0≤γ ≤1の割引率と呼ばれるパラメータである．γ^が0^{のときはエージェント} は即時報酬rt+1のみを考慮して学習するが，γ ^が1に近づくにつれ，は未来の報酬をより多く考慮に入れるようになる．エージェントはr^{をもとに，状態}s^の価値V(s)^や，s^における行動a^の価値Q(s, a)^{を推定してゆく．}V(s)^およびQ(s, a)^{は次式で定義される}:

V(s) =E{Rt|st=s}, (3.2) Q(s, a) =E{Rt|st=s, at=a}. (3.3)

ここで，γ ^{は割引率と呼ばれる}0^から1^{までの値であり，収益}Rtは報酬r^{の系列の関数とし} て定義される．γが大きくなるにつれ，エージェントは長期的な展望を重視するようになる．

強化学習において，多くの場合，状態は有限かつ離散的であり，環境は基本的にMDP^と呼ばれる形式をとることが仮定される．MDPにおいては，状態遷移は現在の状態にのみ依存して遷移先が決まる一次のマルコフ過程であり，エージェントが行動a^{をとったとき，環境は} 状態がs^{であれば状態}s^′^に確率P_ss^a′で遷移する．また，エージェントの行動a^{に対して環境} は，期待値R^a_ss′ の報酬r^{を与える．このように}MDP^はP_ss^a′ とR^a_ss′で特徴づけられる．

他方，エージェントは方策(policy)^{と呼ばれる行動指針}π^{をもち，状態}s^{において，ある} 確率π(s, a)^で行動a^をとる．π(s, a)^の値はV(s)^やQ(s, a)を参照しながら決定することが多く，V(s)^やQ(s, a)^はπ(s, a)と共に改善されていくことが期待される．

もし環境のP_ss^a′とR^a_ss′が既知の定数でかつγ <1^あれば，V(s)^とQ(s, a)^はBellman^方程式と呼ばれる連立方程式を用いて解くことができる．しかし多くの場合，未知環境の下での学習が問題となる．未知環境の下では，π(s, a)の下での試行錯誤から経験的に学習を行う．

3.3.2 ブートストラッピングとエピソード

未知環境での強化学習には様々なタイプの手法がある．中でも，逐次更新型とエピソード単位の一括更新型の違いは本研究にとって重要であるため，以下に解説する．

一般に価値関数の改善は，次式のようなV(s)^やQ(s, a)を目標値に近づける更新によって行われる:

V(st)←V(st) +α[Rt−V(st)], (3.4) Q(st, at)←Q(st, at) +α[Rt−Q(st, at)], (3.5) ここでαはワンステップの学習の度合いを表すパラメータである．式(3.1)^{で表される収益} は，収益が実際に計算できるようになるまでの時間が無限大であるため，厳密には計算ができない．そこで，

V(s) =E{Rt|st=s}

=E{∑^∞

k=0

γ^krt+k+1|st=s}

=E{rt+1+γ

∑∞ k=0

γ^krt+k+2|st=s}

=E{rt+1+γV(st+1)|st=s} (3.6) となることを用い，Rtを(rt+1+γV(st+1)を用いて近似することで，逐次的な更新を行う手法がある．この手法はTD(0)と呼ばれる手法であり，V(st)を他の価値関数の推定値を用いて間接的に推定する仕組みはブートストラッピングと呼ばれる．この近似により，TD(0)^の更新式は次のようになる:

V(st)←V(st) +α[rt+1+γV(st+1)−V(st)]. (3.7)

3.3 強化学習 35

しかし，Rt を直接計算できる場合もある．経験する状態の遷移が有限の長さで終了するエピソードを単位とした反復である場合は，エピソードの終了を待てばRtの値が確定する．このRtを直接用いて，エピソードに出現した各状態の状態価値を式(3.4)^{のように一括更新す} ることができる．この手法はモンテカルロ法と呼ばれる．Qの更新に関してもに関しても同様の方法がとれる．

ブートストラッピングによる逐次更新型の手法にはTD^学習，Q^学習，Sarsa^{などがあり，}

エピソード単位の手法には，モンテカルロ法，プロフィット・シェアリングなどがある．本研究ではモンテカルロ法を用いる．

3.3.3 関数近似，最急降下法

強化学習を行うにあたっては，状態と行動の全ての組み合わせ(s, a)^に対してQ(s, a)^の訓練を十分な回数行う必要がある．しかし，そのためには大きな時間ステップ数やデータ数が必要となる．そこで，経験した(s, a)^{から経験していない}(s, a)へと経験を汎化することが重要となる．そこで，それを可能にする工夫として関数近似という手段を導入する．関数近似とは，

(s, a)の組み合わせの数よりも小さな要素数n^{のパラメータベクトル}⃗θ= (θ0, θ1,· · · , θn−1)^T の関数としてQ(s, a)を近似することである．それが可能であれば，より少ない経験から全て

のQ(s, a)の値を効率的に学習することができる．

関数近似の最もシンプル形態の一つは，関数をパラメータに対して線形に近似することである．線形近似においては⃗θに対応する特徴ベクトル

ϕ(s, a) = (ϕ⃗ 0(s, a), ϕ1(s, a),· · ·ϕn−1(s, a))^T を用いて

Q(s, a) =⃗θ^T ·ϕ⃗=

n−1

∑

i=0

θi·ϕi(s, a). (3.8)

のようにQ(s, a)^{を近似する．}

Q(s, a)^が⃗θを用いて汎化される場合，⃗θの更新においては最急降下法(Gradient Descent) が多く用いられる．最急降下法とは，目的関数を最小化するために関数の勾配を計算し，最も急に関数が減少する方向にパラメータを更新するものである．本研究では，目的関数をターゲットとの二乗誤差とし，実例を得るたびにそれを最も減少させる方向にパラメータベクトルを修正する．二乗誤差の勾配は

∇⃗θ[Rt−Q(s, a)]²=−2[Rt−Q(s, a)]∇⃗θQ(s, a). (3.9) であるから，これを用いてパラメータベクトルの更新式は

⃗θ←⃗θ+α[Rt−Q(s, a)]∇⃗θQ(s, a). (3.10)

と表すことができる．式(3.8)で述べた線形近似を行う場合，勾配は

∇⃗θQ(s, a) =

(∂Q(s, a)

∂θ0

,· · ·,∂Q(s, a)

∂θn−1

= (ϕ0(s, a), ϕ1(s, a),· · ·ϕn−1(s, a))^T

=⃗ϕ(s, a), (3.11)

のように簡単に計算でき，更新式は

⃗θ←θ⃗+α[Rt−Q(s, a)]·ϕ(s, a).⃗ (3.12) となる．

ドキュメント内新しい音楽スタイルの創出のための音楽理論生成アルゴリズム (ページ 37-40)

第 3 章 感情を表現する旋法の生成 31

3.3 強化学習

3.3 強化学習

3.3.1 基本的な枠組み

3.3.2 ブートストラッピングとエピソード

3.3.3 関数近似，最急降下法

第 3 章感情を表現する旋法の生成 31

3.3 ^強化学習