実数値マルチステップ問題 .1 概要

第5. 実数値問題 5.2. 実数値マルチステップ問題

5.1.3 UCI リポジトリ

UCI Machine Learning repositoryとは，機械学習の研究分野で共有されている比較検証用に用意されたデータセットが数多く登録されている．例えば，図5.9の様なアヤメの分類問題では，入力データとして萼の長さ，萼の幅，花弁の長さ，花弁の幅であるのに対して，出力としてアヤメの種類であるセトーサ，ベルシカラー，バージニカの3 つのどれかに分類結果として出力するというように，入力データに対して適切な出力を学習しその性能を比較することができる．表5.1は，従来手法と提案システムの比較をするため適用したデータ集合の一覧表である．ID，Data Set，#Real，#Class，#Instance， Minor，Major，irはそれぞれ，UCIリポジトリにおけるデータ集合のID，データ集合の名前，実数値入力の次元数，分類するクラスの数，データ例の数，データ集合において最も割合の小さいクラスのデータ数の割合，最も割合の大きいクラスのデータ数の割合，そして，割合の小さいクラスを1とした時の最も割合の大きいクラスの比率(つまり，データの偏り度合い)を示す．

図5.9 UCI Machine Learning Repositoryにあるアヤメ(iris)の分類

5.2 実数値マルチステップ問題

5.2. 実数値マルチステップ問題第 5. 実数値問題

表5.1 UCIリポジトリのデータ集合

ID Data Set #Real #Class #Instance Minor(%) Major(%) ir

bal Balance−Scale 4 3 625 7.84 46.08 5.88

bpa Bupa 6 2 345 42.03 57.97 1.38

gls Glass 9 6 214 4.21 32.71 7.78

irs Iris 4 3 150 0.33 0.33 1.00

pmi P ima−Indians 8 2 768 34.90 65.10 1.87

seg Segment 19 7 2310 14.28 14.28 1.00

son Sonar 60 2 208 46.63 53.37 1.14

veh V ehicle 18 4 846 23.52 25.77 1.10

wne W ine 13 3 178 26.97 39.89 1.48

学習らは一般的に離散環境の問題を対象としているため，実数値や連続値を扱う問題に適用したり，離散環境と同じ性能を得ることは困難である．実数値または連続値の状態空間や行動空間における状態行動評価関数を表現するための関数近似法が用いられることがある．

5.2.2 マウンテンカー問題

連続値マルチステップ問題の例として，急な坂道を登るマウンテンカー問題[Anderson,

Sutton 1998]を紹介する．図5.10に示すように，車は，推進力を調節することで坂道を

進むが，推進力の上限が小さいと，斜面が急な部分では，推進力の最大値よりも重力によって斜面を下る方向に働く力のほうが大きくなってしまうので，坂道を登ることができない．そのため，車は推進力を調整しながら，坂道を行ったり来たりして勢いをつけることで山を登る．この問題では，「山を登るためにいかにうまく推進力を調整すればよいか」

という政策(制御則)の獲得を目指すことになる．

制御対象である車の知覚できる状態としては車の位置xと速度v の2次元であり，位置や速度は連続的な数値であるため，この問題では連続状態空間を扱う．車のある時間t における状態S_t はS_t = (x_t, v_t)と表される．位置と速度の時間に対する変化は，以下の式のように表せる．

xt+1 =xt+vt+1∆t (5.1)

v_t+1 =v_t+ (−9.8·m·cos(3x_t) + a_t

m −k·v_t)·∆_t (5.2) ここで，a_t(∈A)は時刻tにおいて選択された行動，mは車の質量，kは摩擦係数，∆_t

第5. 実数値問題 5.2. 実数値マルチステップ問題

図5.10 マウンテンカー問題

は1ステップあたりの秒数を表す．調整できる車の推進力はa∈[−0.2,0.2]として選択できるため，行動空間は連続な一次元空間となる．しかし，一般的には簡単化のために行動空間を離散的に設計される．例えば，−0.2(左方向への推進力), 0(推進力なし), +0.2(右方向への推進力)の3つの行動のみを選択することにすると，行動空間はA =−0.2,0,+0.2 で表される．マウンテンカー問題における報酬Rは，様々な種類が存在しており，獲得したい最適な政策の複雑さに影響を与える．本論文では，以下の式で表される報酬関数を使用する．

{

R= 30·(1.0− _v_max^|^v^| ) if0.5≤x

R= 0 otherwise (5.3)

ここで，報酬関数Rはゴールした際に，速度v を0に近づけるほど報酬を高くなるように設定され，逆に，速度が大きいほどゴールしても獲得できる報酬は少なくなる．これにより，車をゴールさせる際に，速度vについて細かい調整が必要となる政策(制御則) の獲得が目的となる．

第 6 ^章

計算機実験 : ^{シングルステップ問題}

ドキュメント内 Exemplar の生成と一般化に基づく学習分類子システムに関する研究 (ページ 61-64)

5.1.3 UCI リポジトリ

5.2 実数値マルチステップ問題

5.2.2 マウンテンカー問題

第 6 章

計算機実験 : シングルステップ問題

第 6 ^章

計算機実験 : ^{シングルステップ問題}