第12,13回特徴学習

(1)

機械学習

第

12,13

回特徴学習

（分類：多クラス分類、交差検証）

白浜公章

(2)

前回の復習

分類問題

→

事例にフィットするステップ関数の近似

minimize

𝑏,𝑤₁,⋯𝑤_𝑀,Θ෍

𝑝=1 𝑃

log 1 + 𝑒^−𝑦^𝑝^(𝑏+𝒇^𝑝^𝑇^𝒘)

• バイアス 𝑏 = 𝑤₀

• 重みベクトル 𝒘 = 𝑤₁ 𝑤₂ ⋯ 𝑤_𝑀 ^𝑇

• 特徴ベクトル 𝒇_𝑝 = 𝑓₁ 𝒙_𝑝 𝑓₂ 𝒙_𝑝 ⋯ 𝑓_𝑀 𝒙_𝑝 ^𝑇

（𝒙_𝑝に関する𝑀個の異なる見方）

• ステップ関数近似

（理想的なケースと実際のケース）

• 固定の基底関数群による分類

(3)

今日のポイント

（

2

限）

• 1層ニューラルネットワークによる分類

（調整可能な基底関数群による分類）

• 多クラス分類

✓ OvA

✓ 多クラス・ソフトマックス

✓ クロスエントロピー

（

4

限）

• 交差検証

（アンダー/オーバーフィッテイング）

• 第2回レポート課題

実際に特徴学習に基づく分類を行うに当たって抑えておくべきポイントを解説！

(4)

1

層順伝播ニューラルネットワークによる分類

（調整可能な基底関数群による分類）

𝒙_𝑝 ∈ ℜ^𝑁に対する特徴ベクトルは、

𝒇_𝑝 = 𝑎 𝑐₁ + 𝒙_𝑝^𝑇𝒗₁ 𝑎 𝑐₂ + 𝒙_𝑝^𝑇𝒗₂ ⋯ 𝑎 𝑐_𝑀 + 𝒙_𝑝^𝑇𝒗_𝑀 ^𝑇 ここで、𝑎(∙)は活性化関数（例えば、tanhやReLU）

ただし、コスト関数は非凸

（通常、何度か実行して、その中で最小コストを導くパラメータを学習結果とする）

minimize

𝑏,𝒘,Θ ෍

𝑝=1 𝑃

log 1 + 𝑒^−𝑦^𝑝^(𝑏+𝒇^𝑝^𝑇^𝒘)

解析的に最適パラメータが求まらないので、最急勾配法で解く

∇𝑔 = 𝜕𝑔

𝜕𝑏

𝜕𝑔

𝜕𝑤₁ ⋯ 𝜕𝑔

𝜕𝑤_𝑀

𝜕𝑔

𝜕𝑐₁ ⋯ 𝜕𝑔

𝜕𝑐_𝑀 ∇_𝒗^𝑇₁𝑔 ⋯ ∇_𝒗^𝑇_𝑀𝑔

バイアス

重み基底関数の

バイアス

基底関数の重みベクトル

𝑥₁ 𝑥₂

𝑥_𝑁 1

𝑣_1,𝑚

𝑚 𝑓_𝑚

𝑣_2,𝑚

𝑣_𝑁,𝑚

𝑐_𝑚

𝑀個の𝑓_𝑚があることに留意

コスト関数を除くと、第₉回「調整可能な基底関数群を用いた場合の最適化」と全く同じ

(5)

1

層順伝播ニューラルネットワークによる分類における勾配計算

𝑔 = ෍

𝑝=1 𝑃

log 1 + 𝑒^−𝑦^𝑝^(𝑏+𝒇^𝑝^𝑇^𝒘) = ෍

𝑝=1 𝑃

log 1 + 𝑒^−𝑦^𝑝^(𝑏+σ^𝑚=1^𝑀 ^{𝑎 𝑐}^𝑚^+𝒙^𝑝^𝑇^𝒗^𝑚 ^𝑤^𝑚⁾

を合成関数の微分で微分すれば簡単に求まる

𝜕𝑔

𝜕𝑏 = − ෍

𝑝=1 𝑃

𝜎 −𝑦_𝑝 𝑏 + ෍

𝑚=1 𝑀

𝑎 𝑐_𝑚 + 𝒙_𝑝^𝑇𝒗_𝑚 𝑤_𝑚 𝑦_𝑝

𝜕𝑔

𝜕𝑤_𝑛 = − ෍

𝑝=1 𝑃

𝜎 −𝑦_𝑝 𝑏 + ෍

𝑚=1 𝑀

𝑎 𝑐_𝑚 + 𝒙_𝑝^𝑇𝒗_𝑚 𝑤_𝑚 𝑎 𝑐_𝑛+ 𝒙_𝑝^𝑇𝒗_𝑛 𝑦_𝑝

𝜕𝑔

𝜕𝑐_𝑛 = − ෍

𝑝=1 𝑃

𝜎 −𝑦_𝑝 𝑏 + ෍

𝑚=1 𝑀

𝑎 𝑐_𝑚 + 𝒙_𝑝^𝑇𝒗_𝑚 𝑤_𝑚 𝑎^′ 𝑐_𝑛 + 𝒙_𝑝^𝑇𝒗_𝑛 𝑤_𝑛𝑦_𝑝

∇_𝒗^𝑇_𝑛𝑔 = − ෍

𝑝=1 𝑃

𝜎 −𝑦_𝑝 𝑏 + ෍

𝑚=1 𝑀

𝑎 𝑐_𝑚 + 𝒙_𝑝^𝑇𝒗_𝑚 𝑤_𝑚 𝑎′ 𝑐_𝑛 + 𝒙_𝑝^𝑇𝒗_𝑛 𝒙_𝑝𝑤_𝑛𝑦_𝑝

コード 12_1layer_nn_classification.ipynb参照

（コスト関数が非凸なので、何度か実行した方がいい）

𝑎 ∙ = tanh(∙)なら、

tanh′ ∙ = 1 − tanh² ∙ = sech² ∙ 𝑎 𝑙 = ReLU 𝑙 = max(0, 𝑙)なら、

ቊ𝑙 if 𝑙 > 0 0 otherwise 1つポイントを挙げるなら、

𝑑

𝑑𝑡log 1 + 𝑒^−𝑡 = 1

1 + 𝑒^−𝑡 −𝑒^−𝑡

= 1

1 + 𝑒^−𝑡

−1

𝑒^𝑡 = −1

1 + 𝑒^𝑡 = −𝜎(−𝑡) を使う。

多層の場合の誤差逆伝播法はレポート

第9回「調整可能な基底関数群を用いた場合の最適化（3/3）」参照

(6)

分類精度と境界

第11回のスライド「ステップ関数の近似」から分かるように、元々、

• 𝑦_𝑝 = 1の事例に対して、𝑏 + 𝒇_𝑝^𝑇𝒘 > 0

• 𝑦_𝑝 = −1の事例に対して、𝑏 + 𝒇_𝑝^𝑇𝒘 < 0

を実現するために、tanhを導入し、式展開を経て、logを伴うコスト関数を最適化していた今、学習の結果、(𝑏^∗, 𝑤^∗, Θ^∗)というパラメータが求まったとすると、誤分類数は、

𝑔₀ 𝑏^∗, 𝑤^∗, Θ^∗ = ෍

𝑝=1 𝑃

max 0, sign −𝑦_𝑝 𝑏^∗ + 𝒇_𝑝^𝑇𝑤^∗

で数えられ、分類精度は、

accuracy = 1 − 𝑔₀ 𝑃

で求まる。また、分類境界は、下記を満たす事例𝒙の集合である。

𝑏^∗ + ෍

𝑚=1 𝑀

𝑓_𝑚 𝒙 𝑤_𝑚^∗ = 0 𝑤^∗ = 𝑤₁^∗ 𝑤₂^∗ ⋯ 𝑤_𝑀^{∗ 𝑇}

• 正しく分類されていれば−1

• 誤分類されていれば+1

(7)

多クラス分類

𝑃個の学習事例 𝒙_𝑝, 𝑦_𝑝

𝑝=1

𝑃 ここで、𝒙_𝑝 = 𝑥_1,𝑝 𝑥_2,𝑝 ⋯ 𝑥_𝑁,𝑝 ^𝑇、 𝑦_𝑝 ∈ 1, 2, ⋯ , 𝐶

𝐶個のクラスのいずれかに属する

（例）手書き数字の認識（深層学習のHello World）

𝒙_𝑝は、0から9の10クラスのどれかに属する → 𝑦_𝑝 ∈ 1, 2, ⋯ , 10

2つの代表的なアプローチを紹介

（第₇回で解説したものを特徴学習に拡張）

• One-versus-All

• 多クラス・ソフトマックス

• クロスエントロピー

（最終的には、多クラス・ソフトマックスと同値になるが、非常に重要なコスト関数）

(8)

One-versus-All (OvA)

1. あるクラスとそれ以外のクラスを識別するための𝐶個のモデルを学習する

• 𝑗番目のクラスの事例に対して𝑦_𝑝 = +1（正例）

• それ以外の事例に対して𝑦_𝑝 = −1（負例）

として、両者を𝑏_𝑗 + 𝒇_𝑝^{𝑗 𝑇}𝒘_𝑗 = 0によって識別するモデル（パラメータ：𝑏_𝑗, 𝒘_𝑗, 𝜣_𝑗）を学習する

（𝒇_𝑝^𝑗 は、𝑗番目のクラスに関する分類を行うときの𝑝番目の事例𝒙_𝑝に対する特徴ベクトルで、クラスごとに、

使用する基底関数の数𝑀_𝑗（つまり、𝒇_𝑝^𝑗 の次元）が違っていてもOK）

2. 下記のフュージョンルールによって、事例𝒙をモデルの出力値が最大のクラスに分類する

（第7回「OvAにおけるフュージョン」参照）

𝑦 = argmax

𝑗=1,⋯,𝐶

𝑏_𝑗 + 𝒇^(𝑗)𝑇𝒘_𝑗

コード 12_OvA_poly.ipynb参照

このクラス単体では分類精度が悪いが、フュージョンすれば、正確な分類が行えているこのクラス単体では分類精度が悪いが、フュージョンすれば、正確な分類が行えている

（𝐶 = 3クラスに対するOvAの例）

(9)

多クラス・ソフトマックス

• OvA：𝐶個のモデルを独立で学習し、後でフージョンした

（特徴ベクトル抽出のためのモデルが𝐶個で、𝐶クラスの分類）

• 多クラス・ソフトマックス： 𝐶個のモデルをフージョンしながら同時に学習する

（特徴ベクトル抽出のためのモデルは₁個で、特徴の組み合わせ方を変えた_𝐶個の線形モデルを学習）

𝑔 𝑏₁, ⋯ , 𝑏_𝐶, 𝒘₁, ⋯ , 𝒘_𝐶, Θ = − ෍

𝑐=1 𝐶

෍

𝑝∈Ω_𝑐

𝑏_𝑐 + 𝒇_𝑝^𝑇𝒘_𝑐 − log ෍

𝑗=1 𝐶

𝑒^𝑏^𝑗^+𝒇^𝑝^𝑇^𝒘^𝑗

導出や勾配計算は、下記のスライドを参照

（𝒙_𝑝が𝒇_𝑝になっただけ）

• 第7回「多クラス・ソフトマックス」

• 第7回「ソフトマックス関数の導入」

• 第7回「多クラス・ソフトマックスの最適化」

コード 12_multi-class_softmax.ipynb参照

(10)

クロスエントロピー：

2

クラスの場合

ログエラーと最小2乗誤差との比較

（点線：𝑦_𝑝 = 1、実線：𝑦_𝑝 =0に対するコスト）

ログエラーの方が大幅に厳しい！

コード 12_cross_entropy.ipynb参照

𝑔_𝑝 𝒘 = ቐ෥ −log 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ ෥𝒙_𝑝がクラス“1”に属する（𝑦_𝑝 = 1）のコストとして使用可能

−log 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ ෥𝒙_𝑝がクラス“0”に属する（𝑦_𝑝 = 0）のコストとして使用可能

𝒘はモデルパラメータ（コンパクト表現）෥

𝑔 ෥𝒘 = 1 𝑃 ෍

𝑝=1 𝑃

𝑔_𝑝 𝒘 = −෥ 1 𝑃෍

𝑝=1 𝑃

𝑦_𝑝log 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ + (1 − 𝑦_𝑝)log 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ これまでは、ラベルを連続値として近似してきたが、分類で扱うラベルは離散値

離散値に特有のコスト関数を考えてみる

クロスエントロピー：モデルの確率出力（の分布）とラベル（の分布：後述のone-hot表現参照）

の一致度に基づくコスト

事例෥𝒙_𝑝 ∈ ℜ^𝑁に対する𝑦_𝑝 ∈ {1,0}に関するログエラー（Log Error）

• ロジスティック回帰の出力𝜎 ෥𝒙_𝑝^𝑇𝒘෥ を、෥𝒙_𝑝がクラス“1”に属すると判定された確率とする（0 ≤ 𝜎(𝑡) ≤ 1）

• 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ は、෥𝒙_𝑝がクラス“0”に属すると判定された確率とみなせる

クロスエントロピー

（コスト関数）

(11)

クロスエントロピーの性質

常に凸（もちろん、線形モデルや固定の基底関数群の場合の場合に限る）

1階微分

2階微分

∇𝑔 ෥𝒘 = −1 𝑃 ෍

𝑝=1 𝑃

𝑦_𝑝 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ ෥𝒙_𝑝

∇²𝑔 ෥𝒘 = 1 𝑃 ෍

𝑝=1 𝑃

𝜎 ෥𝒙_𝑝^𝑇𝒘෥ 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ ෥𝒙_𝑝෥𝒙_𝑝^𝑇

普通に𝑔 ෥𝒘 を微分したら求まる

• 結局、1階微分の𝜎 ෥𝒙_𝑝^𝑇𝒘 ෥෥ 𝒙_𝑝の微分

• 𝜎^′ 𝑥 = σ 𝑥 (1 − σ 𝑥 )を使う

これをレイリー商の形に変形すれば、

固有値が少なくともゼロ以上であることが証明できる → 凸関数

（この一次元データの分類に対する（左）単純なステップ関数、（中）2乗誤差、（右）クロスエントロピーによるコスト関数の視覚化）

コード 12_cross_entropy.ipynb参照

(12)

One-hot

表現を用いたクロスエントロピー

これまでは、ラベルを離散値として扱ってきたが、実際には順序関係がないカテゴリ値

カテゴリ値を用いてもクロスエントロピーは全く同じ（これが実際よく用いられる考え方）

（離散値に関しても、簡単のため1,0を用いたが、値自体は、何でもいい）

ラベルのOne-hot表現：෥𝒙_𝑝が属するクラスに対応する次元に対してのみ“1”をとり、それ以外は“0” 𝑦_𝑝 = 0の事例なら、𝒚_𝑝 = 1

0 𝑦_𝑝 = 1の事例なら、𝒚_𝑝 = 0 1

ラベルを_One-hot表現の“ベクトル”

で表しているのがポイント！

• ラベルはもはや数値ではない

• 次元に意味がある

モデルの出力もベクトルにして、ラベルのOne-hot表現と類似させることを目指す（ベクトル近似）

𝝈_𝑝 = 𝜎 ෥𝒙_𝑝^𝑇𝒘෥

1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ ≈ 𝒚_𝑝 = 𝑦_𝑝,1 𝑦_𝑝,2

この表現から、クロスエントロピーは、

「モデルの確率出力の分布」と「ラベルの分布」

の一致度を検証していることが分かる

𝑔 ෥𝒘 = 1 𝑃 ෍

𝑝=1 𝑃

−𝒚_𝑝^𝑇 log𝝈_𝑝 = −1 𝑃 ෍

𝑝=1 𝑃

𝑦_𝑝,1log 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ + 𝑦_𝑝,2log 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥

まとめると、下記のようなコスト関数になり、離散値のラベルのクロスエントロピーと一致する

• 𝑦_𝑝,1もしくは𝑦_𝑝,2のどちらかが“1”、どちらかが“0”なので、2項とも計算する必要はないコード 12_cross_entropy.ipynb参照

• 𝑦_𝑝,1とlog 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ 、もしくは𝑦_𝑝,2とlog 1 − 𝜎 ෥𝒙_𝑝^𝑇𝒘෥ が一致している程、値が大きくなるのでマイナス倍

(13)

𝐶次元のベクトル 𝒔 = 𝑠₁ 𝑠₂ ⋯ 𝑠_𝐶 ^𝑇が与えられたとき、

（後で、𝐶個のクラスを扱う）

1. 𝒔の各要素の指数をとる 𝑒^𝑠¹ 𝑒^𝑠² ⋯ 𝑒^𝑠^𝐶 ^𝑇 2. 要素の総和が1になるように正規化する 𝝈 𝒔 = 𝜎₁ ⋯ 𝜎_𝑐 ⋯ 𝜎_𝐶 ^𝑇

= 𝑒^𝑠¹

σ_𝑗=1^𝐶 𝑒^𝑠^𝑗 ⋯ 𝑒^𝑠^𝑐

σ_𝑗=1^𝐶 𝑒^𝑠^𝑗 ⋯ 𝑒^𝑠^𝐶 σ_𝑗=1^𝐶 𝑒^𝑠^𝑗

クロスエントロピー：多クラスの場合（

1/3

）

正規化指数関数（𝜎 ∙ :Normalised exponential function）

任意のベクトルを離散的な確率分布に変換する ^• “ソフトマックス関数”とよく呼ばれているが、厳密には間違い（max関数の近似でない）

• ただし、この呼ばれ方がもはや一般化してしまっているため、ニューラルネットの文脈で、“ソフトマックス関数”

と言われれば、“正規化指数関数”だとイメージするように！

1. 非負

2. 順序は保存

上記に加えて、

3. 0 ≤ 𝜎_𝑐 ≤ 1

ゆえに、離散値（カテゴリ値）

に対する確率分布とみなせる！

(14)

2/3

）

𝐶個のクラスに対するモデルの出力

෥

𝒙_𝑝^𝑇𝑾 = ෥෪ 𝒙_𝑝^𝑇 𝒘෥₁ 𝒘෥₂ ⋯ ෥𝒘_𝐶 = ෥𝒙_𝑝^𝑇𝒘෥₁ ෥𝒙_𝑝^𝑇𝒘෥₂ ⋯ ෥𝒙_𝑝^𝑇𝒘෥_𝐶 を正規化指数関数に入れて確率化する。

𝝈 ෥𝒙_𝑝^𝑇෪𝑾 = 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥¹

σ_𝑗=1^𝐶 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥¹ ⋯ 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑐

σ_𝑗=1^𝐶 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑗 ⋯ 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝐶 σ_𝑗=1^𝐶 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑗

モデルによって判定された、

෥𝒙_𝑝が各クラスに属する確率

（確信度）

分類境界からの距離関係を保持しつつ、確率化している

(15)

3/3

）

𝐶クラスに対する෥𝒙_𝑝のOne-hot表現 𝒚_𝑝 = 0 0 ⋯ 1 ⋯ 0 ^𝑇

෥𝒙_𝑝が属するクラス𝑦_𝑝に対応する次元に対してのみ“1”をとり、それ以外は“0” 確率化されたモデルの出力𝝈 ෥𝒙_𝑝^𝑇෪𝑾 が、このクラスでのみ大きくなるように𝑾( ෥෪ 𝒘_{𝑐 𝑐=1}^𝐶 )を最適化する

𝝈 ෥𝒙_𝑝^𝑇𝑾෪ ^𝑇 ≈ 𝒚_𝑝

• 𝜎 ෥𝒙_𝑝^𝑇෪𝑾 を正規化指数関数による確率分布

• 𝒚_𝑝を（1つの事象に極度に偏った）確率分布

とみて、両者の一致度をクロスエントロピーで測る！

𝑔_𝑝 𝑾 = ෍෪

𝑐=1 𝐶

𝑦_𝑝,𝑐 log 𝜎 ෥𝒙_𝑝^𝑇𝒘෥_𝑐 = −log 𝜎 ෥𝒙_𝑝^𝑇𝒘෥_𝑦_𝑝 = −log 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑦𝑝 σ_𝑗=1^𝐶 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑗

𝑔 ෪𝑾 = − 1 𝑃 ෍

𝑝=1 𝑃

log 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑦𝑝

σ_𝑗=1^𝐶 𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑗 = −1 𝑃 ෍

𝑝=1 𝑃

෥

𝒙_𝑝^𝑇𝒘෥_𝑦_𝑝 − log ෍

𝑗=1 𝐶

𝑒^෥^𝒙^𝑝^𝑇^𝒘^෥^𝑗

多クラス・ソフトマックスのコスト関数と同じ！（第₇回「ソフトマックス関数の導入」参照）

（多クラス・ソフトマックス ⇔ 正規化指数（ソフトマックス）関数 + クロスエントロピー）

෥𝒙_𝑝単体に対するコスト

𝑃個の学習事例に対する総合的なコスト

(16)

分類におけるオーバーフィッティング

回帰と同様、基底関数の数を増やして、モデルの表現力を上げると、

❑ 理想的な場合：クラスの領域全体をカバーする大量のクリーンな事例が与えられている

→ 常に、正確な分類が行える（ステップ関数をより正確に近似できる）

❑ 実際の場合：まちまちの箇所しかカバーしないノイジーな限られた事例しか与えられていない

→ 学習事例に対する分類精度は向上するが、未知の事例に対して貧弱（オーバーフィッティング！）

（第10回「オーバーフィッティング」参照）

次数𝐷 = 2（黒：基底関数の数𝑀 = 5）と𝐷 = 5 （緑：𝑀 = 20）による多項式群による分類の比較

（点線は求めるべき分類境界）

(実際) (理想的)

誤ってラベル付けされた事例に反応してしまっている

（個人的に、これは、しょうがいないとも思うが）

誤ってラベル付けされた事例に反応してしまっている

（右の3つのラベルミスは、しょうがいないと思うが）

コード 12_cross_validation.ipynb参照

(17)

ホールドアウト交差検証

回帰のときと同じ（第10回「ホールドアウト交差検証」参照、𝑘の選択指針に関しても同じ）

（入力） 𝑘：“元の学習事例”を何分割するか、候補となる𝑀の集合

1. 元の学習事例をランダムに𝑘分割し、1/𝑘をテスト事例、残りの(𝑘 − 1)/𝑘を学習事例に設定 2. それぞれの𝑀を用いて、モデルを学習・テストして、テスト事例に対する最も精度が高い

（スライド「分類精度とエラー」参照）モデルが学習できた𝑀^∗を選択

3. 選択した𝑀^∗を用いて、“元の学習事例”の全て使用してモデルを学習し、未知の事例に備える

多項式群による2クラス分類で、𝑘 = 3で、候補となる次数𝐷 = 1,2,3,4,5,6,7,8 𝑀 = 2,5,9,14,20,27,35,44に対応から最適な𝐷^∗(𝑀^∗)を選択

“元の学習事例”

• 小さな円が学習事例

• 大きな円がテスト事例

テスト事例に対するエラーが最小の𝑫^∗ = 𝟒(𝑴^∗ = 𝟏𝟒)を選択 𝐷が増えれば、学習事例に対するエラーは常に減っているが、

テスト事例に対するエラーはそうでない！

𝐷^∗ = 4(𝑀^∗ = 14)で全事例を用いて学習したモデル（実線）

コード 12_cross_validation .ipynb参照

(18)

k

重交差検証

これも回帰のときと同じ

（第10回「k重交差検証」、「k重交差検証の例」参照）

（ポイント）“元の学習事例”を𝑘分割して、各分割をテスト事例として、ホールドアウト交差検証を𝑘回繰り返し（各回をfoldと言う）、平均の分類精度が最も高い𝑀^∗を選択する

学習事例、テスト事例への分割の偏りを少なくして、

ロバストに𝑀^∗を選択できる！

1, 2, 3行目が、1, 2, 3回目のfoldにおけるホールドアウト交差検証の結果を表している（塗つぶされている円、

されていない円が、それぞれ学習事例、テスト事例）

多項式群による2クラス分類で、𝑘 = 3重交差検証を行い、

候補次数𝐷 = 1,2,3,4,5,6,7,8 𝑀 = 2,5,9,14,20,27,35,44 から最適な𝐷^∗(𝑀^∗)を選択

1, 2回目のfoldではオーバーフィッティング、3回目のfoldではアンダーフィッティングが発生しているが、3回の平均をとって、

最終的にベストな𝑀^∗ = 14 (𝐷^∗ = 4)を選択できている！

• 青：学習事例に対するエラー（次数の増加に伴い常に減少）

• 黄：テスト事例に対するエラー（次数が増えても減少するとは限らない）

𝑀^∗= 14 (𝐷^∗= 4)、全事例を用いて学習したモデル

(19)

交差検証がうまく行かない場合は・・・

使用しているデータセット（“元の学習事例”）に原因がある！

事例数が少なすぎる

→ 線形分離できてしまっている事例が偏っている事例とラベルに関係性

（構造）がない

（実線が交差検証を経て学習された分類境界、点線が求めるべき境界）

（例）医療系の問題では、多くの事例を収集するのが困難

（例）特定の人種の顔画像しか使用していない

(20)

（補足）

OvA

に対する交差検証

（ポイント）それぞれのサブ問題（あるクラスの事例 vs. その他全ての事例）ごとに、

交差検証を行う

（多クラス・ソフトマックスやクロスエントロピーの場合は解く問題は1つなので、普通に交差検証を適用する）

スライド「One-versus-All (OvA)」では、

一貫して𝐷 = 2 (𝑀 = 5)を用いてたので、うまく分類できていなかった

多項式群による3クラス分類に対する𝑘 = 3重交差検証の結果

𝐷^∗ = 2 (𝑀^∗ = 5)が選択 𝐷^∗ = 4 (𝑀^∗ = 14)が選択 𝐷^∗ = 2 (𝑀^∗ = 5)が選択フュージョン

(21)

分類のための特徴学習の

Tips

• 基底関数の選択指針は、回帰のときと同様（第10回「どの基底関数がいいの？」参照）

• データ量と知識の関係も回帰と同様だが（第10回「特徴学習の使いどころ」参照）、分類では、基底関数（特徴変換）の設計に知識が使われることが多い！

内部パラメータΘを含んだ特徴変換を設計し、𝒃, 𝒘と合わせて最適化する

（次回から）「人間の脳細胞が、画像領域中の特定のエッジパターンに反応する」という知識に基づいてフィルタを定義し、その内部パラメータを最適化する

特徴変換の設計に知識を導入している分、全く知識がないときに比べて、データ量は多少は少なくてもいい

第12,13回 特徴学習

12,13

→

2

4

1

1

One-versus-All (OvA)

2

One-hot

1/3

2/3

3/3

k

OvA

Tips

第12,13回特徴学習