第3回回帰（線形）

(1)

機械学習

第 3 回回帰（線形）

白浜公章

(2)

前回の復習といくつかのメモ

復習

• コスト関数のテイラー級数近似

• 最適化の 1 階条件

• 凸性

• 最適化手法

o 最急勾配法： 1 階のテイラー級数近似に基づく o ニュートン法： 2 階のテイラー級数近似に基づく

メモ

1. jupyter-notebook で ” IOPub data rate exceeded” というエラーが出たとき

jupyter-notebookで使用するメモリが不足しているで、増やしてやる

• https://aotamasaki.hatenablog.com/entry/2018/04/08/123146

• https://stackoverflow.com/questions/43288550/iopub-data-rate-exceeded-when-viewing-image-in-jupyter-notebook

2. jupyter-notebook

で、

”Code”

モードだけでなく、

”Markdown”

モードも抑えておく

• 簡単にメモ書きができる：https://qiita.com/tbpgr/items/989c6badefff69377da7

• Latexと同じ記法で数式が書ける：https://qiita.com/PlanetMeron/items/63ac58898541cbe81ada

3. jupyter-notebook

で、下準備の部分を

2

回実行すると、インタラクティブモードが

ON

になり、

3

次元の図を動かせる（多分）

4. Safari

でダウンロードすると、コードのファイル名の最後に

”.txt”

が追加される

ことがあるので、そのときは

”.txt”

を削除する

(3)

今日のポイント

回帰問題

事例：（特徴、ラベル（連続値））

特に、下記の 3 項目について学ぶ

• 線形回帰

• 最小 2 乗コスト関数

• 知識に基づく特徴デザイン

今後の講義のベースになるので、

頑張って理解すること！

正確な予測ができるモデルを学習する

株価

歳入

企業の歳入から株価を予測

遺伝子マーカーの値から、血圧やグルコースレベルを推定

非雇用率、教育レベル、人口、面積等から、GDPを推定

(4)

線形回帰（ Linear Regression ）とは？（ 1/2 ）

❑ 事例（特徴（ feature ）、ラベル（ label 、連続値））の定義

• 𝑃 個の学習データ： 𝒙

₁

, 𝑦

₁

, 𝒙

₂

, 𝑦

₂

, ⋯ 𝒙

_𝑃

, 𝑦

_𝑃

• 𝑝 番目の学習事例： 𝒙

_𝑝

, 𝑦

_𝑝

𝑃 個の学習データを解析して、 𝒙

_𝑝

から 𝑦

_𝑝

を正確に予測可能なモデルを学習する

➢ 𝒙

_𝑝

が 1 次元の場合

スカラーなので

𝒙_𝑝 = 𝑥_𝑝

2

次元空間（

𝑥_𝑝

と

𝑦_𝑝

）内でデータを近似する直線を求める

➢ 𝒙

_𝑝

が 𝑁 次元の場合

𝒙_𝑝 = 𝑥_1,𝑝 𝑥_2,𝑝 ⋯ 𝑥_𝑁,𝑝 ^𝑇

𝑁 + 1

次元空間（

𝒙_𝑝

と

𝑦_𝑝

）内でデータを近似する超平面を求める

• 企業の歳入からの株価予測 • 遺伝子マーカーからのグルコースレベル/血圧予測

• 非雇用率、教育レベル、人口、面積等からのGDP予測

(5)

線形回帰（ Linear Regression ）とは？（ 2/2 ）

➢ 𝒙

_𝑝

が 1 次元の場合

スカラーなので

𝒙_𝑝 = 𝑥_𝑝

2

次元空間（

𝑥_𝑝

と

𝑦_𝑝

）内でデータを近似する直線を求める

➢ 𝒙

_𝑝

が 𝑁 次元の場合

𝒙_𝑝 = 𝑥_1,𝑝 𝑥_2,𝑝 ⋯ 𝑥_𝑁,𝑝 ^𝑇

𝑁 + 1

次元空間（

𝒙_𝑝

と

𝑦_𝑝

）内でデータを近似する超平面を求める

𝑏 + 𝑥_𝑝𝑤 ≈ 𝑦_𝑝 𝑏 + 𝒙_𝑝^𝑇𝒘 ≈ 𝑦_𝑝 𝒘 = 𝑤₁ 𝑤₂ ⋯ 𝑤_𝑁 ^𝑇

学習データに対して、最も正確な予測ができるモデルパラメータを探索する

バイアス（Bias、切片）重みベクトル（Weight vector、傾き）

(6)

パラメータ

(𝑏, 𝒘)

のモデルがあるとき、各学習事例ごとに、予測値

𝑏 + 𝒙_𝑝𝒘

と実際のラベル

𝑦_𝑝

との

2

乗誤差を算出し足し合わせる

𝑔 𝑏, 𝒘 = ෍

𝑝=1 𝑃

𝑏 + 𝒙_𝑝^𝑇𝒘 − 𝑦_𝑝 ²

𝑔 𝑏, 𝒘

を最小化するパラメータ

𝑏^∗, 𝒘^∗ = argmin 𝑔(𝑏, 𝒘)

を求める！

最小 2 乗コスト関数

（ Least Squares Cost Function ）

どれだけ学習データにフィット

しているか

前回の数値最適化手法の出番！

特に、 𝑔 𝑏, 𝒘 は凸関数

𝑔 𝑏, 𝒘 の2階微分は、下記のようになる

∇²𝑔 𝑏, 𝒘 = 2𝑿^𝑇𝑿 この形は半正定値

𝑿 =

1 1

𝑥_1,1 𝑥_1,2 ⋯ 1 𝑥_1,𝑃

⋮ ⋱ ⋮

𝑥_𝑁,1 𝑥_𝑁,2 ⋯ 𝑥_𝑁,𝑃

各事例のN次元特徴、プラス1を列方向に並べたもの（次のスライド）

このデータの直線モデル（線形モデル）に対するコスト関数

(7)

線形回帰における最小 2 乗コスト関数の最適化

𝑔 𝑏, 𝒘 = ෍

𝑝=1 𝑃

𝑏 + 𝒙_𝑝𝒘 − 𝑦_𝑝 ²

ここで、

𝒙_𝑝 = 𝑥_1,𝑝 𝑥_2,𝑝 ⋯ 𝑥_𝑁,𝑝 ^𝑇 𝒘 = 𝑤₁ 𝑤₂ ⋯ 𝑤_𝑁 ^𝑇

𝑔 ෥𝒘 = ෍

𝑝=1 𝑃

𝒙෥_𝑝^𝑇𝒘 − 𝑦෥ _𝑝 ²

ここで、

෥

𝒙_𝑝 = 1 𝑥_1,𝑝 𝑥_2,𝑝 ⋯ 𝑥_𝑁,𝑝 ^𝑇

෥

𝒘 = 𝑏 𝑤₁ 𝑤₂ ⋯ 𝑤_𝑁 ^𝑇

• 𝒙_𝑝の先頭に₁

• 𝒘の先頭に_𝑏

を加えて、内積だけで必要な計算が終わるようにする

∇𝑔 ෥𝒘 = 2 ෍

𝑝=1 𝑃

෥𝒙_𝑝 ෥𝒙_𝑝^𝑇𝒘 − 𝑦෥ _𝑝 = 2 ෍

𝑝=1 𝑃

෥𝒙_𝑝෥𝒙_𝑝^𝑇 𝒘 − 2 ෍෥

𝑝=1 𝑃

෥𝒙_𝑝𝑦_𝑝

この 1 階微分を用いて最急勾配法（または、 2 階微分を用いてニュートン法）

コード 3_linear_regression.ipynb参照

（線形回帰においては、下記のような最適化も可能！）

• 線型方程式ソルバを用いて、最適化の1階条件∇𝑔 ෥𝒘 = 0を直接解く（実際、一番効率的）

෍

𝑝=1 𝑃

෥𝒙_𝑝෥𝒙_𝑝^𝑇 𝒘 = ෍෥

𝑝=1 𝑃

෥𝒙_𝑝𝑦_𝑝 𝑿෩෩𝑿^𝑻𝒘 = ෩෥ 𝑿𝒚

• ∇𝑔 ෥𝒘 = 0に対して、逆行列もしくは、疑似逆行列を求めて、以下のように解く

෥

𝒘 = ෍

𝑝=1 𝑃

෥ 𝒙_𝑝෥𝒙_𝑝^𝑇

−1

෍

𝑝=1 𝑃

෥ 𝒙_𝑝𝑦_𝑝

• 𝑿は෥෩ 𝒙_𝑝を列方向に並べた行列（𝑁 × 𝑃）

• 𝒚は𝑦_𝑝を縦に並べた列ベクトル（𝑃 × 1）

(8)

学習した線形回帰モデルのテスト

最適パラメータが、 𝒘 ෥

^∗

= 𝑏

^∗

𝒘

^{∗ 𝑇}

として求まったとして、モデルの性能を評価したい

（ここで、𝒘^∗ = 𝑤₁^∗ 𝑤₂^∗ ⋯ 𝑤_𝑁^{∗ 𝑇}）

代表的な評価尺度として、テスト事例に対する平均 2 乗誤差（ MSE: Mean Squared Error ）

• 𝑄個のテストデータ： 𝒙_𝑡1, 𝑦_𝑡1 , 𝒙_𝒕2, 𝑦_𝑡2 , ⋯ 𝒙_𝑡𝑄, 𝑦_𝑡𝑄

• 𝑞番目の学習事例： 𝒙_𝑡𝑞, 𝑦_𝑡𝑞 𝒙_𝒕𝒒 = 𝑥_1,𝑡𝑞 𝑥_2,𝑡𝑞 ⋯ 𝑥_{𝑁,𝑡𝑞} ^𝑇

MSE = ෍

𝑞=1 𝑄

𝑏

^∗

+ 𝒙

_𝒕𝑞^𝑇

𝒘

^∗

− 𝑦

_𝑡𝑞 ²

学習で使用していないテスト事例に対してどれだけにフィットしているか？

モデルの汎化性能（ Generalisation power ）超重要！

もちろん、学習事例に対してもMSEを計算できる。

モデルが学習事例にうまくフィットしていたら、

MSEはかなり小さいはず。

当たり前だが、

（学習事例に対するMSE）<（テスト事例に対するMSE）

この差がいかに小さいかが汎化性能

(9)

知識に基づく特徴デザイン

変換後の特徴空間で線形回帰

多くの場合、特徴とラベルの関係は非線形（直線や超平面はうまく近似できない）

もしデータに対して深い知識があれば、特徴を変換し、高精度な近似を行えることがある

（元の特徴空間）（変換後の特徴空間）

特徴変換

𝑥_𝑝 → 𝑓 𝑥_𝑝 = sin(2𝜋𝑥_𝑝)

必要であれば、元の特徴空間に逆変換できる 𝑓 𝑥 → 𝑥 = 1

2𝜋sin⁻¹(𝑓 𝑥 )

（学習するモデル）

𝑏 + 𝑓(𝑥_𝑝)𝑤 = 𝑏 + sin(2𝜋𝑥_𝑝) ≈ 𝑦_𝑝

（コスト関数）

minimize

𝑏,𝑤 𝑔(𝑏, 𝑤)

= minimize

𝑏,𝑤 ෍

𝑝=1 𝑃

𝑏 + 𝑓_𝑝𝑤 − 𝑦_𝑝 ²

（変換後の空間での最適化）

෨𝒇_𝑝 = 1 𝑓_𝑝 ^𝑇, 𝒘 = 𝑏 𝑤෥ ₁ ^𝑇 として、

𝑔 ෥𝒘 = ෍

𝑝=1 𝑃

෨𝒇_𝑝^𝑇𝒘 − 𝑦෥ _𝑝 ²

となり、これまでと同じ

コード3_feature_engineering.ipynb参照

(10)

特徴デザインの難しさ

ここまでで“いい特徴（変換）”とは、

•

変換後の特徴空間中で高精度な線形回帰ができる

•

上記により、元の特徴空間での非線形回帰が実現できている

残念ながら、

こんなことは非常に稀

このデータを、

𝑓 𝑥 = 𝑒^3𝑥sin(3𝜋² 𝑥 − 0.5 ) 3𝜋²(𝑥 − 0.5)

と変換すれば、線形回帰できるなんて、誰が分かる？？？

元の特徴が1, 2次元ならデータを視覚的に見て、有効そうな特徴（変換）を検討づけられるかも知れないが、実際に扱うデータの特徴は100次元以上で視覚化不可能！

（画像処理なら数千次元、テキスト処理なら数十万次元はザラ）

第3回 回帰（線形）

機械学習