• 検索結果がありません。

線形モデルと最小二乗法

N/A
N/A
Protected

Academic year: 2021

シェア "線形モデルと最小二乗法"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

I

線形モデルと最小二乗法

(2)
(3)

1 章 データ科学と線形モデル

計測技術と情報技術の発展によって様々な分野で大規模データ(ビッグデー タ)を取得できるようになった.データ分析を通して研究開発を行うアプロー チはデータ科学(data science) と呼ばれている.データ科学は実験,理論,

計算(シミュレーション)による科学に次ぐ第

4

の科学と呼ばれ,様々な分 野で有望視されている.データ科学は,統計科学,情報科学,機械学習,人 工知能などの分野と関わりが深い.

本講義では,特に,データ科学において最も重要な基礎となる統計科学を理 論と実践の両面から学ぶ.これまで統計科学は数学の一分野と捉えられ,数 理的な側面が重視されることが多かったが,本講義では実践的な側面と直感 的な理解に重点を置く.統計科学の枠組でデータの背後に潜む現象を解明し,

予測や理解を行うアプローチは統計的モデリング

(statistical modeling)

と呼ばれている.本章では統計的モデリングの基本的な考え方を理解するた め,もっとも基本的なモデルである線形モデル

(linear model)

とその推定 法である最小二乗法

(least-square method)

を学ぶ.

1.1 線形モデル

例えば,ある自動車会社が新車を販売するため広告宣伝費をいくらにすべ きか検討しているとしよう.広告宣伝費を

x

万円

,

販売台数を

y

台とし,

x

y

がどのような関係であるかを捉えることによって販売目標に必要な広告宣 伝費を知ることができる.この課題は原因である

x

を入力,結果である

y

を 出力とする関数関係

y=f(x) (1.1)

を推定する問題として定式化できる.

統計的モデリングでは過去のデータを利用する.自動車販売会社の例題で は,過去に販売した車の広告宣伝費と販売台数のデータが利用できる.例え ば,過去に販売されたの

10

車種のデータが表

1.1

のようであったとしよう.

これら

10

車種それぞれを区別するため,添字

i= 1, . . . ,10

を用い, それぞれ

の広告宣伝費と販売台数を

{(xi, yi)}10i=1

と表記することにしよう.図

1.1

xi

を横軸,y

i

を縦軸にプロットしたものである.モデルを推定するために利

用する過去のデータのことを訓練データ(traning data)と呼ぶ.

(4)

1.1:

広告宣伝費と販売台数のデータ(仮想データ)

番号

(i)

広告宣伝費(x

i

万円) 販売台数(y

i

台)

1 1000 3500

2 2000 4300

3 2500 6300

4 2500 5300

5 3000 7100

6 3300 7200

7 3400 8400

8 4000 9500

9 4400 9200

10 5000 9800

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

1.1:

広告宣伝費と販売台数のプロット(仮想データ)

さて,図

1.1

からどのようなことがわかるであろうか.まず,広告宣伝費

が増えると販売台数が増えることがわかる.また,両者の関係が概ね直線関

係にあることもみてとれる.統計的モデリングでは,まず,モデルのクラス

を決める必要がある.図

1.1

のデータに関しては

x

y

が直線関係であると

(5)

思われることから

y=β0+β1x (1.2)

というクラスを考えるのが適切であろう.

(1.2)

式のように

x

y

を直線関係で表すモデルを線形モデルと呼ぶ.線形

モデルは統計的モデリングにおいて最も基本的なモデルである.次節では,ま ず,過去のデータを用いてどのように線形モデルを推定できるかを考えよう.

1.1.1 線形モデルのパラメータ推定

(1.2)

式の線形モデルには

2

つのパラメータ

β0, β1

が含まれている.過去 のデータを用いて,これらのパラメータを推定するタスクを考えよう.さき ほどの例では過去のデータとして

10

車種を考えたが,一般的な表記として過 去の事例が

n

例あるとしよう.すなわち,我々が利用できる過去のデータは

{(xi, yi)}ni=1

と表される.

(1.2)

式の線形モデルを用いると

i

番目の事例の予測値は

ˆ

yi=β0+β1xi (1.3)

となるので,実測値と予測値の誤差は

εi=yi−yˆi=yi0+β1xi) (1.4)

となる.実測値と予測値の大小関係によって誤差

εi

の値は正にも負にもなる ので,二乗誤差

ε2i = (yi−yˆi)2= (yi0+β1xi))2 (1.5)

を考えることが多い.過去の

n

事例全体に対する二乗誤差の和は

S=

n

i=1

ε2i =

n

i=1

(yi0+β1xi))2 (1.6)

と表される.

1.2

は自動車販売数データに対し,二乗誤差の和

S

を最小にするよう線 形モデルのパラメータ

β0

β1

を推定し,その結果をプロットしたものであ る.二乗誤差の和を最小にするように線形モデルのパラメータ

β0

β1

を推 定することを最小二乗法

(least-square method)

と呼ぶ.

1.2 最小二乗法

この節では最小二乗法を学ぼう.二乗誤差の和

S

を最小にするように線形 モデルのパラメータ

β0

β1

を決める問題は

( ˆβ0ˆ1) = arg min

β01∈R

n

i=1

(yi0+β1xi))2 (1.7)

(6)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

1.2:

広告宣伝費と販売台数の関係を表す線形モデル

と定式化される.(1.7) 式は二変数

β0

β1

に関する二次関数を最小化する問 題である.解

( ˆβ0ˆ1)

(1.7)

式の最小化問題の最適解であるたけの必要十分 条件は

∂S

∂β0

β0= ˆβ0 = 0, (1.8a)

∂S

∂β1

β1= ˆβ1 = 0, (1.8b)

である(このように,最適化問題の最適解が満たすべき条件を最適性条件

(optimality conditions)

と呼ぶ).

(1.8)

式の偏微分を計算して整理すると,

ˆ0+ ( n

i=1

xi

) βˆ1=

n i=1

yi (1.9a)

( n

i=1

xi

) βˆ0+

( n

i=1

x2i )

βˆ1=

n

i=1

xiyi (1.9b)

と整理される(演習問題2).(1.9) 式は

2

つの変数

β0,β1

に関する連立一次 方程式であるため,行列

[

nn

i=1xi

n

i=1xin i=1x2i

]

(1.10)

(7)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

1.3:

線形モデルに基づく予測の例

の逆行列が存在すれば一意に解が定まる.自動車販売データの例に最小二乗 法を適用したところ,

βˆ0= 1468.472,βˆ1= 1.798 (1.11)

と推定された(図

1.3

参照).

線形モデルのパラメータが推定されると,これを予測と理解に利用できる.

入力

x0

に対する予測値は

ˆ

y0= ˆβ0+ ˆβ1x0 (1.12)

と与えられる.例えば,新たな車の広告宣伝費を

3500

万円とすると,約

7761

台の車を販売できるであろうと予測される.また,推定されたパラメータ

βˆ1

の値は,広告費を

1

万円増やすことによる販売台数の増加量を表しており,上 述の例では,広告宣伝費を

1

万円増やすことで,1.798 台分の販売の増加が 見込まれると解釈できる.

最小二乗推定値

βˆ0

βˆ1

の理解を深めるため,以下のような表記を用いて これらを書き直してみよう:

¯ x= 1

n

n i=1

xi,y¯= 1 n

n i=1

yi, (1.13)

(8)

sx= 1 n

n i=1

(xi−x)¯ 2, sy = 1 n

n i=1

(yi−y)¯ 2, (1.14)

sxy= 1 n

n

i=1

(xi−x)(y¯ i−y).¯ (1.15)

ここで,

x, ¯¯ y

はそれぞれ

xi

yi

の(標本)平均,

sx, xy

はそれぞれ

xi

yi

の(標本)分散である.また,s

xy

は(標本)共分散と呼ばれる.以上の表記 を用いると,最小二乗推定値は

βˆ0= ¯y−sxy

sxx,¯ βˆ1=sxy

sx (1.16)

と表される(演習問題

3

).すなわち,線形モデルの傾きを表す

βˆ1

xi

yi

の 共分散を

xi

の分散で割ったものとなっている.また,線形モデル

y=β01x

βˆ0

βˆ1

を代入すると

y−y¯= sxy

sx (x−x)¯ (1.17)

と表され,線形モデルが

x

y

それぞれの平均

x,y)¯

を通ることがわかる.

自動車販売データの場合,

¯

x= 3110,y¯= 7060, sx= 1398778, sy= 4869333, sxy= 2514889 (1.18)

であり,確かにこれらの値を用いて計算しても,

βˆ0= 1468.472, ˆβ1= 1.798

となることが確認できる.

1.3 決定係数と相関係数

過去のデータをもとにフィッティングした線形モデルがいかに有益である のかを定量化できるとよい.そのような指標のひとつとして,決定係数と呼 ばれる指標を学ぼう.

ここでのデータ分析の目的は

yi

を予測することであるので

yi

のバラツキ について考えよう.まず,入力

xi

が与えれらていないときの

yi

のバラツキ は全変動の平方和(total sum of squares)と呼ばれ,

Sall:=

n i=1

(yi−y)¯ 2 (1.19)

と定式化される

1

と定義される.一方,線形回帰モデルを使って得られて予 測値

ˆ

yi= ˆβ0+ ˆβ1xi (1.22)

1自動車販売データの例において広告宣伝費xiを知らずに販売台数yiを予測するイケてな い状況を考えると,

ˆ

yi=β0 (1.20)

(9)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Advertisement

Sales

Sall Sreg Sres

1.4: 3

つの変動の例

y¯

の二乗誤差の和は,回帰変動の平方和(regression sum of squares)

と呼ばれ,

Sreg:=

n i=1

yi−y)¯2 (1.23)

と定義される.また,予測値と実測値の二乗誤差の和は残差変動の平方和

residual sum of squares

)と呼ばれ,

Sres:=

n i=1

(yi−yˆi)2 (1.24)

と定義される.これら

3

つの値は

Sall=Sreg+Sres (1.25)

の関係にあり,y

i

の変動

Sall

が,x

i

を観測することによって説明できる変動

Sreg

とそれでも説明できない誤差に基づく変動

Sres

に分解されると解釈でき る.図

1.4

はこれら

3

つの変動を自動車販売データに対して図示したもので ある.

決定係数

R2

R2:=Sreg

Sall =

n

i=1yi−y)¯ 2

n

i=1(yi−y)¯ 2 = 1−Sres

Sall = 1

n

i=1(yi−yˆi)2

n

i=1(yi−y)¯ 2 (1.26)

と定義される.すなわち,決定係数

R2

yi

の変動のうち,線形モデルによっ て説明できる変動

Sreg

の割合であり,この値が

1

に近いほど,線形モデルが

yi

の予測に有益であることを示唆している.

という定数モデル(constant model)を考えることになる.定数モデルのパラメータβ0の 最小二乗推定値は

βˆ0= arg min

β0∈R

n

i=1

(yiβ0)2= 1 n

n

i=1

yi= ¯y (1.21)

となるので,(1.19)式のSallは定数モデルの最小二乗推定値の二乗誤差の和であると解釈でき る.

(10)

βˆ0= 0.50,βˆ1= 0.50 βˆ0= 0.90,βˆ1=0.75 βˆ0= 0.40,βˆ1= 0.05

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

R2= 0.64, r= 0.80 R2= 0.85, r=0.92 R2= 0.01, r= 0.07

1.5:

線形モデルと相関係数の例

2つの確率変数

x,y

から得られたサンプル

{(xi, yi)}ni=1

の関連を定量化す るための指標として,相関係数と呼ばれるものがあり,以下のように定義さ れる:

r= sxy

√sxsy =

n

i=1(xi−x)(y¯ i−y)¯

n

i=1(xi−x)¯ 2n

i=1(yi−y)¯ 2. (1.27)

相関係数は

1

から

1

の値をとる.相関係数が正であるとき,x と

y

は正の 相関があるといい,x が増えると

y

も増える傾向にあることを示唆している.

逆に相関係数が負であるとき,

x

y

は負の相関があるといい,

x

が増えると

y

が減る傾向にあることを示唆している.(1.26) 式の決定係数と相関係数は

R2=r2 (1.28)

の関係にあり(演習問題

4),x

y

の相関(の二乗)が大きいとき,線形モ デルが

yi

を予測するのに有効であることを示唆している.

1.5

には,3 つのデータセットがプロットされており,線形モデルをあて はめた結果と相関係数の値がプロットされている.また,自動車販売データ の場合,決定係数は

R2= 0.929,相関係数はr= 0.964

となっており,広告 宣伝費の値を知ることで,販売台数のバラツキの

92%

が説明できることを意 味している.

1.4 線形単回帰分析とその発展

これまでに学んだ線形モデル

f(x) =β0+β1x

を最小二乗法により推定す

る問題は線形単回帰分析

(simple linear regression)

と呼ばれている.線

形単回帰分析は最も基本的な統計的データ分析法の一つであり,その性質を

詳しく理解することは統計的モデリングを学ぶうえで重要である.以降の章

では,線形単回帰分析をさまざまな視点から掘り下げて学んでいく.

(11)

1.2

の例にもあるように,通常,x と

y

の関係が完全に線形モデルで表 されるわけでなく,実測値と予測値の間には誤差

εi

が存在する.不確実性を 伴う誤差を系統的に扱うため,誤差の確率分布をモデルに導入したものを統 計モデル

(statistical model)

と呼ぶ.第

2

章では誤差分布の性質と最小二 乗法の関係を明らかにする.また,最小二乗法では誤差の二乗和を最小化す るという規準を用いたが,なぜそのような規準がよいのか,他の規準はない のかといった点も考察する.

本章で学んだ線形単回帰分析では,変数

y

を予測するために

1

つの変数

x

のみを利用したが,より多くの変数を利用して予測する方がよい場合がある.

新車販売台数の例では,広告宣伝費のみを用いていたが,価格や燃費など他 の変数も用いた方がよい予測ができると考えられる.複数の変数を

x1, . . . , xd

と表すと,これらを用いた線形モデルは

f(x1, . . . , xd) =β0+β1x1+. . .+βdxd (1.29)

と表される.このモデルのパラメータ

β0, β1, . . . , βd

を最小二乗法によって求 める問題は線形重回帰分析

(multiple linear regression)

と呼ばれている.

3

章では線形重回帰分析を学ぶ.

統計的モデリングでは過去のデータを利用するが,データそのものに興味 があるのでなくデータの背後に潜む現象を解明することが目的である.統計科 学では,背後に潜む現象のことを母集団

(population)

と呼び,データは母 集団から確率的に得られたサンプルに過ぎないとみなす

2

.したがって,デー タを用いて推定したパラメータ

β0,β1

もデータに潜む確率的な誤差の影響を 受けてしまうと考えなくてはならない.データの背後に潜む母集団に関して 予測・理解をしたい場合には,推定されたモデルパラメータの信頼性を適切 に評価しなくてはならない.データに基づく推定結果の信頼性を評価する枠 組は統計的推測

(statistical inference)

と呼ばれている.第

4

章では線形 モデルの統計的推測を学ぶ.

1.5 演習問題

1.

1.2

のようなデータ

{(xi, yi)}ni=1

が与えられているとする.まず,こ のデータを図

1.1

のようにプロットせよ.続いて,このデータに対する 線形回帰分析を行い,切片

β0

と傾き

β1

を最小二乗法によって推定せ よ(小数点以下第

3

位を四捨五入して小数点以下第

2

位まで求めよ).

最後に求めた直線

y= ˆβ0+ ˆβ1x

を図示せよ.

2. (1.8)

式の線形単回帰分析の最適性条件が

(1.9)

式の連立方程式を解く

問題に帰着されることを示せ.

2実際,統計科学ではデータのことをサンプル(sample)と呼ぶこともある.

(12)

1.2:

演習用データ 番号

(i)

入力(x

i

) 出力(y

i

1 1 1

2 2 3

3 4 2

4 4 4

5 5 3

3.

最小二乗推定値

βˆ0ˆ1

x,¯ y, s¯ x, sy, sxy

を用いて式

(1.13)

のように表 されることを示せ.

4.

決定係数と相関係数の関係が

(1.28)

となることを示せ.

5.

1.2

のデータの決定係数

R2

と相関係数

r

を求めよ.

6.

1.6

のデータは入力

x

と出力

y

が直線関係にないため線形回帰分析 を適用できそうにない.図を観察すると,このデータは正弦曲線によっ てうまくモデル化できそうであるが,本章で習った方法を用いて正弦曲 線のモデルを推定するにはどのようにすればよいか考察せよ(R によ る演習課題).

0.0 0.2 0.4 0.6 0.8 1.0

−2−1012

xx

y

0.0 0.2 0.4 0.6 0.8 1.0

−2−1012

xx

y

1.6:

非線形な入出力関係の例

7.

線形単回帰分析において,訓練データ

{(xi, yi)}ni=1

の入力値がすべて

同じ値をとるとき,一意に最小二乗推定値を求めることができない.そ

の理由がなぜかを説明せよ.

表 1.1: 広告宣伝費と販売台数のデータ(仮想データ) 番号 (i) 広告宣伝費(x i 万円) 販売台数(y i 台) 1 1000 3500 2 2000 4300 3 2500 6300 4 2500 5300 5 3000 7100 6 3300 7200 7 3400 8400 8 4000 9500 9 4400 9200 10 5000 9800 0 1000 2000 3000 4000 5000 6000020004000600080001000012000 AdvertisementS
図 1.4: 3 つの変動の例
表 1.2: 演習用データ 番号 (i) 入力(x i ) 出力(y i ) 1 1 1 2 2 3 3 4 2 4 4 4 5 5 3 3. 最小二乗推定値 β ˆ 0 , β ˆ 1 が x,¯ y, s¯ x , s y , s xy を用いて式 (1.13) のように表 されることを示せ. 4

参照

関連したドキュメント

19 Vector column Data Type: anything Storage: rectangular Order: Fortran_order.. 計算された重み値のベクトルデータを用いて、再び

基礎行列と射影変換の計算精度の比較: 最小二乗法から超精度くりこみ法まで 菅谷 保之†1 金谷 健一†2 2画像間の対応から基礎行列と射影変換を計算するいろいろな手法をまとめ,精度 を実験的に比較する.本論文で考察するのは「最小二乗法」とそれを反復的に改善す る「重み反復法」,「Taubin法」とそれを反復的に改善する「くりこみ法」,「超精度

xeR'-B ならば z。は B

NUMERICAL RECIPES in

周期成分が既定値となっているたあ,われわれは,これ

場合、回帰分析の結果は現実に対応しなくなる可能性があります。潜在データを含めた左下図の回

2 変量データの例 気温とビールの売上 気温と発電所の最大電力 テレビ視聴時間と学力 男性の年収と既婚率 年収と学習費. レポートは Word

樋口さぶろお (数理情報学科) L13 母分散の区間推定と検定・カイ二乗分布 確率統計☆演習 I(2015) 19 /