線形モデルと最小二乗法

(1)

第 I ^部

線形モデルと最小二乗法

(2)

(3)

第 1 章データ科学と線形モデル

計測技術と情報技術の発展によって様々な分野で大規模データ（ビッグデータ）を取得できるようになった．データ分析を通して研究開発を行うアプローチはデータ科学（data science) と呼ばれている．データ科学は実験，理論，

計算（シミュレーション）による科学に次ぐ第

4

の科学と呼ばれ，様々な分野で有望視されている．データ科学は，統計科学，情報科学，機械学習，人工知能などの分野と関わりが深い．

本講義では，特に，データ科学において最も重要な基礎となる統計科学を理論と実践の両面から学ぶ．これまで統計科学は数学の一分野と捉えられ，数理的な側面が重視されることが多かったが，本講義では実践的な側面と直感的な理解に重点を置く．統計科学の枠組でデータの背後に潜む現象を解明し，

予測や理解を行うアプローチは統計的モデリング

(statistical modeling)

と呼ばれている．本章では統計的モデリングの基本的な考え方を理解するため，もっとも基本的なモデルである線形モデル

(linear model)

とその推定法である最小二乗法

(least-square method)

を学ぶ．

1.1 線形モデル

例えば，ある自動車会社が新車を販売するため広告宣伝費をいくらにすべきか検討しているとしよう．広告宣伝費を

x

万円

,

販売台数を

y

台とし，

x

と

y

がどのような関係であるかを捉えることによって販売目標に必要な広告宣伝費を知ることができる．この課題は原因である

x

を入力，結果である

y

を出力とする関数関係

y=f(x) (1.1)

を推定する問題として定式化できる．

統計的モデリングでは過去のデータを利用する．自動車販売会社の例題では，過去に販売した車の広告宣伝費と販売台数のデータが利用できる．例えば，過去に販売されたの

10

車種のデータが表

1.1

のようであったとしよう．

これら

10

車種それぞれを区別するため，添字

i= 1, . . . ,10

を用い, それぞれ

の広告宣伝費と販売台数を

{(xi, yi)}¹⁰i=1

と表記することにしよう．図

1.1

は

xi

を横軸，y

_i

を縦軸にプロットしたものである．モデルを推定するために利

用する過去のデータのことを訓練データ（traning data）と呼ぶ．

(4)

表

1.1:

広告宣伝費と販売台数のデータ（仮想データ）

番号

(i)

広告宣伝費（x

_i

万円）販売台数（y

_i

台）

1 1000 3500

2 2000 4300

3 2500 6300

4 2500 5300

5 3000 7100

6 3300 7200

7 3400 8400

8 4000 9500

9 4400 9200

10 5000 9800

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

図

1.1:

広告宣伝費と販売台数のプロット（仮想データ）

さて，図

1.1

からどのようなことがわかるであろうか．まず，広告宣伝費

が増えると販売台数が増えることがわかる．また，両者の関係が概ね直線関

係にあることもみてとれる．統計的モデリングでは，まず，モデルのクラス

を決める必要がある．図

1.1

のデータに関しては

x

と

y

が直線関係であると

(5)

思われることから

y=β₀+β₁x (1.2)

というクラスを考えるのが適切であろう．

(1.2)

式のように

x

と

y

を直線関係で表すモデルを線形モデルと呼ぶ．線形

モデルは統計的モデリングにおいて最も基本的なモデルである．次節では，まず，過去のデータを用いてどのように線形モデルを推定できるかを考えよう．

1.1.1 線形モデルのパラメータ推定

(1.2)

式の線形モデルには

2

つのパラメータ

β0, β1

が含まれている．過去のデータを用いて，これらのパラメータを推定するタスクを考えよう．さきほどの例では過去のデータとして

10

車種を考えたが，一般的な表記として過去の事例が

n

例あるとしよう．すなわち，我々が利用できる過去のデータは

{(x_i, y_i)}ⁿi=1

と表される．

(1.2)

式の線形モデルを用いると

i

番目の事例の予測値は

ˆ

y_i=β₀+β₁x_i (1.3)

となるので，実測値と予測値の誤差は

εi=yi−yˆi=yi−(β0+β1xi) (1.4)

となる．実測値と予測値の大小関係によって誤差

ε_i

の値は正にも負にもなるので，二乗誤差

ε²_i = (y_i−yˆ_i)²= (y_i−(β₀+β₁x_i))² (1.5)

を考えることが多い．過去の

n

事例全体に対する二乗誤差の和は

S=

∑n

i=1

ε²_i =

∑n

i=1

(yi−(β0+β1xi))² (1.6)

と表される．

図

1.2

は自動車販売数データに対し，二乗誤差の和

S

を最小にするよう線形モデルのパラメータ

β₀

と

β₁

を推定し，その結果をプロットしたものである．二乗誤差の和を最小にするように線形モデルのパラメータ

β0

と

β1

を推定することを最小二乗法

(least-square method)

と呼ぶ．

1.2 最小二乗法

この節では最小二乗法を学ぼう．二乗誤差の和

S

を最小にするように線形モデルのパラメータ

β0

と

β1

を決める問題は

( ˆβ0,βˆ1) = arg min

β0,β1∈R

∑n

i=1

(yi−(β0+β1xi))² (1.7)

(6)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

図

1.2:

広告宣伝費と販売台数の関係を表す線形モデル

と定式化される．(1.7) 式は二変数

β₀

と

β₁

に関する二次関数を最小化する問題である．解

( ˆβ0,βˆ1)

が

(1.7)

式の最小化問題の最適解であるたけの必要十分条件は

∂S

∂β0

β₀= ˆβ₀ = 0, (1.8a)

∂S

∂β₁

β₁= ˆβ₁ = 0, (1.8b)

である（このように，最適化問題の最適解が満たすべき条件を最適性条件

(optimality conditions)

と呼ぶ）．

(1.8)

式の偏微分を計算して整理すると，

nβˆ0+ ( _n

∑

i=1

xi

) βˆ1=

∑n i=1

yi (1.9a)

( _n

∑

i=1

xi

) βˆ0+

( _n

∑

i=1

x²_i )

βˆ1=

∑n

i=1

xiyi (1.9b)

と整理される（演習問題２）．(1.9) 式は

2

つの変数

β₀,β₁

に関する連立一次方程式であるため，行列

[

n ∑n

i=1xi

∑n

i=1x_i ∑n i=1x²_i

]

(1.10)

(7)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

図

1.3:

線形モデルに基づく予測の例

の逆行列が存在すれば一意に解が定まる．自動車販売データの例に最小二乗法を適用したところ，

βˆ0= 1468.472,βˆ1= 1.798 (1.11)

と推定された（図

1.3

参照）．

線形モデルのパラメータが推定されると，これを予測と理解に利用できる．

入力

x0

に対する予測値は

ˆ

y₀= ˆβ₀+ ˆβ₁x₀ (1.12)

と与えられる．例えば，新たな車の広告宣伝費を

3500

万円とすると，約

7761

台の車を販売できるであろうと予測される．また，推定されたパラメータ

βˆ1

の値は，広告費を

1

万円増やすことによる販売台数の増加量を表しており，上述の例では，広告宣伝費を

1

万円増やすことで，1.798 台分の販売の増加が見込まれると解釈できる．

最小二乗推定値

βˆ0

と

βˆ1

の理解を深めるため，以下のような表記を用いてこれらを書き直してみよう:

¯ x= 1

n

∑n i=1

x_i,y¯= 1 n

∑n i=1

y_i, (1.13)

(8)

sx= 1 n

∑n i=1

(xi−x)¯ ², sy = 1 n

∑n i=1

(yi−y)¯ ², (1.14)

sxy= 1 n

∑n

i=1

(xi−x)(y¯ i−y).¯ (1.15)

ここで，

x, ¯¯ y

はそれぞれ

xi

と

yi

の（標本）平均，

sx, xy

はそれぞれ

xi

と

yi

の（標本）分散である．また，s

_xy

は（標本）共分散と呼ばれる．以上の表記を用いると，最小二乗推定値は

βˆ0= ¯y−sxy

s_xx,¯ βˆ1=sxy

s_x (1.16)

と表される（演習問題

3

）．すなわち，線形モデルの傾きを表す

βˆ1

は

xi

と

yi

の共分散を

xi

の分散で割ったものとなっている．また，線形モデル

y=β0+β1x

に

βˆ0

と

βˆ1

を代入すると

y−y¯= sxy

s_x (x−x)¯ (1.17)

と表され，線形モデルが

x

と

y

それぞれの平均

(¯x,y)¯

を通ることがわかる．

自動車販売データの場合，

¯

x= 3110,y¯= 7060, s_x= 1398778, s_y= 4869333, s_xy= 2514889 (1.18)

であり，確かにこれらの値を用いて計算しても，

βˆ0= 1468.472, ˆβ1= 1.798

となることが確認できる．

1.3 決定係数と相関係数

過去のデータをもとにフィッティングした線形モデルがいかに有益であるのかを定量化できるとよい．そのような指標のひとつとして，決定係数と呼ばれる指標を学ぼう．

ここでのデータ分析の目的は

y_i

を予測することであるので

y_i

のバラツキについて考えよう．まず，入力

xi

が与えれらていないときの

yi

のバラツキは全変動の平方和（total sum of squares）と呼ばれ，

Sall:=

∑n i=1

(yi−y)¯ ² (1.19)

と定式化される

¹

と定義される．一方，線形回帰モデルを使って得られて予測値

ˆ

yi= ˆβ0+ ˆβ1xi (1.22)

1自動車販売データの例において広告宣伝費xiを知らずに販売台数yiを予測するイケてない状況を考えると，

ˆ

yi=β0 (1.20)

(9)

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

0 1000 2000 3000 4000 5000 6000

020004000600080001000012000

Sales

Sall Sreg Sres

図

1.4: 3

つの変動の例

と

y¯

の二乗誤差の和は，回帰変動の平方和（regression sum of squares）

と呼ばれ，

S_reg:=

∑n i=1

(ˆy_i−y)¯² (1.23)

と定義される．また，予測値と実測値の二乗誤差の和は残差変動の平方和

（

residual sum of squares

）と呼ばれ，

S_res:=

∑n i=1

(y_i−yˆ_i)² (1.24)

と定義される．これら

3

つの値は

Sall=Sreg+Sres (1.25)

の関係にあり，y

_i

の変動

Sall

が，x

_i

を観測することによって説明できる変動

S_reg

とそれでも説明できない誤差に基づく変動

S_res

に分解されると解釈できる．図

1.4

はこれら

3

つの変動を自動車販売データに対して図示したものである．

決定係数

R²

は

R²:=Sreg

S_all =

∑n

i=1(ˆyi−y)¯ ²

∑n

i=1(y_i−y)¯ ² = 1−Sres

S_all = 1−

∑n

i=1(yi−yˆi)²

∑n

i=1(y_i−y)¯ ² (1.26)

と定義される．すなわち，決定係数

R²

は

yi

の変動のうち，線形モデルによって説明できる変動

Sreg

の割合であり，この値が

1

に近いほど，線形モデルが

yi

の予測に有益であることを示唆している．

という定数モデル（constant model）を考えることになる．定数モデルのパラメータβ0の最小二乗推定値は

βˆ0= arg min

β₀∈R

∑n

i=1

(yi−β0)²= 1 n

∑n

i=1

yi= ¯y (1.21)

となるので，(1.19)式のSallは定数モデルの最小二乗推定値の二乗誤差の和であると解釈できる．

(10)

βˆ0= 0.50,βˆ1= 0.50 βˆ0= 0.90,βˆ1=−0.75 βˆ0= 0.40,βˆ1= 0.05

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

x

y

R²= 0.64, r= 0.80 R²= 0.85, r=−0.92 R²= 0.01, r= 0.07

図

1.5:

線形モデルと相関係数の例

２つの確率変数

x,y

から得られたサンプル

{(xi, yi)}ⁿi=1

の関連を定量化するための指標として，相関係数と呼ばれるものがあり，以下のように定義される：

r= sxy

√s_xs_y =

∑n

i=1(xi−x)(y¯ i−y)¯

∑n

i=1(x_i−x)¯ ²∑n

i=1(y_i−y)¯ ². (1.27)

相関係数は

−1

から

1

の値をとる．相関係数が正であるとき，x と

y

は正の相関があるといい，x が増えると

y

も増える傾向にあることを示唆している．

逆に相関係数が負であるとき，

x

と

y

は負の相関があるといい，

x

が増えると

y

が減る傾向にあることを示唆している．(1.26) 式の決定係数と相関係数は

R²=r² (1.28)

の関係にあり（演習問題

4），x

と

y

の相関（の二乗）が大きいとき，線形モデルが

yi

を予測するのに有効であることを示唆している．

図

1.5

には，3 つのデータセットがプロットされており，線形モデルをあてはめた結果と相関係数の値がプロットされている．また，自動車販売データの場合，決定係数は

R²= 0.929，相関係数はr= 0.964

となっており，広告宣伝費の値を知ることで，販売台数のバラツキの

92%

が説明できることを意味している．

1.4 線形単回帰分析とその発展

これまでに学んだ線形モデル

f(x) =β₀+β₁x

を最小二乗法により推定す

る問題は線形単回帰分析

(simple linear regression)

と呼ばれている．線

形単回帰分析は最も基本的な統計的データ分析法の一つであり，その性質を

詳しく理解することは統計的モデリングを学ぶうえで重要である．以降の章

では，線形単回帰分析をさまざまな視点から掘り下げて学んでいく．

(11)

図

1.2

の例にもあるように，通常，x と

y

の関係が完全に線形モデルで表されるわけでなく，実測値と予測値の間には誤差

ε_i

が存在する．不確実性を伴う誤差を系統的に扱うため，誤差の確率分布をモデルに導入したものを統計モデル

(statistical model)

と呼ぶ．第

2

章では誤差分布の性質と最小二乗法の関係を明らかにする．また，最小二乗法では誤差の二乗和を最小化するという規準を用いたが，なぜそのような規準がよいのか，他の規準はないのかといった点も考察する．

本章で学んだ線形単回帰分析では，変数

y

を予測するために

1

つの変数

x

のみを利用したが，より多くの変数を利用して予測する方がよい場合がある．

新車販売台数の例では，広告宣伝費のみを用いていたが，価格や燃費など他の変数も用いた方がよい予測ができると考えられる．複数の変数を

x₁, . . . , x_d

と表すと，これらを用いた線形モデルは

f(x1, . . . , xd) =β0+β1x1+. . .+βdxd (1.29)

と表される．このモデルのパラメータ

β₀, β₁, . . . , β_d

を最小二乗法によって求める問題は線形重回帰分析

(multiple linear regression)

と呼ばれている．

第

3

章では線形重回帰分析を学ぶ．

統計的モデリングでは過去のデータを利用するが，データそのものに興味があるのでなくデータの背後に潜む現象を解明することが目的である．統計科学では，背後に潜む現象のことを母集団

(population)

と呼び，データは母集団から確率的に得られたサンプルに過ぎないとみなす

²

．したがって，データを用いて推定したパラメータ

β₀,β₁

もデータに潜む確率的な誤差の影響を受けてしまうと考えなくてはならない．データの背後に潜む母集団に関して予測・理解をしたい場合には，推定されたモデルパラメータの信頼性を適切に評価しなくてはならない．データに基づく推定結果の信頼性を評価する枠組は統計的推測

(statistical inference)

と呼ばれている．第

4

章では線形モデルの統計的推測を学ぶ．

1.5 ^演習問題

1.

表

1.2

のようなデータ

{(xi, yi)}ⁿi=1

が与えられているとする．まず，このデータを図

1.1

のようにプロットせよ．続いて，このデータに対する線形回帰分析を行い，切片

β0

と傾き

β1

を最小二乗法によって推定せよ（小数点以下第

3

位を四捨五入して小数点以下第

2

位まで求めよ）．

最後に求めた直線

y= ˆβ0+ ˆβ1x

を図示せよ．

2. (1.8)

式の線形単回帰分析の最適性条件が

(1.9)

式の連立方程式を解く

問題に帰着されることを示せ．

2実際，統計科学ではデータのことをサンプル(sample)と呼ぶこともある．

(12)

表

1.2:

演習用データ番号

(i)

入力（x

_i

）出力（y

_i

）

1 1 1

2 2 3

3 4 2

4 4 4

5 5 3

3.

最小二乗推定値

βˆ0,βˆ1

が

x,¯ y, s¯ x, sy, sxy

を用いて式

(1.13)

のように表されることを示せ．

4.

決定係数と相関係数の関係が

(1.28)

となることを示せ．

5.

表

1.2

のデータの決定係数

R²

と相関係数

r

を求めよ．

6.

図

1.6

のデータは入力

x

と出力

y

が直線関係にないため線形回帰分析を適用できそうにない．図を観察すると，このデータは正弦曲線によってうまくモデル化できそうであるが，本章で習った方法を用いて正弦曲線のモデルを推定するにはどのようにすればよいか考察せよ（R による演習課題）．

0.0 0.2 0.4 0.6 0.8 1.0

−2−1012

xx

y

0.0 0.2 0.4 0.6 0.8 1.0

−2−1012

xx

y

図

1.6:

非線形な入出力関係の例

7.

線形単回帰分析において，訓練データ

{(xi, yi)}ⁿi=1

線形モデルと最小二乗法

第 I 部