回帰分析単回帰

(1)

回帰分析

単回帰

(2)

単回帰モデル

simple regression model

• y

– 従属変数 (dependent variable)

– 被説明変数(explained variable)

• x

– 独立変数 (independent variable)

– 説明変数 (explanatory variable)

• u

– 誤差項 (error term)

– 撹乱項 (disturbance term)

– 他の要因，観察されない変数の影響，yの測定誤差

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

(3)

x

y

左のようなモデルを仮定し，

現実に観察されたデータから，

パラメータ

a，bを推計する

直線を当てはめる

推計された

a，b当てはめ

られた直線の切片と傾き

傾き

xが1単位増加したと

きyは何単位増加するか

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

(4)

重回帰モデル

multiple regression model

• 説明変数が2個以上

u

x

y



a



b

₁ ₁



b

₂ ₂







b

_k _k



i i

x

y





b

他の説明変数を一定に保っておいて，

_x

i

だけを1単位増加させたときに y が何

単位増えるか

他の要因をコントロールした x

_i

固有の

影響

(5)

単回帰モデルにおける仮定

i i i

x

u

y



a



b



1. 線型モデル（パラメータに関し）

2. 誤差項の期待値は0

3. 誤差項は互いに独立

4. 誤差項の分散は一定（分散均一性）

5. 誤差項は正規分布に従う

– BLUEの成立のためにはこの条件は不要

(6)

最小二乗法

• 残差平方和を最小にするようにパラメータを決定

– a,b: 未知パラメータ a,b の推定値

– e: 残差

0 ,

0 







b

S

a

S







 





n i i i n i i

y

a

bx

e

b

a

S

1 2 1 2

)

,

(

1階の条件

2本の方程式からa,bを

決定する

(7)

最小二乗推定量

x

b

y

a

y

x

S

b

n i i i xx xx xy











1

)

(

1 











n i i

e

n

RSS

n

s

1 2 2

2

1

2

1 最小二乗推定量はBLUE (Best Linear Unbiased Estimator)という望ましい

性質を持っている

誤差項の分散の推定量

n-2の2は説明変数の個数（定数項とx）

(8)

Eviewsでの回帰分析

メニューから Quick/Estimate Equation  下の画面が表れる被説明変数，説明変数をスペースで区切って並べる。 c は定数項 (constant term) 最小二乗法の指定（他にも推定方法の optionあり）分析に用いるサンプルを指定することもできる

(9)

Rでの回帰分析

• データのimport, load

– ここではwage1.csvを用いる

– データ・フレーム wage1 にimport されているとして

--->attach(wage1)

> wage1.lm <- lm(wage ~ educ)

> summary(wage1.lm)

---• attach(wage1)でwage1データセット内の変数に直接アクセ

スできるようにする

• lm( y~ x1 + x2 + x3 ) 回帰分析

• wage1.lm に回帰分析の結果を代入し，summary( ) で結果

の要約を表示

(10)

仮説の検定

 

0 ,

1 ~

2

N

S

b

xx



b





2 

~

)

.(

.

2 0 0





n

t

S

s

b

e

s

b

xx

b

H

₀

: b=b

₀

n−2 : 2は説明変数の個数（定数項とx）

(11)

当てはまりの良さ

• TSS=ESS+RSS

• 決定係数

– 0から1の間の値

– 1に近いほど当てはまりが良いことを表す

TSS

RSS

TSS

ESS

R

2



1 

(12)

回帰係数

(13)

wage と educ の散布図

0 5 10 15 20 25 30 0 4 8 12 16 20 EDUC W A G E

(14)

残差のプロット

Eviewsではresidという変数に直前の回帰分析の残差が保存される残差を検討することで回帰分析の前提（分散均一性）が満たされているかどうかチェックするグラフをみる限り，分散の均一性の前提が満たされていないようである 教育年数の増加とも分散が大きくなっている残差を後の分析でも使いたい場合は新しい変数に residを代入して保存する -8 -4 0 4 8 12 16 20 0 4 8 12 16 20 EDUC R E S ID

(15)

-8 -4 0 4 8 12 16 20 -2 0 2 4 6 8 10 WAGEHAT R E S ID

残差と被説明変数wageの推定値(wagehat)の関係

• 重回帰の場合には，被説明変数の

推定値と残差の関係を調べる(単

回帰の場合は前のページと同じ結

果)

• wagehatの求め方

genr新しい変数を次のよ

うに作成

wagehat= @coefs(1)+@coefs(2)*

educ

または

(16)

Rでの回帰分析

> summary(wage1.lm) Call:

lm(formula = wage ~ educ) Residuals:

Min 1Q Median 3Q Max -5.3396 -2.1501 -0.9674 1.1921 16.6085 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.90485 0.68497 -1.321 0.187 educ 0.54136 0.05325 10.167 <2e-16 ***

---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.378 on 524 degrees of freedom

Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632 F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16

係数の推定値，標準誤差，t値, p値が出力される

(17)

Rでの回帰分析

回帰分析の結果はsummary(object)で取り出せたが，他の情報も取り出せる summary(object) 回帰分析の結果のようやく coef(object) 係数の推定値 resid(object) 残差 fitted(object) 回帰モデルの推定値 deviance(object) 残差平方和 plot(object) 残差のチェックのためのグラフ confint(object) 係数の信頼区間 ---コマンドラインで，coefficients(wage1.lm)またはcoef(wage1.lm)とタイプすると推計された係数が出力される coef(wage1.lm)[1] coef(wage1.lm)[2] で係数ベクトルの1番めの要素と２番めの要素が出力される

(18)

残差診断

(19)

非線形効果のとらえ方

• y = a + b ln(x)

• ln(y) = a + b x

• ln (y) = a + b ln(x)

• y = a + b

₁

* x + b

₂

* x

2 • y = a + b / x

• y = a + b

₁

/ x + b

₂

* x

(20)

対数

x

a

x

y

x

xy

y

x

y

a

ln

)

exp(

ln











h

x

h

x

(

1 

)



ln



ln(

1 

)



ln

x

y

x

y

b

x

b

a

y

x

y

x

y

b

bx

a

y

x

y

x

y

b

x

b

a

y











































ln

対数の性質から次の式が成り立つ対数での変化 =もとの変数での比率での変化 ln は自然対数レジュメでは，lnと書いたり， logと書いたりしますが，全て自然対数だと思ってください

(21)

ln(wage)とeducの散布図

-1 0 1 2 3 4 0 4 8 12 16 20 EDUC L N W A G E こちらのほうが当てはまりが良いようにみえる

(22)

ln(wage)=a+beducでの回帰*

Genrというボタンをクリックすると新しい変数を作成する画面が表れる。そこで新変数名=計算式で新しい変数を作成。ここでは次のようにする。 lnwage =log(wage) or lnwage =@log(wage) 回帰分析の結果

(23)

残差

-2.4 -2.0 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 0 4 8 12 16 20 EDUC R E S ID 分散不均一性は解消されたようにみえる

(24)

回帰分析の解釈

• 係数の意味

– 教育年数(educ)が1年増加すると賃金(wage)はどのくらい増加するか – 教育年数(educ)の係数が0であるという仮説は棄却できるか

• 対数（賃金）が被説明変数の場合の係数

– educが1単位増加したとき，賃金の対数値が何単位増加するか 賃金が何%増加するか

• 賃金に影響を与える変数にはどのような他の要因があるだろうか

– 他の変数と賃金の単相関をみる

• educを連続変数とすることの意味

– 学歴別

• 当てはまりの良さ

• 因果関係（代替的なモデルが考えられる）

– 教育年数  賃金人的資本の蓄積 – 教育年数  その人の能力の証 • 高学歴者は学業に耐えられるだけの能力をもともと備えていた • スクリーニングの機能だけ（人的資本の蓄積ではない）

(25)

みせかけの関係

• Wooldridge の chapter2 example 2.12

– meap93.raw

• 生徒の成績と高校のlunch programの関係

– lnchprg ：perc. of studs. in sch. lunch prog

– math10 ：perc studs passing MEAP math（数学の学力テスト）

– ミシガン州の高校： 408校, 1992-1993年

– 他の条件が一定なら，昼食への補助が生徒の成績にプラスの

影響?

• 推計結果

math10 = 32.14 - 0.319lnchprg

n=408, R

2

_=0.171

誤差項（他の条件）とlnchprgの相関あり

lnchprgと相関があり，math10とも高い相関貧困家庭の比

率?

(26)

練習問題1

• CEOSAL2.RAW

salary: CEOの年棒(1000$)

ceoten: その会社でのCEO在職期間（年）

1. salary, ceotenの平均値を求めよ

2. salary, ceoten, log(salary)のヒストグラムを描け

3. 在職期間が1年未満の人が何人いるか，最長の在職

期間は何年か

4. salaryとceotenの散布図，log(salary)とceotenの散布

図を描け

5. 次の回帰を行い，結果を報告せよ

• log(salary) = a + b* ceoten + u

(27)

練習問題2

• WAGE2.RAW

wage: 月給

IQ: IQ のスコア

1. wageとIQの平均値，分散，最大，最小を求めよ

2. wageとIQのヒストグラムを描け

3. wageとIQ，log(wage)とIQの散布図を描け

4. wage = a + b * IQ + u の回帰を行い，結果を解釈せ

よ。

5. log(wage) = a + b * IQ +u の回帰を行い，結果を解釈せ

よ。

回帰分析 単回帰

回帰分析

単回帰

単回帰モデル

simple regression model

• y

– 従属変数 (dependent variable)

– 被説明変数(explained variable)

• x

– 独立変数 (independent variable)

– 説明変数 (explanatory variable)

• u

– 誤差項 (error term)

– 撹乱項 (disturbance term)

– 他の要因，観察されない変数の影響，yの測定誤差

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

x

y

左のようなモデルを仮定し，

現実に観察されたデータから，

パラメータ

a，bを推計する

直線を当てはめる

推計された

a，b当てはめ

られた直線の切片と傾き

傾き

xが1単位増加したと

きyは何単位増加するか

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

重回帰モデル

multiple regression model

• 説明変数が2個以上

u

x

x

x

y



a



b



b







b



x

y







b

他の説明変数を一定に保っておいて，

x

だけを1単位増加させたときに y が何

単位増えるか

他の要因をコントロールした x

固有の

影響

単回帰モデルにおける仮定

x

u

y



a



b



1. 線型モデル（パラメータに関し）

2. 誤差項の期待値は0

3. 誤差項は互いに独立

4. 誤差項の分散は一定（分散均一性）

5. 誤差項は正規分布に従う

– BLUEの成立のためにはこの条件は不要

最小二乗法

• 残差平方和を最小にするようにパラメータを決定

– a,b: 未知パラメータ a,b の推定値

回帰分析単回帰

_x