• 検索結果がありません。

回帰分析 単回帰

N/A
N/A
Protected

Academic year: 2021

シェア "回帰分析 単回帰"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

回帰分析

単回帰

(2)

単回帰モデル

simple regression model

• y

– 従属変数 (dependent variable)

– 被説明変数(explained variable)

• x

– 独立変数 (independent variable)

– 説明変数 (explanatory variable)

• u

– 誤差項 (error term)

– 撹乱項 (disturbance term)

– 他の要因,観察されない変数の影響,yの測定誤差

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

(3)

x

y

左のようなモデルを仮定し,

現実に観察されたデータから,

パラメータ

a,bを推計する

直線を当てはめる

推計された

a,b当てはめ

られた直線の切片と傾き

傾き

xが1単位増加したと

きyは何単位増加するか

𝑦 = 𝛼 + 𝛽𝑥 + 𝑢

(4)

重回帰モデル

multiple regression model

• 説明変数が2個以上

u

x

x

x

y

a

b

1 1

b

2 2

b

k k

i i

x

y

b

他の説明変数を一定に保っておいて,

x

i

だけを1単位増加させたときに y が何

単位増えるか

他の要因をコントロールした x

i

固有の

影響

(5)

単回帰モデルにおける仮定

i i i

x

u

y

a

b

1. 線型モデル(パラメータに関し)

2. 誤差項の期待値は0

3. 誤差項は互いに独立

4. 誤差項の分散は一定(分散均一性)

5. 誤差項は正規分布に従う

– BLUEの成立のためにはこの条件は不要

(6)

最小二乗法

• 残差平方和を最小にするようにパラメータを決定

– a,b: 未知パラメータ a,b の推定値

– e: 残差

0

,

0

b

S

a

S

 

n i i i n i i

y

a

bx

e

b

a

S

1 2 1 2

)

,

(

1階の条件

2本の方程式からa,bを

決定する

(7)

最小二乗推定量

x

b

y

a

y

x

x

S

S

S

b

n i i i xx xx xy

1

)

(

1

n i i

e

n

RSS

n

s

1 2 2

2

1

2

1

最小二乗推定量はBLUE (Best Linear Unbiased Estimator)という望ましい

性質を持っている

誤差項の分散の推定量

n-2の2は説明変数の個数(定数項とx)

(8)

Eviewsでの回帰分析

メニューから Quick/Estimate Equation  下の画面が表れる 被説明変数,説 明変数をスペー スで区切って並 べる。 c は定数項 (constant term) 最小二乗法の指定 (他にも推定方法の optionあり) 分析に用いるサンプル を指定することもできる

(9)

Rでの回帰分析

• データのimport, load

– ここではwage1.csvを用いる

– データ・フレーム wage1 にimport されているとして

--->attach(wage1)

> wage1.lm <- lm(wage ~ educ)

> summary(wage1.lm)

---• attach(wage1)でwage1データセット内の変数に直接アクセ

スできるようにする

• lm( y~ x1 + x2 + x3 ) 回帰分析

• wage1.lm に回帰分析の結果を代入し,summary( ) で結果

の要約を表示

(10)

仮説の検定

 

0

,

1

~

2

N

S

b

xx

b

2

~

)

.(

.

2 0 0

n

t

S

s

b

b

e

s

b

xx

b

b

H

0

: b=b

0

n−2 : 2は説明変数の個数(定数項とx)

(11)

当てはまりの良さ

• TSS=ESS+RSS

• 決定係数

– 0から1の間の値

– 1に近いほど当てはまりが良いことを表す

TSS

RSS

TSS

ESS

R

2

1

(12)

回帰係数

(13)

wage と educ の散布図

0 5 10 15 20 25 30 0 4 8 12 16 20 EDUC W A G E

(14)

残差のプロット

Eviewsではresidという変 数に直前の回帰分析の残差 が保存される 残差を検討することで回帰 分析の前提(分散均一性) が満たされているかどうか チェックする グラフをみる限り,分散の 均一性の前提が満たされて いないようである 教育年数の増加とも分散 が大きくなっている 残差を後の分析でも使いた い場合は新しい変数に residを代入して保存する -8 -4 0 4 8 12 16 20 0 4 8 12 16 20 EDUC R E S ID

(15)

-8 -4 0 4 8 12 16 20 -2 0 2 4 6 8 10 WAGEHAT R E S ID

残差と被説明変数wageの推定値(wagehat)の関係

• 重回帰の場合には,被説明変数の

推定値と残差の関係を調べる(単

回帰の場合は前のページと同じ結

果)

• wagehatの求め方

menu

genr新しい変数を次のよ

うに作成

wagehat= @coefs(1)+@coefs(2)*

educ

または

(16)

Rでの回帰分析

> summary(wage1.lm) Call:

lm(formula = wage ~ educ) Residuals:

Min 1Q Median 3Q Max -5.3396 -2.1501 -0.9674 1.1921 16.6085 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.90485 0.68497 -1.321 0.187 educ 0.54136 0.05325 10.167 <2e-16 ***

---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.378 on 524 degrees of freedom

Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632 F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16

係数の推定値,標準誤差,t値, p値が出力される

(17)

Rでの回帰分析

回帰分析の結果はsummary(object)で取り出せたが,他の情報も取り出せる summary(object) 回帰分析の結果のようやく coef(object) 係数の推定値 resid(object) 残差 fitted(object) 回帰モデルの推定値 deviance(object) 残差平方和 plot(object) 残差のチェックのためのグラフ confint(object) 係数の信頼区間 ---コマンドラインで,coefficients(wage1.lm)またはcoef(wage1.lm)とタイプする と推計された係数が出力される coef(wage1.lm)[1] coef(wage1.lm)[2] で係数ベクトルの1番めの要素と2 番めの要素が出力される

(18)

残差診断

(19)

非線形効果のとらえ方

• y = a + b ln(x)

• ln(y) = a + b x

• ln (y) = a + b ln(x)

• y = a + b

1

* x + b

2

* x

2

• y = a + b / x

• y = a + b

1

/ x + b

2

* x

(20)

対数

x

a

x

y

x

xy

y

x

x

y

a

ln

ln

ln

ln

ln

)

exp(

ln

h

h

x

h

x

(

1

)

ln

ln(

1

)

ln

x

x

y

y

x

y

b

x

b

a

y

x

y

y

x

y

b

bx

a

y

x

x

y

x

y

b

x

b

a

y

ln

ln

ln

ln

ln

ln

ln

ln

対数の性質から次の 式が成り立つ 対数での変化 =もとの変数での比率での変化 ln は自然対数 レジュメでは,lnと書いたり, logと書いたりしますが,全て 自然対数だと思ってください

(21)

ln(wage)とeducの散布図

-1 0 1 2 3 4 0 4 8 12 16 20 EDUC L N W A G E こちらのほうが当てはまりが良 いようにみえる

(22)

ln(wage)=a+b*educでの回帰

Genrというボタンをクリック すると新しい変数を作成す る画面が表れる。 そこで 新変数名=計算式 で新しい変数を作成。ここ では次のようにする。 lnwage =log(wage) or lnwage =@log(wage) 回帰分析の結果

(23)

残差

-2.4 -2.0 -1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8 1.2 1.6 0 4 8 12 16 20 EDUC R E S ID 分散不均一性は解消された ようにみえる

(24)

回帰分析の解釈

• 係数の意味

– 教育年数(educ)が1年増加すると賃金(wage)はどのくらい増加するか – 教育年数(educ)の係数が0であるという仮説は棄却できるか

• 対数(賃金)が被説明変数の場合の係数

– educが1単位増加したとき,賃金の対数値が何単位増加するか 賃金が 何%増加するか

• 賃金に影響を与える変数にはどのような他の要因があるだろうか

– 他の変数と賃金の単相関をみる

• educを連続変数とすることの意味

– 学歴別

• 当てはまりの良さ

• 因果関係(代替的なモデルが考えられる)

– 教育年数  賃金 人的資本の蓄積 – 教育年数  その人の能力の証 • 高学歴者は学業に耐えられるだけの能力をもともと備えていた • スクリーニングの機能だけ(人的資本の蓄積ではない)

(25)

みせかけの関係

• Wooldridge の chapter2 example 2.12

– meap93.raw

• 生徒の成績と高校のlunch programの関係

– lnchprg :perc. of studs. in sch. lunch prog

– math10 :perc studs passing MEAP math(数学の学力テスト)

– ミシガン州の高校 : 408校, 1992-1993年

– 他の条件が一定なら,昼食への補助が生徒の成績にプラスの

影響?

• 推計結果

math10 = 32.14 - 0.319lnchprg

n=408, R

2

=0.171

誤差項(他の条件)とlnchprgの相関あり

lnchprgと相関があり,math10とも高い相関貧困家庭の比

率?

(26)

練習問題1

CEOSAL2.RAW

salary: CEOの年棒(1000$)

ceoten: その会社でのCEO在職期間(年)

1. salary, ceotenの平均値を求めよ

2. salary, ceoten, log(salary)のヒストグラムを描け

3. 在職期間が1年未満の人が何人いるか,最長の在職

期間は何年か

4. salaryとceotenの散布図,log(salary)とceotenの散布

図を描け

5. 次の回帰を行い,結果を報告せよ

log(salary) = a + b* ceoten + u

(27)

練習問題2

WAGE2.RAW

wage: 月給

IQ: IQ のスコア

1. wageとIQの平均値,分散,最大,最小を求めよ

2. wageとIQのヒストグラムを描け

3. wageとIQ,log(wage)とIQの散布図を描け

4. wage = a + b * IQ + u の回帰を行い,結果を解釈せ

よ。

5. log(wage) = a + b * IQ +u の回帰を行い,結果を解釈せ

よ。

参照

関連したドキュメント

今回チオ硫酸ナトリウム。クリアランス値との  

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

ポンプの回転方向が逆である 回転部分が片当たりしている 回転部分に異物がかみ込んでいる

今回、新たな制度ができることをきっかけに、ステークホルダー別に寄せられている声を分析

非政治的領域で大いに活躍の場を見つける,など,回帰係数を弱める要因

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

事務局 山崎 健二 高岡市福岡駅前まちづくり推進室室長 橘 美和子 高岡市福岡駅前まちづくり推進室主幹 松嶋 賢二 高岡市福岡駅前まちづくり推進室技師

 学年進行による差異については「全てに出席」および「出席重視派」は数ポイント以内の変動で