経済統計学(補足)
経済統計学(補足)
経済統計学(補足)
経済統計学(補足)
最小
最小
最小
最小二乗法について
二乗法について
二乗法について
二乗法について
担当:小塚 匡文 2015年11月19日(改訂版) 神戸大学経済学部2015年度後期開講授業補足:最小二乗法(単回帰分析)
1.(単純)回帰分析とは? 1.(単純)回帰分析とは? 1.(単純)回帰分析とは? 1.(単純)回帰分析とは? 標本サイズTの2変数(ここではXとY)の データが存在 ⇒YをXで説明する回帰方程式を推定するための方法 Y:被説明変数(または従属変数) X:説明変数(または独立変数)。ここでは最小二乗法最小二乗法最小二乗法最小二乗法とよばれる、最も標準的な方法を紹介 この場合の真の回帰直線の式: 通常は定数項αも含めるので、回帰方程式を求めるとき、 2つの係数(αとβ)を推定する推定する推定する推定する。 (αは定数項、βは傾き)
)
,
,
3
,
2
,
1
(
)
1
(
T
t
u
X
Y
t t tL
L
=
+
+
=
α
β
<注意すべき点>
回帰直線の式はXががががYに及ぼす影響を示すものに及ぼす影響を示すものに及ぼす影響を示すものに及ぼす影響を示すもの 同じ2変数の関係を表すものに相関係数がある
XとYの相関係数は、XとYの2つの動きの傾向を見た
2.概念 2.概念 2.概念 2.概念 X とYの関係を表す直線の、最もよい引き方は何か? ⇒ⅩとYの散布図を描き、その中にある直線を引く ⇒そして、各点とその直線との間の、縦軸と平行な方向縦軸と平行な方向縦軸と平行な方向縦軸と平行な方向 で測った距離 で測った距離 で測った距離 で測った距離を総計したものを最小にする回帰直線が、 ここで求めるべきもの
(1)式における は、誤差項(または撹乱項)とよばれる 確率変数である。 については単純化のため、以下の 仮定が置かれる。 期待値は0 共分散は0 分散は一定
※
※
※
※Yは確率変数であるが、
Yは確率変数であるが、
Yは確率変数であるが、Xはそうでないものと
Yは確率変数であるが、
はそうでないものと
はそうでないものと
はそうでないものと
仮定
仮定
仮定
仮定
t u t uまた の推定値は、図1の点と直線の、垂直(上下)方向の差 であらわされる。これを残差を呼び、 と書くことが一般的 なお この残差を2乗して足した値=残差2乗和 ※望ましい直線を引いた場合これは最小になる (=もっとも点から離れていない直線) ⇒残差二乗和が最小になる傾き・定数項はどのようなものか? t u t e
∑
∑
∑
e
t=
0
,
X
te
t=
0
,
Y
ˆ
te
t=
0
図1:残差と回帰直線 図1:残差と回帰直線 図1:残差と回帰直線 図1:残差と回帰直線 Y YY Y X XX X t X 残差 残差 残差 残差 t Yˆ t Y t e 推定回帰直線 推定回帰直線推定回帰直線 推定回帰直線 真 真 真 真ののの回帰直線の回帰直線回帰直線回帰直線
3.
3.
3.
3. 導出
導出
導出
導出
αとβは、観測できない真の回帰式に含まれる未知 のパラメータ(未知の係数) ⇒そのため、X・Yの得られたデータから推定を行う ⇒未知パラメータを書き換え、 とする。 はアルファハット、ベータハットとよび、 α、βの推定量である。)
2
(
ˆ
ˆ
ˆ
L
t tX
Y
=
α
+
β
β
α
ˆ
,
ˆ
(2)式:推定回帰直線の式 点と直線の垂直方向での距離=残差の二乗 の総和を最小にする ように を求める。 なお は理論値と呼ぶ。 ここで残差は、次のようにあらわすこともできる
β
α
ˆ
,
ˆ
Yˆ t t tY
Y
e
=
−
ˆ
誤差項は、真の回帰式に存在する確率的な誤差 残差は推定された回帰式の、説明しきれない部分説明しきれない部分説明しきれない部分説明しきれない部分
この残差を2乗し、その和(残差2乗和残差2乗和残差2乗和)が最小になる残差2乗和 ように を求める ⇒ 残差2乗和を
L
とし、 とおく。これを について偏微分して、その1階の導関数を 0に等しいとすると・・・ ⇒L
を最小とする が求まる。β
α
ˆ
,
ˆ
(
ˆ
ˆ
)
(
3
)
2 1 2 1∑
L
∑
==
=−
−
=
t Tt t t T te
Y
X
L
α
β
β
α
ˆ
,
ˆ
β
α
ˆ
,
ˆ
(3)を偏微分した式を=0とした式は次の通り: この(4)(5)を正規方程式という
(
ˆ
ˆ
)
0
(
4
)
2
ˆ
=
−
∑
=1−
−
=
L
∂
∂
T tX
tY
tX
tL
β
α
β
(
ˆ
ˆ
)
0
(
5
)
2
ˆ
=
−
∑
=1−
−
=
L
∂
∂
T tY
tX
tL
β
α
α
正規方程式(4)(5)は連立の2元1次方程式であ るので、これを解くと を得る。これが最小2乗推定量である
X
Y
β
α
ˆ
=
−
ˆ
(
)(
)
(
)
2 1 1ˆ
X
X
Y
Y
X
X
t T t T t t t−
−
−
=
∑
∑
= =β
この推定量推定量推定量推定量に、具体的なデータを代入したものが、推定値推定値推定値推定値 ※
※※
4. 検定とは?検定とは?検定とは?検定とは? 検定とは何か? 母数についての仮説があり、それが支持される か判断するもの。以下がその手順: ①帰無仮説帰無仮説帰無仮説帰無仮説と対立仮説対立仮説対立仮説対立仮説を設定する ②検定統計量を計算する ③帰無仮説が正しいという仮定で、確率分布を調べる
④有意水準を設定し、棄却域と臨界値を求める ⑤絶対値で
検定統計量が臨界値より大き
ければ帰無仮説を棄却
⇒棄却域に含まれる
検定統計量が臨界値より小さ
ければ帰無仮説を採択
棄却域とは? ⇒そのエリアに検定統計量が入っていれば、帰無仮 説を棄却する領域のこと 臨界値とは? ⇒絶対値で見た、棄却域の下限 (棄却域の始まる点) (棄却域とそうでない個所の境界)
5. tttt検定検定検定検定
Excelで計算すると、”t”とよばれる値が掲載される これが、帰無仮説を「係数=0」とした場合の、各推
定値のt統計量(検定統計量はtttt分布分布分布に従っている)分布
(単)回帰分析におけるt値は である。 (T-2)====(標本数-推定する係数の数標本数-推定する係数の数標本数-推定する係数の数標本数-推定する係数の数) = = = =tttt統計量の自由度統計量の自由度統計量の自由度統計量の自由度 SE:::: の標準誤差の推定値の標準誤差の推定値の標準誤差の推定値の標準誤差の推定値
)
2
(
~
)
ˆ
(
0
ˆ
−
−
=
t
T
SE
t
β
β
β
ˆ
6. 検定検定検定検定方法方法方法方法 ①帰無仮説・対立仮説を次のように設定する (両側検定の場合) ※ここでβは、正・負どちらの値も取り得ると考えられ るケースである
0
0
≠
=
β
β
帰無仮説:
対立仮説:
②有意水準5%で検定するとき(両側検定を想定し て)t分布表より、2.5%点を見る(自由度に注意!) ※2.5%点:臨界値 ③絶対値で、t値が臨界値より大きければ(分布の 中心とは反対側にあれば)、帰無仮説を棄却する帰無仮説を棄却する帰無仮説を棄却する帰無仮説を棄却する (係数は (係数は (係数は (係数は0ではない)ではない)ではない)と判断ではない)
0 面積0.025 棄却域 -1.9799 面積0.025 1.9799 棄却域 ここでt分布(ここでは自由度120とする)に従って、 5%の有意水準でt検定を行うとき、棄却域は下 図の太線で示した区間: ※ ※※ ※両側に存在両側に存在両側に存在することに注意両側に存在
Excelによる最小二乗推定量の求め方 ①データファイル内の「家計最終消費支出」を被説明 変数に、「国内総支出」を説明変数にして、定数項あ りのモデルで、ケインズ型消費関数を推定する。 ※データファイルは講義資料コーナーにアップロードし ています。(Excel2013で作成)
②「ツール」メニューの、「分析ツール」を選び、その中 の「回帰分析」を選択する
(「分析ツール」がメニューの中にない場合は、「アドイ ン」をクリックし、「分析ツール」の項目にチェックを入 れる)
③「選択Y変数」に被説明変数のデータの範囲を、「選択 X変数」に説明変数のデータの範囲を入力 ※データファイルでは、B2からB77に被説明変数、C2か らC77に説明変数がある ④出力箇所を指定し、「OK」をクリック ※データファイルでは、出力先を”E15”のセルにしている。
⑤結果の見方 推定結果のうち、「係数」の上側にある「切片」が定数項の、下側の 「X値1」が回帰係数の、それぞれの推定値である。 ここで”t”と表記されているものがt値(帰無仮説を当該係数=0”とし たときのt統計量)である。これは推定値を「標準誤差」で割ったもの と等しい。 また、P-値は、その検定統計量が何%点であるかを意味するもので、 有意水準(1%、5%、10%のいずれかに設定)よりもその値が小さ ければ、帰無仮説を棄却し、その係数は有意(0ではない)と考える。