産業研究所
統計分析コンピュー タ講座
S tata入門クラス
2017 年 5 月 実施
フ ァ イ ルの準備
( 1) 作業フ ォ ルダz :¥ doc uments ¥ s tata-lec 2017を作成
エク スプローラ ー → ド キュ メ ント をク リ ッ ク
マイ ド キュ メ ント 上で新規作成→ フ ォ ルダでs tata-lec 2017を作成
( 2) フ ァ イ ルをダウンロード
IE を立ち上げ、 http://www.s anken.keio.ac .jp/ と 入力
右メ ニュ ーのコ ンピュ ータ 講座を選択
フ ァ イ ル・ ダウンロードから 4 フ ァ イ ルをダウンロード
( 3) ダウンロード 内のフ ァ イ ルを作業フ ォ ルダにc opy&pas te
c opy: スタ ート ボタ ン→ ダウンロード をク リ ッ ク → s tataintorodata2017.z ipを
ク リ ッ ク し 、 C trlを押し ながら 全フ ァ イ ルをク リ ッ ク → マウス右ボタ ンを押
し 、 コ ピーを選択
講座のねら い
1. 経済統計分析の面白さ を知る!
2. 統計分析ソ フ ト の操作法を知る!
3. 独創的な分析ができるよう に!
4. レポート の作成( offic eと の連携)
本講座の予定(1/2)
回帰分析と は? 仮説 → 回帰分析 ( データ の解釈 )→ 予測
以下の実習結果を「 実習 .doc x 」 にまと める
1 s tata の起動と 分析の初歩 実習①ビールの需要予測
s tata の起動、 グラ フ 作成、 回帰分析、 offic e で整理
2回帰分析の結果の評価 実習②豊かさ と 平均寿命
モデル選択( 豊かさ 、 医師数、 失業率)
3質的変数の取り 扱い 実習③社会主義と 平均寿命
本講座の予定(2/2)
4 新し い変数の作成・ ダミ ー変数 実習④賃貸物件
データ 加工・ dta データ 保存 → 分析 → 結果の保存
以下の課題を解いた結果を「 課題 .doc x 」 にまと める。
課題① 貿易の実証分析: F T A の効果
課題② 賃金関数: 年齢効果の産業比較
課題③ 湘南台賃貸物件: モデル ( 仮説 ) の妥当性
課題④ 石川町賃貸物件: お買い得物件
回帰分析と は?
• どんなこ と ができるのか?
– 予測
• 景気予測
• 業績予測
– 政策分析
• 現状分析: 男女雇用機会均等法の帰結など
• 政策シミ ュ レーショ ン
• 環境評価: イ ンフ ラ の外部効果の評価
回帰分析と は?
都市環境政策と し て何を優先すべき?
• 川崎市の住環境数量評価: 矢沢・ 金本(1992)
土地の金銭的価値
=地価
都心までの利便性 商業施設の充実度
公園の有無
迷惑施設の有無
騒音
回帰分析と は?
騒音対策と 交通政策が効果的
– 分析結果( 川崎市の平均、 1㎡あたり の便益)
• 騒音 1 ホン改善・ ・ ・ 2760 円
• 緑地施設1 ㎡・ ・ ・ 140 円
• 都心までの時間・ ・ ・ 6130 円
– 結論
• 緑地面積の効果は小さ い
• 騒音対策が都市政策と し て市場評価が高い
回帰分析と は?
例) ビール販売の季節性
キリ ンビール アサヒ ビール
回帰分析と は?
回帰分析の考え方
• 仮説を立てる
– [ 原因 X ] → [ 結果 Y ]
例) 気温 ビール購入額
• 原因と 結果のデータ 図示
縦軸 [ 結果 Y ] -横軸 [ 原因 X ]
• 動きを近似する直線を引
く → 回帰方程式
1 2 月
3 月
2 月
1 月
1 0 月
5 月
9 月
6 月
8 月
7 月
1 1 月
4 月
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 1 0 2 0 3 0
X : 気温
Y
購
入
額
a+ bX t
回帰分析と は?
ビールの売上高と 平均気温
• 平均気温 ( 東京 ) と 1 世帯あたり のビール購入額
平均気温( X t) 購入額( Y t )
1 月 X 1 6 . 8 Y 1 1 5 2 8
2 月 X 2 7 Y 2 1 7 2 9
3 月 X 3 1 0 . 5 Y 3 2 6 5 6
4 月 X 4 1 5 . 2 Y 4 2 0 3 0
5 月 X 5 1 9 . 2 Y 5 2 4 6 2
6 月 X 6 2 2 . 7 Y 6 2 7 7 6
7 月 X 7 2 6 . 6 Y 7 3 8 6 4
8 月 X 8 2 7 Y 8 3 6 0 8
9 月 X 9 2 2 . 9 Y 9 2 3 2 5
1 0 月 X 1 0 1 8 . 7 Y 10 1 9 8 4
1 1 月 X 1 1 1 4 . 3 Y 11 2 0 0 6
回帰分析と は?
原因(気温) と 結果(ビールの購入額)
4 月
1 1 月
7 月
8 月
6 月
9 月
5 月
1 0 月
1 月
2 月
3 月
1 2 月
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
気温
購
入
額
気温と ビールの購入額 2 変数の関係の強さ の指標
[ 相関係数 ] : r
• -1≦ r ≦1
• 右上がり : プラ ス
• 右下がり : マイ ナス
気温と ビールの相関: 0.616
問題点
• 2 変数の関係の強さ のみ。
• 気温が1 度上昇→ ビール
売上?
回帰分析と は?
t
t
t
u
bX
a
Y = + +
1 2 月
3 月
2 月
1 月
1 0 月
5 月
9 月
6 月
8 月
7 月
1 1 月
4 月
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
X : 気温
Y
購
入
額
気温と ビールの購入額
a
b
u
t= Y
t- a -bX
ta+ bX
tY:ビール購入額( 円)
X :気温(℃)
• a, b : 回帰係数
a : 定数項( 切片) b : 傾き
• 残差 u
t : Y t と a+ bX t の差
因果関係: 原因 X → 結果 Y
回帰分析と は?
回帰係数a, bの求め方
1 2 月
3 月
2 月
1 月
1 0 月
5 月
9 月
6 月
8 月
7 月
1 1 月
4 月
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
気温
購
入
額
気温と ビールの購入額
u
t残差 u
t の2 乗値( u
2
) の合計を
最小にする
最小二乗法
残差 u
t は X t で説明できない
ノ イ ズと 考える
回帰分析と は?
回帰係数の意味
1 2 月
3 月
2 月
1 月
1 0 月
5 月
9 月
6 月
8 月
7 月
1 1 月
4 月
Y = 1471.8+ 62.82X
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
気温
購
入
額
気温と ビールの購入額
• a, b : 回帰係数
– a : 定数項( 切片)
a=1471.8
– b : 傾き
b=62.82
気温が1 度上がると ビール
販売額は 62.8 円増える
• 実際の Y の値
実績値 : Y
• 回帰直線状の値
理論値( 予測値) :
• 実績値、 理論値の関係
回帰分析と は?
回帰直線と 予測
Y ˆ
4 月
1 1 月
7 月
8 月
6 月
9 月
5 月
1 0 月
1 月
2 月
3 月
1 2 月
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
気温
購
入
額
気温と ビールの購入額
残差 u は、 予測不可
能なも のと し て無視
Y
a+bX : 予測値( 理論値)
u
t
t
t
t
t
u
bX
a
u
Y
Y
+
+
=
+
= ˆ
回帰分析と は?
数値例: 回帰直線による予測
1 2 月
3 月
2 月
1 月
1 0 月
5 月
9 月
6 月
8 月
7 月
1 1 月
4 月
Y = 1471.8+ 62.82X
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
0 5 1 0 1 5 2 0 2 5 3 0
気温
購
入
額
気温と ビールの購入額
例) 気温2 5 度のと き:
Y=1471.8 + 62.82 X の X に
25 を代入
1471.8+62.82 × 25
= 3035.22 円
回帰分析と は?
数値例: 回帰直線による予測
予測値 =1471.8+62.82* X 残差= Y - 1471.8 - 62.82* X
1471.8+62.82*6.8=1899
1528-1471.8-62.82*6.8=-371
m o n t h X : 平均気温 Y : 購入額 予測値 残差
1 6 . 8 1 5 2 8 1 8 9 9 . 0 - 3 7 1 . 0
2 7 1 7 2 9 1 9 1 1 . 5 - 1 8 2 . 5
3 1 0 . 5 2 6 5 6 2 1 3 1 . 4 5 2 4 . 6
4 1 5 . 2 2 0 3 0 2 4 2 6 . 7 - 3 9 6 . 7
5 1 9 . 2 2 4 6 2 2 6 7 8 . 0 - 2 1 6 . 0
6 2 2 . 7 2 7 7 6 2 8 9 7 . 8 - 1 2 1 . 8
7 2 6 . 6 3 8 6 4 3 1 4 2 . 8 7 2 1 . 2
8 2 7 3 6 0 8 3 1 6 8 . 0 4 4 0 . 0
9 2 2 . 9 2 3 2 5 2 9 1 0 . 4 - 5 8 5 . 4
1 0 1 8 . 7 1 9 8 4 2 6 4 6 . 5 - 6 6 2 . 5
こ れから の作業
• beer.xls を統計分析ソ フ ト s tataで開く
• ビールと 気温の関係をグラ フ で示す
• 回帰分析により 、
[ビール購入額]= a + b [気温]
の a と b を求める
• 回帰分析による予測値を算出
• 結果を実習.doc xにまと め、 レポート を作成す
る
• S t a t a の起動・ 画面の見方
Ⅰ S tataの起動と 分析の初歩
( 4) R esu l t s ウインドウ
( 3) V a r i a bl eウインドウ メニュー
( 2) R ev i ew ウインドウ
[方法1] C ommand line実行
または
[方法2] D o-file実行
D o-fileエディ タ ー起動し
c ommandを入力
→ D o-file保存
→ D o-file実行
S tataの実行の2 つの方法
こ こ をク リ ッ ク
[方法1] C ommand line実行
• C ommand window: コ マンド を1 行ごと 実行
• R eview window( S tata画面の左側)の利用
– 過去に実行し たコ マンド の履歴が表示さ れる。
– ク イ ッ ク すると 、 再度実行さ れる。
• D o-file エディ タ ーにコ マンド を記入
– データ の読み込み&確認: import exc el
cd z: ¥ documents¥ stata-lec2017 ← 作業フ ォ ルダーを指定
impor t excel using beer.xls, fir str ow clear ← フ ァ イ ルの読み込み
• 保存 : < F ile> → <S ave as > → s tata-lec 2017 を指定し て、 フ ァ
イ ル名 beer.do と し て保存
[方法2] D o-file実行
ホームページの
コ マンド ・ リ スト
から コ ピペする
こ こ をク リ ッ ク
S tataの起動と 分析の初歩
• D o-fileを動かし てみよう
– D o-file エディ タ ーの「 E xec ute (do) 」 アイ コ ンをク リ ッ ク
こ こ をク リ ッ ク
• B rows e
※ month, tmp ( 気温) , beer ( ビール消費額) が含まれているこ
と を確認。
S tataの起動と 分析の初歩
ここをクリック
• グラ フ : s c ( Y 軸変数) ( X 軸変数)
回帰分析: reg ( 被説明変数) (説明変数)
– D o-fileエディ タ 起動: < F ile>→ <open>
– beer.doフ ァ イ ルを呼び出し て、 s c コ マンド と regコ マンド を追加
cd z: ¥ documents¥ stata-lec2017
impor t excel using beer.xls, fir str ow clear
sc beer tmp
r eg beer tmp
• 上書き保存 :<F ile> → <S ave all> し て実行する。
S tataの起動と 分析の初歩
S tataの起動と 分析の初歩
• reg beer temp の結果
[ビール購入額]= a + b [気温]
分析結果を offic e へ c opy&pas te(1/2)
[1] w ordを起動し ておく
[2] グラ フ をw ordにc opy&pas te
グラ フ 上で右ク リ ッ ク → c opy
word上で右ク リ ッ ク → pas te
[3] 表をw ordにc opy&pas te
領域指定し 「 右ク リ ッ ク 」 → 「 c opy as pic ture」
word上で右ク リ ッ ク → pas te
分析結果を offic e へ c opy&pas te(2/2)
[1] ex c elを起動し ておく
[2] 表をex c elに貼り 付ける(テキスト p-43)
領域指定し 「 右ク リ ッ ク 」 → 「 c opy table」 選択
exc el上で右ク リ ッ ク → pas te
[3] 加工し て成形し 、 表の範囲指定後、 c opy
w ord上で貼り 付けオプショ ン→ 図を選ぶ
– 領域指定し て、 「 右ク リ ッ ク 」 。 「 c opy table 」 を選択
– E X C E L を起動し て貼り 付け。
– 整理し た表を W O R D に貼り 付ける( 図と し て)
S tataの起動と 分析の初歩
• 予測値: predic t [新し い変数名]
beer.doに追加
( こ こ まで省略)
r eg beer tmp
pr edict yhat
上書き保存→ 実行
– browseで確認
こ こ まで紹介し たs tataコ マンド
• c d ( フ ォ ルダー名)
– 作業フ ォ ルダーを指定し 、 以後の入力を省く
z: ¥ documents¥ stata-lec2017 を指定
• import ex c el us ing (フ ァ イ ル名.xls ), firs trow c lear
– firs trow : E xc el フ ァ イ ルの1 行目を変数名と し て認識
• s c (atter) [y軸] [x軸]
x-yグラ フ を描く コ マンド
• reg (res s ) [被説明変数] [説明変数]
– 回帰係数を算出するコ マンド
• predic t [新し い変数]
データ の読込: cs v フ ァ イ ル
• マイ ド キュ メ ント のdoc uments ,s tata-lec 2017
フ ォ ルダーに保存し たC S V フ ァ イ ル( 例えば
data.c s v) を読み込むと き
c d z :¥ doc uments ¥ s tata-lec 2017
ins heet us ing data.c s v
※赤字のと こ ろをフ ァ イ ル名に応じ て変更
dtaフ ァ イ ルの保存と 呼び出し
• 加工し た変数を含むデータ を保存するには
例) data.dtaと いう 名前で保存
– s ave data ( .dta ) , replac e
• 保存し たD T A フ ァ イ ルを呼び出すには
– us e data ( .dta ) ,c lear
※dtaは、 S tataデータ フ ァ イ ル形式、 赤字のと こ ろ
をフ ァ イ ル名に応じ て変更
実習①
• beer.doを実行し て、 以下の結果( 図と 表) を
wordに貼り 付けて下さ い。
s c beer tmp
reg beer tmp
平均寿命の国際比較
• 平均寿命の違いはなぜ
生じ るのか?
豊かさ ? 医療制度?
スト レス? 社会制度?
データ フ ァ イ ル: life_ exp.xls
life_ exp: 平均寿命、 g dp_ p: 一人あたり G D P 、
phys : 人口1000人あたり 医師数、 unemp: 失業率
X
Y
Y = 0.0003X + 68.222
45 50 55 60 65 70 75 80 85
0 10000 20000 30000 40000 50000
Y :平 均 寿 命 、X :1人 あたりGDP
一度、 開いて確認!
• D o-file エディ タ ーをにコ マンド を記入
– <F ile> → < New>→ <F ile> で新規do fileを作る
– 以下のc ommandをコ マンド リ スト から c opyする
cd z: ¥ documents¥ stata-lec2017
impor t excel using life_ exp.xls, fir str ow clear
• 保存 : < F ile> → <S ave as > → s tata-lec 2017 内に
life_ exp(.do) と し て保存
復習: exc elデータ の読込
ホームページの
コ マンド ・ リ スト
から コ ピペする
こ こ をク リ ッ ク
• 回帰分析: reg ( 被説明変数) ( 説明変数)
– D o-fileエディ タ ーにコ マンド を追加
– life_ exp.doフ ァ イ ルを呼び出し て、 regコ マンド を追加
cd z: ¥ documents¥ stata-lec2017
impor t excel using life_ exp.xls, fir str ow clear
r eg life_ exp gdp_ p
• 上書き保存し て <F ile> → < S ave all> 実行する。
• D o-fileの実行: エディ タ ーの「 E xec ute ( do) 」 をク リ ッ ク
復習: 回帰分析
こ こ をク リ ッ ク
_ c o ns 6 8 .2 3 1 1 5 . 9 8 4 4 1 5 9 6 9 .3 1 0 .0 0 0 6 6 . 2 3 2 6 7 7 0 . 2 2 9 6 2 g dp _ p .0 0 0 3 4 6 3 . 0 0 0 0 5 7 2 6 .0 5 0 .0 0 0 . 0 0 0 2 3 0 1 . 0 0 0 4 6 2 5
li f e _ e x p Co e f . S t d . E r r . t P > | t | [9 5 % Co nf . I nt e r v a l ]
T o t a l 1 2 2 4 .7 8 7 0 3 3 6 3 4 .0 2 1 8 6 1 9 Roo t MS E = 4 .1 3 5 9
Adj R- s qua r e d = 0 .4 9 7 2
Re s idua l 5 9 8 .7 0 3 0 7 3 5 1 7 .1 0 5 8 0 2 R- s q ua r e d = 0 .5 1 1 2
Mo d e l 6 2 6 .0 8 3 9 5 7 1 6 2 6 .0 8 3 9 5 7 P r o b > F = 0 .0 0 0 0
F ( 1 , 3 5 ) = 3 6 .6 0
S o ur c e S S d f MS Numb e r o f ob s = 3 7
. r e g l i f e _ e x p g d p_ p
Ⅱ 回帰分析の結果の評価
• ( 平均寿命)= 68.231
+0.00034(一人あたり G D P )
回帰係数
一人あたり G D P が
US $3000増えると 、
平均寿命が1歳延びる
回帰分析の結果の評価
• 回帰式がどの程度優れているのか?
• モデル選択( 他の変数を用いた回帰式と 比
較する)
1. 決定係数による「 あてはまり 具合」 の評価
• 相対評価に使う
2. t 値による回帰係数の評価
• 回帰係数ごと の絶対評価が可能
回帰分析の結果の評価
• 世界各国の平均寿命
– 仮説1
– 仮説2
豊かさ
( 一人当たり G D P )
医療の充実
( 1000人あたり 医師数)
平均寿命
平均寿命
X Y
X Y
豊かさ or医師の充実?
• 平均寿命を説明するには一人当たり G D P と
100人あたり 医師数のどちら が望まし いか?
• D o-file: life_ exp.doと し て保存
cd z: ¥ documents¥ stata-lec2017
impor t excel using life_ exp.xls, fir str ow clear
r eg life_ exp gdp_ p
r eg life_ exp phys
• 保存: <F ile> → <S ave as >→ フ ァ イ ル名
ホームページの
コ マンド ・ リ スト
から コ ピペする
回帰分析の結果の評価
Y = 2.1959X + 67.377
45 50 55 60 65 70 75 80 85
0 1 2 3 4 5
Y : 平 均 寿 命 、 X : 人 口 1 0 0 0 人 あたり の 医 者 数
Y = 0.0003X + 68.222
45 50 55 60 65 70 75 80 85
0 10000 20000 30000 40000 50000
Y : 平 均 寿 命 、 X : 1 人 あたりG D P
Y ( 平均寿命) を説明するには、 医者数と G D P どちら を使う べき?
回帰分析の結果の評価
決定係数の特徴
• を満たす。
• Y の変化をX の変化が何%説明できるか?
• 1 に近いほど説明力が高い。 説明変数が増
えると 、 1 に近づく 。
• 目安
– 時系列データ による予測: 0.7 以上
– ク ロスセク ショ ン: 0.1 ~ 0.5 ?
仮説の検証の際は、 R 2 はさ ほど重視さ れない。
1
0
2
R
phy s 2 . 1 9 2 4 2 1 . 8 6 5 0 3 7 6 2 .5 3 0 . 0 1 6 . 4 3 6 3 0 1 2 3 . 9 4 8 5 4
l i fe _ e x p Co e f . S t d . E r r . t P > | t | [9 5 % Co nf . I n t e r v a l ]
T o t a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 R o o t MS E = 5 . 4 3 7 6
Adj R -s qua r e d = 0 . 1 3 0 9
Re s idua l 1 0 3 4 . 8 5 8 2 7 3 5 2 9 . 5 6 7 3 7 9 3 R -s q ua r e d = 0 . 1 5 5 1
Mo de l 1 8 9 . 9 2 8 7 5 2 1 1 8 9 . 9 2 8 7 5 2 P r o b > F = 0 . 0 1 5 9
F ( 1 , 3 5 ) = 6 . 4 2
S o ur c e S S d f MS Numb e r o f o bs = 3 7
. r e g l i f e _ e x p p hy s
_ c o ns 6 8 .2 3 1 1 5 . 9 8 4 4 1 5 9 6 9 .3 1 0 . 0 0 0 6 6 .2 3 2 6 7 7 0 .2 2 9 6 2 g dp _ p . 0 0 0 3 4 6 3 . 0 0 0 0 5 7 2 6 .0 5 0 . 0 0 0 . 0 0 0 2 3 0 1 . 0 0 0 4 6 2 5
l i fe _ e x p Co e f. S t d . E r r . t P > | t | [9 5 % Co n f . I n t e r v a l ]
T o t a l 1 2 2 4 .7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro o t MS E = 4 . 1 3 5 9
Adj R-s qu a r e d = 0 . 4 9 7 2
Re s i du a l 5 9 8 .7 0 3 0 7 3 5 1 7 .1 0 5 8 0 2 R-s q ua r e d = 0 . 5 1 1 2
Mo d e l 6 2 6 .0 8 3 9 5 7 1 6 2 6 .0 8 3 9 5 7 P r o b > F = 0 . 0 0 0 0
F ( 1 , 3 5 ) = 3 6 . 6 0
S o ur c e S S d f MS Numb e r o f o bs = 3 7
. r e g l i f e _ e x p g dp _ p
回帰分析の結果の評価
決定係数
決定係数
y = 0.0003x + 68.231
R ² = 0.5112
45
50
55
60
65
70
75
80
85
0 10000 20000 30000 40000 50000
Y : 平均寿命、 X : 一人当たり G D P
フ ィ ッ ト が悪い
y = 2.1924x + 67.383
R ² = 0.1551
45
50
55
60
65
70
75
80
85
0 2 4 6
Y : 平均寿命、 X : 医師数
回帰分析の結果の評価
決定係数が高い→ 「 当てはまり 」 がいい
こ ちら のほう が高い
フ ィ ッ ト がいい
回帰分析の結果の評価
説明力を上げるには?
• 回帰分析の目的
⇒予測: 説明力が高いほど望まし い
=決定係数が高いほど良い。
説明変数を増やす( 重回帰モデル)
• Y= a+ b
1 *X 1 + b 2 *X 2 + u
例) Y:平均寿命、
X
1 :一人あたり GD P、
X
2 :人口1000人あたり 医師数
回帰分析の結果の評価
説明力を上げるには?
説明変数を増やすと R 2 が上昇
[平均寿命]=67.3+2.2[医者数]
R 2=0.1551
[平均寿命]=68.2+0.0003[GD P/POP]
R 2=0.5112
決定係数が改善
回帰分析の結果の評価
• 世界各国の平均寿命
– 仮説3
• 失業率は影響を及ぼす?
失業率 平均寿命
X Y
回帰分析の結果の評価
• 平均寿命と 関連の薄
い変数を追加
– 失業率
– 平均寿命と 失業率: 回
帰直線はほぼ水平
– 決定係数も 低い
– 理論的に無関係?
• し かし 、 決定係数は、 相対
的な指標であり 、 「 決定係
数が低いから ダメ 」 と は言
y = 0.1161x + 71.525
R ² = 0.0069
45
50
55
60
65
70
75
80
85
0 5 1 0 1 5 2 0 2 5
Y : 平均寿命、 X : 失業率
回帰分析の結果の評価
決定係数は、 あく まで説明力の相対的基準
高いほど望まし いが、 低いから ダメ と はいえない
t 値による検証
• 回帰モデルを評価するに当たっ て、 最悪のケース
は?
⇒係数 b が 0 : X は Y に影響し ない
係数が 0 と なる確率 ( P 値 ) : 5% 、 も し く は 10 %以上
あるいは、 t 値が絶対値で 1.7 未満のと き、
「 分析結果は統計的に有意でない」 と いう 。
回帰分析の結果の評価
0 20 40 60 80 100 120 140 160
0 5 10 15 20 25
系列1 系列2
b
系列2 の散ら ばり
系列1 の散ら ばり
t 値=b/散ら ばり
t 値が大きい: 係数に比べ
てデータ の散ら ばり が小さ い
bの信頼性高い
t 値が小さ い: 係数に比べ
てデータ の散ら ばり が大きい
bの信頼性低い
t 値による評価のイ メ ージ
t 値は大きければよい
回帰分析の結果の評価
t値 P 値
une mp .1 0 6 3 8 8 5 .1 6 1 4 6 4 6 0 . 6 6 0 . 5 1 5 - . 2 2 2 1 1 3 8 .4 3 4 8 9 0 7 p hy s 1 . 1 8 6 2 3 1 .6 6 8 1 3 7 4 1 . 7 8 0 . 0 8 5 - . 1 7 3 1 0 4 7 2 . 5 4 5 5 6 7 g d p_ p .0 0 0 3 2 0 1 .0 0 0 0 5 7 8 5 . 5 3 0 . 0 0 0 .0 0 0 2 0 2 4 .0 0 0 4 3 7 8 l i f e _ e x p Co e f . S t d . E r r . t P > | t | [ 9 5 % Co nf . I nt e r v a l ]
T o t a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro ot MS E = 4 .0 2 8 3 Ad j R- s q ua r e d = 0 . 5 2 3 0 Re s id ua l 5 3 5 . 4 9 9 0 3 7 3 3 1 6 . 2 2 7 2 4 3 6 R- s q ua r e d = 0 .5 6 2 8 Mo de l 6 8 9 .2 8 7 9 9 3 2 2 9 . 7 6 2 6 6 3 P r ob > F = 0 .0 0 0 0
F ( 3 , 3 3 ) = 1 4 . 1 6
S o ur c e S S d f MS Numb e r o f o bs = 3 7
. r e g l i f e _ e x p g dp _ p p hy s une mp
回帰分析の結果の評価
(平均寿命)=a+ b
1 *( 一人あたり GD P)
+b
2 *( 医師数)+b 3 *( 失業率)+u
相関の低い変数を追加し た場合
1.7を下回る
1.7を上回る
決定係数は少し だけ上昇
説明力が乏し い変数を
追加し ても R 2は上昇
回帰分析の結果の評価
t 値について
• t 値が絶対値で大きく 1.7を下回る
=係数の信頼性がない( 係数は0かも し れない)
• P 値: 係数がゼロの確率
– 5 %のと き t 値は 1.96 ( ≒ 2.0) 程度、
– 10 %のと き t 値は 1.68( ≒ 1.7) 程度
– 10 %以上のと き「 有意でない」 「 信頼性なし 」 と 判断
回帰分析の結果の評価
失業率 GDP
医師数
平均寿命
• t 値が1.7を下回っ ている
こ と から 、 失業率には説明力
がない!
• 説明力が乏し い変数は
説明変数から 除去し て再度、
回帰係数を推定
• 説明力が乏し い変数を追
加し ても 、 決定係数は上昇す
るので、 回帰式は t 値と セッ
X
まと め: 回帰分析の結果の見方
(平均寿命)=a+ b
1 *( 一人あたり GD P)
+b
2 *( 医師数)+b 3 *( 失業率)+u
決定係数
係数
論文に載せよう : 記述統計
• s ummariz e (変数) [if 条件式], option
– 記述統計を出力
• 標本数 (obs ) 、 平均 ( mean) 、 標準偏差 (S td. D ev.) 、
最小値 (min) 、 最大値 ( max)
– Option
• detail: 詳細な統計量を表示
– 省略: s um, s uでも O K ( 下線のと こ ろまで)
記述統計: s umの結果
平均 標準偏差 最小値 最大値
実習②: 説明力をあげる
• life_ exp.doフ ァ イ ルに以下のコ マンド を加筆・
保存・ 実行し 、 4つの回帰分析の結果と 記述
統計の表を実習.doc xに整理せよ。
r eg life_ exp gdp_ p
r eg life_ exp phys
r eg life_ exp gdp_ p phys
r eg life_ exp gdp_ p phys unemp
sum
Ⅲ 質的変数の取り 扱い
A z er baijan K orea, R ep.
C hina J apan
Italy Ireland
F inland
F ranc eG reec e
Egy p t, A rab R ep. A us tria
Be lg ium
Bulgaria Cz ec h R epublic Ca nada
Colombia Chile
Braz il
A us tralia
Ec uador Mex ic o
Netherlands Ne w Z e aland
Nic ara gua
Germa ny
Hungary Polan d
Portugal
R omania
R us s ian F ederation Paraguay
S pain S w eden
Ukra in e United S tates
V enez uela, R B
Z imbabw e
5 0 6 0 7 0 8 0
L if e _ e x p e c t a n c y / L i n e a r p r e d i c t i o n
社会主義国は回帰直線の下方に集中
社会主義国の回帰直線の切片は小さ い?
[ 平均寿命 ]= 67.4+ 2.20[ 医師数 ] R 2=0.1552
質的変数の取り 扱い
ダミ ー変数による回帰分析
(平均寿命) =a+ γ *D + b*( 医師数) + u
D :ダミ ー変数
– 数量化できない変数を説明変数に加える
D =1 if 社会主義国、
D =0 if 資本主義国
( 平均寿命 ) = a + b*( 医師数 ) + u : 資本主義国
( 平均寿命 ) = a+ γ * D + b*( 医師数 ) + u : 社会主義国
社会主義国の切片( 定数項)
質的変数の取り 扱い
社会主義国ダミ ー
_ c ons 6 6 . 5 3 4 6 9 1 . 9 3 9 1 2 6 3 4 . 3 1 0 . 0 0 0 6 2 . 5 9 3 9 1 7 0 . 4 7 5 4 7
s oc i a l i s t - 6 . 9 2 2 1 6 4 1 . 9 4 6 8 2 5 - 3 . 5 6 0 . 0 0 1 - 1 0 . 8 7 8 5 9 - 2 . 9 6 5 7 4
phy s 3 . 2 6 9 6 3 8 . 8 0 8 2 6 6 9 4 . 0 5 0 . 0 0 0 1 . 6 2 7 0 4 2 4 . 9 1 2 2 3 4
l i f e _ e x p Co e f . S t d. E r r . t P> | t | [ 9 5 % Conf . I nt e r v a l ]
T ot a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro ot M S E = 4 . 7 1 0 3
Ad j R- s qua r e d = 0 . 3 4 7 9
Re s i dua l 7 5 4 . 3 6 0 1 9 3 4 2 2 . 1 8 7 0 6 4 4 R- s qua r e d = 0 . 3 8 4 1
M ode l 4 7 0 . 4 2 6 8 3 8 2 2 3 5 . 2 1 3 4 1 9 Pr ob > F = 0 . 0 0 0 3
F ( 2 , 3 4 ) = 1 0 . 6 0
S o ur c e S S df M S Num be r of ob s = 3 7
. r e g l i f e _ e x p phy s s o c i a l i s t
質的変数の取り 扱い
A z er baijan
K orea, R ep.
C hina
J apan
Italy
Ireland
F inland
F ranc e G reec e
Egy p t, A rab R ep.
A us tria
Be l g i um
Bulg aria
C z ec h R epublic
C a nada
C olombia
C hile
Braz il
A us tralia
Ec uador
Mex ic o
Netherlands
Ne w Z e aland
Ni c ara gua
G erma ny
Hungary
Polan d
Portug al
R omania
R us s ian F ederation
Paraguay
S pain
S w eden
Ukra ine
United S tates
V enez uela, RB
Z imbabw e
5 0 6 0 7 0 8 0
L if e _ e x p e c t a n c y / L i n e a r p r e d i c t i o n
切片の違い
6.92
ダミ ー変数の係数は、 切片の違いを示す
実習③: t 値、 および質的変数
• life_ exp.doフ ァ イ ルに以下の2 つの回帰分析
を加筆・ 保存・ 実行し 、 結果を実習.docxに整
理せよ。
r eg life_ exp phys socialist
r eg life_ exp gdp_ p phys socialist
・ D o-fileの構成
cd z: ¥ documents¥ stata-lec2017
impor t excel using life_ exp.xls ,fir str ow clear
r eg life_ exp gdp_ p
r eg life_ exp phys
r eg life_ exp gdp_ p phys unemp
r eg life_ exp phys socialist
r eg life_ exp gdp_ p phys socialist
いちばん最初に、 フ ォ
ルダー位置の指定
次に、 フ ァ イ ルの読み込み
こ こ までのまと め
• 回帰分析の考え方・ 結果の味方
– 被説明変数、 説明変数、 回帰係数
– 決定係数・ t 値
– ダミ ー変数
• S tataコ マンド
– c d ( フ ォ ルダー名 ) : 作業フ ォ ルダーを S tata に認識さ せる
– import exc el us ing ( フ ァ イ ル名 .xls ) , firs trow c lear
– reg [ 被説明変数 ] [ 説明変数 ]
– predic t [ 新し い変数 ]
Ⅳ 新し い変数の作成・ ダミ ー変数
• 事例: 東京城南・ 川崎市の賃貸物件
– rent-jonan-kawas aki.xls
• rent: 賃貸料( 万円) s ervic e: 管理費( 万円)
• walk: 徒歩( 分) bus : バス所要時間( 分)
• floor: 占有面積( ㎡) ag e: 築年数( 年)
• d_ autoloc k: オート ロッ ク の有無(1有り 0 無し )
• c atv: ケーブルテレビの有無( 1有り 0 無し )
• s tation: 最寄り 駅
• terminal: タ ーミ ナル駅から の所要時間( 分)
• expres s : 急行停車駅のと き1 ( それ以外0 )
• line: 路線( 1東急,2J R ,3京急)
実習④: 東京城南・ 川崎市の賃貸物件
田園調布
JR京浜東北線 東急東横線
京浜急行線 川崎
渋谷
横浜
品川
京急川崎 多摩川
東急・ 自由が丘 京急・ 六郷土手
実習④: 変数の作成、 ダミ ー変数
• 東京城南地区・ 川崎市エリ アの賃貸物件を分析す
るdo-fileを作成する
– D o-fileのフ ァ イ ル名: r ent-data.do, r ent-r eg.do
– 使用データ : r ent-j onan-k awasak i.xls
– 変数作成: 家賃r ent_ total、 通勤時間dist
路線ダミ ー変数(d_ tok yu, d_ j r )
– 作図・ 表( ヒ スト グラ ム、 統計量計算)
– 回帰分析r ent_ total
=f(floor , age, dist, d_ autolock , d_ tok yu, d_ j r )
実習④ 変数の加工、 ダミ ー変数
• 変数の加工
– 支払い家賃総額=賃貸料+管理費
rent_ total = rent + s ervic e
– 駅から の移動距離=徒歩所要時間+バス時
dis t = walk + bus
• line ( 東急=1, J R = 2, 京急=3)と いう 変数を加
工し てダミ ー変数を作成する
→ 回帰分析で東急沿線は割高か調べる
実習④ 変数の加工
• 新し い変数を作成 (g en)
– 支払い家賃総額=賃貸料+管理費
g en rent_ total= rent+ s ervic e
– 駅から の移動距離=徒歩所要時間+バス時間
g en dis t = walk + bus
実習④ ダミ ー変数
• 最寄駅が、 それぞれ、 東急、 J R であれば、 1
をと るダミ ー変数を作成する( 基準は京急)
– 新し い変数の作成: g en
– 既存の変数の置き換え: replac e
• g en d_ tokyu= 0
• replac e d_ tokyu= 1 if line= =1
条件式
• 条件式の書き方
== : 等し い、 !=: 等し く ない、 >= , <= , > , <
実習④: データ 作成
• D o-fileの例: rent-data.do
cd z: ¥ documents¥ stata-lec2017
impor t excel using rent-jonan-kawasaki.xls, fir str ow clear
gen r ent_ total=r ent+ser vice
gen dist=bus+walk
gen d_ tok yu=0
r eplace d_ tok yu=1 if line==1
gen d_ j r =0
r eplace d_ j r =1 if line==2
save r ent-j onan-k awasak i, r eplace
–新規にr e n t - d a t a ( . d o ) と し て保存し て実行→b r o w s e で確認
–r e n t - j o n a n - k a w a s a k i . d t a が保存さ れる
図表の作成
• ヒ スト グラ ムの作成
データ の分布を棒グラ フ で示し たも の
0510152025
Percent
図表の作成
[his togram] 変数, option
,freq/perc ent : 縦軸を標本数、 あるいは比率
,width(#) ヒ スト グラ ムの縦棒の幅を#にする
hist rent_ total, percent w( 2)
– 家賃を幅2 万円ごと のグラ フ にする。
縦軸はパーセント
図表の作成
• tabs tatコ マンド による作表
– 路線別に賃料、 占有面積、 築年数の平均を計算
• tabstat r ent floor age, by( line)
– 路線別に賃料、 占有面積、 築年数の標準偏差を
計算
• tabstat r ent floor age, by( line) stat(sd)
※help tabs tatで出力できる統計量を確認し よう
実習④
•出来上がっ たら 、 r e n t _ t o t a l を被説明変数、
f l o o r , a g e , d i s t , d _ a u t o l o c k , d _ t o k y u , d _ j r を説
明変数と する回帰式を推定せよ。
• 推計式
rent_ total= a+ b
1 floor+b 2 age+b 3 dist
+ b
4
d_ autolock+ b
5
d_ tokyu+b
6
d_ jr
実習④
東急最寄物件は、 J R 最寄物件は、 京 ダミ ー変数の係数は、 基準と な
_ c ons 7 . 0 4 0 9 6 4 . 4 0 3 4 8 9 7 1 7 . 4 5 0 . 0 0 0 6 . 2 4 8 4 8 7 . 8 3 3 4 4 9
d _ j r . 8 1 5 8 3 2 5 . 3 3 4 7 8 3 6 2 . 4 4 0 . 0 1 5 . 1 5 8 2 9 1 8 1 . 4 7 3 3 7 3
d_ t o k y u 2 . 2 4 6 2 6 . 3 1 9 5 3 2 6 7 . 0 3 0 . 0 0 0 1 . 6 1 8 6 7 4 2 . 8 7 3 8 4 7
d _ a ut ol oc k 1 . 3 2 0 9 8 1 . 2 3 7 5 2 3 7 5 . 5 6 0 . 0 0 0 . 8 5 4 4 6 6 2 1 . 7 8 7 4 9 6
d i s t - . 0 9 6 9 6 3 5 . 0 2 5 5 4 8 9 - 3 . 8 0 0 . 0 0 0 - . 1 4 7 1 4 3 6 - . 0 4 6 7 8 3 5
a g e - . 0 6 4 6 4 3 8 . 0 1 1 7 7 5 - 5 . 4 9 0 . 0 0 0 - . 0 8 7 7 7 0 9 - . 0 4 1 5 1 6 8
f l oo r . 1 4 4 6 9 6 5 . 0 0 7 0 3 6 7 2 0 . 5 6 0 . 0 0 0 . 1 3 0 8 7 5 9 . 1 5 8 5 1 7 1
r e nt _ t o t a l Co e f . S t d . E r r . t P > | t | [ 9 5 % Conf . I nt e r v a l ]
T o t a l 6 9 6 0 . 8 3 4 7 5 5 8 4 1 1 . 9 1 9 2 3 7 6 Ro ot M S E = 2 . 5 0 6 2
Ad j R- s q ua r e d = 0 . 4 7 3 0
Re s i d ua l 3 6 3 0 . 5 6 3 0 2 5 7 8 6 . 2 8 1 2 5 0 9 R- s q ua r e d = 0 . 4 7 8 4
M o de l 3 3 3 0 . 2 7 1 7 3 6 5 5 5 . 0 4 5 2 8 9 Pr ob > F = 0 . 0 0 0 0
F ( 6 , 5 7 8 ) = 8 8 . 3 7
S our c e S S d f M S Num b e r o f ob s = 5 8 5
. r e g r e nt _ t o t a l f l oo r a g e di s t d _ a ut ol oc k d_ t o k y u d_ j r
予測値と 残差( 値ごろ感)
• 例) 賃貸物件
– 「 お借り 得物件」 : 理論値が実績値を上回る物件
[賃貸料]
= a +b
1 *[占有面積]+b 2 *[築年数]
・ ・ ・ +u
– 理論価格=面積や築年数から 計算さ れる妥当な価格
3
3
2
2
1
1
ˆ a b X b X b X
Y = + + +
回帰係数と 説明変数から 計算する
予測値の算出
P .77 の結果に基づく 「 お借り 得物件」
• predic t yhat
• gen value=yhat-rent_ total
結果
• 7.9 万円の物件
– 築31年、 76㎡、 駅から バス
12分、 徒歩4分
– 理論価格 15.29836万円
– その差: 7.398356万円
実習④: 図表と 回帰分析
• D o-fileの例: rent-reg.do
cd z: ¥ documents¥ stata-lec2017
use rent-jonan-kawasaki
hist r ent_ total, per cent width(2)
tabstat r ent floor age, by(line)
tabstat r ent floor age, by(line) stat(sd)
r eg r ent_ total floor age dist d_ autolock d_ tok yu d_ j r
pr edict yhat
gen value=yhat-r ent_ total
sum value, detail
save r ent-j onan-k awasak i, r eplace
実習④
• 利用データ : rent-jonan-kawas aki.xls
1) rent_ totalのヒ スト グラ ムを描く
2) rent, floor, ageの平均と 標準偏差を路線別
に示す
3) rent_ total=f(age, dis t, d_ autoloc k,
d_ tokyu, d_ jr)を推定せよ
4) | t 値| <1.7の変数は除いて推定せよ
5) お借り 得度valueの記述統計を示せ
推定結果の保存
• 推定結果の論文形式→ 整理するのは面倒
推定結果の保存
• O UT R E G 2プログラ ム
– 回帰分析の結果を格納・ 整理する。
• フ ァ イ ル・ ダウンロード から outreg2.z ip をダウンロード
解凍し てフ ァ イ ルを、 全て、
z :¥ doc uments ¥ s tata-lec 2017 に移す。
– サンプルプログラ ム
• outreg2-s ample.do
推定結果の保存
• OUT R E G 2の使い方
cd z: ¥ documents¥ stata-lec2017
use r ent-j onan-k awasak i
r eg y x1 x2
outr eg2 using r esult1.xls ,excel stats(coef tstat) r eplace
r eg y x1 x2 x3
outr eg2 using r esult1.xls ,excel stats(coef tstat) append
最初だけreplac e
2回目以降は、
appendと 記入
推定結果の保存
• rent-reg .doフ ァ イ ルに、 outreg 2を追加し て、 以下の回
帰式の推定結果を表にせよ。
cd Z : ¥ documents¥ stata-lec2017
use r ent-j onan-k awasak i
r eg r ent_ total floor age dist
outr eg2 using r esult1.xls,excel stats(coef tstat) r eplace
r eg r ent_ total floor age dist d_ autolock
outr eg2 using r esult1.xls,excel stats(coef tstat) append
r eg r ent_ total floor age dist d_ autolock d_ tok yu d_ j r
outr eg2 using r esult1.xls,excel stats(coef tstat) append
課題①: 貿易の実証分析
• 2国間の貿易量は自由貿易協定( F T A ) の有
無で変化するか?
– T P P の是非等を議論する上で重要
• 重力モデル( G ravity Model) の推定
– データ : g ravity-data.dta
2国間の貿易量
= a+ b
1 ( 輸入国GD P) + b 2 ( 輸出国GD P)
+ b
3 ( 2国間の距離) + b 4 ( F T A ダミ ー)
+ b
5 ( 言語共通ダミ ー)
需要規模 供給能力
課題① 国際貿易の実証分析
• D o-fileの例: gravity-data.doで保存
cd z: ¥ documents¥ stata-lec2017
impor t excel using gravity-data.xls, fir str ow clear
r eg tr ade im_ gdp ex_ gdp distance fta language
– 保存&実行し たら 、 B rows eでデータ 確認 A lbania
のG D P
課題①国際貿易の実証分析
課題②: 賃金関数
• 報酬は、 年齢と と も に上昇する
– 年齢が上昇すると 、 技能の蓄積が進み、 昇進・ 昇
給する
– ただし 、 上昇の程度は、 業種による、 製造業、 卸
小売、 金融の比較( H17賃金構造基本調査より )
• データ : wag e-c ens us .xls
– 推計式→ 年齢の係数を比較せよ
賃金= a + b
1 年齢 + b 2 中堅企業ダミ ー
+ b
3 大企業ダミ ー
課題②賃金-年齢プロフ ァ イ ル
H 1 7 年「 賃金構造基本調査」
現金給与総額
(単位: 千円)
課題② 賃金関数
• 推計式
wage= a+ b
1 age+b 2 scale100_ 999+b
3 scale1000
+ b
4
male+ b
5
high+b
6
college+b
7
univ
– wage_ mfg, wage_ wr, wage_ fi
現金給与総額( 製造業、 卸小売、 金融保険)
– age: 年齢
– scale100_ 999, scale1000: 企業規模ダミ ー
– male: 男性ダミ ー
練習問題②
賃金関数
• D o-fileの例
cd z: ¥ documents¥ stata-lec2017
impor t excel using wage-census2005.xls, fir str ow clear
r eg wage_ mfg age scale1000 scale100_ 999 male univ college high
r eg wage_ wh age scale1000 scale100_ 999 male univ college high
r eg wage_ fi age scale1000 scale100_ 999 male univ college high
練習問題②
賃金関数
課題③
• 事例: 湘南台駅周辺の賃貸物件データ
– rent-s honandai.xls
• rent: 家賃
• s ervic e: 管理費
• age: 築年数
• floor: 占有面積
• walk: 最寄り 駅・ 最寄バス停から の徒歩分数
• bus : バス所要時間
• d_ autoloc k : オート ロッ ク の有無ダミ ー
課題③
事例: 藤沢市湘南台の賃貸物件
小田急線 相模大野
高座渋谷
長後 1999年3月開通
相鉄線 湘南台
いずみ中央
六会日大前 桜木町
1999年8月開通 関内
JR東海道線 横浜市営地下鉄
片瀬江ノ島
戸塚
横浜 新宿
品川
藤沢 小 田 急 江 ノ 島