stata intro2017 最近の更新履歴慶應義塾大学産業研究所統計分析ＰＣ講座

(1)

産業研究所

統計分析コンピュータ講座

S tata入門クラス

2017 年 5 月実施

(2)

ファイルの準備

( 1) 作業フォルダz :¥ doc uments ¥ s tata-lec 2017を作成

エクスプローラー → ドキュメントをクリック

マイドキュメント上で新規作成→ フォルダでs tata-lec 2017を作成

( 2) ファイルをダウンロード

IE を立ち上げ、 http://www.s anken.keio.ac .jp/ と入力

右メニューのコンピュータ講座を選択

ファイル・ダウンロードから４ファイルをダウンロード

( 3) ダウンロード内のファイルを作業フォルダにc opy&pas te

c opy：スタートボタン→ ダウンロードをクリック → s tataintorodata2017.z ipを

クリックし、 C trlを押しながら全ファイルをクリック → マウス右ボタンを押

し、コピーを選択

(3)

講座のねらい

1. 経済統計分析の面白さを知る！

2. 統計分析ソフトの操作法を知る！

3. 独創的な分析ができるように！

4. レポートの作成（ offic eとの連携）

(4)

本講座の予定(1/2)

回帰分析とは？仮説 → 回帰分析 ( データの解釈 )→ 予測

以下の実習結果を「実習 .doc x 」にまとめる

１ s tata の起動と分析の初歩実習①ビールの需要予測

s tata の起動、グラフ作成、回帰分析、 offic e で整理

２回帰分析の結果の評価実習②豊かさと平均寿命

モデル選択（豊かさ、医師数、失業率）

３質的変数の取り扱い実習③社会主義と平均寿命

(5)

本講座の予定(2/2)

４新しい変数の作成・ダミー変数実習④賃貸物件

データ加工・ dta データ保存 → 分析 → 結果の保存

以下の課題を解いた結果を「課題 .doc x 」にまとめる。

課題① 貿易の実証分析： F T A の効果

課題② 賃金関数：年齢効果の産業比較

課題③ 湘南台賃貸物件：モデル ( 仮説 ) の妥当性

課題④ 石川町賃貸物件：お買い得物件

(6)

回帰分析とは？

• どんなことができるのか？

– 予測

• 景気予測

• 業績予測

– 政策分析

• 現状分析：男女雇用機会均等法の帰結など

• 政策シミュレーション

• 環境評価：インフラの外部効果の評価

(7)

回帰分析とは？

都市環境政策として何を優先すべき？

• 川崎市の住環境数量評価：矢沢・金本(1992)

土地の金銭的価値

＝地価

都心までの利便性 ^{商業施設の充実度}

公園の有無

迷惑施設の有無

騒音

(8)

回帰分析とは？

騒音対策と交通政策が効果的

– 分析結果（川崎市の平均、 1㎡あたりの便益）

• 騒音 1 ホン改善・・・ 2760 円

• 緑地施設１㎡・・・ 140 円

• 都心までの時間・・・ 6130 円

– 結論

• 緑地面積の効果は小さい

• 騒音対策が都市政策として市場評価が高い

(9)

回帰分析とは？

例）ビール販売の季節性

キリンビール _アサヒ _ビール

(10)

回帰分析とは？

回帰分析の考え方

• 仮説を立てる

– [ 原因 X ] → [ 結果 Y ]

例）気温ビール購入額

• 原因と結果のデータ図示

縦軸 [ 結果 Y ] －横軸 [ 原因 X ]

• 動きを近似する直線を引

く → 回帰方程式

1 2 月

3 月

2 月

1 月

1 0 月

5 月

9 月

6 月

8 月

7 月

1 1 月

4 月

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 1 0 2 0 3 0

X : 気温

Y

購

入

額

a+ bX t

(11)

回帰分析とは？

ビールの売上高と平均気温

• 平均気温 ( 東京 ) と１世帯あたりのビール購入額

平均気温( X t) 購入額( Y t )

１月 X ₁ 6 . 8 Y ₁ 1 5 2 8

２月 X ₂ 7 Y ₂ 1 7 2 9

３月 X ₃ 1 0 . 5 Y ₃ 2 6 5 6

４月 X ₄ 1 5 . 2 Y ₄ 2 0 3 0

５月 X ₅ 1 9 . 2 Y ₅ 2 4 6 2

６月 X ₆ 2 2 . 7 Y ₆ 2 7 7 6

７月 X ₇ 2 6 . 6 Y ₇ 3 8 6 4

８月 X ₈ 2 7 Y ₈ 3 6 0 8

９月 X ₉ 2 2 . 9 Y ₉ 2 3 2 5

１０月 X ₁ ₀ 1 8 . 7 ^Y 10 1 9 8 4

１１月 X ₁ ₁ 1 4 . 3 Y ₁₁ 2 0 0 6

(12)

回帰分析とは？

原因(気温) と結果(ビールの購入額)

4 月

1 1 月

7 月

8 月

6 月

9 月

5 月

1 0 月

1 月

2 月

3 月

1 2 月

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

気温

購

入

額

気温とビールの購入額 _ _２ _{変数の関係の強さ} _の指標

[ 相関係数 ] : r

• -1≦ r ≦1

• 右上がり：プラス

• 右下がり：マイナス

気温とビールの相関： 0.616

 問題点

• ２変数の関係の強さのみ。

• 気温が１度上昇→ ビール

売上？

(13)

回帰分析とは？

t

u

bX

a

Y = + +

1 2 月

3 月

2 月

1 月

1 0 月

5 月

9 月

6 月

8 月

7 月

1 1 月

4 月

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

X : 気温

Y

購

入

額

気温とビールの購入額

a

b

u

t

^{= Y}

t

^{- a -bX}

^t

a+ bX

t

Y:ビール購入額( 円)

X :気温(℃)

• a, b : 回帰係数

a ：定数項（切片） b ：傾き

• 残差 u

t ^： ^Y t ^と ^{a+ bX} t ^の差

因果関係：原因 X → 結果 Y

(14)

回帰分析とは？

回帰係数a, bの求め方

1 2 月

3 月

2 月

1 月

1 0 月

5 月

9 月

6 月

8 月

7 月

1 1 月

4 月

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

気温

購

入

額

気温とビールの購入額

u

t

残差 u

t ^の２ ^乗値（ ^u

2 ）の合計を

最小にする

 最小二乗法

残差 u

t ^は ^X t ^{で説明できない}

ノイズと考える

(15)

回帰分析とは？

回帰係数の意味

1 2 月

3 月

2 月

1 月

1 0 月

5 月

9 月

6 月

8 月

7 月

1 1 月

4 月

Y = 1471.8+ 62.82X

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

気温

購

入

額

気温とビールの購入額

• a, b : 回帰係数

– a ：定数項（切片）

a=1471.8

– b ：傾き

b=62.82

気温が１度上がるとビール

販売額は 62.8 円増える

(16)

• 実際の Y の値

実績値 : Y

• 回帰直線状の値

理論値（予測値）：

• 実績値、理論値の関係

回帰分析とは？

回帰直線と予測

Y ^ˆ

4 月

1 1 月

7 月

8 月

6 月

9 月

5 月

1 0 月

1 月

2 月

3 月

1 2 月

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

気温

購

入

額

気温とビールの購入額

残差 u は、予測不可

能なものとして無視

Y

a+bX : 予測値（理論値）

u

t

u

bX

a

u

Y

+

=

+

= ^ˆ

(17)

回帰分析とは？

数値例：回帰直線による予測

1 2 月

3 月

2 月

1 月

1 0 月

5 月

9 月

6 月

8 月

7 月

1 1 月

4 月

Y = 1471.8+ 62.82X

1 0 0 0

1 5 0 0

2 0 0 0

2 5 0 0

3 0 0 0

3 5 0 0

4 0 0 0

4 5 0 0

0 5 1 0 1 5 2 0 2 5 3 0

気温

購

入

額

気温とビールの購入額

例）気温２５度のとき：

Y=1471.8 + 62.82 X の X に

25 を代入

1471.8+62.82 × 25

＝ 3035.22 円

(18)

回帰分析とは？

数値例：回帰直線による予測

予測値 =1471.8+62.82* X 残差＝ Y － 1471.8 － 62.82* X

1471.8+62.82*6.8=1899

1528-1471.8-62.82*6.8=-371

m o n t h X : 平均気温 Y : 購入額予測値残差

1 6 . 8 1 5 2 8 1 8 9 9 . 0 - 3 7 1 . 0

2 7 1 7 2 9 1 9 1 1 . 5 - 1 8 2 . 5

3 1 0 . 5 2 6 5 6 2 1 3 1 . 4 5 2 4 . 6

4 1 5 . 2 2 0 3 0 2 4 2 6 . 7 - 3 9 6 . 7

5 1 9 . 2 2 4 6 2 2 6 7 8 . 0 - 2 1 6 . 0

6 2 2 . 7 2 7 7 6 2 8 9 7 . 8 - 1 2 1 . 8

7 2 6 . 6 3 8 6 4 3 1 4 2 . 8 7 2 1 . 2

8 2 7 3 6 0 8 3 1 6 8 . 0 4 4 0 . 0

9 2 2 . 9 2 3 2 5 2 9 1 0 . 4 - 5 8 5 . 4

1 0 1 8 . 7 1 9 8 4 2 6 4 6 . 5 - 6 6 2 . 5

(19)

これからの作業

• beer.xls を統計分析ソフト s tataで開く

• ビールと気温の関係をグラフで示す

• 回帰分析により、

[ビール購入額]= a + b [気温]

の a と b を求める

• 回帰分析による予測値を算出

• 結果を実習.doc xにまとめ、レポートを作成す

る

(20)

• Ｓｔａｔａの起動・画面の見方

Ⅰ S tataの起動と分析の初歩

( 4) R esu l t s ウインドウ

( 3) V a r i a bl eウインドウメニュー

( 2) R ev i ew ウインドウ

(21)

[方法1] C ommand line実行

または

[方法2] D o-file実行

D o-fileエディター起動し

c ommandを入力

→ D o-file保存

→ D o-file実行

S tataの実行の２つの方法

ここをクリック

(22)

[方法1] C ommand line実行

• C ommand window：コマンドを１行ごと実行

• R eview window( S tata画面の左側)の利用

– 過去に実行したコマンドの履歴が表示される。

– クイックすると、再度実行される。

(23)

• D o-file エディターにコマンドを記入

– データの読み込み&確認: import exc el

cd z: ¥ documents¥ stata-lec2017 ← 作業フォルダーを指定

impor t excel using beer.xls, fir str ow clear ← ファイルの読み込み

• 保存 : < F ile> → <S ave as > → s tata-lec 2017 を指定して、ファ

イル名 beer.do として保存

[方法2] D o-file実行

ホームページの

コマンド・リスト

からコピペする

ここをクリック

(24)

S tataの起動と分析の初歩

• D o-fileを動かしてみよう

– D o-file エディターの「 E xec ute (do) 」アイコンをクリック

ここをクリック

(25)

• B rows e

※ month, tmp （気温） , beer （ビール消費額）が含まれているこ

とを確認。

S tataの起動と分析の初歩

ここをクリック

(26)

• グラフ： s c （ Y 軸変数）（ X 軸変数）

回帰分析： reg ( 被説明変数) (説明変数)

– D o-fileエディタ起動： < F ile>→ <open>

– beer.doファイルを呼び出して、 s c コマンドと regコマンドを追加

cd z: ¥ documents¥ stata-lec2017

impor t excel using beer.xls, fir str ow clear

sc beer tmp

r eg beer tmp

• 上書き保存 :<F ile> → <S ave all> して実行する。

S tataの起動と分析の初歩

(27)

S tataの起動と分析の初歩

• reg beer temp の結果

[ビール購入額]= a + b [気温]

(28)

分析結果を offic e へ c opy&pas te(1/2)

[1] w ordを起動しておく

[2] グラフをw ordにc opy&pas te

グラフ上で右クリック → c opy

word上で右クリック → pas te

[3] 表をw ordにc opy&pas te

領域指定し「右クリック」 → 「 c opy as pic ture」

word上で右クリック → pas te

(29)

分析結果を offic e へ c opy&pas te(2/2)

[1] ex c elを起動しておく

[2] 表をex c elに貼り付ける(テキスト p-43)

領域指定し「右クリック」 → 「 c opy table」選択

exc el上で右クリック → pas te

[3] 加工して成形し、表の範囲指定後、 c opy

w ord上で貼り付けオプション→ 図を選ぶ

(30)

– 領域指定して、「右クリック」。「 c opy table 」を選択

– E X C E L を起動して貼り付け。

– 整理した表を W O R D に貼り付ける（図として）

(31)

S tataの起動と分析の初歩

• 予測値： predic t [新しい変数名]

beer.doに追加

（ここまで省略）

r eg beer tmp

pr edict yhat

上書き保存→ 実行

– browseで確認

(32)

ここまで紹介したs tataコマンド

• c d ( フォルダー名)

– 作業フォルダーを指定し、以後の入力を省く

z: ¥ documents¥ stata-lec2017 を指定

• import ex c el us ing (ファイル名.xls ), firs trow c lear

– firs trow ： E xc el ファイルの１行目を変数名として認識

• s c (atter) [y軸] [x軸]

x-yグラフを描くコマンド

• reg (res s ) [被説明変数] [説明変数]

– 回帰係数を算出するコマンド

• predic t [新しい変数]

(33)

データの読込： cｓｖファイル

• マイドキュメントのdoc uments ,s tata-lec 2017

フォルダーに保存したC S V ファイル（例えば

data.c s v）を読み込むとき

c d z :¥ doc uments ¥ s tata-lec 2017

ins heet us ing data.c s v

※赤字のところをファイル名に応じて変更

(34)

dtaファイルの保存と呼び出し

• 加工した変数を含むデータを保存するには

例） data.dtaという名前で保存

– s ave data （ .dta ） , replac e

• 保存したD T A ファイルを呼び出すには

– us e data （ .dta ） ,c lear

※dtaは、 S tataデータファイル形式、赤字のところ

をファイル名に応じて変更

(35)

実習①

• beer.doを実行して、以下の結果（図と表）を

wordに貼り付けて下さい。

s c beer tmp

reg beer tmp

(36)

平均寿命の国際比較

• 平均寿命の違いはなぜ

生じるのか？

豊かさ？医療制度？

ストレス？社会制度？

データファイル： life_ exp.xls

life_ exp: 平均寿命、 g dp_ p: 一人あたり G D P 、

phys : 人口1000人あたり医師数、 unemp: 失業率

X

Y

Y = 0.0003X + 68.222

45 50 55 60 65 70 75 80 85

0 10000 20000 30000 40000 50000

Y :平均寿命、X :1人あたりGDP

一度、開いて確認！

(37)

• D o-file エディターをにコマンドを記入

– <F ile> → < New>→ <F ile> で新規do fileを作る

– 以下のc ommandをコマンドリストから c opyする

cd z: ¥ documents¥ stata-lec2017

impor t excel using life_ exp.xls, fir str ow clear

• 保存 : < F ile> → <S ave as > → s tata-lec 2017 内に

life_ exp(.do) として保存

復習： exc elデータの読込

ホームページの

コマンド・リスト

からコピペする

ここをクリック

(38)

• 回帰分析： reg ( 被説明変数) ( 説明変数)

– D o-fileエディターにコマンドを追加

– life_ exp.doファイルを呼び出して、 regコマンドを追加

cd z: ¥ documents¥ stata-lec2017

impor t excel using life_ exp.xls, fir str ow clear

r eg life_ exp gdp_ p

• 上書き保存して <F ile> → < S ave all> 実行する。

• D o-fileの実行：エディターの「 E xec ute ( do) 」をクリック

復習：回帰分析

ここをクリック

(39)

_ c o ns 6 8 .2 3 1 1 5 . 9 8 4 4 1 5 9 6 9 .3 1 0 .0 0 0 6 6 . 2 3 2 6 7 7 0 . 2 2 9 6 2 g dp _ p .0 0 0 3 4 6 3 . 0 0 0 0 5 7 2 6 .0 5 0 .0 0 0 . 0 0 0 2 3 0 1 . 0 0 0 4 6 2 5

li f e _ e x p Co e f . S t d . E r r . t P > | t | [9 5 % Co nf . I nt e r v a l ]

T o t a l 1 2 2 4 .7 8 7 0 3 3 6 3 4 .0 2 1 8 6 1 9 Roo t MS E = 4 .1 3 5 9

Adj R- s qua r e d = 0 .4 9 7 2

Re s idua l 5 9 8 .7 0 3 0 7 3 5 1 7 .1 0 5 8 0 2 R- s q ua r e d = 0 .5 1 1 2

Mo d e l 6 2 6 .0 8 3 9 5 7 1 6 2 6 .0 8 3 9 5 7 P r o b > F = 0 .0 0 0 0

F ( 1 , 3 5 ) = 3 6 .6 0

S o ur c e S S d f MS Numb e r o f ob s = 3 7

. r e g l i f e _ e x p g d p_ p

Ⅱ 回帰分析の結果の評価

• ( 平均寿命)= 68.231

+0.00034(一人あたり G D P )

回帰係数

一人あたり G D P が

US $3000増えると、

平均寿命が1歳延びる

(40)

回帰分析の結果の評価

• 回帰式がどの程度優れているのか？

• モデル選択（他の変数を用いた回帰式と比

較する）

1. 決定係数による「あてはまり具合」の評価

• 相対評価に使う

2. t 値による回帰係数の評価

• 回帰係数ごとの絶対評価が可能

(41)

回帰分析の結果の評価

• 世界各国の平均寿命

– 仮説１

– 仮説２

豊かさ

（一人当たり G D P ）

医療の充実

（ 1000人あたり医師数）

平均寿命

X ^Y

(42)

豊かさ or医師の充実？

• 平均寿命を説明するには一人当たり G D P と

100人あたり医師数のどちらが望ましいか？

• D o-file: life_ exp.doとして保存

cd z: ¥ documents¥ stata-lec2017

impor t excel using life_ exp.xls, fir str ow clear

r eg life_ exp gdp_ p

r eg life_ exp phys

• 保存: <F ile> → <S ave as >→ ファイル名

ホームページの

コマンド・リスト

からコピペする

(43)

回帰分析の結果の評価

Y = 2.1959X + 67.377

45 50 55 60 65 70 75 80 85

0 1 2 3 4 5

Y : 平均寿命、 X : 人口 1 0 0 0 人あたりの医者数

Y = 0.0003X + 68.222

45 50 55 60 65 70 75 80 85

0 10000 20000 30000 40000 50000

Y : 平均寿命、 X : 1 人あたりG D P

Y （平均寿命）を説明するには、医者数とＧＤＰどちらを使うべき？

(44)

回帰分析の結果の評価

決定係数の特徴

• を満たす。

• Y の変化をX の変化が何％説明できるか？

• １に近いほど説明力が高い。説明変数が増

えると、１に近づく。

• 目安

– 時系列データによる予測： 0.7 以上

– クロスセクション： 0.1 ～ 0.5 ？

 仮説の検証の際は、 R 2 はさほど重視されない。

1

0

2 

 R

(45)

phy s 2 . 1 9 2 4 2 1 . 8 6 5 0 3 7 6 2 .5 3 0 . 0 1 6 . 4 3 6 3 0 1 2 3 . 9 4 8 5 4

l i fe _ e x p Co e f . S t d . E r r . t P > | t | [9 5 % Co nf . I n t e r v a l ]

T o t a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 R o o t MS E = 5 . 4 3 7 6

Adj R -s qua r e d = 0 . 1 3 0 9

Re s idua l 1 0 3 4 . 8 5 8 2 7 3 5 2 9 . 5 6 7 3 7 9 3 R -s q ua r e d = 0 . 1 5 5 1

Mo de l 1 8 9 . 9 2 8 7 5 2 1 1 8 9 . 9 2 8 7 5 2 P r o b > F = 0 . 0 1 5 9

F ( 1 , 3 5 ) = 6 . 4 2

S o ur c e S S d f MS Numb e r o f o bs = 3 7

. r e g l i f e _ e x p p hy s

_ c o ns 6 8 .2 3 1 1 5 . 9 8 4 4 1 5 9 6 9 .3 1 0 . 0 0 0 6 6 .2 3 2 6 7 7 0 .2 2 9 6 2 g dp _ p . 0 0 0 3 4 6 3 . 0 0 0 0 5 7 2 6 .0 5 0 . 0 0 0 . 0 0 0 2 3 0 1 . 0 0 0 4 6 2 5

l i fe _ e x p Co e f. S t d . E r r . t P > | t | [9 5 % Co n f . I n t e r v a l ]

T o t a l 1 2 2 4 .7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro o t MS E = 4 . 1 3 5 9

Adj R-s qu a r e d = 0 . 4 9 7 2

Re s i du a l 5 9 8 .7 0 3 0 7 3 5 1 7 .1 0 5 8 0 2 R-s q ua r e d = 0 . 5 1 1 2

Mo d e l 6 2 6 .0 8 3 9 5 7 1 6 2 6 .0 8 3 9 5 7 P r o b > F = 0 . 0 0 0 0

F ( 1 , 3 5 ) = 3 6 . 6 0

. r e g l i f e _ e x p g dp _ p

回帰分析の結果の評価

決定係数

(46)

y = 0.0003x + 68.231

R ² = 0.5112

45

50

55

60

65

70

75

80

85 0 10000 20000 30000 40000 50000

Y : 平均寿命、 X ：一人当たり G D P

フィットが悪い

y = 2.1924x + 67.383

R ² = 0.1551

45

50

55

60

65

70

75

80

85 0 2 4 6

Y : 平均寿命、 X : 医師数

回帰分析の結果の評価

決定係数が高い→ 「当てはまり」がいい

こちらのほうが高い

フィットがいい

(47)

回帰分析の結果の評価

説明力を上げるには？

• 回帰分析の目的

⇒予測：説明力が高いほど望ましい

＝決定係数が高いほど良い。

 説明変数を増やす（重回帰モデル）

• Y= a+ b

1 ^X 1 ^{+ b} 2 ^X 2 ^{+ u}

例） Y:平均寿命、

X

1 ^{:一人あたり} ^{GD P、}

X

2 :人口1000人あたり医師数

(48)

回帰分析の結果の評価

説明力を上げるには？

説明変数を増やすと R 2 が上昇

[平均寿命]=67.3+2.2[医者数]

R 2=0.1551

[平均寿命]=68.2+0.0003[GD P/POP]

R 2=0.5112

決定係数が改善

(49)

回帰分析の結果の評価

• 世界各国の平均寿命

– 仮説３

• 失業率は影響を及ぼす？

失業率平均寿命

X _Y

(50)

回帰分析の結果の評価

• 平均寿命と関連の薄

い変数を追加

– 失業率

– 平均寿命と失業率：回

帰直線はほぼ水平

– 決定係数も低い

– 理論的に無関係？

• しかし、決定係数は、相対

的な指標であり、「決定係

数が低いからダメ」とは言

y = 0.1161x + 71.525

R ² = 0.0069

45

50

55

60

65

70

75

80

85 0 5 1 0 1 5 2 0 2 5

Y : 平均寿命、 X : 失業率

(51)

回帰分析の結果の評価

決定係数は、あくまで説明力の相対的基準

 高いほど望ましいが、低いからダメとはいえない

t 値による検証

• 回帰モデルを評価するに当たって、最悪のケース

は？

⇒係数 b が 0 ： X は Y に影響しない

係数が 0 となる確率 ( P 値 ) ： 5% 、もしくは 10 ％以上

あるいは、 t 値が絶対値で 1.7 未満のとき、

「分析結果は統計的に有意でない」という。

(52)

回帰分析の結果の評価

0 20 40 60 80 100 120 140 160

0 5 10 15 20 25

系列1 系列2

b

系列２の散らばり

系列１の散らばり

t 値＝b／散らばり

 t 値が大きい：係数に比べ

てデータの散らばりが小さい

 bの信頼性高い

 t 値が小さい：係数に比べ

てデータの散らばりが大きい

 bの信頼性低い

t 値による評価のイメージ

t 値は大きければよい

(53)

回帰分析の結果の評価

t値 P 値

(54)

une mp .1 0 6 3 8 8 5 .1 6 1 4 6 4 6 0 . 6 6 0 . 5 1 5 - . 2 2 2 1 1 3 8 .4 3 4 8 9 0 7 p hy s 1 . 1 8 6 2 3 1 .6 6 8 1 3 7 4 1 . 7 8 0 . 0 8 5 - . 1 7 3 1 0 4 7 2 . 5 4 5 5 6 7 g d p_ p .0 0 0 3 2 0 1 .0 0 0 0 5 7 8 5 . 5 3 0 . 0 0 0 .0 0 0 2 0 2 4 .0 0 0 4 3 7 8 l i f e _ e x p Co e f . S t d . E r r . t P > | t | [ 9 5 % Co nf . I nt e r v a l ]

T o t a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro ot MS E = 4 .0 2 8 3 Ad j R- s q ua r e d = 0 . 5 2 3 0 Re s id ua l 5 3 5 . 4 9 9 0 3 7 3 3 1 6 . 2 2 7 2 4 3 6 R- s q ua r e d = 0 .5 6 2 8 Mo de l 6 8 9 .2 8 7 9 9 3 2 2 9 . 7 6 2 6 6 3 P r ob > F = 0 .0 0 0 0

F ( 3 , 3 3 ) = 1 4 . 1 6

. r e g l i f e _ e x p g dp _ p p hy s une mp

回帰分析の結果の評価

(平均寿命)=a+ b

1 ^{*( 一人あたり} ^{GD P)}

+b

2 ^{( 医師数)+b} 3 ^{( 失業率)+u}

相関の低い変数を追加した場合

1.7を下回る

1.7を上回る

決定係数は少しだけ上昇

説明力が乏しい変数を

追加しても R 2は上昇

(55)

回帰分析の結果の評価

t 値について

• t 値が絶対値で大きく 1.7を下回る

＝係数の信頼性がない（係数は0かもしれない）

• Ｐ値：係数がゼロの確率

– 5 ％のとき t 値は 1.96 ( ≒ 2.0) 程度、

– 10 ％のとき t 値は 1.68( ≒ 1.7) 程度

– 10 ％以上のとき「有意でない」「信頼性なし」と判断

(56)

回帰分析の結果の評価

失業率ＧＤＰ

医師数

平均寿命

• t 値が1.7を下回っている

ことから、失業率には説明力

がない！

• 説明力が乏しい変数は

説明変数から除去して再度、

回帰係数を推定

• 説明力が乏しい変数を追

加しても、決定係数は上昇す

るので、回帰式は t 値とセッ

Ｘ

(57)

まとめ：回帰分析の結果の見方

(平均寿命)=a+ b

1 ^{*( 一人あたり} ^{GD P)}

+b

2 ^{( 医師数)+b} 3 ^{( 失業率)+u}

決定係数

係数

(58)

論文に載せよう：記述統計

• s ummariz e (変数) [if 条件式], option

– 記述統計を出力

• 標本数 (obs ) 、平均 ( mean) 、標準偏差 (S td. D ev.) 、

最小値 (min) 、最大値 ( max)

– Option

• detail: 詳細な統計量を表示

– 省略： s um, s uでも O K （下線のところまで）

(59)

記述統計： s umの結果

平均標準偏差最小値最大値

(60)

実習②：説明力をあげる

• life_ exp.doファイルに以下のコマンドを加筆・

保存・実行し、 4つの回帰分析の結果と記述

統計の表を実習.doc xに整理せよ。

r eg life_ exp gdp_ p

r eg life_ exp phys

r eg life_ exp gdp_ p phys

r eg life_ exp gdp_ p phys unemp

sum

(61)

Ⅲ 質的変数の取り扱い

A z er baijan K orea, R ep.

C hina J apan

Italy Ireland

F inland

F ranc e_{G reec e}

Egy p t, A rab R ep. A us tria

Be lg ium

Bulgaria Cz ec h R epublic Ca nada

Colombia Chile

Braz il

A us tralia

Ec uador Mex ic o

Netherlands Ne w Z e aland

Nic ara gua

Germa ny

Hungary Polan d

Portugal

R omania

R us s ian F ederation Paraguay

S pain S w eden

Ukra in e United S tates

V enez uela, R B

Z imbabw e

5 0 6 0 7 0 8 0

L if e _ e x p e c t a n c y / L i n e a r p r e d i c t i o n

社会主義国は回帰直線の下方に集中

社会主義国の回帰直線の切片は小さい？

[ 平均寿命 ]= 67.4+ 2.20[ 医師数 ] R 2=0.1552

(62)

質的変数の取り扱い

ダミー変数による回帰分析

(平均寿命) ＝a+ γ D + b( 医師数) + u

D :ダミー変数

– 数量化できない変数を説明変数に加える

D =1 if 社会主義国、

D =0 if 資本主義国

( 平均寿命 ) ＝ a + b*( 医師数 ) + u : 資本主義国

( 平均寿命 ) ＝ a+ γ * D + b*( 医師数 ) + u : 社会主義国

社会主義国の切片（定数項）

(63)

(64)

質的変数の取り扱い

社会主義国ダミー

_ c ons 6 6 . 5 3 4 6 9 1 . 9 3 9 1 2 6 3 4 . 3 1 0 . 0 0 0 6 2 . 5 9 3 9 1 7 0 . 4 7 5 4 7

s oc i a l i s t - 6 . 9 2 2 1 6 4 1 . 9 4 6 8 2 5 - 3 . 5 6 0 . 0 0 1 - 1 0 . 8 7 8 5 9 - 2 . 9 6 5 7 4

phy s 3 . 2 6 9 6 3 8 . 8 0 8 2 6 6 9 4 . 0 5 0 . 0 0 0 1 . 6 2 7 0 4 2 4 . 9 1 2 2 3 4

l i f e _ e x p Co e f . S t d. E r r . t P> | t | [ 9 5 % Conf . I nt e r v a l ]

T ot a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro ot M S E = 4 . 7 1 0 3

Ad j R- s qua r e d = 0 . 3 4 7 9

Re s i dua l 7 5 4 . 3 6 0 1 9 3 4 2 2 . 1 8 7 0 6 4 4 R- s qua r e d = 0 . 3 8 4 1

M ode l 4 7 0 . 4 2 6 8 3 8 2 2 3 5 . 2 1 3 4 1 9 Pr ob > F = 0 . 0 0 0 3

F ( 2 , 3 4 ) = 1 0 . 6 0

S o ur c e S S df M S Num be r of ob s = 3 7

. r e g l i f e _ e x p phy s s o c i a l i s t

(65)

質的変数の取り扱い

A z er baijan

K orea, R ep.

C hina

J apan

Italy

Ireland

F inland

F ranc e _{G reec e}

Egy p t, A rab R ep.

A us tria

Be l g i um

Bulg aria

C z ec h R epublic

C a nada

C olombia

C hile

Braz il

A us tralia

Ec uador

Mex ic o

Netherlands

Ne w Z e aland

Ni c ara gua

G erma ny

Hungary

Polan d

Portug al

R omania

R us s ian F ederation

Paraguay

S pain

S w eden

Ukra ine

United S tates

V enez uela, RB

Z imbabw e

5 0 6 0 7 0 8 0

L if e _ e x p e c t a n c y / L i n e a r p r e d i c t i o n

切片の違い

6.92 ダミー変数の係数は、切片の違いを示す

(66)

実習③：ｔ値、および質的変数

• life_ exp.doファイルに以下の２つの回帰分析

を加筆・保存・実行し、結果を実習.docxに整

理せよ。

r eg life_ exp phys socialist

r eg life_ exp gdp_ p phys socialist

(67)

・ D o-fileの構成

cd z: ¥ documents¥ stata-lec2017

impor t excel using life_ exp.xls ,fir str ow clear

r eg life_ exp gdp_ p

r eg life_ exp phys

r eg life_ exp gdp_ p phys unemp

r eg life_ exp phys socialist

r eg life_ exp gdp_ p phys socialist

いちばん最初に、フォ

ルダー位置の指定

次に、ファイルの読み込み

(68)

ここまでのまとめ

• 回帰分析の考え方・結果の味方

– 被説明変数、説明変数、回帰係数

– 決定係数・ t 値

– ダミー変数

• S tataコマンド

– c d ( フォルダー名 ) : 作業フォルダーを S tata に認識させる

– import exc el us ing ( ファイル名 .xls ) , firs trow c lear

– reg [ 被説明変数 ] [ 説明変数 ]

– predic t [ 新しい変数 ]

(69)

Ⅳ 新しい変数の作成・ダミー変数

• 事例：東京城南・川崎市の賃貸物件

– rent-jonan-kawas aki.xls

• rent: 賃貸料（万円） s ervic e：管理費（万円）

• walk: 徒歩（分） bus ：バス所要時間（分）

• floor：占有面積（㎡） ag e：築年数（年）

• d_ autoloc k：オートロックの有無(1有り０無し )

• c atv：ケーブルテレビの有無（ 1有り０無し）

• s tation：最寄り駅

• terminal：ターミナル駅からの所要時間（分）

• expres s ：急行停車駅のとき１（それ以外０）

• line: 路線（ 1東急,2J R ,3京急）

(70)

実習④：東京城南・川崎市の賃貸物件

田園調布　　　　

ＪＲ京浜東北線　　東急東横線

京浜急行線川崎

渋谷

横浜

品川

京急川崎多摩川

東急・自由が丘京急・六郷土手

(71)

実習④：変数の作成、ダミー変数

• 東京城南地区・川崎市エリアの賃貸物件を分析す

るdo-fileを作成する

– D o-fileのファイル名： r ent-data.do, r ent-r eg.do

– 使用データ： r ent-j onan-k awasak i.xls

– 変数作成：家賃r ent_ total、通勤時間dist

路線ダミー変数(d_ tok yu, d_ j r )

– 作図・表( ヒストグラム、統計量計算)

– 回帰分析r ent_ total

=f(floor , age, dist, d_ autolock , d_ tok yu, d_ j r )

(72)

実習④ 変数の加工、ダミー変数

• 変数の加工

– 支払い家賃総額＝賃貸料＋管理費

rent_ total = rent + s ervic e

– 駅からの移動距離＝徒歩所要時間＋バス時

dis t = walk + bus

• line ( 東急=1, J R = 2, 京急=3)という変数を加

工してダミー変数を作成する

→ 回帰分析で東急沿線は割高か調べる

(73)

実習④ 変数の加工

• 新しい変数を作成 (g en)

– 支払い家賃総額＝賃貸料＋管理費

g en rent_ total= rent+ s ervic e

– 駅からの移動距離＝徒歩所要時間＋バス時間

g en dis t = walk + bus

(74)

実習④ ダミー変数

• 最寄駅が、それぞれ、東急、 J R であれば、１

をとるダミー変数を作成する( 基準は京急)

– 新しい変数の作成: g en

– 既存の変数の置き換え: replac e

• g en d_ tokyu= 0

• replac e d_ tokyu= 1 if line= =1

条件式

• 条件式の書き方

== : 等しい、 !=: 等しくない、 >= , <= , > , <

(75)

実習④：データ作成

• D o-fileの例: rent-data.do

cd z: ¥ documents¥ stata-lec2017

impor t excel using rent-jonan-kawasaki.xls, fir str ow clear

gen r ent_ total=r ent+ser vice

gen dist=bus+walk

gen d_ tok yu=0

r eplace d_ tok yu=1 if line==1

gen d_ j r =0

r eplace d_ j r =1 if line==2

save r ent-j onan-k awasak i, r eplace

–新規にr e n t - d a t a （ . d o ) として保存して実行→b r o w s e で確認

–r e n t - j o n a n - k a w a s a k i . d t a が保存される

(76)

図表の作成

• ヒストグラムの作成

データの分布を棒グラフで示したもの

0510152025

Percent

(77)

図表の作成

[his togram] 変数, option

,freq/perc ent : 縦軸を標本数、あるいは比率

,width(#) ヒストグラムの縦棒の幅を#にする

hist rent_ total, percent w( 2)

– 家賃を幅２万円ごとのグラフにする。

縦軸はパーセント

(78)

図表の作成

• tabs tatコマンドによる作表

– 路線別に賃料、占有面積、築年数の平均を計算

• tabstat r ent floor age, by( line)

– 路線別に賃料、占有面積、築年数の標準偏差を

計算

• tabstat r ent floor age, by( line) stat(sd)

※help tabs tatで出力できる統計量を確認しよう

(79)

実習④

•出来上がったら、 r e n t _ t o t a l を被説明変数、

f l o o r , a g e , d i s t , d _ a u t o l o c k , d _ t o k y u , d _ j r を説

明変数とする回帰式を推定せよ。

• 推計式

rent_ total= a+ b

1 ^floor+b 2 ^age+b 3 ^dist

+ b

4 d_ autolock+ b

5 d_ tokyu+b

6 d_ jr

(80)

実習④

東急最寄物件は、 ^{J R 最寄物件は、} ^京ダミー変数の係数は、基準とな

_ c ons 7 . 0 4 0 9 6 4 . 4 0 3 4 8 9 7 1 7 . 4 5 0 . 0 0 0 6 . 2 4 8 4 8 7 . 8 3 3 4 4 9

d _ j r . 8 1 5 8 3 2 5 . 3 3 4 7 8 3 6 2 . 4 4 0 . 0 1 5 . 1 5 8 2 9 1 8 1 . 4 7 3 3 7 3

d_ t o k y u 2 . 2 4 6 2 6 . 3 1 9 5 3 2 6 7 . 0 3 0 . 0 0 0 1 . 6 1 8 6 7 4 2 . 8 7 3 8 4 7

d _ a ut ol oc k 1 . 3 2 0 9 8 1 . 2 3 7 5 2 3 7 5 . 5 6 0 . 0 0 0 . 8 5 4 4 6 6 2 1 . 7 8 7 4 9 6

d i s t - . 0 9 6 9 6 3 5 . 0 2 5 5 4 8 9 - 3 . 8 0 0 . 0 0 0 - . 1 4 7 1 4 3 6 - . 0 4 6 7 8 3 5

a g e - . 0 6 4 6 4 3 8 . 0 1 1 7 7 5 - 5 . 4 9 0 . 0 0 0 - . 0 8 7 7 7 0 9 - . 0 4 1 5 1 6 8

f l oo r . 1 4 4 6 9 6 5 . 0 0 7 0 3 6 7 2 0 . 5 6 0 . 0 0 0 . 1 3 0 8 7 5 9 . 1 5 8 5 1 7 1

r e nt _ t o t a l Co e f . S t d . E r r . t P > | t | [ 9 5 % Conf . I nt e r v a l ]

T o t a l 6 9 6 0 . 8 3 4 7 5 5 8 4 1 1 . 9 1 9 2 3 7 6 Ro ot M S E = 2 . 5 0 6 2

Ad j R- s q ua r e d = 0 . 4 7 3 0

Re s i d ua l 3 6 3 0 . 5 6 3 0 2 5 7 8 6 . 2 8 1 2 5 0 9 R- s q ua r e d = 0 . 4 7 8 4

M o de l 3 3 3 0 . 2 7 1 7 3 6 5 5 5 . 0 4 5 2 8 9 Pr ob > F = 0 . 0 0 0 0

F ( 6 , 5 7 8 ) = 8 8 . 3 7

S our c e S S d f M S Num b e r o f ob s = 5 8 5

. r e g r e nt _ t o t a l f l oo r a g e di s t d _ a ut ol oc k d_ t o k y u d_ j r

(81)

予測値と残差（値ごろ感）

• 例）賃貸物件

– 「お借り得物件」：理論値が実績値を上回る物件

[賃貸料]

＝ a ＋b

1 ^{[占有面積]＋b} 2 ^[築年数]

・・・＋u

– 理論価格＝面積や築年数から計算される妥当な価格

3

2

1

1 ˆ a b X b X b X

Y = + + +

回帰係数と説明変数から計算する

(82)

予測値の算出

P .77 の結果に基づく「お借り得物件」

• predic t yhat

• gen value=yhat-rent_ total

結果

• 7.9 万円の物件

– 築31年、 76㎡、駅からバス

12分、徒歩4分

– 理論価格 15.29836万円

– その差： 7.398356万円

(83)

実習④：図表と回帰分析

• D o-fileの例: rent-reg.do

cd z: ¥ documents¥ stata-lec2017

use rent-jonan-kawasaki

hist r ent_ total, per cent width(2)

tabstat r ent floor age, by(line)

tabstat r ent floor age, by(line) stat(sd)

r eg r ent_ total floor age dist d_ autolock d_ tok yu d_ j r

pr edict yhat

gen value=yhat-r ent_ total

sum value, detail

save r ent-j onan-k awasak i, r eplace

(84)

実習④

• 利用データ： rent-jonan-kawas aki.xls

1) rent_ totalのヒストグラムを描く

2) rent, floor, ageの平均と標準偏差を路線別

に示す

3) rent_ total=f(age, dis t, d_ autoloc k,

d_ tokyu, d_ jr)を推定せよ

4) | ｔ値| ＜1.7の変数は除いて推定せよ

5) お借り得度valueの記述統計を示せ

(85)

推定結果の保存

• 推定結果の論文形式→ 整理するのは面倒

(86)

推定結果の保存

• O UT R E G 2プログラム

– 回帰分析の結果を格納・整理する。

• ファイル・ダウンロードから outreg2.z ip をダウンロード

 解凍してファイルを、全て、

z :¥ doc uments ¥ s tata-lec 2017 に移す。

– サンプルプログラム

• outreg2-s ample.do

(87)

推定結果の保存

• OUT R E G 2の使い方

cd z: ¥ documents¥ stata-lec2017

use r ent-j onan-k awasak i

r eg y x1 x2

outr eg2 using r esult1.xls ,excel stats(coef tstat) r eplace

r eg y x1 x2 x3

outr eg2 using r esult1.xls ,excel stats(coef tstat) append

最初だけreplac e

2回目以降は、

appendと記入

(88)

推定結果の保存

• rent-reg .doファイルに、 outreg 2を追加して、以下の回

帰式の推定結果を表にせよ。

cd Z : ¥ documents¥ stata-lec2017

use r ent-j onan-k awasak i

r eg r ent_ total floor age dist

outr eg2 using r esult1.xls,excel stats(coef tstat) r eplace

r eg r ent_ total floor age dist d_ autolock

outr eg2 using r esult1.xls,excel stats(coef tstat) append

r eg r ent_ total floor age dist d_ autolock d_ tok yu d_ j r

outr eg2 using r esult1.xls,excel stats(coef tstat) append

(89)

課題①：貿易の実証分析

• 2国間の貿易量は自由貿易協定（ＦＴＡ）の有

無で変化するか？

– T P P の是非等を議論する上で重要

• 重力モデル（ G ravity Model）の推定

– データ： g ravity-data.dta

2国間の貿易量

= a+ b

1 ^（ ^{輸入国GD P）} ^{+ b} 2 ^（ ^{輸出国GD P）}

+ b

3 ^（ ^{2国間の距離）} ^{+ b} 4 ^（ ^{F T A ダミ} ^ー）

+ b

5 ^（ ^{言語共通ダミ} ^ー）

需要規模 _供給能力

(90)

課題① 国際貿易の実証分析

• D o-fileの例: gravity-data.doで保存

cd z: ¥ documents¥ stata-lec2017

impor t excel using gravity-data.xls, fir str ow clear

r eg tr ade im_ gdp ex_ gdp distance fta language

– 保存＆実行したら、 B rows eでデータ確認 _{A lbania}

のG D P

(91)

課題①国際貿易の実証分析

(92)

課題②：賃金関数

• 報酬は、年齢とともに上昇する

– 年齢が上昇すると、技能の蓄積が進み、昇進・昇

給する

– ただし、上昇の程度は、業種による、製造業、卸

小売、金融の比較（ H17賃金構造基本調査より）

• データ : wag e-c ens us .xls

– 推計式→ 年齢の係数を比較せよ

賃金= a + b

1 ^年齢 ^{+ b} 2 ^{中堅企業ダミ} ^ー

+ b

3 ^{大企業ダミ} ^ー

(93)

課題②賃金－年齢プロファイル

Ｈ１７年「賃金構造基本調査」

現金給与総額

(単位：千円）

(94)

課題② 賃金関数

• 推計式

wage= a+ b

1 ^age+b 2 scale100_ 999+b

3 ^scale1000

+ b

4 male+ b

5 high+b

6 college+b

7 univ

– wage_ mfg, wage_ wr, wage_ fi

現金給与総額（製造業、卸小売、金融保険）

– age: 年齢

– scale100_ 999, scale1000: 企業規模ダミー

– male: 男性ダミー

(95)

練習問題②

賃金関数

• D o-fileの例

cd z: ¥ documents¥ stata-lec2017

impor t excel using wage-census2005.xls, fir str ow clear

r eg wage_ mfg age scale1000 scale100_ 999 male univ college high

r eg wage_ wh age scale1000 scale100_ 999 male univ college high

r eg wage_ fi age scale1000 scale100_ 999 male univ college high

(96)

練習問題②

賃金関数

(97)

課題③

• 事例：湘南台駅周辺の賃貸物件データ

– rent-s honandai.xls

• rent: 家賃

• s ervic e: 管理費

• age: 築年数

• floor: 占有面積

• walk: 最寄り駅・最寄バス停からの徒歩分数

• bus : バス所要時間

• d_ autoloc k ：オートロックの有無ダミー

(98)

課題③

事例：藤沢市湘南台の賃貸物件

小田急線相模大野

高座渋谷

長後 1999年3月開通

相鉄線湘南台

いずみ中央

六会日大前桜木町

1999年8月開通関内

ＪＲ東海道線横浜市営地下鉄

片瀬江ノ島

戸塚

横浜新宿

品川

藤沢小田急江ノ島

(99)

課題③

1. 以下の変数を作成せよ

– 賃貸料を管理費込みに変更

• rent_ total=rent+s ervic e

– 駅からの距離

• dis t=walk+bus

2. reg コマンドを使って、 rent_ totalを被説明変数、

floor, ag e, d_ autoloc k, dis tを説明変数とする回帰

分析を実施せよ。

– ｔ値が絶対値で 1.7 を下回る変数があれば、説明変数から

stata intro2017 最近の更新履歴 慶應義塾大学産業研究所統計分析ＰＣ講座

産業研究所

統計分析コンピュー タ講座

S tata入門クラス

2017 年 5 月 実施

フ ァ イ ルの準備

( 1) 作業フ ォ ルダz :¥ doc uments ¥ s tata-lec 2017を作成

エク スプローラ ー → ド キュ メ ント をク リ ッ ク

マイ ド キュ メ ント 上で新規作成→ フ ォ ルダでs tata-lec 2017を作成

( 2) フ ァ イ ルをダウンロード

IE を立ち上げ、 http://www.s anken.keio.ac .jp/ と 入力

右メ ニュ ーのコ ンピュ ータ 講座を選択

フ ァ イ ル・ ダウンロードから ４ フ ァ イ ルをダウンロード

( 3) ダウンロード 内のフ ァ イ ルを作業フ ォ ルダにc opy&pas te

c opy： スタ ート ボタ ン→ ダウンロード をク リ ッ ク → s tataintorodata2017.z ipを

ク リ ッ ク し 、 C trlを押し ながら 全フ ァ イ ルをク リ ッ ク → マウス右ボタ ンを押

し 、 コ ピーを選択

講座のねら い

1. 経済統計分析の面白さ を知る！

2. 統計分析ソ フ ト の操作法を知る！

3. 独創的な分析ができるよう に！

4. レポート の作成（ offic eと の連携）

本講座の予定(1/2)

回帰分析と は？ 仮説 → 回帰分析 ( データ の解釈 )→ 予測

以下の実習結果を「 実習 .doc x 」 にまと める

１ s tata の起動と 分析の初歩 実習①ビールの需要予測

s tata の起動、 グラ フ 作成、 回帰分析、 offic e で整理

２回帰分析の結果の評価 実習②豊かさ と 平均寿命

モデル選択（ 豊かさ 、 医師数、 失業率）

３質的変数の取り 扱い 実習③社会主義と 平均寿命

本講座の予定(2/2)

４ 新し い変数の作成・ ダミ ー変数 実習④賃貸物件

データ 加工・ dta データ 保存 → 分析 → 結果の保存

以下の課題を解いた結果を「 課題 .doc x 」 にまと める。

課題① 貿易の実証分析： F T A の効果

課題② 賃金関数： 年齢効果の産業比較

課題③ 湘南台賃貸物件： モデル ( 仮説 ) の妥当性

課題④ 石川町賃貸物件： お買い得物件

回帰分析と は？

• どんなこ と ができるのか？

– 予測

• 景気予測

• 業績予測

– 政策分析

• 現状分析： 男女雇用機会均等法の帰結など

• 政策シミ ュ レーショ ン

• 環境評価： イ ンフ ラ の外部効果の評価

回帰分析と は？

都市環境政策と し て何を優先すべき？

• 川崎市の住環境数量評価： 矢沢・ 金本(1992)

土地の金銭的価値

＝地価

都心までの利便性 商業施設の充実度

公園の有無

迷惑施設の有無

騒音

回帰分析と は？

騒音対策と 交通政策が効果的

– 分析結果（ 川崎市の平均、 1㎡あたり の便益）

• 騒音 1 ホン改善・ ・ ・ 2760 円

• 緑地施設１ ㎡・ ・ ・ 140 円

• 都心までの時間・ ・ ・ 6130 円

– 結論

• 緑地面積の効果は小さ い

• 騒音対策が都市政策と し て市場評価が高い

回帰分析と は？

例） ビール販売の季節性

キリ ンビール アサヒ ビール

回帰分析と は？

回帰分析の考え方

• 仮説を立てる

– [ 原因 X ] → [ 結果 Y ]

例） 気温 ビール購入額

• 原因と 結果のデータ 図示

縦軸 [ 結果 Y ] －横軸 [ 原因 X ]

• 動きを近似する直線を引

く → 回帰方程式

1 2 月

3 月

2 月

stata intro2017 最近の更新履歴慶應義塾大学産業研究所統計分析ＰＣ講座

統計分析コンピュータ講座

2017 年 5 月実施

ファイルの準備

( 1) 作業フォルダz :¥ doc uments ¥ s tata-lec 2017を作成

エクスプローラー → ドキュメントをクリック

マイドキュメント上で新規作成→ フォルダでs tata-lec 2017を作成

( 2) ファイルをダウンロード

IE を立ち上げ、 http://www.s anken.keio.ac .jp/ と入力

右メニューのコンピュータ講座を選択

ファイル・ダウンロードから４ファイルをダウンロード

( 3) ダウンロード内のファイルを作業フォルダにc opy&pas te

c opy：スタートボタン→ ダウンロードをクリック → s tataintorodata2017.z ipを

クリックし、 C trlを押しながら全ファイルをクリック → マウス右ボタンを押

し、コピーを選択

講座のねらい

1. 経済統計分析の面白さを知る！

2. 統計分析ソフトの操作法を知る！

3. 独創的な分析ができるように！

4. レポートの作成（ offic eとの連携）

回帰分析とは？仮説 → 回帰分析 ( データの解釈 )→ 予測

以下の実習結果を「実習 .doc x 」にまとめる

１ s tata の起動と分析の初歩実習①ビールの需要予測

s tata の起動、グラフ作成、回帰分析、 offic e で整理

２回帰分析の結果の評価実習②豊かさと平均寿命

モデル選択（豊かさ、医師数、失業率）

３質的変数の取り扱い実習③社会主義と平均寿命

４新しい変数の作成・ダミー変数実習④賃貸物件

データ加工・ dta データ保存 → 分析 → 結果の保存

以下の課題を解いた結果を「課題 .doc x 」にまとめる。

課題② 賃金関数：年齢効果の産業比較

課題③ 湘南台賃貸物件：モデル ( 仮説 ) の妥当性

課題④ 石川町賃貸物件：お買い得物件

回帰分析とは？

• どんなことができるのか？

• 現状分析：男女雇用機会均等法の帰結など

• 政策シミュレーション

• 環境評価：インフラの外部効果の評価

回帰分析とは？

都市環境政策として何を優先すべき？

• 川崎市の住環境数量評価：矢沢・金本(1992)

都心までの利便性 ^{商業施設の充実度}

回帰分析とは？

騒音対策と交通政策が効果的

– 分析結果（川崎市の平均、 1㎡あたりの便益）

• 騒音 1 ホン改善・・・ 2760 円

• 緑地施設１㎡・・・ 140 円

• 都心までの時間・・・ 6130 円

• 緑地面積の効果は小さい

• 騒音対策が都市政策として市場評価が高い

回帰分析とは？

例）ビール販売の季節性

キリンビール _アサヒ _ビール

回帰分析とは？

例）気温ビール購入額

• 原因と結果のデータ図示

回帰分析とは？

ビールの売上高と平均気温

• 平均気温 ( 東京 ) と１世帯あたりのビール購入額

１月 X ₁ 6 . 8 Y ₁ 1 5 2 8

２月 X ₂ 7 Y ₂ 1 7 2 9

３月 X ₃ 1 0 . 5 Y ₃ 2 6 5 6

４月 X ₄ 1 5 . 2 Y ₄ 2 0 3 0

５月 X ₅ 1 9 . 2 Y ₅ 2 4 6 2

６月 X ₆ 2 2 . 7 Y ₆ 2 7 7 6

７月 X ₇ 2 6 . 6 Y ₇ 3 8 6 4

８月 X ₈ 2 7 Y ₈ 3 6 0 8

９月 X ₉ 2 2 . 9 Y ₉ 2 3 2 5

１０月 X ₁ ₀ 1 8 . 7 ^Y 10 1 9 8 4

１１月 X ₁ ₁ 1 4 . 3 Y ₁₁ 2 0 0 6

回帰分析とは？

原因(気温) と結果(ビールの購入額)

気温とビールの購入額 _ _２ _{変数の関係の強さ} _の指標

• 右上がり：プラス