2. t 値による回帰係数の評価
1.7 を下回るを上回る
決定係数は少し だけ上昇
説明力が乏し い変数を
追加し ても R 2は上昇
回帰分析の結果の評価
t 値について
• t 値が絶対値で大きく 1.7を下回る
=係数の信頼性がない( 係数は0かも し れない)
• P 値: 係数がゼロの確率
– 5 %のと き t 値は 1.96 ( ≒ 2.0) 程度、
– 10 %のと き t 値は 1.68( ≒ 1.7) 程度
– 10 %以上のと き「 有意でない」 「 信頼性なし 」 と 判断
回帰分析の結果の評価
失業率 GDP
医師数
平均寿命
• t 値が1.7を下回っ ている こ と から 、 失業率には説明力 がない!
• 説明力が乏し い変数は 説明変数から 除去し て再度、
回帰係数を推定
• 説明力が乏し い変数を追 加し ても 、 決定係数は上昇す るので、 回帰式は t 値と セッ
X
まと め: 回帰分析の結果の見方
(平均寿命)=a+ b
1 *( 一人あたり GD P) +b
2 *( 医師数)+b
3 *( 失業率)+u
決定係数
係数
論文に載せよう : 記述統計
• s ummariz e (変数) [if 条件式], option
– 記述統計を出力
• 標本数 (obs ) 、 平均 ( mean) 、 標準偏差 (S td. D ev.) 、 最小値 (min) 、 最大値 ( max)
– Option
• detail: 詳細な統計量を表示
– 省略: s um, s uでも O K ( 下線のと こ ろまで)
記述統計: s umの結果
平均 標準偏差 最小値 最大値
実習②: 説明力をあげる
• life_ exp.doフ ァ イ ルに以下のコ マンド を加筆・
保存・ 実行し 、 4つの回帰分析の結果と 記述 統計の表を実習.doc xに整理せよ。
r eg life_ exp gdp_ p r eg life_ exp phys
r eg life_ exp gdp_ p phys
r eg life_ exp gdp_ p phys unemp
sum
Ⅲ 質的変数の取り 扱い
A z er baijan K orea, R ep.
C hina J apan
Italy Ireland
F inland
F ranc eG reec e
Egy p t, A rab R ep.
A us tria
Be lg ium
Bulgaria Cz ec h R epublic Ca nada
Colombia Chile
Braz il
A us tralia
Ec uador Mex ic o
Netherlands Ne w Z e aland
Nic ara gua
Germa ny
Hungary Polan d
Portugal
R omania
R us s ian F ederation Paraguay
S pain S w eden
Ukra in e United S tates
V enez uela, R B
Z imbabw e
50607080
Life_expectancy/Linearprediction
社会主義国は回帰直線の下方に集中 社会主義国の回帰直線の切片は小さ い?
[ 平均寿命 ]= 67.4+ 2.20[ 医師数 ] R 2=0.1552
質的変数の取り 扱い
ダミ ー変数による回帰分析
(平均寿命) =a+ γ *D + b*( 医師数) + u D :ダミ ー変数
– 数量化できない変数を説明変数に加える
D =1 if 社会主義国、
D =0 if 資本主義国
( 平均寿命 ) = a + b*( 医師数 ) + u : 資本主義国 ( 平均寿命 ) = a+ γ * D + b*( 医師数 ) + u : 社会主義国
社会主義国の切片( 定数項)
質的変数の取り 扱い
社会主義国ダミ ー
_ c ons 6 6 . 5 3 4 6 9 1 . 9 3 9 1 2 6 3 4 . 3 1 0 . 0 0 0 6 2 . 5 9 3 9 1 7 0 . 4 7 5 4 7 s oc i a l i s t - 6 . 9 2 2 1 6 4 1 . 9 4 6 8 2 5 - 3 . 5 6 0 . 0 0 1 - 1 0 . 8 7 8 5 9 - 2 . 9 6 5 7 4 phy s 3 . 2 6 9 6 3 8 . 8 0 8 2 6 6 9 4 . 0 5 0 . 0 0 0 1 . 6 2 7 0 4 2 4 . 9 1 2 2 3 4
l i f e _ e x p Co e f . S t d. E r r . t P> | t | [ 9 5 % Conf . I nt e r v a l ]
T ot a l 1 2 2 4 . 7 8 7 0 3 3 6 3 4 . 0 2 1 8 6 1 9 Ro ot MS E = 4 . 7 1 0 3
Ad j R- s qua r e d = 0 . 3 4 7 9
Re s i dua l 7 5 4 . 3 6 0 1 9 3 4 2 2 . 1 8 7 0 6 4 4 R- s qua r e d = 0 . 3 8 4 1
Mode l 4 7 0 . 4 2 6 8 3 8 2 2 3 5 . 2 1 3 4 1 9 Pr ob > F = 0 . 0 0 0 3
F ( 2 , 3 4 ) = 1 0 . 6 0
S o ur c e S S df MS Numbe r of ob s = 3 7
. r e g l i f e _ e x p phy s s o c i a l i s t
質的変数の取り 扱い
A z er baijan K orea, R ep.
C hina J apan
Italy Ireland
F inland
F ranc eG reec e
Egy p t, A rab R ep.
A us tria
Be lg ium
Bulg aria C z ec h R epublic C a nada
C olombia C hile
Braz il
A us tralia
Ec uador Mex ic o
Netherlands Ne w Z e aland
Nic ara gua
G erma ny
Hungary Polan d
Portug al
R omania
R us s ian F ederation Paraguay
S pain S w eden
Ukra ine United S tates
V enez uela, RB
Z imbabw e
50607080
Life_expectancy/Linearprediction
切片の違い 6.92
ダミ ー変数の係数は、 切片の違いを示す
実習③: t 値、 および質的変数
• life_ exp.doフ ァ イ ルに以下の2 つの回帰分析 を加筆・ 保存・ 実行し 、 結果を実習.docxに整 理せよ。
r eg life_ exp phys socialist
r eg life_ exp gdp_ p phys socialist
・ D o-fileの構成
cd z: ¥ documents¥ stata-lec2017
impor t excel using life_ exp.xls ,fir str ow clear r eg life_ exp gdp_ p
r eg life_ exp phys
r eg life_ exp gdp_ p phys unemp r eg life_ exp phys socialist
r eg life_ exp gdp_ p phys socialist
いちばん最初に、 フ ォ ルダー位置の指定
次に、 フ ァ イ ルの読み込み
こ こ までのまと め
• 回帰分析の考え方・ 結果の味方
– 被説明変数、 説明変数、 回帰係数 – 決定係数・ t 値
– ダミ ー変数
• S tataコ マンド
– c d ( フ ォ ルダー名 ) : 作業フ ォ ルダーを S tata に認識さ せる – import exc el us ing ( フ ァ イ ル名 .xls ) , firs trow c lear
– reg [ 被説明変数 ] [ 説明変数 ]
– predic t [ 新し い変数 ]
Ⅳ 新し い変数の作成・ ダミ ー変数
• 事例: 東京城南・ 川崎市の賃貸物件 – rent-jonan-kawas aki.xls
• rent: 賃貸料( 万円) s ervic e: 管理費( 万円)
• walk: 徒歩( 分) bus : バス所要時間( 分)
• floor: 占有面積( ㎡) ag e: 築年数( 年)
• d_ autoloc k: オート ロッ ク の有無(1有り 0 無し )
• c atv: ケーブルテレビの有無( 1有り 0 無し )
• s tation: 最寄り 駅
• terminal: タ ーミ ナル駅から の所要時間( 分)
• expres s : 急行停車駅のと き1 ( それ以外0 )
• line: 路線( 1東急,2J R ,3京急)
実習④: 東京城南・ 川崎市の賃貸物件
田園調布
JR京浜東北線 東急東横線
京浜急行線 川崎
渋谷
横浜
品川
京急川崎 多摩川
東急・ 自由が丘 京急・ 六郷土手
実習④: 変数の作成、 ダミ ー変数
• 東京城南地区・ 川崎市エリ アの賃貸物件を分析す るdo-fileを作成する
– D o-fileのフ ァ イ ル名: r ent-data.do, r ent-r eg.do – 使用データ : r ent-j onan-k awasak i.xls
– 変数作成: 家賃r ent_ total、 通勤時間dist 路線ダミ ー変数(d_ tok yu, d_ j r ) – 作図・ 表( ヒ スト グラ ム、 統計量計算)
– 回帰分析r ent_ total
=f(floor , age, dist, d_ autolock , d_ tok yu, d_ j r )
実習④ 変数の加工、 ダミ ー変数
• 変数の加工
– 支払い家賃総額=賃貸料+管理費
rent_ total = rent + s ervic e
– 駅から の移動距離=徒歩所要時間+バス時 dis t = walk + bus
• line ( 東急=1, J R = 2, 京急=3)と いう 変数を加 工し てダミ ー変数を作成する
→ 回帰分析で東急沿線は割高か調べる
実習④ 変数の加工
• 新し い変数を作成 (g en)
– 支払い家賃総額=賃貸料+管理費
g en rent_ total= rent+ s ervic e
– 駅から の移動距離=徒歩所要時間+バス時間
g en dis t = walk + bus
実習④ ダミ ー変数
• 最寄駅が、 それぞれ、 東急、 J R であれば、 1 をと るダミ ー変数を作成する( 基準は京急)
– 新し い変数の作成: g en
– 既存の変数の置き換え: replac e
• g en d_ tokyu= 0
• replac e d_ tokyu= 1 if line= =1 条件式
• 条件式の書き方
== : 等し い、 !=: 等し く ない、 >= , <= , > , <
実習④: データ 作成
• D o-fileの例: rent-data.do
cd z: ¥ documents¥ stata-lec2017
impor t excel using rent-jonan-kawasaki.xls, fir str ow clear gen r ent_ total=r ent+ser vice
gen dist=bus+walk gen d_ tok yu=0
r eplace d_ tok yu=1 if line==1 gen d_ j r =0
r eplace d_ j r =1 if line==2
save r ent-j onan-k awasak i, r eplace
–新規にr e n t - d a t a ( . d o ) と し て保存し て実行→b r o w s e で確認
–r e n t - j o n a n - k a w a s a k i . d t a が保存さ れる
図表の作成
• ヒ スト グラ ムの作成
データ の分布を棒グラ フ で示し たも の
0510152025
Percent