第
2
回:データの加工・整理
北村 友宏2018 年 4 月 13 日
本日の内容
1. データの種類 2. Excel でのデータの加工・整理 3. Stata でのデータの取り込み 4. Stata での変数の作成 5. Stata での記述統計の出力横断面・時系列・パネルデータ
▶ ある 1 時点において複数の個体を観測したデー
タを横断面データ(cross section data)と
いう.
▶ e.g.,47 都道府県,2009 年のみ
▶ ある特定の個体を複数の時点にわたり,一定の
時間間隔で観測したデータを時系列データ
(time series data)という.
▶ e.g.,兵庫県のみ,1999 年∼2014 年,5 年間隔 ▶ 複数の個体を複数の時点にわたり,一定の時間 間隔で観測したデータをパネルデータ(panel data)という. ▶ e.g.,47 都道府県,1999 年∼2014 年,5 年間隔 ミクロデータは通常,横断面データまたはパネル データに含まれる. 3 / 24
ミクロ・集計データ
▶ 個人,家計,企業などの観測単位からなるデー タをミクロデータ(micro data)という. ▶ 個人の所得,消費 ▶ ミクロデータを市町村,都道府県,国などの単 位で合計または平均したデータを集計データ (aggregate data)という. ▶ 個人の所得,消費の各都道府県における平均 前回説明したように,この授業では「ミクロデータ を都道府県別や市町村別に集計したもの」を「広義 のミクロデータ」とする.⇓
前回の実習でダウンロードした『全国消費実態調 査』2009 年版の都道府県別・男女別の収入と支出 のデータは, ▶ 横断面データ ▶ 広義のミクロデータ(厳密には集計データ) 5 / 24データの加工・整理方法
入手したデータは,そのままでは統計解析ソフトを 用いた分析には使えない. そこで,以下の加工・整理をする. ▶ Excel ファイルの 1 行目は変数名 ▶ 2 行目は,1 番目の個体の各変数の数値 ▶ 3 行目は 2 番目の個体,4 行目は 3 番目の 個体,… ▶ 変数名などは半角英数字 ▶ Stata 13 は日本語非対応のため ▶ 変数名は必ず英字で始まる(数字で始まら ない) ▶ 変数名にスペースは含めない⇒
データセットを保存するフォルダの名前も半角 英数字で,スペースは含めない.加工・整理後の
Excel
ファイルの形
A B C D E
1 prefecture income expenditure male female
2 Hokkaido 227,349 155,491 1 0 3 Aomori 233,967 175,207 1 0 ... ... ... ... ... ... 48 Okinawa 214,233 137,726 1 0 49 Hokkaido 207,155 172,835 0 1 50 Aomori 169,422 143,179 0 1 ... ... ... ... ... ... 95 Okinawa 144,644 139,716 0 1 7 / 24
実習
1
1. Excel を起動し,consumption2009.xlsx という 名前で 2018microdata1 フォルダに保存. 2. セル A1 に prefecture,セル B1 に income,セ ル C1 に expenditure,セル D1 に male,セル E1 に female と入力. 3. b134-2.xls を開き,シート B134-2 の「セル P11 からセル BJ11 まで」の範囲をコピー. 4. consumption2009.xlsx のセル A2 を選択し,行 列を入れ替えて貼り付け.5. consumption2009.xlsx の A 列の都道府県名を全 てローマ字表記に直す.
▶ 2 行目から順に,
Hokkaido, Aomori, Iwate, Miyagi, Akita, Yamagata, Fukushima, Ibaraki, Tochigi, Gumma, Saitama, Chiba, Tokyo, Kanagawa, Niigata, Toyama, Ishikawa, Fukui,
Yamanashi, Nagano, Gifu, Shizuoka, Aichi, Mie, Shiga, Kyoto, Osaka, Hyogo, Nara, Wakayama, Tottori, Shimane,
Okayama, Hiroshima, Yamaguchi, Tokushima, Kagawa, Ehime, Kochi, Fukuoka, Saga, Nagasaki, Kumamoto, Oita, Miyazaki, Kagoshima, Okinawa
とする.
6. consumption2009.xlsx の「セル A2 からセル A48 まで」の範囲をコピーし,セル A49 を選 択して貼り付け.
7. b134-2.xls のシート B134-2 の「セル P37 から セル BJ37 まで」の範囲をコピー. 8. consumption2009.xlsx のセル B2 を選択し,行 列を入れ替えて貼り付け. 9. b134-2.xls のシート B134-2 の「セル P39 から セル BJ39 まで」の範囲をコピー. 10. consumption2009.xlsx のセル C2 を選択し,行 列を入れ替えて貼り付け. 11. consumption2009.xlsx の「セル D2 からセル D48 まで」の全てのセルに 1 を入力. 12. consumption2009.xlsx の「セル E2 からセル E48 まで」の全てのセルに 0 を入力.
13. b134-2.xls のシート B134-2 (2)の「セル P37 か らセル BJ37 まで」の範囲をコピー. 14. consumption2009.xlsx のセル B49 を選択し, 行列を入れ替えて貼り付け. 15. b134-2.xls のシート B134-2 (2)の「セル P39 か らセル BJ39 まで」の範囲をコピー. 16. consumption2009.xlsx のセル C49 を選択し, 行列を入れ替えて貼り付け. 17. consumption2009.xlsx の「セル D49 からセル D95 まで」の全てのセルに 0 を入力. 18. consumption2009.xlsx の「セル E49 からセル E95 まで」の全てのセルに 1 を入力. 11 / 24
19. consumption2009.xlsx のセル B17 とセル C17 両方の”-” を消去して空白にする. ▶ このデータでは「富山県の男性」は全て欠損値 (missing value). ▶ 欠損値を”-” としたまま Stata に読み込むと,当該 変数が数値変数として読み込まれない. 20. consumption2009.xlsx を上書き保存.
ダミー変数
▶ ある事柄が当てはまるなら 1,当てはまらない なら 0 とする変数をダミー変数(dummy variable)という. ▶ 先ほどの実習では,male と female の 2 つのダ ミー変数を作成した. ▶ 変数 male は,男性なら 1,女性なら 0 とした. ▶ 変数 female は,女性なら 1,男性なら 0 とした. 13 / 24統計解析ソフト
Stata
▶ 統計解析ソフト Stata では,Excel ファイルの データセットを取り込むことができる. ▶ 古くても Ver. 13 であれば xls,xlsx 両方に対応. ▶ 各種操作は,コマンドを入力する方法と,メ ニューバーからマウスで操作する方法がある. ▶ メニューバーから操作した場合も,その操作に対 応するコマンドが表示される. ▶ 無理にコマンドを覚える必要はない. ▶ この授業では, ▶ 比較的覚えやすいコマンド⇒コマンド入力の方法 ▶ そうでないコマンド⇒マウス操作の方法 を解説する.ロギング
Stata のプログラムを終了すると,画面に表示され た分析結果や,それを出力するために使われたコマ ンドの記録が消滅する.⇓
▶ 保存する方法 ▶ 結果やコマンドをメモ帳や Word にコピー・貼り 付けする ▶ ロギング機能を利用する(ログ開始・終了操作の みでできる) ロギング機能は,1 回の Stata の起動中に多くの分 析をするときや,長い計算を要する分析をするとき 等に使うと便利. 15 / 24実習
2
1. Stata 13 を起動. 2. メニューバーから「File」→「Log」→ 「Begin...」と操作し,2018microdata1 フォルダ に,lecture20180413.smcl という名前で保存. 3. メニューバーから「File」→「Import」→ 「Excel spreadsheet (*.xls; *.xlsx)」と操作. 4. Excel file:の「Browse...」をクリック. 5. 2018microdata1 フォルダにある consumption2009.xlsx を選択し,「開く」をク リック.6. 「Import first row as variable names」にチェッ
7. メニューバーから「File」→「Save as」と操作
し,2018microdata1 フォルダに,
consumption2009.dta という名前で保存.
8. Command ウィンドウに,
list prefecture income expenditure
male female
と入力して Enter キーを押すと,各変数の観測 値のリストが表示される. ▶ 「listの後」および「変数名と変数名の間」は半 角スペース. ▶ 「more」をクリックすれば下の隠れている部分が 表示される. 17 / 24変数の作成方法
▶ コマンドを入力する方法: Command ウィンドウに,generate
(付けたい変数名)=
(変数の定義式) を入力する. ▶ generateの後に半角スペースを必ず入力. ▶ メニューバーから操作する方法: メニューバーから「Data」→「Create orchange data」→「Create new variable」と操作 し,「Variable name:」のボックスに付けたい変 数名を,「Specify a value or an expression」の ボックスに変数の定義式を入力する.
▶ 「Specify a value or an expression」のボックスの
右にある「Create ...」をクリックすると.使える
演算子や関数を参照しながら変数の定義式を入力
変数の単位の変換
元のデータの可処分所得(income)と消費支出 (expenditure)は円単位.⇓
千円単位にするには,新たな変数を作成し,元の変 数を 1,000 で割ったものと定義すればよい. 19 / 24実習
3
1. Command ウィンドウに,generate income_th=income/1000
と入力して Enter キーを押す. 2. Command ウィンドウに,generate expenditure_th
=expenditure/1000
と入力して Enter キーを押し,上書き保存. 3. Command ウィンドウに,list prefecture income income_th
expenditure expenditure_th male
female
と入力して Enter キーを押す.
▶ 「listの後」および「変数名と変数名の間」は半
記述統計
▶ Command ウィンドウに,
summarize
(変数名)を入力して Enter キーを押すと,選んだ変数
の観測値数(number of observations),平均値
(mean),標準偏差 (standard deviation),最小値
(minimum),最大値 (maximum)が表示される. ▶ 変数を複数選ぶ場合は,「変数名と変数名の間」に 半角スペースを入力. ▶ 他の統計量(中央値,分位点等)を表示させる方 法や,小数点以下の表示桁数を変更する方法は, 次回の授業で解説する. 21 / 24
▶ Obs: 観測値数 ▶ n. ▶ Mean: 平均値 ▶ x =¯ 1 n n ∑ i=1 xi. ▶ Std. Dev.: 標準偏差 ▶ sx = √ 1 n− 1 n ∑ i=1 (xi− ¯x)2. ▶ Min: 最小値 ▶ min{xi}. ▶ Max: 最大値 ▶ max{xi}.
実習
4
1. Command ウィンドウに,
summarize income
income_th expenditure expenditure_th
male female
と入力して Enter キーを押す.▶ 「listの後」および「変数名と変数名の間」は半 角スペース. 2. 出力された表全体をドラッグして選択し,メ ニューバーから「Edit」→「Copy」と操作. 3. Word を起動し,貼り付けて summary20180413.docx という名前で 2018microdata1 フォルダに保存. 23 / 24