• 検索結果がありません。

第2回:データの加工・整理

N/A
N/A
Protected

Academic year: 2021

シェア "第2回:データの加工・整理"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

2

回:データの加工・整理

北村 友宏

2018 年 4 月 13 日

(2)

本日の内容

1. データの種類 2. Excel でのデータの加工・整理 3. Stata でのデータの取り込み 4. Stata での変数の作成 5. Stata での記述統計の出力

(3)

横断面・時系列・パネルデータ

▶ ある 1 時点において複数の個体を観測したデー

タを横断面データ(cross section data)と

いう.

▶ e.g.,47 都道府県,2009 年のみ

▶ ある特定の個体を複数の時点にわたり,一定の

時間間隔で観測したデータを時系列データ

(time series data)という.

▶ e.g.,兵庫県のみ,1999 年∼2014 年,5 年間隔 ▶ 複数の個体を複数の時点にわたり,一定の時間 間隔で観測したデータをパネルデータ(panel data)という. ▶ e.g.,47 都道府県,1999 年∼2014 年,5 年間隔 ミクロデータは通常,横断面データまたはパネル データに含まれる. 3 / 24

(4)

ミクロ・集計データ

▶ 個人,家計,企業などの観測単位からなるデー タをミクロデータ(micro data)という. ▶ 個人の所得,消費 ▶ ミクロデータを市町村,都道府県,国などの単 位で合計または平均したデータを集計データ (aggregate data)という. ▶ 個人の所得,消費の各都道府県における平均 前回説明したように,この授業では「ミクロデータ を都道府県別や市町村別に集計したもの」を「広義 のミクロデータ」とする.

(5)

前回の実習でダウンロードした『全国消費実態調 査』2009 年版の都道府県別・男女別の収入と支出 のデータは, ▶ 横断面データ ▶ 広義のミクロデータ(厳密には集計データ) 5 / 24

(6)

データの加工・整理方法

入手したデータは,そのままでは統計解析ソフトを 用いた分析には使えない. そこで,以下の加工・整理をする. ▶ Excel ファイルの 1 行目は変数名 ▶ 2 行目は,1 番目の個体の各変数の数値 ▶ 3 行目は 2 番目の個体,4 行目は 3 番目の 個体,… ▶ 変数名などは半角英数字 ▶ Stata 13 は日本語非対応のため ▶ 変数名は必ず英字で始まる(数字で始まら ない) ▶ 変数名にスペースは含めない

データセットを保存するフォルダの名前も半角 英数字で,スペースは含めない.

(7)

加工・整理後の

Excel

ファイルの形

A B C D E

1 prefecture income expenditure male female

2 Hokkaido 227,349 155,491 1 0 3 Aomori 233,967 175,207 1 0 ... ... ... ... ... ... 48 Okinawa 214,233 137,726 1 0 49 Hokkaido 207,155 172,835 0 1 50 Aomori 169,422 143,179 0 1 ... ... ... ... ... ... 95 Okinawa 144,644 139,716 0 1 7 / 24

(8)

実習

1

1. Excel を起動し,consumption2009.xlsx という 名前で 2018microdata1 フォルダに保存. 2. セル A1 に prefecture,セル B1 に income,セ ル C1 に expenditure,セル D1 に male,セル E1 に female と入力. 3. b134-2.xls を開き,シート B134-2 の「セル P11 からセル BJ11 まで」の範囲をコピー. 4. consumption2009.xlsx のセル A2 を選択し,行 列を入れ替えて貼り付け.

(9)

5. consumption2009.xlsx の A 列の都道府県名を全 てローマ字表記に直す.

▶ 2 行目から順に,

Hokkaido, Aomori, Iwate, Miyagi, Akita, Yamagata, Fukushima, Ibaraki, Tochigi, Gumma, Saitama, Chiba, Tokyo, Kanagawa, Niigata, Toyama, Ishikawa, Fukui,

Yamanashi, Nagano, Gifu, Shizuoka, Aichi, Mie, Shiga, Kyoto, Osaka, Hyogo, Nara, Wakayama, Tottori, Shimane,

Okayama, Hiroshima, Yamaguchi, Tokushima, Kagawa, Ehime, Kochi, Fukuoka, Saga, Nagasaki, Kumamoto, Oita, Miyazaki, Kagoshima, Okinawa

とする.

6. consumption2009.xlsx の「セル A2 からセル A48 まで」の範囲をコピーし,セル A49 を選 択して貼り付け.

(10)

7. b134-2.xls のシート B134-2 の「セル P37 から セル BJ37 まで」の範囲をコピー. 8. consumption2009.xlsx のセル B2 を選択し,行 列を入れ替えて貼り付け. 9. b134-2.xls のシート B134-2 の「セル P39 から セル BJ39 まで」の範囲をコピー. 10. consumption2009.xlsx のセル C2 を選択し,行 列を入れ替えて貼り付け. 11. consumption2009.xlsx の「セル D2 からセル D48 まで」の全てのセルに 1 を入力. 12. consumption2009.xlsx の「セル E2 からセル E48 まで」の全てのセルに 0 を入力.

(11)

13. b134-2.xls のシート B134-2 (2)の「セル P37 か らセル BJ37 まで」の範囲をコピー. 14. consumption2009.xlsx のセル B49 を選択し, 行列を入れ替えて貼り付け. 15. b134-2.xls のシート B134-2 (2)の「セル P39 か らセル BJ39 まで」の範囲をコピー. 16. consumption2009.xlsx のセル C49 を選択し, 行列を入れ替えて貼り付け. 17. consumption2009.xlsx の「セル D49 からセル D95 まで」の全てのセルに 0 を入力. 18. consumption2009.xlsx の「セル E49 からセル E95 まで」の全てのセルに 1 を入力. 11 / 24

(12)

19. consumption2009.xlsx のセル B17 とセル C17 両方の”-” を消去して空白にする. ▶ このデータでは「富山県の男性」は全て欠損値 (missing value). ▶ 欠損値を”-” としたまま Stata に読み込むと,当該 変数が数値変数として読み込まれない. 20. consumption2009.xlsx を上書き保存.

(13)

ダミー変数

▶ ある事柄が当てはまるなら 1,当てはまらない なら 0 とする変数をダミー変数(dummy variable)という. ▶ 先ほどの実習では,male と female の 2 つのダ ミー変数を作成した. ▶ 変数 male は,男性なら 1,女性なら 0 とした. ▶ 変数 female は,女性なら 1,男性なら 0 とした. 13 / 24

(14)

統計解析ソフト

Stata

▶ 統計解析ソフト Stata では,Excel ファイルの データセットを取り込むことができる. ▶ 古くても Ver. 13 であれば xls,xlsx 両方に対応. ▶ 各種操作は,コマンドを入力する方法と,メ ニューバーからマウスで操作する方法がある. ▶ メニューバーから操作した場合も,その操作に対 応するコマンドが表示される. ▶ 無理にコマンドを覚える必要はない. ▶ この授業では, ▶ 比較的覚えやすいコマンド⇒コマンド入力の方法 ▶ そうでないコマンド⇒マウス操作の方法 を解説する.

(15)

ロギング

Stata のプログラムを終了すると,画面に表示され た分析結果や,それを出力するために使われたコマ ンドの記録が消滅する.

▶ 保存する方法 ▶ 結果やコマンドをメモ帳や Word にコピー・貼り 付けする ▶ ロギング機能を利用する(ログ開始・終了操作の みでできる) ロギング機能は,1 回の Stata の起動中に多くの分 析をするときや,長い計算を要する分析をするとき 等に使うと便利. 15 / 24

(16)

実習

2

1. Stata 13 を起動. 2. メニューバーから「File」→「Log」→ 「Begin...」と操作し,2018microdata1 フォルダ に,lecture20180413.smcl という名前で保存. 3. メニューバーから「File」→「Import」→ 「Excel spreadsheet (*.xls; *.xlsx)」と操作. 4. Excel file:の「Browse...」をクリック. 5. 2018microdata1 フォルダにある consumption2009.xlsx を選択し,「開く」をク リック.

6. 「Import first row as variable names」にチェッ

(17)

7. メニューバーから「File」→「Save as」と操作

し,2018microdata1 フォルダに,

consumption2009.dta という名前で保存.

8. Command ウィンドウに,

list prefecture income expenditure

male female

と入力して Enter キーを押すと,各変数の観測 値のリストが表示される. ▶ 「listの後」および「変数名と変数名の間」は半 角スペース. ▶ 「more」をクリックすれば下の隠れている部分が 表示される. 17 / 24

(18)

変数の作成方法

▶ コマンドを入力する方法: Command ウィンドウに,

generate

(付けたい変数名)

=

(変数の定義式) を入力する. ▶ generateの後に半角スペースを必ず入力. ▶ メニューバーから操作する方法: メニューバーから「Data」→「Create or

change data」→「Create new variable」と操作 し,「Variable name:」のボックスに付けたい変 数名を,「Specify a value or an expression」の ボックスに変数の定義式を入力する.

▶ 「Specify a value or an expression」のボックスの

右にある「Create ...」をクリックすると.使える

演算子や関数を参照しながら変数の定義式を入力

(19)

変数の単位の変換

元のデータの可処分所得(income)と消費支出 (expenditure)は円単位.

千円単位にするには,新たな変数を作成し,元の変 数を 1,000 で割ったものと定義すればよい. 19 / 24

(20)

実習

3

1. Command ウィンドウに,

generate income_th=income/1000

と入力して Enter キーを押す. 2. Command ウィンドウに,

generate expenditure_th

=expenditure/1000

と入力して Enter キーを押し,上書き保存. 3. Command ウィンドウに,

list prefecture income income_th

expenditure expenditure_th male

female

と入力して Enter キーを押す.

▶ 「listの後」および「変数名と変数名の間」は半

(21)

記述統計

▶ Command ウィンドウに,

summarize

(変数名)

を入力して Enter キーを押すと,選んだ変数

の観測値数(number of observations),平均値

(mean),標準偏差 (standard deviation),最小値

(minimum),最大値 (maximum)が表示される. ▶ 変数を複数選ぶ場合は,「変数名と変数名の間」に 半角スペースを入力. ▶ 他の統計量(中央値,分位点等)を表示させる方 法や,小数点以下の表示桁数を変更する方法は, 次回の授業で解説する. 21 / 24

(22)

▶ Obs: 観測値数 ▶ n. ▶ Mean: 平均値 ▶ x =¯ 1 n ni=1 xi. ▶ Std. Dev.: 標準偏差 ▶ sx = √ 1 n− 1 ni=1 (xi− ¯x)2. ▶ Min: 最小値 ▶ min{xi}. ▶ Max: 最大値 ▶ max{xi}.

(23)

実習

4

1. Command ウィンドウに,

summarize income

income_th expenditure expenditure_th

male female

と入力して Enter キーを押す.

▶ 「listの後」および「変数名と変数名の間」は半 角スペース. 2. 出力された表全体をドラッグして選択し,メ ニューバーから「Edit」→「Copy」と操作. 3. Word を起動し,貼り付けて summary20180413.docx という名前で 2018microdata1 フォルダに保存. 23 / 24

(24)

実習

5

本日の作業はここまで. ロギング機能を利用しながら作業している.

作業を終了する際には,ログの記録を停止してから Stata を終了させる. 1. メニューバーから「File」→「Log」→「Close」 と操作すると,ログの記録が停止される. 2. Stata 13 を終了させる. 3. 2018microdata1 フォルダに保存された lecture20180413.smcl を開くと,本日の作業の 記録(分析結果やコマンド)を見ることがで きる.

参照

関連したドキュメント

Wach 加群のモジュライを考えることでクリスタリン表現の局所普遍変形環を構 成し, 最後に一章の計算結果を用いて, 中間重みクリスタリン表現の局所普遍変形

特に、その応用として、 Donaldson不変量とSeiberg-Witten不変量が等しいというWittenの予想を代数

LLVM から Haskell への変換は、各 LLVM 命令をそれと 同等な処理を行う Haskell のプログラムに変換することに より、実現される。

地域の名称 文章形式の表現 卓越もしくは変化前 断続現象 変化後 地域 風向 風向(数値) 風速 風力 起時

した標準値を表示しておりますが、食材・調理状況より誤差が生じる場合が

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

られる。デブリ粒子径に係る係数は,ベースケースでは MAAP 推奨範囲( ~ )の うちおよそ中間となる