社会調査入門
/社会調査論
社会調査入門
/社会調査論
第4章 データ入力と集計 第 章 デ タ入力 集計 立命館大学経済学部 寺 脇 拓本章の概要
本章では、データ入力とその集計の方法について学ぶ。
これまで「標本」という言葉は 母集団から抽出された「人
これまで「標本」という言葉は、母集団から抽出された「人
の集合」を指すものとして使ってきたが、以後は、ある特
定の質問に対する「回答データの集合」を指すものとして
定
質
」
使う。標本を構成する一つ一つの回答データは
観測値
(observation)と呼ばれる。
2 第4章 データ入力と集計 社会調査入門1. データ入力
1. デ タ入力
3 1. データ入力 第4章 データ入力と集計 社会調査入門1 1 デ タ入力の準備
1.1 データ入力の準備
• データの入力と集計には、通常何らかの表計算ソフトウェ
ア(Excel、Lotusなど)が使われることが多い。
• ここでは、Excelでデータ集計を行うことを前提とした入力
方法について紹介する
方法について紹介する。
統計分析においては、それ専用のソフトウェア(E-Views、TSP、 SPSS、SAS、Limdepなど)を利用することが多い。それらのソフ、 、 p )を 用す 多 。そ トウェアによって処理できる、あるいは処理しやすいデータの形式 が異なってくるが、ここで紹介する入力の仕方で作られたデータ セットは、ほぼそのまま各ソフトウェアにインポートすることができ る る。1. 調査票のナンバリング
回収後 それぞれの調査票に番号を付ける 回収後、それぞれの調査票に番号を付ける。 後で、データ入力に誤り(らしいもの)を見つけたときに、そのデー タと調査票の回答とを照らし合わせることができるようにしておく。 4 1. データ入力2. 各質問に短い変数名を付ける。
質
変数
変数名をみれば、対応する質問が思い出せるようにする。 日本語でもよいが、統計分析専用ソフトの多くが英語にしか対応 していないため それらの利用を考えている場合には 8文字以 していないため、それらの利用を考えている場合には、8文字以 内のアルファベットで変数名を付けておくと、後で余計な変数変換 の作業をしなくてすむ。 例 年齢 質 「 う変数名を る 例:年齢の質問に「AGE」という変数名を付ける。 ◆ 数値回答、文字回答、単一回答の場合 • 一つの「質問」につき 一つの変数名を割り当てる • つの「質問」につき、 つの変数名を割り当てる。 ◆ 複数回答の場合 • 一つの「選択肢」につき、一つの変数名を割り当てる。 • 複数回答の質問は、一つ一つの選択肢について、それが当てはま るかどうかを単一回答で質問したものとして捉えられる。 ◆ 順位回答の場合 ◆ 順位回答の場合 • 一つの「順位」につき、一つの変数名を割り当てる。 • 順位回答の質問は、一つ一つの順位について、どの選択肢がその 順位に当てはまるかを単 回答で質問したものとして捉えられる 5 順位に当てはまるかを単一回答で質問したものとして捉えられる。 1. データ入力 ボランティア活動に関する意識調査 ナンバリング7
ID 赤 ボランティア活動に関する意識調査 問1 あなたはボランティア活動に参加したことがありますか。当てはまるもの一つに○をつけてください。 ① ある ② ない7
VOL ID ナンバリング 赤 字の ア ル フ 問2 問1で「① ある」に○をつけた方にお尋ねします。あなたはどのようなボランティア活動に参加したことがあり ますか。つぎの中から当てはまるもの全てに○をつけて下さい。 ① 社会福祉 高齢者、障害者などへの支援 ② 保健・医療 病院や保健所での活動 心身に疾病を持つ人への支援 ACT1 ACT2 フ ァ ベ ッ ト は ② 保健 医療 病院や保健所での活動、心身に疾病を持つ人への支援 ③ 国際協力 海外協力、日本にいる外国人への支援 ④ 環境保護 自然保護、動物保護、環境保護、リサイクル活動など ⑤ 教育関係 学校教育、家庭教育、社会教育への協力など ⑥ 芸術・文化 美術館・博物館での活動 地域文化の育成など ACT2 ACT3 ACT4 ACT5 ACT6 は 変数名 ⑥ 芸術 文化 美術館 博物館での活動、地域文化の育成など ⑦ スポーツ スポーツ活動への支援 ⑧ 災害関係 防災活動、災害時の救援・支援活動 ⑨ 消費者関係 消費問題の解決、消費者教育への協力など ⑩ その他 ( ) ACT6 ACT7 ACT8 ACT9 ACT10 ⑩ その他 ( ) 問3 問2で二つ以上の選択肢に○をつけた方にお尋ねします。その中で、あなたが重要だと思う活動を二つを選 び、重要だと思う順に並べてください。 最も重要( ) 次に重要( ) ACT10 IMP1 IMP2 最も 要( ) 次 要( ) 問4 問1で「① ある」に○をつけた方にお尋ねします。あなたは年間何日ぐらいボランティア活動に参加しますか。 数字でお答えください。 年間( )日くらい IMP1 IMP2 DAYS 6 1. データ入力 第4章 データ入力と集計 社会調査入門1 2 デ タ入力手順
1.2 データ入力手順
1. 表計算ソフトでワークシートの雛形を作る。
第一行目に、変数名を並べる。 第一列目には、ナンバリングした調査票の番号(回答者のID)を 入力する 入力する。 回答が無回答であった場合に入力する記号(「-」、「9999」、 「NA」、「DK」など)をあらかじめワークシート全体に入力しておく と それら 回答に直面したときに 入力 手間が省ける と、それらの回答に直面したときに、入力の手間が省ける。2. データ入力
の調査票に記される回答デ タをワ クシ トの 行に入 一つの調査票に記される回答データをワークシートの一行に入 力する。 データは、文字回答を除いて、半角数字で入力する。 単一回答については、選択された番号をそのまま入力する. 複数回答については、各選択肢について、○がついていれ「1」を、 ついていなければ「2」を入力する 7 ついていなければ「2」を入力する。 1. データ入力 第4章 データ入力と集計 社会調査入門 順位回答については、各ランクについて、選ばれた選択肢番号を 入力する 入力する。 数値回答、文字回答については、記入された数字、文字をそのま ま入力する。 • 入力前にコード化しておいて、該当する番号を入力するやり方もある が、分析の過程で再コード化する必要がでてくることがことがしばし ばあるため、はじめに作るデータセットはできるだけ調査票の回答の とおりに入力した方がよ とおりに入力した方がよい。 無回答(記入がない回答)と非該当(スクリーニング質問の条件に 該当しない回答者の枝分かれ質問における回答)は区別して入 力する 「 「 など 力する(「9999」と「8888」など)。3. アフターコーディング
文字回答を ド化する 文字回答をコード化する。 • 例:文字回答形式で得られた居住地の回答を、「関西地区」であれば 「1」、「関西地区以外」であれば「2」にコード化する。 • ワークシート上で新たな列を挿入し、新たな変数名をつけ、コード化 されたデータを入力する。 8 1. データ入力4. データ変容
変
プリコードされた回答を再コード化する。 • 例:学歴(変数名:EDU)の質問の選択肢が「① 中学校卒」、「② 高 校卒」 「③ 短大 専門学校 高専卒」 「④ 大学卒」 「⑤ 大学院(修 校卒」、「③ 短大・専門学校・高専卒」、「④ 大学卒」、「⑤ 大学院(修 士)」、「⑥ 大学院(博士)」であるき、「大卒以上」を「1」、「大卒未満」 を「2」に再コード化する。 • ワークシート上で新たな列を挿入し 新たな変数名をつけ(例えば • ワ クシ ト上で新たな列を挿入し、新たな変数名をつけ(例えば EDU2)、EDUの値が、「4」、「5」、「6」のいずれかであるときに「1」 を、「1」、「2」、「3」のいずれかであるときに「2」を入力する。5 データチェック
5. デ タチェック
データの並べ替えなどを行い、設定されていない数字が含まれて いないかなどをチェックする。 • データを並べ替えるときには、その基準となる変数の列だけが並べ 替えられないよう注意する(行全体が並べ替えられるようにする)。 9 1. データ入力 変数名 変数名 回答者ID データ変容によって新たに作られた変数LIFE 医療・福祉部門のボランティア経験があれば(すなわ ち、ACT1かACT2のいずれかが「1」であれば)「1」、 なければ「2」となる新しい変数 非該当 無回答 10 1. データ入力 なければ「2」となる新しい変数。 第4章 データ入力と集計 社会調査入門1 3 デ タの種類
•
量的
(
数量
)
データ
1.3 データの種類
(
数
)
その情報が数量的な意味を持つデータ 社会調査では、数量回答によって得られるデータはもちろん、単一 回答であっても、その選択肢の内容が数量的な意味を持つもので あれば、それは量的データとしてみなされる。•
質的データ
•
質的デ タ
その情報が数量的な意味を持たないデータ 社会調査では、上記の量的データを除く全てのデータが質的となる 社会調査では、上記の量的デ タを除く全てのデ タが質的となる が、アフターコーディングされない文字回答を除けば、あらゆる回 答データはコード化され、それらは何らかのカテゴリーを表すものと なる。その意味で、社会調査における質的データは、カテゴリカル なる。その意味で、社会調査における質的デ タは、カテ リカル データ(categorical data)ともいわれる。 11 1. データ入力 第4章 データ入力と集計 社会調査入門2. 量的データの集計
2. 量的デ タの集計
12 2. 量的データの集計2 1 例: non GM食品に対するWTP
■ テーマ
2.1 例: non-GM食品に対するWTP
• 遺伝子組み換え(genetically modified: GM)食品を避
け、非遺伝子組み換え
(non-GM)食品を食べるために消
費者が支払
も
う金額 すなわち消費者
支払
費者が支払ってもよいと思う金額、すなわち消費者の支払
意思額(willingness to pay: WTP)はいくらか?
■ 理論
■ 理論
• 食品安全に対するWTPは、しばしば状態依存効用モデル
1)(state dependent utility model)を用いて説明される
(state dependent utility model)を用いて説明される。
• このモデルにおいては、消費者は、GM食品を食べることに
よって、確率
1-pでアレルギーを引き起こし、確率pでアレル
よ て、確率
pでアレルギ
を引き起 し、確率pでアレル
ギーを引き起こさないと考えるということが仮定される。
• また一方で、non-GMを食品を食べることによって、アレル
13ギーは確実に引き起こされないことが仮定される。
2. 量的データの集計 確率 確率 良い健康状態 悪い健康状態 図4.1 状態依存効用モデルのイメージ 14 2. 量的データの集計 第4章 データ入力と集計 社会調査入門• このとき、アレルギーを引き起こしたときの消費者の効用
のとき、アレルギ を引き起 したときの消費者の効用
関数をU
b(M)、 アレルギーを引き起こさなかったときの消
費者の効用関数をU
g(M)で表すとすると(Mは所得)、期待
効用理論に従えば
GM食品を避けるためのWTPは次の
効用理論に従えば、
GM食品を避けるためのWTPは次の
ように表される。
■ 実証
• このようなWTPは 市場データからは観察されないため
• このようなWTPは、市場データからは観察されないため、
社会調査によって明らかにすることが求められる。
• そこで 回答者に 「GM食品を避け non-GM食品を消費
• そこで、回答者に、「GM食品を避け、non GM食品を消費
するために、食品一単位当たり最大いくら支払ってもよいと
思うか」を質問する。
• このように、回答者に直接WTPを質問する方法を
CVM
(contingent valuation method)という
2)。
15 2. 量的データの集計 第4章 データ入力と集計 社会調査入門 コーン油を事例としたCVM質問 問1 現在、遺伝子組み換えトウモロコシを原料として使っているコーン油が、1本900gあたり約600円 で販売されています。もし、遺伝子組み換え原料を完全に使っていないコーン油を販売しようとす れば それは 流通管理を徹底 なければならな とから 値段がより高くなる とが予想されま れば、それは、流通管理を徹底しなければならないことから、値段がより高くなることが予想されま す。あなたは、900gのコーン油1本について、追加的な値上がりが何円までだったら、遺伝子組み 換え原料を完全に使っていないコーン油を買いたいと思いますか。数字でお答えください。 ( )円 ( )円 遺伝子組み換え原料を 遺伝子組み換え原料を 900gあたり 600+( ? )円 使っていない 使っている 900gあたり 600円 16 2. 量的データの集計
表4.1 CVMの質問により得られたWTPの標本 ID WTP ID WTP ID WTP ID WTP ID WTP ID WTP ID WTP ID WTP 1 100 26 1000 51 600 76 800 101 100 126 200 151 650 176 800 2 10 27 600 52 100 77 100 102 300 127 200 152 1000 177 100 3 100 28 100 53 700 78 800 103 800 128 200 153 1000 178 400 4 600 29 300 54 100 79 100 104 300 129 50 154 1000 179 50 4 600 29 300 54 100 79 100 104 300 129 50 154 1000 179 50 5 1200 30 300 55 600 80 100 105 800 130 700 155 200 180 800 6 300 31 1000 56 100 81 100 106 100 131 1000 156 600 181 660 7 100 32 100 57 1000 82 200 107 700 132 100 157 800 182 100 8 300 33 400 58 300 83 100 108 300 133 700 158 400 183 200 8 300 33 400 58 300 83 100 108 300 133 700 158 400 183 200 9 100 34 100 59 600 84 200 109 100 134 700 159 200 184 100 10 50 35 800 60 900 85 700 110 200 135 500 160 700 185 100 11 200 36 100 61 800 86 850 111 200 136 900 161 300 186 150 12 800 37 200 62 100 87 300 112 500 137 300 162 250 187 200 12 800 37 200 62 100 87 300 112 500 137 300 162 250 187 200 13 50 38 800 63 200 88 350 113 150 138 100 163 100 188 700 14 800 39 1000 64 1000 89 50 114 400 139 800 164 200 189 800 15 100 40 20 65 100 90 650 115 150 140 200 165 100 190 100 16 100 41 900 66 400 91 700 116 300 141 100 166 500 191 300 16 100 41 900 66 400 91 700 116 300 141 100 166 500 191 300 17 200 42 1000 67 100 92 200 117 800 142 100 167 200 192 300 18 620 43 300 68 100 93 700 118 300 143 100 168 1000 193 200 19 700 44 50 69 780 94 100 119 650 144 800 169 700 194 100 20 50 45 100 70 700 95 980 120 100 145 650 170 100 195 100 20 50 45 100 70 700 95 980 120 100 145 650 170 100 195 100 21 800 46 100 71 700 96 100 121 150 146 100 171 300 196 200 22 1000 47 800 72 100 97 100 122 100 147 50 172 100 197 300 23 198 48 50 73 100 98 250 123 200 148 700 173 50 198 1000 24 100 49 700 74 200 99 300 124 300 149 200 174 800 199 700 17 2. 量的データの集計 24 100 49 700 74 200 99 300 124 300 149 200 174 800 199 700 25 800 50 800 75 1000 100 20 125 700 150 1000 175 100 200 600
2 2 度数分布表による集計
• 前項で示したWTP(量的データ)の標本は、まずは次のよう
2.2 度数分布表による集計
(
)
な
度数分布表
(frequency table)によって集計される
3)。
表4.2 non-GMコーン 油に対するWTPの度数分布表 階級 階級値 度数 累積度数 相対度数 累積相対度数 1~100 50.5 66 66 33.0% 33.0% 101~200 151.5 29 95 14.5% 47.5% 201 300 250 5 22 117 11 0% 58 5% 201~300 250.5 22 117 11.0% 58.5% 301~400 350.5 6 123 3.0% 61.5% 401~500 450.5 3 126 1.5% 63.0% 501~600 550 5 7 133 3 5% 66 5% 501~600 550.5 7 133 3.5% 66.5% 601~700 650.5 24 157 12.0% 78.5% 701~800 750.5 22 179 11.0% 89.5% 801~900 850.5 4 183 2.0% 91.5% 901~1000 950.5 16 199 8.0% 99.5% 1001~1100 1050.5 0 199 0.0% 99.5% 1101~1200 1150.5 1 200 0.5% 100.0% 18 2. 量的データの集計 合計 200 100.0% 第4章 データ入力と集計 社会調査入門■ 度数分布表に登場する用語
階級(class) • ある上限値と下限値で区切られた区間。通常は等間隔に区切られる。 階級値(midpoint) 階級値(midpoint) • 階級の中央の値。階級の上限値と下限値を足して2で割った値。 • 例えば、1~100の階級では、(1+100)/2=50.5により導かれる。 度数(frequency) • 各階級に含まれる観測値の数。頻度ともいう。 累積度数( l ti f ) 累積度数(cumulative frequency) • 各階級の度数とその階級以下の階級の度数の総和 • この例では、各階級の上限値より小さなWTPをもつ回答者の数 相対度数(relative frequency) • 各階級の度数を観測値の総数で割った値。 各階級に含まれる観測値の割合 • 各階級に含まれる観測値の割合。 累積相対度数(cumulative relative frequency)
• 各階級の累積度数を観測値の総数で割った値 19 • この例では、各階級の上限値より小さなWTPをもつ回答者の割合。 2. 量的データの集計 第4章 データ入力と集計 社会調査入門
2 3 度数分布の図示
■ ヒストグラム
2.3 度数分布の図示
• 各階級の度数を柱状に並べた図を
ヒストグラム
(histogr-am)という。
60 70 30 40 50 0 10 20 1~10 0 101~ 200 201~ 300 301~ 400 401~ 500 501 ~600 601~ 700 701~ 800 801~ 900 901~ 1000 1001 ~11 00 1101 ~12 00 図4 2 non GMコ ン油に対するWTPのヒストグラム 20 2. 量的データの集計 図4.2 non-GMコーン油に対するWTPのヒストグラム• 階級の幅を広くとると、全体の分布がぼやけてしまう一方
狭
全体
向が
で、狭くとると、全体の傾向がつかめなくなってしまう。
120 140 50 60 40 60 80 100 20 30 40 0 20 1~400 401~800 801~1200 0 10 1~50 101~ 150 201~ 250 301~ 350 401~ 450 501~ 550 601~ 650 701~ 750 801~ 850 901~ 950 01~10 50 01~11 50• 一つの目安として、
スタージェス
(Starjes)
の公式
がある。
10 20 30 40 50 60 70 80 90 1001 1101 広くとった場合 狭くとった場合 は階級の数 は標本サイズ は階級の幅 C はデ タの上限 mは階級の数、nは標本サイズ、wは階級の幅、Cuはデータの上限 値、Clはデータの下限値を表している。 階級数や階級幅が整数になることはないので、実際には、これら の式から導かれる値に近い整数が として選ばれる 21 の式から導かれる値に近い整数が、m、wとして選ばれる。 2. 量的データの集計■ 累積多角形
累積多角形
• 各階級の上限値とその階級の累積相対度数との関係を図
示したものを
累積多角形
(cumulative distribution
po-lygon)という。
おおよその分位数(quantile)を知るのに便利である。 1 例えば、ある値よりも小さい観測値の割合が90%のとき、その値 を90%分位数という。 0.6 0.7 0.8 0.9 0.2 0.3 0.4 0.5 0 0.1 0 100 200 300 400 500 600 700 800 900 1000 1100 1200 図4 3 non GMコ ン油に対するWTPの累積多角形 22 2. 量的データの集計 図4.3 non-GMコーン油に対するWTPの累積多角形 第4章 データ入力と集計 社会調査入門2 4 代表値による集計
■ データの中心を表す代表値
2.4 代表値による集計
•
標本平均値
(sample mean)
観測値の総和をその総数(標本サイズ)で割った値。 i番目の観測値をxi(i=1,2,・・・n)、標本サイズをnで表すとき、標 本平均 は次式で表される。•
標本中央値
(sample median)
•
標本中央値
(sample median)
観測値を小さいものから大きいものへと並べたときの真ん中の値。 観測値の総数が偶数であるときは,その真ん中の二つの値の平均 観測値の総数が偶数であるときは,その真ん中の つの値の平均 を用いる。•
標本最頻値
(sample mode)
23 最も頻繁に現れる値。 2. 量的データの集計 第4章 データ入力と集計 社会調査入門■ データの散らばりを表す代表値
表 代表
•
標本分散
(sample variance)
•
標本標準偏差
(sample standard deviation)
•
標本標準偏差
(sample standard deviation)
•
範囲
(range)
観測値の最大値と最小値との差 観測値の最大値と最小値との差。•
四分位範囲
(interquartile range)
観測値の第三四分位数と第 四分位数との差 観測値の第三四分位数と第一四分位数との差。 観測値を小さいものから大きいものへと並べたとき、それらを四等 分する三つの値をそれぞれ、第一、第二、第三四分位数という.第 二四分位数はすなわち中央値である 24 二四分位数はすなわち中央値である. 2. 量的データの集計2 5 度数分布表からの代表値計算
• 選択肢が数量カテゴリーであるような単一回答形式におい
ては 度数分布表は得られても
般に正確な代表値は
2.5 度数分布表からの代表値計算
ては、度数分布表は得られても、一般に正確な代表値は
得られない。
例えば 所得の質問の選択肢を「①400万円未満」 「② 400~ 例えば、所得の質問の選択肢を「①400万円未満」、「② 400 800万円」、・・・とした場合には、度数分布表しか得られない。• しかし、その度数分布表から代表値の近似値は得られる。
■ 標本平均値の近似計算
階級値を、その階級を選択した回答者が、数量回答で質問された ときに回答する値として利用する ときに回答する値として利用する。 xkをk番目の階級値、fkをk番目の階級の度数、mを階級の数、nを 標本サイズとしたとき、標本平均 の近似値は次式で得られる。 25 同様の方法で、標本分散を計算することもできる。 2. 量的データの集計■ 標本中央値の近似計算
標
算
累積多角形を利用して、累積相対度数がちょうど0.5になる分位数 (第二四分位数)を求める。 累積相対度数が0 5をはじめて超える階級の上限値を 累積相 累積相対度数が0.5をはじめて超える階級の上限値をxu、累積相 対度数が0.5をはじめて超える階級の一つ下の階級の上限値をxl、 累積相対度数が0.5をはじめて超える階級の累積相対度数をcu、 累積相対度数が0 5をはじめて超える階級の一つ下の階級の累 累積相対度数が0.5をはじめて超える階級の つ下の階級の累 積相対度数をclとすると、次の関係式が得られる。 累積相対度数 ゆえに標本中央値 は次式で 累積相対度数 ゆえに標本中央値 は次式で 与えられる。 26 2. 量的データの集計 第4章 データ入力と集計 社会調査入門3. 質的データの集計
3. 質的デ タの集計
27 2. 質的データの集計 第4章 データ入力と集計 社会調査入門3 1 単純集計
• ある一つの質問(変数)について、その回答の構成を表に
3.1 単純集計
(変数)
構
表
表したものを
単純集計表
という。
「単純集計表」に対応する英語の適訳はない。すぐ後でみるように、 それは単に回答の度数とその割合を表にしたものなので その構 それは単に回答の度数とその割合を表にしたものなので、その構 成は基本的に度数分布表と同じである。実際欧米では、この単純 集計表をfrequency tableと表現することがしばしばである。単
回答
単純集計
■ 単一回答の単純集計
表4.3 性別の単純集計結果1 表4.4 コーン油の購入頻度の単純集計結果 度数 % 度数 % 女性 280 70.0% 男性 116 29.0% 無 答 4 1 0% 度数 よく買う 43 10.8% たまに買う 204 51.0% まったく買わない 131 32.8% 無回答 4 1.0% 合計 400 100.0% 無回答合計 40022 100.0%5.5% 順序なし 順序あり 28 2. 質的データの集計• 順序ありでも順序なしでも集計の仕方は同じ。
順序ありでも順序なしでも集計の仕方は同じ。
• %値は、通常、小数点第二位を四捨五入して、小数点第一
位まで表示する
(他の集計においても同じ)。
この丸めの誤差により、%値の合計が100.0%にならないことが あるが、それは問題ではない。重要なのは、各選択肢を選んだ人 がどれくらいの割合を占めているかである。。 がどれくらいの割合を占めているかである。。• 無回答を除いて表を作ってもよい。
ただしその場合には 注や表題で 無回答を除いたことを示してお ただしその場合には、注や表題で、無回答を除いたことを示してお かなければならない。 また、無回答を含めた場合と%値が異なってくることにも注意。 表4.5 性別の単純集計結果2 度数 % 女性 280 70.7% %値がかわ てくることに 女性 280 70.7% 男性 116 29.3% 合計 396 100.0% 注:無回答は除いた. 無回答を除いたことを示して %値がかわってくることに 注意。 29 注 無回答 除 無回答を除いたことを示して おくこと。 2. 質的データの集計■ 複数回答の単純集計
複数
純
• 制限つきでも制限なしでも集計の仕方は同じ。
• 注や表題で 回答形式が「制限つき」か「制限なし」かを示
• 注や表題で、回答形式が「制限つき」か「制限なし」かを示
しておく。
• 第一列目の最後の行は「合計」ではなく、「
第
列目の最後の行は 合計」ではなく、
有効回答数
有効回答数
」、
」、
あるいは「
観測値数
」と表記する。
• 丸めの誤差があろうとなかろうと、通常、%値の合計は
100%にならない。
• 無回答を除いて表を作ってもよい。
単一回答のケースと同様に、注や表題で、無回答を除いたことを 示しておかなければならない。 無回答を含めた場合と%値が異な てくることも同様に注意する 無回答を含めた場合と%値が異なってくることも同様に注意する。 30 2. 質的データの集計 第4章 データ入力と集計 社会調査入門 表題、あるいは脚注で説明すること。 表4.6 水環境との関わりの単純集計結果(3つまでの複数回答) %値の合計は100% 表 水環境との関わりの単純集計結果( までの複数回答) 度数 % 散歩、ジョギング 220 32.4% 蛍の観賞 212 31.3% %値の合計は100% にならない。 魚釣り 204 30.1% 昆虫・植物などの観察、採取 41 6.0% バードウオッチング 19 2.8% 渓谷・滝ウオッチング 72 10.6% 水遊び 111 16.4% キャンプ 80 11.8% 史跡めぐり 49 7.2% その他 47 6.9% 無回答 170 25.1% 有効回答数 678 100 0% 有効回答数 678 100.0% 「合計」ではない。 31 2. 質的データの集計 第4章 データ入力と集計 社会調査入門■ 順位回答の単純集計
順
純
• 完全順序付けでも部分順序付けでも集計の仕方は同じ。
• 注や表題で 回答形式が「完全順序付け」か「部分順序付
• 注や表題で、回答形式が「完全順序付け」か「部分順序付
け」かを示しておく。
• 各ランクについての単純集計を横に並べた形になる
各ランクについての単純集計を横に並
た形になる
表4.7 車購入時に重視する属性の単純集計結果(3位までの順位回答) 表題、あるいは脚注で説明すること。 度数 % 度数 % 度数 % 色 8 16.0% 6 14.3% 8 21.6% 1位 2位 3位 デザイン 5 10.0% 9 21.4% 12 32.4% メーカー 7 14.0% 7 16.7% 10 27.0% 価格 20 40.0% 8 19.0% 2 5.4% エンジン 10 20.0% 12 28.6% 5 13.5% 合計 50 100.0% 42 100.0% 37 100.0% これは「一番に重視する属性」についての単純集計結果である 32 2. 質的データの集計 これは「 番に重視する属性」についての単純集計結果である。■ 単一回答の単純集計結果の図示
単
回答の単純集計結果の図示
1.0% 29 0% 70.0% 29.0% 女性男性 無回答 29.0% 女性 男性 無回答 0% 20% 40% 60% 80% 100% 70.0% よく買う 5.5% 10.8% 10.8% 51.0% 32.8% よく買う たまに買う まったく買わない 無回答 32.8% よく買う たまに買う まったく買わない 無回答 0% 20% 40% 60% 80% 100% 51.0% 帯グ グ 33 2. 質的データの集計 帯グラフ 円グラフ■ 複数回答の単純集計結果の図示
15 0% 20.0% 25.0% 30.0% 35.0% 散歩、ジョギング 蛍の観賞 魚釣り その他 無回答複数回答の単純集計結果の図示
32.4% 31.3% 30.1% 25.1% 25.0% 30.0% 35.0% 0.0% 5.0% 10.0% 15.0% 魚釣り 昆虫・植物などの観察、採取 史跡めぐり その他 6.0% 2.8% 10.6% 16.4% 11.8% 7.2% 6.9% 0 0% 5.0% 10.0% 15.0% 20.0% バードウオッチング 渓谷・滝ウオッチング 水遊び キャンプ レーダーチャート 0.0% 散歩、 ジョギン グ 蛍の観賞 魚釣り 昆虫・ 植物な どの観察、 採取 バー ドウオ ッチ ング 渓谷・ 滝ウ オッチ ング 水遊び キャ ンプ 史跡め ぐり その 他 無回答 棒グラフ■ 順位回答の単純集計結果の図示
0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 16.0% 14 3% 10.0% 21 4% 14.0% 16 7% 40.0% 19 0% 20.0% 28 6% 1位 2位 色 デザイン エンジン 20.0% 30.0% 40.0% 色 デザイン メーカー 14.3% 21.6% 21.4% 32.4% 16.7% 27.0% 19.0% 5.4% 28.6% 13.5% 2位 3位 メーカー 価格 エンジン 帯グラフ 1位 2位 3位 色 メーカー エンジン 0.0% 10.0% 価格 エンジン 3D棒グラフ 34 2. 質的データの集計 帯グラフ 3D棒グラフ 第4章 データ入力と集計 社会調査入門3 2 クロス集計
• ある質問の回答別に、他の質問の回答構成を表に表した
3.2 クロス集計
ある質問
回答別 、他
質問
回答構成を表 表
ものを、
クロス集計表
、あるいは
分割表
(contingency
table)という。
■ 単
回答同士のクロス集計
■ 単一回答同士のクロス集計
•
Aの質問の回答別に、Bの質問の回答構成を比較したい場
合
表頭
に
Aを
表側
に
Bを配置し
「
A別に見たBの回答
合、
表頭
に
Aを、
表側
に
Bを配置し、
「
A別に見たBの回答
構成」
といった表題をつけるのが望ましい。
• 一つ一つのブロックは 表頭の質問においてその選択肢を
•
つ
つのブロックは、表頭の質問においてその選択肢を
選んだ人に限定した、表側の質問の単純集計結果を表し
ている。
• 表頭の質問で無回答であった人を集計から除く場合、最後
の列の見出しは「合計」ではなく、「
全体
」と表記する。
35 これは表側の質問の単純集計結果と一致する。 2. 質的データの集計 第4章 データ入力と集計 社会調査入門 表4.8 居住地別にみた性別の構成 上流地域 中流地域 下流地域 全体 通常は合計にならない。 表頭 度数 % 度数 % 度数 % 度数 % 女性 118 41.3% 98 36.0% 40 35.1% 258 38.1% 男性 165 57.7% 172 63.2% 74 64.9% 411 60.6% 表 側 無回答 3 1.0% 2 0.7% 0 0.0% 9 1.3% 合計 286 100.0% 272 100.0% 114 100.0% 678 100.0% 注: 生野町・大河内町・神崎町を上流地域、市川町・福崎町・香寺町を中流地域、姫路市を下流地域としている。 側 なお、居住地の質問に対する無回答は表から除いているため、各行の合計は全体の値とならない。 性別の単純集計結果と一致する。 これは、居住地が上流地域の人につい ての性別の単純集計結果である。 36 2. 質的データの集計■ 間違った調査、集計と間違った解釈
間違 た調査、集計 間違 た解釈
• 次のレポートの問題点を考えよ(データは仮想的なもの)。
幼年期の虐待と少年期の窃盗犯罪との関係について 本調査では、窃盗犯罪を犯したことのある少年35人を対象にアンケート調査を行い、幼年期 に虐待を受けた経験があるかどうかを質問した。回答の単純集計結果は次のようになった。 度数 % 虐待経験あり 20 57.1% 虐待経験なし 15 42.9% この結果から、少年期の窃盗犯罪は、幼年期の虐待経験が原因していると結論付けることが できる。 合計 35 100.0% できる。 37 2. 質的データの集計• 問題点1: 標本の偏った選別
問題点
標本の偏 た選別
窃盗犯罪を犯した少年にしか質問しておらず、犯していない少年に 質問していない。• 問題点2: 不適切な割合比較
窃盗経験がある少年の中で、幼年期の虐待経験の有無を比較す るのではなく 幼年期に虐待を受けた少年とそうでない少年の間で るのではなく、幼年期に虐待を受けた少年とそうでない少年の間で、 窃盗経験の割合に差があるかどうかを見なければならない。 • 「虐待経験の有無」を「小学校通学経験の有無」に置き換えて考えて みよ みよ。 適切な集計は次のとおり。 表4.10 幼年期の虐待経験別に見た少年期の窃盗経験の回答構成 表4.10 幼年期の虐待経験別に見た少年期の窃盗経験の回答構成 度数 % 度数 % 度数 % 窃盗経験あり 20 33.3% 15 60.0% 35 41.2% 窃盗経験な 40 66 7% 10 40 0% 50 58 8% 虐待経験あり 虐待経験なし 全体 この表から、虐待経験がない少年の方が、窃盗犯罪を犯す割合が 窃盗経験なし 40 66.7% 10 40.0% 50 58.8% 合計 60 100.0% 25 100.0% 85 100.0% 38 高いと予想される(データは仮想的なもの)。 2. 質的データの集計 第4章 データ入力と集計 社会調査入門• 問題点3: 相関と因果は異なる
問題点
相関 因果は異なる
クロス集計で分かることは、両者の相関関係の域を出ない。因果 関係を結論付けるためには、虐待経験以外の他の条件が一定か どうか あるいはこれらの両者の関係に科学的な根拠があるかどう どうか、あるいはこれらの両者の関係に科学的な根拠があるかどう かを考慮して、慎重に判断しなければならない。 39 2. 質的データの集計 第4章 データ入力と集計 社会調査入門■ 単一回答と複数回答のクロス集計
単
回答 複数回答のク
集計
• 通常は、単一回答を表頭に複数回答を表側に配置する。
複数回答を表頭に配置したり、複数回答同士のクロス集計も可能 複数回答を表頭に配置したり、複数回答同士のクロス集計も可能 だが、集計が複雑になるのであまり採用されない。 表題、あるいは脚注で説明すること。 通常は合計にならない。 これは、居住地が上流地域の人につい ての水環境との関わりの単純集計結果 表4.11 居住地別にみた水環境との関わりの回答構成(3つまでの複数回答) 度数 % 度数 % 度数 % 度数 % 散歩 ジョギング 103 36.0% 75 27.6% 41 36.0% 220 32.4% 中流地域 下流地域 全体 上流地域 水環境 関わり 単純集計結果 である。 散歩、ジョギング 103 36.0% 75 27.6% 41 36.0% 220 32.4% 蛍の観賞 128 44.8% 75 27.6% 5 4.4% 212 31.3% 魚釣り 109 38.1% 71 26.1% 23 20.2% 204 30.1% 昆虫・植物などの観察、採取 23 8.0% 13 4.8% 4 3.5% 41 6.0% バードウオッチング 6 2 1% 6 2 2% 7 6 1% 19 2 8% バ ドウオッチング 6 2.1% 6 2.2% 7 6.1% 19 2.8% 渓谷・滝ウオッチング 33 11.5% 28 10.3% 11 9.6% 72 10.6% 水遊び 73 25.5% 29 10.7% 8 7.0% 111 16.4% キャンプ 47 16.4% 25 9.2% 6 5.3% 80 11.8% 史跡めぐり 22 7 7% 21 7 7% 4 3 5% 49 7 2% 「合計」では 史跡めぐり 22 7.7% 21 7.7% 4 3.5% 49 7.2% その他 9 3.1% 27 9.9% 11 9.6% 47 6.9% 無回答 51 17.8% 77 28.3% 40 35.1% 170 25.1% 有効回答数 286 100.0% 272 100.0% 114 100.0% 678 100.0% 注: 生野町・大河内町・神崎町を上流地域 市川町・福崎町・香寺町を中流地域 姫路市を下流地域としている なお 居住地の質問に対する 合計」では ない。 40 2. 質的データの集計 注: 生野町・大河内町・神崎町を上流地域、市川町・福崎町・香寺町を中流地域、姫路市を下流地域としている。なお,居住地の質問に対する 無回答は表から除いているため、各行の合計は全体の値とならない。 水環境との関わりの単純集計結果と一致する。■ 単一回答同士のクロス集計結果の図示
60.0% 80.0% 41 3% 57 7% 0% 20% 40% 60% 80% 100% 上流地域単
回答同
のク
集計結果の図示
域 体 女性 男性無回答 0.0% 20.0% 40.0% 女性 男性 無回答 41.3% 36.0% 35.1% 57.7% 63.2% 64.9% 上流地域 中流地域 下流地域 女性 男性 無回答 上流 地域 中流 地域 下流 地域 全体 女性 38.1% 60.6% 下流地域 全体 無回答 帯グラフ 3D棒グラフ 40.0% 50.0% 散歩、ジョギング 蛍の観賞 無回答 45.0% 50.0%■ 単一回答と複数回答のクロス集計結果の図示
0.0% 10.0% 20.0% 30.0% 魚釣り その他 上流地域 中流地域 10.0% 15.0% 20.0% 25.0% 30.0% 35.0% 40.0% 上流地域 中流地域 下流地域 昆虫・植物などの観察、採取 バードウオッチング キャンプ 史跡めぐり 0.0% 5.0% 10.0% 散歩、 ジョギン グ 蛍の観賞 魚釣り 昆虫 ・植物な どの観察、 採取 バー ドウオ ッチング 渓谷 ・滝ウ オッチン グ 水遊び キャン プ 史跡 めぐり その他 無回答 レーダーチャート 棒グラフ 41 渓谷・滝ウオッチング 水遊び 昆虫 2. 質的データの集計 レ ダ チャ ト 棒グラフ◇ 注
◇
1. Hayes et al.(1995)、Lin and Milon(1995)、Lusk et
al.(2004)などの研究事例がある。 CVMは 非市場評価( k t l ti )の代表的な手 2. CVMは、非市場評価(non-market valuation)の代表的な手 法の一つであり、主に環境評価の分野で広く活用されてきた(大 野 2000)。近年では、この例のように、食品安全の評価(澤田 2004)や 歴史遺産の評価(青山他 2003)にも利用されている 2004)や、歴史遺産の評価(青山他 2003)にも利用されている。 3. 度数分布表、および代表値に関する説明は、岩田(1983)の第1 章、森棟(2000)の第1章、盛山(2004)の第9章を参考にした。
◇ 引用文献
青山吉隆・中川大・松中亮治(2003)『都市アメニティの経済学 環境の価値を測る 』 学芸出版社 -環境の価値を測る-』、学芸出版社。 Hayes, D.J., J.F. Shogren, S.Y. Shin, and J.B.
Kliebenstein(1995), Valuing Food Safety in
E pe imental A ction Ma kets Ame ican Jo nal of Experimental Auction Markets, American Journal of
Agricultural Economics, Vol.77, pp.40-53.
岩田暁一(1983)『経済分析のための統計的方法 第2版』、東洋 経済 42 経済。 第4章 データ入力と集計 社会調査入門
Lin, J., and J.W. Milon(1995), Contingent Valuation of
l h k d f Sh llf h d
Health Risk Reduction for Shellfish Products, In J.A. Caswell, ed., Valuing Food Safety and Nutrition, Westview Press, pp.83-114.
Lusk, J.L., L.O. House, C. Valli, S.R. Jaeger, M. Moore,
J.L. Morrow, and W.B. Traill(2004), Effect of Information about Benefits of Biotechnology on
C A t f G ti ll M difi d F d
Consumer Acceptance of Genetically Modified Food: Evidence from Experimental Auctions in the United States, England, and France, European Review of
Agricultural Economics Vol 31 179-204 Agricultural Economics, Vol.31, 179 204.
森棟公夫(2000)『統計学入門 第2版』、新世社。 盛山和夫(2004)『社会調査法入門』、有斐閣。( ) 大野栄治編著(2000)『環境経済評価の実務』、勁草書房。 澤田学編(2004)『食品安全性の経済評価-表明選好法による 接近 』 農林統計協会 接近-』、農林統計協会。 43