• 検索結果がありません。

Excelで学ぶ統計解析入門─Excel 2016/2013対応版─

N/A
N/A
Protected

Academic year: 2021

シェア "Excelで学ぶ統計解析入門─Excel 2016/2013対応版─"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)
(2)
(3)

iii

近年、パーソナルコンピュータ(PC)でデータ解析を行うことが当り前となりつつあります。 PCの普及のおかげで、作表・作図時間の短縮化が図れたのは確かです。一方、結果がたくさんあり すぎてまとめに手間取ったり、結果の見方・使い方がわからないなどで、せっかくPCを使っていても事 後処理に時間がかかっているのも事実です。 近年、ビッグデータや機械学習が広く注目されており、このような時代だけに職業分野や文科系・理 科系を問わず、データ処理を行う人ならば、統計学は、誰もが勉強しておくべき基礎的な素養に近く なってきているように思われます。 統計学は数式が多く、たいへん難しいと思われがちですが、ここで学ぶのは数式ではなく、現実の 仕事や研究に応用する方法です。統計学の目的は、現実のある現象を解析して法則性を見い出したり、 直感による判断が正しいかどうか確かめたりすることであり、どんなに高度な理論を使っても、それが 実際に役立たなければ何の価値もありません。 そこで、統計学や統計解析ソフトをより身近なものとして有効に利用していただけるようにと『Excel で学ぶ統計解析入門』を1999年10月に発行しました。この本を発行した当初は、Excelを使った統計入 門書も少なかったのですが、統計ツールとしてのExcelのニーズが増え今では一般的なものになってき ています。 本書は統計解析の基礎からはじめて、因果関係を把握する相関分析・回帰分析、統計学の学習者に とって 1 つの到達点というべき「統計的仮説・検定」までを解説しました。解析ソフトとしては、代表的 な表計算ソフトMicrosoft社のExcelを取り上げ、データ処理に用いる関数を解説し、Excelでできない 部分はExcelアドインフリーソフトで解析できるようにしました。 本書によって、読者の業務・研究に限らず、日常目にする統計数学を正しく理解するための一助にな れば幸いです。 執筆の機会を与えてくださった株式会社オーム社書籍編集局の皆様には心からお礼申し上げます。 2016年4月

菅  民 郎 

(4)

iv

目次

目次

まえがき...iii 本書のねらい...xii

本書で学ぶ内容と関数式の一覧...xiii

1

 統計解析の基礎...1

1.1

 統計学とは... 2

1.1.1 ..統計学の役割と活用方法... 2 1.1.2 ..集団の特徴や傾向を調べる基本統計量... 3 1.1.3 ..因果関係を調べる相関分析・多変量解析... 4 1.1.4 ..記述統計学と推測統計学... 5 1.1.5 ..統計学で用いるデータの種類... 6 1.1.6 ..基本統計量の種類... 7

1.2

 代表値... 8

1.2.1 ..平均値... 8 1.2.2 ..最頻値... 9 1.2.3 ..中央値...10 1.2.4 ..中央値と平均値の使い分け...11 1.2.5 ..割合(比率)...12 1.2.6 ..割合のグラフ...13 1.2.7 ..5段階評価...15 1.2.8 ..割合と平均値の使い分け...17

1.3

 散布度...18

1.3.1 ..分散...18 1.3.2 ..標準偏差...20 1.3.3 ..ダミー変数(1,0データ)の標準偏差...21 1.3.4 ..変動係数...22 1.3.5 ..パーセンタイルと四分位偏差...23 1.3.6 ..「ゆがみ」と「とがり」...26

(5)

v

1.4

 度数分布...28

1.4.1 ..度数分布...28 1.4.2 ..度数分布のグラフ...32 1.4.3 ..累積相対度数の活用...33

1.5

 統計量要約グラフ...34

1.5.1 ..誤差グラフ(エラーバーグラフ)...34 1.5.2 ..箱ひげ図...35 1.5.3 ..パレート図...37

1.6

 個々のデータの位置を知る...39

1.6.1 ..基準値...39 1.6.2 ..偏差値...42

2

 相関分析...45

2.1

 相関分析の種類...46

2.2

 数量データと数量データの関係...47

2.2.1 ..散布図...47 2.2.2 ..単相関係数(ピアソンの積率相関係数)...48 2.2.3 ..直線回帰...54

2.3

 カテゴリーデータとカテゴリーデータの相関...62

2.3.1 ..クロス集計...62 2.3.2 ..クラメール連関係数...65

2.4

 数量データとカテゴリーデータの相関...66

2.4.1 ..カテゴリー別平均...66 2.4.2 ..相関比...67

3

 確率分布...69

3.1

 確率分布とは...70

3.2

 2項分布...72

3.3

 ポアソン分布...78

(6)

vi

目次

3.4

 正規分布...82

3.5

 標準正規分布...90

3.6

 正規確率プロット...93

3.7

 正規分布の当てはめ...97

4

 統計的推定と統計的仮説検定の基礎...99

4.1

 母集団とサンプル...100

4.2

 記述統計と推測統計...101

4.3

 統計的推定入門...102

4.3.1 ..区間推定法... 102 4.3.2 ..信頼区間... 102 4.3.3 ..統計的推定の種類... 103 4.3.4 ..信頼度... 104

4.4

 統計的仮説検定入門...106

4.4.1 ..仮説検定とは... 106 4.4.2 ..帰無仮説と対立仮説... 107 4.4.3 ..両側検定と片側検定... 108 4.4.4 ..仮説検定の手順... 108 4.4.5 ..標準誤差... 109 4.4.6 ..T値による仮説検定の仕方... 109 4.4.7 ..p値による仮説検定の仕方... 110 4.4.8 ..信頼区間による仮説検定の仕方... 110 4.4.9 ..統計的仮説検定の種類と検定手法名... 112

5

 母集団の平均と割合に関する推定...117

5.1

 母平均の推定...118

5.2

 母比率の推定...120

5.3

 有限母集団の推定...122

5.4

 標本調査のサンプルサイズの決め方...124

(7)

vii

6

 1つの母集団の平均と割合に関する検定...127

6.1

 母平均の検定...128

6.1.1 ..母平均の検定とは... 128 6.1.2 ..母平均の検定におけるT値、z分布、t分布... 128 6.1.3 ..棄却限界値... 130 6.1.4 ..p値... 132 6.1.5 ..母平均の検定の手順... 133 6.1.6 ..母平均の検定の要約... 135

6.2

 母比率の検定...136

6.2.1 ..母比率の検定とは... 136 6.2.2 ..T値、棄却限界値、p値... 136 6.2.3 ..母比率の検定の手順... 138 6.2.4 ..母比率の検定の要約... 139

7

 2つの母集団の平均と割合に関する検定...141

7.1

 母平均の差の検定...142

7.2

 対応のない場合の母平均の差の検定...143

7.2.1 ..対応のない場合の母平均の差の検定とは... 143 7.2.2 ..「対応のない場合の母平均の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 143 7.2.3 ..棄却限界値... 146 7.2.4 ..p値... 146 7.2.5 ..「対応のない場合の母平均の差の検定」の手順... 147 7.2.6 ..「対応のない場合の母平均の差の検定」の要約... 148

7.3

 対応のある場合の母平均の差の検定...149

7.3.1 ..対応のある場合の母平均の差の検定とは... 149 7.3.2 ..「対応のある場合の母平均の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 150 7.3.3 ..棄却限界値とp値... 151 7.3.4 ..「対応のある場合の母平均の差の検定」の手順... 152 7.3.5 ..「対応のある場合の母平均の差の検定」の要約... 153

7.4

 母比率の差の検定...154

(8)

viii

目次

7.5

 対応のない場合の母比率の差の検定...155

7.5.1 ..対応のない場合の母比率の差の検定とは... 155 7.5.2 ..「対応のない場合の母比率の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 155 7.5.3 ..棄却限界値とp値... 157 7.5.4 ..「対応のない場合の母比率の差の検定」の手順... 158 7.5.5 ..「対応のない場合の母比率の差の検定」の要約... 159

7.6

 対応のある場合の母比率の差の検定...160

8

 統計的推定、統計的仮説検定の理論と公式の導き方...161

8.1

 統計的推定の理論と公式の導き方...162

8.1.1 ..統計量T値の分布... 162 8.1.2 ..「母平均の推定」の公式の導き方... 164 8.1.3 ..母集団が正規分布でない場合の母平均推定の公式... 165

8.2

 統計的仮説検定の理論と公式の導き方...167

8.2.1 ..帰無仮説と対立仮説... 167 8.2.2 ..統計量T値の分布... 168 8.2.3 ..p値、棄却限界値による判断... 171 8.2.4 ..両側検定と片側検定... 172 8.2.5 ..p値、棄却限界値の求め方... 174

9

 母集団の分散・正規性・相関に関する検定...177

9.1

 母分散の比の検定...178

9.2

 正規性の検定...182

9.3

 相関係数の検定...186

9.3.1 ..単相関係数(ピアソンの積率相関係数)の無相関検定... 186 9.3.2 ..クラメール連関係数(カイ2乗検定、独立性の検定)... 189 9.3.3 ..相関比(F検定)... 194

(9)

ix

10

 標本平均の分布、検定統計量T値の分布...199

10.1

 中心極限定理...200

10.1.1 ..中心極限定理とは... 200 10.1.2 ..母集団サイズが小さいケースで中心極限定理が成立することの確認... 202 10.1.3 ..母集団サイズが大きいケースで中心極限定理が成立することの確認... 206 10.1.4 ..母集団が正規分布でなくても中心極限定理が成立することの確認... 210 10.1.5 ..非正規母集団で n<30は「標本平均の分布は正規分布でない」の確認... 212 10.1.6 ..標準誤差とは... 213

10.2

 標本平均の分布...214

10.2.1 ..標本平均の基準値... 214 10.2.2 ..標本平均基準値T値の分布... 216

10.3

 検定統計量T値の分布...217

10.3.1 ..「母平均検定T値」の分布がz分布、t分布になることの検証... 217 10.3.2 ..「母比率検定T値」の分布がz分布になることの検証... 226

11

 Excelの統計解析機能... 227

11.1

 Excelの関数の基本操作...228

11.1.1 ..数式とは、関数とは... 228 11.1.2 ..関数の入力方法... 230 11.1.3 ..式の内容の変更... 232 11.1.4 ..関数の挿入での指定方法... 233 11.1.5 ..引数、関数の変更方法... 235 11.1.6 ..関数式のコピー... 237

11.2

 知っておくと便利な機能...240

11.2.1 ..Excel関数のリファレンス... 240 11.2.2 ..エラー値について... 261 11.2.3 ..列の参照形式の表示... 263

11.3

 ピボットテーブル...264

11.4

 グラフ機能...272

11.4.1 ..ヒストグラム... 272 11.4.2 ..誤差グラフ... 275

(10)

x

目次

12

 Excelのアドインソフトウェア...281

12.1

 ダウンロード方法...282

12.2

 Excelデータ分析の組み込み...289

12.3

 統計解析ソフトウェアの起動と終了方法...293

12.4

 統計解析ソフトウェアの操作方法...296

12.4.1 ..基本統計量... 296 12.4.1.1 基本統計量1<絞り込み条件を設定しない場合>...296 12.4.1.2 基本統計量2<絞り込み条件を設定する場合>...298 12.4.2 ..箱ひげ図... 300 12.4.3 ..散布図... 301 12.4.4 ..偏差値... 302 12.4.4.1 偏差値1...302 12.4.4.2 偏差値2...303 12.4.5 ..相関分析... 305 12.4.5.1 件数クロス1―クロス集計表が1つの場合...306 12.4.5.2 件数クロス2―クロス集計表が2つ以上の場合...307 12.4.5.3 .件数クロス3―集計データに文字、記号、ブランク、および数字の. 0(ゼロ)がある場合...309 12.4.5.4 数量クロス1(カテゴリー別平均)...312 12.4.5.5 数量クロス2(カテゴリー別平均)...313 12.4.5.6 数量クロス3(カテゴリー別平均)...315 12.4.5.7 単相関係数1...317 12.4.5.8 単相関係数2...318 12.4.6 ..正規分布グラフ... 320 12.4.7 ..正規分布統計量... 321 12.4.7.1 正規分布統計量...321 12.4.7.2 標準正規分布統計量...322 12.4.8 ..正規確率プロット... 323 12.4.8.1 正規確率プロット1...323 12.4.8.2 正規確率プロット2...324 12.4.9 ..t検定(母平均の差の検定)... 327 12.4.10 ..対応のあるt検定... 329 12.4.11 ..対応のない母比率の差の検定... 331 12.4.12 ..対応のある母比率の差の検定... 333 12.4.13 ..中心極限定理... 335 12.4.13.1 中心極限母平均―正規実験1...335 12.4.13.2 中心極限母平均―正規実験2...336 12.4.13.3 中心極限母平均―非正規実験...337 12.4.14 ..中心極限母比率... 339 12.4.15 ..検定統計量T値の分布(1つの母平均)... 341 12.4.16 ..検定統計量T値の分布(1つの母比率)... 343

(11)

xi

Tip 第1章の理解度テスト...44 絶対参照と相対参照... 239 Column 統計関連の資格...98 10人の偉大な統計学者... 116 統計用語の解説... 126 各種検定の検定方法およびExcel関数の使い方... 140 統計用語の解説 ノンパラメトリック検定... 142 ベイズ統計とは... 198 統計用語の解説 頑健性(がんけんせい):ロバストネス(Robustness)... 200 決して、電車では退屈しない... 326 Column Excel アドインソフトウェアについて ・.本ソフトウェアは、本書をお買い求めになった方のみご利用いただけます。本書第 12 章をよくお読みのうえ、ご利用 ください。また、本ソフトウェアの著作権は、本書の著作者である菅民郎氏に帰属します。 ・.ダウンロードサービスは、止むを得ない事情により、予告なく中断・中止する場合があります。 ・.本ソフトウェアを利用したことによる直接あるいは間接的な損害に関して、著作者およびオーム社はいっさいの責任を 負いかねます。ご利用は利用者個人の責任において行ってくださいますようお願い致します。また、ソフトウェアの動 作・実行環境操作についての質問には一切お答えすることはできません。 ・.本書の内容は原則として、執筆時点(2016 年 4 月)のものです。その後の状況によって、情報が変更されている場合 もありますのでご注意ください。 12.4.17 ..検定統計量T値の分布(2つの母平均)... 345 12.4.18 ..検定統計量T値の分布(2つの母比率)... 347 12.4.19 ..実験カイ2乗分布... 349 12.4.20 ..実験F分布... 352 索引... 355

(12)

xii

本書のねらい

どんなにすばらしい素材であっても、料理人の腕や使う道具が悪ければ、美味しいごちそう はでき上がりません。同様に、どんなに良質のデータがあっても、分析者の技量が低く、解析 ソフトウェアを使いこなせなければ良い結果を生じさせることはできません。目的に応じた分 析、ソフトウェア操作がなされてこそ、初めて価値ある情報になります。 したがってデータ処理入門者が学ぶことは、分析の仕方と解析ソフトウェアの使い方の2つで す。各々やさしくわかりやすく書かれた書籍はあるものの、両方について解説している書籍はま だ数少ないように思われます。 そこで本書では例題を設け、この例題に対して、分析の仕方と、ソフトウェアを使っての操 作の仕方の両面を取り上げ解説することにしました。用いたソフトウェアは表計算ソフトウェア のExcelです。例題の中にはExcelの機能で計算を行ったり、グラフ化するのが面倒なものがあ りますので、著者が開発したExcelアドインソフトウェアも用いました。このアドインソフトウェ アは著者が勤めるアイスタットのホームページから無料でダウンロードできます。 本書の内容は、統計学の基礎から、仕事や研究によく使われている相関分析・回帰分析、統 計学の学習者にとって1つの到達点というべき統計的推定・検定までを取り上げ、解説しました。 統計学には数学的な要素が多く含まれていて、数式を見たり計算をすることが嫌いな方に とっては敬遠したくなる学問といえます。初学者、特に文科系の学習者でも理解していただける ように可能な限りやさしく、さらには楽しく読めるものになるように、いろいろな工夫をしてみま した。 統計学の中で難しいといわれている「標本統計量の分布」は、アイスタットのホームページか らダウンロードできるアドインソフトウェアによって読者が実際にシミュレーションし、結果をビ ジュアルに理解できるように配慮しました。

(13)

xiii

本書で学ぶ内容と関数式の一覧

内容 関数式 ページ アイスタットフリーソフト ページ 基本統計 合計 SUM 230 ● 平均値 AVERAGE 240 ● 296 最頻値(モード) MODE 9 ● 296 中央値(メディアン) MEDIAN 242 ● 296 偏差平方和 DEVSQ 241 ● 296 分散 -1 VAR 242 ● 296 分散  VARP 242 ● 296 標準偏差 -1 STDEV 243 ● 296 標準偏差  STDEVP 243 ● 296 変動係数 STDEVP / AVERAGE 22 ● 296 歪度 SKEW 244 ● 296 尖度 KURT 244 ● 296 度数分布 FREQUENCY 31 ● 数量クロス集計 ピボットテーブル 264 ● 312 件数クロス集計 ピボットテーブル 264 ● 306 基準値 ● 302 偏差値 ● 302 相関分析 単相関係数 CORREL 245 317 直線の定数項 INTERCEPT 246 直線の傾き SLOPE 246 確率分布 2 項分布 BINOMDIST 74 ポアソン分布 POISSON 79 正規分布(累積確率を算出) NORMDIST 84 ● 321 正規分布( 値を算出) NORMINV 85 ● 321 標準正規分布(累積確率を算出) NORMSDIST 91 ● 322 標準正規分布( 値を算出) NORMSINV 92 ● 322 t分布(上側確率を算出) TDIST 174 t分布(T値を算出) TINV 166  分布(上側確率を算出) CHIDIST 184  分布( 値を算出) CHIINV 183 ※ ●が付いたものはアイスタットホームページより無料ダウンロード可

(14)

xiv

内容 関数式 ページ アイスタットフリーソフト ページ 確率分布 F分布(上側確率を算出) FDIST 180 F分布(F値を算出) FINV 179 中心極限定理(標本平均) ● 335 中心極限定理(標本比率) ● 339 実験t分布 ● 341 実験 分布 ● 349 実験 F分布 ● 352 推定・検定

母平均の推定 NORMSDIST, TINV, TDIST 118 母比率の検定 NORMSDIST 120

母平均の差の検定 NORMSDIST, TINV, TDIST 142 ● 327 母比率の差の検定 NORMSDIST 154 ● 331 母分散の比の検定 FDIST, FINV 178 正規性の検定 CHIINV, CHIDIST 182 単相関検定 TINV, TDIST 186 ● 317 クラメール連関係数検定 CHIINV, CHIDIST 189 ● 306 相関比検定 FDIST, FINV 194 ● 312 基本数学 四捨五入 ROUND 250 切り捨て ROUNDDOWN 252 切り上げ ROUNDUP 252 切り捨てし整数で表示 INT 253 階乗( ) FACT 255 順位 RANK 257 順序統計量 SMALL 259 平方根(ルート) SQRT 256 自然対数 LN 255 対数 LOG 255 自然対数の底のべき乗 EXP 256 円周率 PI 230 条件別実行 IF 247 エラー値を検出 ISERR 261 統計グラフ ヒストグラム グラフ機能 272 誤差グラフ グラフ機能 275 箱ひげ図 グラフ機能 35 ● 300 散布図 ● 301 正規分布グラフ ● 320 正規確率プロット ● 323 ※ ●が付いたものはアイスタットホームページより無料ダウンロード可

(15)

統計解析の基礎

(16)

2

第 1 章 統計解析の基礎

1.1

統計学とは

1.1.1

統計学の役割と活用方法

私たちの身の周りには様々な情報があふれています。好む・好まざるにかかわらず、私たち は無意識のうちに情報を選別・選択し、それをもとに物事を把握しながら生活しています。どん な些細な事柄であっても、情報なくして意思決定がなされるということは考えられません。この ように、私たちは知らず知らずのうちに情報を収集し、それを活用することによって社会生活を 成り立たせているといえるでしょう。 “情報なしでは生きていくのですら困難”といっても過言ではない現代という時代は、逆に、 情報を巧みに活用できる人にとっては面白く、刺激的な時代ということができるかもしれません。 とはいっても、形も種類も様々な情報をやみくもに集めただけでは、有効に活用することはま まなりません。情報の活用にも一定のルール、つまり『情報の読み方・伝え方の決まり』があり ます。ルールを無視して情報を取り扱うことは何のメリットももたらさないばかりか、事と次第 によっては自分や他人に大変な危険を及ぼすかもしれません。 統計学は、この情報を“正確に読み、間違いなく伝え、有効に活用する”ための理論で、統計 解析の手法はそのための手段といえます。 ここでお仕事や研究のために統計学を使われる方のために、一般的な統計解析の活用手順を 示しておきましょう。 ● 解決したいこと(目的)を明確にする ● 調査、実験、インターネット等でデータ(情報)を集める ● 数多くある統計解析手法の中から、どれを適用するかを決める ● Excelや統計解析ソフトウェアを用いて計算する ● 出力された結果を解釈する したがって本書は、次の3点を習得できるように執筆しています。 ① 解決したいテーマに対し、どの統計解析手法を使えばよいか? ② Excelや統計解析ソフトの計算方法は? ③ 出力結果の見方と解釈の仕方は?

【 データに光あり、解析力でデータの中の宝を探す 】

著者が好きな言葉でモットーとしています。きめ細やかで斬新な統計解析を行うことによって 新しい「価値」を生み出せると、著者は考えています。

(17)

3

1.1.2

集団の特徴や傾向を調べる基本統計量

ここにAさんという人がいます。Aさんについて様々なデータを収集した結果、身長が165㎝ であり、血液型はA型、数学の得点は65点、性別は女性であるなど、その他諸々のことがわか りました。 Aさんのデータを統計的に処理できるでしょうか。 統計学は、一定の条件に基づいて集められた「データのまとまり」を扱うものです。ですから、 あらゆるデータを扱うことができるといっても、このような「特定の個人(1人だけ)のデータ」は 統計学の関知するところではありません。 例えば「A, B, …」という100人の人たちについて「身長」と「性別」のデータを得たとします。 身長は背の高い人も低い人も、また、性別は男性の人も女性の人もいるでしょう。このような 個々のデータの差異を変動といいます。 データが変動しているがために、その集団は「背の高いほうなのか低いほうなのか」あるいは 「男性は多いほうか少ないほうか」を把握する必要性が生じてくるのです。そこで統計学を用い、 身長の平均や性別における男性の割合(比率)などを求めることになります。 もし、全員の身長が165㎝、性別では全員が男性であったとします。これでは身長の平均や男 性の割合を求めること自体意味がないことでしょう。いま述べたように、集団に属するデータか ら平均値や割合を求め、集団の特徴や傾向を明らかにするための考え方(理論)を、記述統計学 といいます。記述統計学によって求められた値(平均値、比率)を基本統計量(要約統計量とも いう)といいます。 なお、情報の主体である「A, B, …」といった複数の人(あるいは物)の集まりを、集団といい ます。また、集団を構成する個々の主体(人あるいは物)を、個体といいます。 個体 Aさんのデータ 名前 山田 性別 女性 年齢 28才 血液型 A型 集団 100人のデータ

No.1 No.2 No.3 No.100

男性 女性 女性 … 男性 24才 32才 28才 … 40才 人数(個体数) 100人 割合(比率) 男性 70%  女性 30% 平均値 28.5才 基本統計量を算出

(18)

4

第 1 章 統計解析の基礎

1.1.3

因果関係を調べる相関分析・多変量解析

ある集団について、血圧や食生活の実態を調べたデータがあります。 「塩分を多めに摂取する人の血圧の平均値や変動は?」、「塩分を多く摂る人々とそうでない 人々で血圧の平均値に違いがあるか?」は、先に述べた基本統計量で把握できます。 血圧が「高い」「低い」の変動は何によって生じるのでしょうか。少し考えただけでも、塩分摂 取量、喫煙有無、飲酒量、年齢、測定時の心理状態・健康状態など、さまざまな要因をあげる ことができます。「血圧測定値の高低に影響を及ぼす要因は?」、「飲酒量と血圧測定値とは関係 があるか?」などは、相関分析という解析方法で把握できます。 血圧測定値は色々な要因が絡み合って決まります。ある人が塩分摂取量、喫煙有無、飲酒 量、年齢等をパソコンに入力すると「あなたの近い将来の血圧値は150になるので注意せよ」と いったことを回答してくれるアプリがあります。このアプリは、多数の要因を同時に処理する 変量解析という手法によって作られています。 統計学では目的とする要因、この例では血圧を目的変数(結果変数)といいます。原因となる 要因、この例では塩分摂取量、喫煙有無等を説明変数(原因変数)といいます。 相関分析、多変量解析は目的変数と説明変数の関係、すなわち両者の因果関係を明らかにす る解析方法です。 把握したい内容 集団の特徴 集団の違い 関連性 影響度 予測 解析手法 基本統計量 相関分析 多変量解析 塩分を多めに摂取する人の血圧の平均値や 変動は? 塩分の多摂取群と少摂取群で血圧の平均値 に違いがあるか? 血圧測定値の高低に影響を及ぼす要因は? 飲酒量と血圧測定値とは関係があるか? 塩分摂取量、喫煙有無、飲酒量、年齢等から 血圧を予測するモデル式を作成

(19)

5

1.1.4

記述統計学と推測統計学

児童数1,000人のK小学校で、お年玉の金額調査を行いました。 集団に属するすべての児童のデータを収集し、集団の特徴や傾向を明らかにするための考え 方(理論)が、記述統計学であるということを先に学びました。 同じく児童数1,000人のL小学校でも、お年玉の調査を行おうとしました。 ところが、L校では調査結果を早く出す必要があったため、200人だけにお年玉の金額を聞き、 データを収集しました。200人のデータから平均金額、金額の分布(ばらつき)を調べ、その結 果から全校1,000人のお年玉の平均金額、および金額の分布(ばらつき)を推測しようというわけ です。 このように、集団の一部のデータから集団全体の特徴や傾向を明らかにするための考え方(理 論)を、推測統計学といいます。 記述統計学も推測統計学も、「集団全体の特徴や傾向を把握する」という目的は同じですが、 推測統計学は“集団の一部から全体を推測する”ので、推測統計学は学ぶべき内容がたくさんあ ります。 集団全体を調べる 集団全体の特徴・傾向を把握する 一部を取り出す 推測統計学 記述統計学 集団の一部を調べる

(20)

6

第 1 章 統計解析の基礎

1.1.5

統計学で用いるデータの種類

下記の表はアンケートより得た情報を一覧表にしたものです。データを見ると、年収、血液型 どちらも数値で表されています。 年収のデータでは、例えば「青木さんは242万円で石田さんの365万円より低い」といったこと がいえます。また、全回答者の年収を合計し総人数で割り、年収の平均を求めることもできま す。 血液型についても同じようなことができるでしょうか。血液型のデータはA型を1、O型を2、 B型を3、AB型を4とコード化し、コード番号を選択させたので数値で表されているだけです。 「青木さんの血液型2(O型)は石田さんの1(A型)より大きい」といったり、血液型の平均値を 算出することなどは意味がないことがおわかりいただけるでしょう。 データを大別すると、1つは年収のような数量データ(量的データ)で、もう1つは血液型のよ うなカテゴリーデータ(質的データ)です。数量データは、データ間の大小関係を比較したり、 演算を行ったときに意味のある数値となるデータです。カテゴリーデータは、データ間の大小比 較や演算をしても無意味で、ここでの数値は単なる分類の意味しか持ちません。 カテゴリーデータは分類データですから平均値は出せませんが、各分類が全体の中で何%あ るかという割合(比率)を計算することはできます。血液型であればA型は10人中4人で、割合 は40%ということです。 以上のことから、統計学で用いるデータは「数量データ」と「カテゴリーデータ」で、両データ の基本的な統計処理は、前者が平均値、後者が割合(比率)となります。 項目 回答者 年収(万円) 血液型 青木 242 2 石田 365 1 小野 348 3 小林 462 1 佐藤 353 2 田中 552 2 中村 261 4 山田 658 1 吉田 455 1 渡辺 425 3 血液型の コード A型 1 O型 2 B型 3 AB型 4

(21)

7

1.1.6

基本統計量の種類

数量データで構成される集団の特徴や傾向を、統計学を用いて表現する場合、「基本統計量」 と「分布」の2つの方法があります。 基本統計量は、集団の特徴や傾向をたった1つの値で表現する方法です。 分布とは、集団の特徴や傾向を分布表やグラフで見る方法です。 集団 168 163 175 170 154 cm…… 分布 人 数  未満160 cm 160 cm 165 cm 170 cm 175 cm 以上 15 31 62 46 31 〜 〜 〜 165 cm 170 cm 175 cm 未満 未満 未満 基本統計量 平均身長 168.8 cm 基本統計量には、代表値散布度の2つの方法があります。 代表値は平均値や中央値など集団の真ん中を、散布度は集団の変動の様子をたった1つの数 値で表現する方法です。基本統計量には次に示すように数多くの解析手法があります。 基本統計量 平均値 中央値(メディアン) 最頻値(モード) 割合(比率) 度数分布 ヒストグラム 代表値 散布度 偏差平方和、分散 標準偏差 変動係数 パーセンタイル、四分位偏差 分布

(22)

8

第 1 章 統計解析の基礎

1.2

代表値

1.2.1

平均値

データを全部足してデータ数で割った値を平均値といいます。平均値のことを算術平均とい います。 公 式 平均値:average   ただし、  ,  ,  , …,  はデータ  はデータ数  の正しい表記は ですが、  、  の表記は省略し ています。 とは、数列の和(足し算)を表しています。 Excel関数 AVERAGE P.240参照 フリーソフト 基本統計量 12.4.1「基本統計量」P.296参照 例題1-1 次の表は、△△会社営業部1課、2課の販売員の、ここ1 ヵ月の販売台数を示したものです。 各課における販売台数の平均値(算術平均)を求めなさい。 1課 2 課 5 2 3 6 4 0 7 10 6 7 5 解答 1課の平均           (台) 2課の平均   (台)

(23)

9

1.2.2

最頻値

最頻値とは、データの中で最も多く存在する数値のことです。例えば、1,1,2,2,2,3,5,5の8個の データがある場合、2が3個で最も多いので、最頻値は2となります。 公 式 最頻値:mode Excel関数  MODE フリーソフト 基本統計量 12.4.1「基本統計量」P.296参照 例題1-2 次のデータはある統計ゼミの学生の欠席日数を示したものです。 このデータについて最頻値を求めなさい。 学生 A B C D E F G H I J K 欠席日数 3 1 4 2 4 4 6 5 3 5 40 解答 データの並べ替え 1, 2, 3, 3, 4, 4, 4, 5, 5, 6, 40 これより最頻値は4 答え) 4 日

MODE   最頻値(モード)

Excel関数 1  欠席日数の最頻値を表示するA4を選択する。 2  A4のセルに次を入力する。 =MODE(B2:L2) 3 vキーを押す。A4に計算された値が表示される。 留意点 次の例のように最頻値が複数個存在する場合、Excel関数やフリーソフトにおけるMODEで はデータを入力した順番で最初に求められた最頻値を表示します。 【例】 10 2 4 10 2 3 2, 2, 3, 4, 10, 10,2 2 入力した順番では「2」より「10」が先に入力されているので最頻値は10となります。 2 3 2

(24)

10

第 1 章 統計解析の基礎

1.2.3

中央値

データを数値の大きい(小さい)順番に並べたとき、ちょうど真ん中に位置する数値を中央値 といいます。 データ数が偶数の場合は、中央の2つのデータの平均をとります。 【例】 5, 3, 6, 2, 9, 4 2, 3, 4, 5, 6, 9 中央値:(4+5)÷2 = 4.5 公 式 中央値:median 奇数      偶数       ただし、  は 番目のデータ、  はデータ数 Excel関数  MEDIAN P.242参照 フリーソフト 基本統計量 12.4.1「基本統計量」P.296参照 例題1-3 次のデータはある会社の社員の1 ヵ月間平均給与を示したものです。 このデータについて中央値を求めなさい。 (単位:万円) 回答者 A B C D E F G H I J データ 26 24 23 27 25 35 20 40 30 80 解答 データを並べ替えます。 データの個数が偶数なので、中央に位置する2つの平均値が中央値です。 回答者 G C B E A D I F H J データ 20 23 24 25 26 27 30 35 40 80 答え) 平均給与の中央値は 26.5 万円 ※留意点 平均値を求めると33.0万円です。 平均値と中央値のどちらを使うのがよいかの答えは次節で説明します。

(25)

11

1.2.4

中央値と平均値の使い分け

平均値と中央値の使い分けについて説明します。 例題1-3における会社には、1人だけ賃金がずば抜けて高い社長の息子Jさんがいます。Jさん の存在によってこの会社の賃金の平均は高くなりました。Jさんの金額が今以上に大きければ賃 金の平均はさらに高くなります。 中央値はデータを並べ替えたときの真中の値ですから、Jさんの値が80万円より大きい金額に なっても、中央値は26.5万円で変わりありません。 集団の中で異常に大きいデータがある場合、平均値は異常データの影響を受けますが、中央 値は影響を受けません。この例題は、平均値より中央値を使うほうがよいといえます。しかしな がら、皆さんの大半は、小さいときから親しんでいる平均値のほうを適用したいと感じているは ずです。平均値を適用する場合、異常に大きいデータを除外して平均値を算出します。 Jさんを除いた9名の平均値を算出すると27.8万円になり、中央値に近い値になり、中央値か ら得られた結論とほぼ同じになります。 平均値を使う場合は異常データを除外して計算しましょう。 平均値 中央値 件数 全データ 33.0 26.5 10人 異常値除外 27.8 9人 この問題を解くための考え方を整理してみましょう。 数量データは平均値だけでなく中央値も計算しましょう。 平均値と中央値を比較しましょう。 平均値と中央値がほぼ等しい場合は、異常データが存在しないので、昔から親しんでいる平 均値を適用します。 平均値と中央値が異なる場合は、中央値を適用します。 中央値を適用することに抵抗がある方は、異常値を除外してから平均値を適用します。 留意点:異常値のことを統計学では外れ値といいます。 外れ値 P.35参照 Jさんの80万円を除外して平均値を計算した場合、27.8万となります。 平均値と中央値が異なる場合 異常データを除外して平均値を計算する 中央値より平均値を使いたい場合 中央値を適用 平均値を適用 平均値と中央値がほぼ等しい場合 異常データ がある!

(26)

12

第 1 章 統計解析の基礎

1.2.5

割合(比率)

全体に対する部分の比、あるいは他の数量に対するある数量の比を割合といいます。割合を 比率ともいいます。 公 式 割合(比率):proportion    ただし、  は部分の個数。 は全体の個数 例題1-4 次のデータについて、喫煙する人の割合を求めなさい。 No. 喫煙本数 喫煙の有無 1   =10 本 ◎ 2   = 0 本 × ◎ 喫煙する 3   =20 本 ◎ × 喫煙しない 4   = 0 本 × 5   = 0 本 × 解答 部分の個数:喫煙数:  全体の個数:  喫煙の割合    40% 答え) 喫煙の割合 40% 喫煙する 40% 喫煙しない 60%

(27)

13

1.2.6

割合のグラフ

割合のグラフは種類や内容など決まったものはありませんが、集団の特徴や傾向を把握しや すいものでなければなりません。 選択肢の順序性や等間隔性の有無、カテゴリー数に応じて、ふさわしいグラフの種類を考え ましょう。

選択肢の順序

例えば「製品の購入意向は?」に対する選択肢「ある・ややある・ない」は、購入意向の度合い を聞くためのもので、選択肢の並びは順序性があるといえます。一方、例えば「好きな色は?」 に対する選択肢「赤色・青色・黄色」の場合、順番を替えて聞いても差しさわりなく、選択肢の 並びに順序性がないといえます。

選択肢の等間隔性

年収分布に関する選択肢が「100万〜・200万〜・300万〜…700万〜」は順序性のある選択肢 です。さらに階級幅が100万ずつの等間隔であるといえます。しかし、タンス貯金に関する選択 肢は「ない・〜 10万円・〜 50万円…それ以上」と階級幅が異なり等間隔ではないといえます。 カテゴリー数が少ない場合 (目安:2~4カテゴリー) カテゴリー数が多い場合 (目安:5カテゴリー以上) 円グラフ ランキング棒グラフ インターネット利用経験 車種購入重視点 ある 40% ない 60% 0% 10% 20% 30% 24% 21% 19% 14% 11% 7% 4% 維持費の経済性 室内の広さ 運転のしやすさ 高性能 スタイル 車両価格 環境への配慮 = 420 = 500

(28)

14

第 1 章 統計解析の基礎 カテゴリー数が少ない場合 (目安:2~4カテゴリー) カテゴリー数が多い場合 (目安:5カテゴリー以上) 帯グラフ 棒グラフ ヒストグラム ヒストグラム 製品満足度 年収分布 タンス貯金額 購入意向 ある ややある ない 30% 50% 20 4% なし ~10万円 ~50万円 ~100万円 ~300万円 ~1000万円 それ以上 0% 10% 20% 17% 8% 25% 21% 17% 8% 30% 4% 14% 19% 24% 17% 9% 13% 0% 10% 20% 30% 100万~ 200万~ 300万~ 400万~ 500万~ 600万~ 700万~ 15% 28% 35% 17% 5% 50% 40% 30% 20% 10% 0% 満 足 やや 満 足 普 通 やや 不 満 不 満 棒グラフと棒の間は、「等間隔でない」は空ける、 「等間隔である」は空けない = 380 = 200 = 380 = 430

(29)

15

1.2.7

5 段階評価

アンケート調査では5段階の段階評価の質問をよく行います。 5段階評価で得られたデータはカテゴリーデータ、数量データのどちらでも取り扱え、割合と 平均値の両方が計算できます。 このことを次の問題で考えてみたいと思います。 例題1-5 下記に示すアンケートデータを分析し、どちらの製品の評価が高いかを調べなさい。 なお、選択肢の数字は1:不満、2:やや不満、3:普通、4:やや満足、5:満足を表します。 回答者 A B C D E F G H I J P 製品 5 4 4 3 3 3 3 2 1 1 Q 製品 5 4 3 3 3 3 3 3 2 1

カテゴリーデータとして扱う場合/割合

まずはじめに、アンケートの回答データをカテゴリーデータとして取り扱い、割合を算出しま す。 割合は、各選択肢における回答人数を全回答人数で割って求めます。 下記の表はP製品、Q製品のそれぞれの割合を出したものです。 P 製品 Q 製品 回答人数 回答人数 満足 1 10% 1 10% やや満足 2 20% 1 10% 普通 4 40% 6 60% やや不満 1 10% 1 10% 不満 2 20% 1 10% 合計 10 100% 10 100% 「満足」と「やや 満足」を加算した 値を2Top比率と いう ①P製品:満足率(2Top)は 30%、不満率(2Down)は30 %で、不満率と満足率が同じ。 ②Q製品:満足率(2Top)は 20%、不満率(2Down)は20 %で不満率と満足率が同じ。 P製品とQ製品の比較:満足率はP製品が30%でQ製品の20%を10ポイ ント上回っている。 不満足率(2Down比率) P 製品 Q 製品 30% 20% 満足率(2Top 比率) P 製品 Q 製品 30% 20% 「不満」と「やや 不満」を加算した 値を2Down比率 という

(30)

16

第 1 章 統計解析の基礎

数量データとして扱う場合/平均値

5段階評価のデータの平均値を求めるときは、各選択肢の回答人数に分析者が定めたウエイ ト値を掛け、求められた値の合計を全回答人数で割ります。 例題のウエイト値を、通常5段階評価に用いられる不満を1点、やや不満を2点、普通を3点、 やや満足を4点、満足を5点の数量データとして取り扱い、平均値を算出します。 P 製品 Q 製品 満足 5点 5×1=5 5×1=5 やや満足 4点 4×2=8 4×1=4 普通 3点 3×4=12 3×6=18 やや不満 2 点 2×1=2 2×1=2 不満 1点 1×2=2 1×1=1 a.合計 29 30 b. 全回答人数 10 10 a÷b 平均値 2.9 3.0 ウエイト値 × 度数 P製品の平均値は2.9点、Q製品の平均値は3.0点となり、平均値はQ製品がP製品を上回り、 P製品よりQ製品のほうが評価が高いといえます。 段階評価を次の4択で質問することがあります。 「満足、どちらかといえば満足、どちらかといえば不満、不満」 中間の回答者を満足、不満のどちらかに分類したいときに用います。 バイアス質問で好ましくないと思う人もいますが、目的によってはこのような聞き方もありで す。しかし、このデータの代表値は割合で平均値を使ってはいけません。 中間のない選択肢で質問したデータは、 「満足4点、どちらかといえば満足3点、どちらかといえば不満2点、不満1点」 といったウエイトを与えることができません。 中間のない選択肢はカテゴリーデータとして割合を適用しましょう。

参照

関連したドキュメント

けいさん たす ひく かける わる せいすう しょうすう ぶんすう ながさ めんせき たいせき

72 Officeシリーズ Excel 2016 Learning(入門編) Excel の基本操作を覚える  ・Excel 2016 の最新機能を理解する  ・ブックの保存方法を習得する 73

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

委 員:重症心身障害児の実数は、なかなか統計が取れないという特徴があり ます。理由として、出生後

・毎回、色々なことを考えて改善していくこめっこスタッフのみなさん本当にありがとうございます。続けていくことに意味

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ

下山にはいり、ABさんの名案でロープでつ ながれた子供たちには笑ってしまいました。つ

3月 がつ を迎え むか 、昨年 さくねん の 4月 がつ 頃 ころ に比べる くら と食べる た 量 りょう も増え ふ 、心 こころ も体 からだ も大きく おお 成長 せいちょう