iii
近年、パーソナルコンピュータ(PC)でデータ解析を行うことが当り前となりつつあります。 PCの普及のおかげで、作表・作図時間の短縮化が図れたのは確かです。一方、結果がたくさんあり すぎてまとめに手間取ったり、結果の見方・使い方がわからないなどで、せっかくPCを使っていても事 後処理に時間がかかっているのも事実です。 近年、ビッグデータや機械学習が広く注目されており、このような時代だけに職業分野や文科系・理 科系を問わず、データ処理を行う人ならば、統計学は、誰もが勉強しておくべき基礎的な素養に近く なってきているように思われます。 統計学は数式が多く、たいへん難しいと思われがちですが、ここで学ぶのは数式ではなく、現実の 仕事や研究に応用する方法です。統計学の目的は、現実のある現象を解析して法則性を見い出したり、 直感による判断が正しいかどうか確かめたりすることであり、どんなに高度な理論を使っても、それが 実際に役立たなければ何の価値もありません。 そこで、統計学や統計解析ソフトをより身近なものとして有効に利用していただけるようにと『Excel で学ぶ統計解析入門』を1999年10月に発行しました。この本を発行した当初は、Excelを使った統計入 門書も少なかったのですが、統計ツールとしてのExcelのニーズが増え今では一般的なものになってき ています。 本書は統計解析の基礎からはじめて、因果関係を把握する相関分析・回帰分析、統計学の学習者に とって 1 つの到達点というべき「統計的仮説・検定」までを解説しました。解析ソフトとしては、代表的 な表計算ソフトMicrosoft社のExcelを取り上げ、データ処理に用いる関数を解説し、Excelでできない 部分はExcelアドインフリーソフトで解析できるようにしました。 本書によって、読者の業務・研究に限らず、日常目にする統計数学を正しく理解するための一助にな れば幸いです。 執筆の機会を与えてくださった株式会社オーム社書籍編集局の皆様には心からお礼申し上げます。 2016年4月菅 民 郎
iv
目次目次
まえがき...iii 本書のねらい...xii本書で学ぶ内容と関数式の一覧...xiii
第
1
章
統計解析の基礎...1
1.1
統計学とは... 2
1.1.1 ..統計学の役割と活用方法... 2 1.1.2 ..集団の特徴や傾向を調べる基本統計量... 3 1.1.3 ..因果関係を調べる相関分析・多変量解析... 4 1.1.4 ..記述統計学と推測統計学... 5 1.1.5 ..統計学で用いるデータの種類... 6 1.1.6 ..基本統計量の種類... 71.2
代表値... 8
1.2.1 ..平均値... 8 1.2.2 ..最頻値... 9 1.2.3 ..中央値...10 1.2.4 ..中央値と平均値の使い分け...11 1.2.5 ..割合(比率)...12 1.2.6 ..割合のグラフ...13 1.2.7 ..5段階評価...15 1.2.8 ..割合と平均値の使い分け...171.3
散布度...18
1.3.1 ..分散...18 1.3.2 ..標準偏差...20 1.3.3 ..ダミー変数(1,0データ)の標準偏差...21 1.3.4 ..変動係数...22 1.3.5 ..パーセンタイルと四分位偏差...23 1.3.6 ..「ゆがみ」と「とがり」...26v
1.4
度数分布...28
1.4.1 ..度数分布...28 1.4.2 ..度数分布のグラフ...32 1.4.3 ..累積相対度数の活用...331.5
統計量要約グラフ...34
1.5.1 ..誤差グラフ(エラーバーグラフ)...34 1.5.2 ..箱ひげ図...35 1.5.3 ..パレート図...371.6
個々のデータの位置を知る...39
1.6.1 ..基準値...39 1.6.2 ..偏差値...42第
2
章
相関分析...45
2.1
相関分析の種類...46
2.2
数量データと数量データの関係...47
2.2.1 ..散布図...47 2.2.2 ..単相関係数(ピアソンの積率相関係数)...48 2.2.3 ..直線回帰...542.3
カテゴリーデータとカテゴリーデータの相関...62
2.3.1 ..クロス集計...62 2.3.2 ..クラメール連関係数...652.4
数量データとカテゴリーデータの相関...66
2.4.1 ..カテゴリー別平均...66 2.4.2 ..相関比...67第
3
章
確率分布...69
3.1
確率分布とは...70
3.2
2項分布...72
3.3
ポアソン分布...78
vi
目次3.4
正規分布...82
3.5
標準正規分布...90
3.6
正規確率プロット...93
3.7
正規分布の当てはめ...97
第
4
章
統計的推定と統計的仮説検定の基礎...99
4.1
母集団とサンプル...100
4.2
記述統計と推測統計...101
4.3
統計的推定入門...102
4.3.1 ..区間推定法... 102 4.3.2 ..信頼区間... 102 4.3.3 ..統計的推定の種類... 103 4.3.4 ..信頼度... 1044.4
統計的仮説検定入門...106
4.4.1 ..仮説検定とは... 106 4.4.2 ..帰無仮説と対立仮説... 107 4.4.3 ..両側検定と片側検定... 108 4.4.4 ..仮説検定の手順... 108 4.4.5 ..標準誤差... 109 4.4.6 ..T値による仮説検定の仕方... 109 4.4.7 ..p値による仮説検定の仕方... 110 4.4.8 ..信頼区間による仮説検定の仕方... 110 4.4.9 ..統計的仮説検定の種類と検定手法名... 112第
5
章
母集団の平均と割合に関する推定...117
5.1
母平均の推定...118
5.2
母比率の推定...120
5.3
有限母集団の推定...122
5.4
標本調査のサンプルサイズの決め方...124
vii
第
6
章
1つの母集団の平均と割合に関する検定...127
6.1
母平均の検定...128
6.1.1 ..母平均の検定とは... 128 6.1.2 ..母平均の検定におけるT値、z分布、t分布... 128 6.1.3 ..棄却限界値... 130 6.1.4 ..p値... 132 6.1.5 ..母平均の検定の手順... 133 6.1.6 ..母平均の検定の要約... 1356.2
母比率の検定...136
6.2.1 ..母比率の検定とは... 136 6.2.2 ..T値、棄却限界値、p値... 136 6.2.3 ..母比率の検定の手順... 138 6.2.4 ..母比率の検定の要約... 139第
7
章
2つの母集団の平均と割合に関する検定...141
7.1
母平均の差の検定...142
7.2
対応のない場合の母平均の差の検定...143
7.2.1 ..対応のない場合の母平均の差の検定とは... 143 7.2.2 ..「対応のない場合の母平均の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 143 7.2.3 ..棄却限界値... 146 7.2.4 ..p値... 146 7.2.5 ..「対応のない場合の母平均の差の検定」の手順... 147 7.2.6 ..「対応のない場合の母平均の差の検定」の要約... 1487.3
対応のある場合の母平均の差の検定...149
7.3.1 ..対応のある場合の母平均の差の検定とは... 149 7.3.2 ..「対応のある場合の母平均の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 150 7.3.3 ..棄却限界値とp値... 151 7.3.4 ..「対応のある場合の母平均の差の検定」の手順... 152 7.3.5 ..「対応のある場合の母平均の差の検定」の要約... 1537.4
母比率の差の検定...154
viii
目次7.5
対応のない場合の母比率の差の検定...155
7.5.1 ..対応のない場合の母比率の差の検定とは... 155 7.5.2 ..「対応のない場合の母比率の差の検定」における標準誤差(SE)、 T値、z分布、t分布... 155 7.5.3 ..棄却限界値とp値... 157 7.5.4 ..「対応のない場合の母比率の差の検定」の手順... 158 7.5.5 ..「対応のない場合の母比率の差の検定」の要約... 1597.6
対応のある場合の母比率の差の検定...160
第
8
章
統計的推定、統計的仮説検定の理論と公式の導き方...161
8.1
統計的推定の理論と公式の導き方...162
8.1.1 ..統計量T値の分布... 162 8.1.2 ..「母平均の推定」の公式の導き方... 164 8.1.3 ..母集団が正規分布でない場合の母平均推定の公式... 1658.2
統計的仮説検定の理論と公式の導き方...167
8.2.1 ..帰無仮説と対立仮説... 167 8.2.2 ..統計量T値の分布... 168 8.2.3 ..p値、棄却限界値による判断... 171 8.2.4 ..両側検定と片側検定... 172 8.2.5 ..p値、棄却限界値の求め方... 174第
9
章
母集団の分散・正規性・相関に関する検定...177
9.1
母分散の比の検定...178
9.2
正規性の検定...182
9.3
相関係数の検定...186
9.3.1 ..単相関係数(ピアソンの積率相関係数)の無相関検定... 186 9.3.2 ..クラメール連関係数(カイ2乗検定、独立性の検定)... 189 9.3.3 ..相関比(F検定)... 194ix
第
10
章
標本平均の分布、検定統計量T値の分布...199
10.1
中心極限定理...200
10.1.1 ..中心極限定理とは... 200 10.1.2 ..母集団サイズが小さいケースで中心極限定理が成立することの確認... 202 10.1.3 ..母集団サイズが大きいケースで中心極限定理が成立することの確認... 206 10.1.4 ..母集団が正規分布でなくても中心極限定理が成立することの確認... 210 10.1.5 ..非正規母集団で n<30は「標本平均の分布は正規分布でない」の確認... 212 10.1.6 ..標準誤差とは... 21310.2
標本平均の分布...214
10.2.1 ..標本平均の基準値... 214 10.2.2 ..標本平均基準値T値の分布... 21610.3
検定統計量T値の分布...217
10.3.1 ..「母平均検定T値」の分布がz分布、t分布になることの検証... 217 10.3.2 ..「母比率検定T値」の分布がz分布になることの検証... 226第
11
章
Excelの統計解析機能... 227
11.1
Excelの関数の基本操作...228
11.1.1 ..数式とは、関数とは... 228 11.1.2 ..関数の入力方法... 230 11.1.3 ..式の内容の変更... 232 11.1.4 ..関数の挿入での指定方法... 233 11.1.5 ..引数、関数の変更方法... 235 11.1.6 ..関数式のコピー... 23711.2
知っておくと便利な機能...240
11.2.1 ..Excel関数のリファレンス... 240 11.2.2 ..エラー値について... 261 11.2.3 ..列の参照形式の表示... 26311.3
ピボットテーブル...264
11.4
グラフ機能...272
11.4.1 ..ヒストグラム... 272 11.4.2 ..誤差グラフ... 275x
目次第
12
章
Excelのアドインソフトウェア...281
12.1
ダウンロード方法...282
12.2
Excelデータ分析の組み込み...289
12.3
統計解析ソフトウェアの起動と終了方法...293
12.4
統計解析ソフトウェアの操作方法...296
12.4.1 ..基本統計量... 296 12.4.1.1 基本統計量1<絞り込み条件を設定しない場合>...296 12.4.1.2 基本統計量2<絞り込み条件を設定する場合>...298 12.4.2 ..箱ひげ図... 300 12.4.3 ..散布図... 301 12.4.4 ..偏差値... 302 12.4.4.1 偏差値1...302 12.4.4.2 偏差値2...303 12.4.5 ..相関分析... 305 12.4.5.1 件数クロス1―クロス集計表が1つの場合...306 12.4.5.2 件数クロス2―クロス集計表が2つ以上の場合...307 12.4.5.3 .件数クロス3―集計データに文字、記号、ブランク、および数字の. 0(ゼロ)がある場合...309 12.4.5.4 数量クロス1(カテゴリー別平均)...312 12.4.5.5 数量クロス2(カテゴリー別平均)...313 12.4.5.6 数量クロス3(カテゴリー別平均)...315 12.4.5.7 単相関係数1...317 12.4.5.8 単相関係数2...318 12.4.6 ..正規分布グラフ... 320 12.4.7 ..正規分布統計量... 321 12.4.7.1 正規分布統計量...321 12.4.7.2 標準正規分布統計量...322 12.4.8 ..正規確率プロット... 323 12.4.8.1 正規確率プロット1...323 12.4.8.2 正規確率プロット2...324 12.4.9 ..t検定(母平均の差の検定)... 327 12.4.10 ..対応のあるt検定... 329 12.4.11 ..対応のない母比率の差の検定... 331 12.4.12 ..対応のある母比率の差の検定... 333 12.4.13 ..中心極限定理... 335 12.4.13.1 中心極限母平均―正規実験1...335 12.4.13.2 中心極限母平均―正規実験2...336 12.4.13.3 中心極限母平均―非正規実験...337 12.4.14 ..中心極限母比率... 339 12.4.15 ..検定統計量T値の分布(1つの母平均)... 341 12.4.16 ..検定統計量T値の分布(1つの母比率)... 343xi
Tip 第1章の理解度テスト...44 絶対参照と相対参照... 239 Column 統計関連の資格...98 10人の偉大な統計学者... 116 統計用語の解説... 126 各種検定の検定方法およびExcel関数の使い方... 140 統計用語の解説 ノンパラメトリック検定... 142 ベイズ統計とは... 198 統計用語の解説 頑健性(がんけんせい):ロバストネス(Robustness)... 200 決して、電車では退屈しない... 326 Column Excel アドインソフトウェアについて ・.本ソフトウェアは、本書をお買い求めになった方のみご利用いただけます。本書第 12 章をよくお読みのうえ、ご利用 ください。また、本ソフトウェアの著作権は、本書の著作者である菅民郎氏に帰属します。 ・.ダウンロードサービスは、止むを得ない事情により、予告なく中断・中止する場合があります。 ・.本ソフトウェアを利用したことによる直接あるいは間接的な損害に関して、著作者およびオーム社はいっさいの責任を 負いかねます。ご利用は利用者個人の責任において行ってくださいますようお願い致します。また、ソフトウェアの動 作・実行環境操作についての質問には一切お答えすることはできません。 ・.本書の内容は原則として、執筆時点(2016 年 4 月)のものです。その後の状況によって、情報が変更されている場合 もありますのでご注意ください。 12.4.17 ..検定統計量T値の分布(2つの母平均)... 345 12.4.18 ..検定統計量T値の分布(2つの母比率)... 347 12.4.19 ..実験カイ2乗分布... 349 12.4.20 ..実験F分布... 352 索引... 355xii
本書のねらい
どんなにすばらしい素材であっても、料理人の腕や使う道具が悪ければ、美味しいごちそう はでき上がりません。同様に、どんなに良質のデータがあっても、分析者の技量が低く、解析 ソフトウェアを使いこなせなければ良い結果を生じさせることはできません。目的に応じた分 析、ソフトウェア操作がなされてこそ、初めて価値ある情報になります。 したがってデータ処理入門者が学ぶことは、分析の仕方と解析ソフトウェアの使い方の2つで す。各々やさしくわかりやすく書かれた書籍はあるものの、両方について解説している書籍はま だ数少ないように思われます。 そこで本書では例題を設け、この例題に対して、分析の仕方と、ソフトウェアを使っての操 作の仕方の両面を取り上げ解説することにしました。用いたソフトウェアは表計算ソフトウェア のExcelです。例題の中にはExcelの機能で計算を行ったり、グラフ化するのが面倒なものがあ りますので、著者が開発したExcelアドインソフトウェアも用いました。このアドインソフトウェ アは著者が勤めるアイスタットのホームページから無料でダウンロードできます。 本書の内容は、統計学の基礎から、仕事や研究によく使われている相関分析・回帰分析、統 計学の学習者にとって1つの到達点というべき統計的推定・検定までを取り上げ、解説しました。 統計学には数学的な要素が多く含まれていて、数式を見たり計算をすることが嫌いな方に とっては敬遠したくなる学問といえます。初学者、特に文科系の学習者でも理解していただける ように可能な限りやさしく、さらには楽しく読めるものになるように、いろいろな工夫をしてみま した。 統計学の中で難しいといわれている「標本統計量の分布」は、アイスタットのホームページか らダウンロードできるアドインソフトウェアによって読者が実際にシミュレーションし、結果をビ ジュアルに理解できるように配慮しました。xiii
本書で学ぶ内容と関数式の一覧
内容 関数式 ページ アイスタットフリーソフト ページ 基本統計 合計 SUM 230 ● 平均値 AVERAGE 240 ● 296 最頻値(モード) MODE 9 ● 296 中央値(メディアン) MEDIAN 242 ● 296 偏差平方和 DEVSQ 241 ● 296 分散 -1 VAR 242 ● 296 分散 VARP 242 ● 296 標準偏差 -1 STDEV 243 ● 296 標準偏差 STDEVP 243 ● 296 変動係数 STDEVP / AVERAGE 22 ● 296 歪度 SKEW 244 ● 296 尖度 KURT 244 ● 296 度数分布 FREQUENCY 31 ● 数量クロス集計 ピボットテーブル 264 ● 312 件数クロス集計 ピボットテーブル 264 ● 306 基準値 ● 302 偏差値 ● 302 相関分析 単相関係数 CORREL 245 ● 317 直線の定数項 INTERCEPT 246 直線の傾き SLOPE 246 確率分布 2 項分布 BINOMDIST 74 ポアソン分布 POISSON 79 正規分布(累積確率を算出) NORMDIST 84 ● 321 正規分布( 値を算出) NORMINV 85 ● 321 標準正規分布(累積確率を算出) NORMSDIST 91 ● 322 標準正規分布( 値を算出) NORMSINV 92 ● 322 t分布(上側確率を算出) TDIST 174 t分布(T値を算出) TINV 166 分布(上側確率を算出) CHIDIST 184 分布( 値を算出) CHIINV 183 ※ ●が付いたものはアイスタットホームページより無料ダウンロード可xiv
内容 関数式 ページ アイスタットフリーソフト ページ 確率分布 F分布(上側確率を算出) FDIST 180 F分布(F値を算出) FINV 179 中心極限定理(標本平均) ● 335 中心極限定理(標本比率) ● 339 実験t分布 ● 341 実験 分布 ● 349 実験 F分布 ● 352 推定・検定母平均の推定 NORMSDIST, TINV, TDIST 118 母比率の検定 NORMSDIST 120
母平均の差の検定 NORMSDIST, TINV, TDIST 142 ● 327 母比率の差の検定 NORMSDIST 154 ● 331 母分散の比の検定 FDIST, FINV 178 正規性の検定 CHIINV, CHIDIST 182 単相関検定 TINV, TDIST 186 ● 317 クラメール連関係数検定 CHIINV, CHIDIST 189 ● 306 相関比検定 FDIST, FINV 194 ● 312 基本数学 四捨五入 ROUND 250 切り捨て ROUNDDOWN 252 切り上げ ROUNDUP 252 切り捨てし整数で表示 INT 253 階乗( ) FACT 255 順位 RANK 257 順序統計量 SMALL 259 平方根(ルート) SQRT 256 自然対数 LN 255 対数 LOG 255 自然対数の底のべき乗 EXP 256 円周率 PI 230 条件別実行 IF 247 エラー値を検出 ISERR 261 統計グラフ ヒストグラム グラフ機能 272 誤差グラフ グラフ機能 275 箱ひげ図 グラフ機能 35 ● 300 散布図 ● 301 正規分布グラフ ● 320 正規確率プロット ● 323 ※ ●が付いたものはアイスタットホームページより無料ダウンロード可
統計解析の基礎
2
第 1 章 統計解析の基礎1.1
統計学とは
1.1.1
統計学の役割と活用方法
私たちの身の周りには様々な情報があふれています。好む・好まざるにかかわらず、私たち は無意識のうちに情報を選別・選択し、それをもとに物事を把握しながら生活しています。どん な些細な事柄であっても、情報なくして意思決定がなされるということは考えられません。この ように、私たちは知らず知らずのうちに情報を収集し、それを活用することによって社会生活を 成り立たせているといえるでしょう。 “情報なしでは生きていくのですら困難”といっても過言ではない現代という時代は、逆に、 情報を巧みに活用できる人にとっては面白く、刺激的な時代ということができるかもしれません。 とはいっても、形も種類も様々な情報をやみくもに集めただけでは、有効に活用することはま まなりません。情報の活用にも一定のルール、つまり『情報の読み方・伝え方の決まり』があり ます。ルールを無視して情報を取り扱うことは何のメリットももたらさないばかりか、事と次第 によっては自分や他人に大変な危険を及ぼすかもしれません。 統計学は、この情報を“正確に読み、間違いなく伝え、有効に活用する”ための理論で、統計 解析の手法はそのための手段といえます。 ここでお仕事や研究のために統計学を使われる方のために、一般的な統計解析の活用手順を 示しておきましょう。 ● 解決したいこと(目的)を明確にする ● 調査、実験、インターネット等でデータ(情報)を集める ● 数多くある統計解析手法の中から、どれを適用するかを決める ● Excelや統計解析ソフトウェアを用いて計算する ● 出力された結果を解釈する したがって本書は、次の3点を習得できるように執筆しています。 ① 解決したいテーマに対し、どの統計解析手法を使えばよいか? ② Excelや統計解析ソフトの計算方法は? ③ 出力結果の見方と解釈の仕方は?【 データに光あり、解析力でデータの中の宝を探す 】
著者が好きな言葉でモットーとしています。きめ細やかで斬新な統計解析を行うことによって 新しい「価値」を生み出せると、著者は考えています。3
1.1.2
集団の特徴や傾向を調べる基本統計量
ここにAさんという人がいます。Aさんについて様々なデータを収集した結果、身長が165㎝ であり、血液型はA型、数学の得点は65点、性別は女性であるなど、その他諸々のことがわか りました。 Aさんのデータを統計的に処理できるでしょうか。 統計学は、一定の条件に基づいて集められた「データのまとまり」を扱うものです。ですから、 あらゆるデータを扱うことができるといっても、このような「特定の個人(1人だけ)のデータ」は 統計学の関知するところではありません。 例えば「A, B, …」という100人の人たちについて「身長」と「性別」のデータを得たとします。 身長は背の高い人も低い人も、また、性別は男性の人も女性の人もいるでしょう。このような 個々のデータの差異を変動といいます。 データが変動しているがために、その集団は「背の高いほうなのか低いほうなのか」あるいは 「男性は多いほうか少ないほうか」を把握する必要性が生じてくるのです。そこで統計学を用い、 身長の平均や性別における男性の割合(比率)などを求めることになります。 もし、全員の身長が165㎝、性別では全員が男性であったとします。これでは身長の平均や男 性の割合を求めること自体意味がないことでしょう。いま述べたように、集団に属するデータか ら平均値や割合を求め、集団の特徴や傾向を明らかにするための考え方(理論)を、記述統計学 といいます。記述統計学によって求められた値(平均値、比率)を基本統計量(要約統計量とも いう)といいます。 なお、情報の主体である「A, B, …」といった複数の人(あるいは物)の集まりを、集団といい ます。また、集団を構成する個々の主体(人あるいは物)を、個体といいます。 個体 Aさんのデータ 名前 山田 性別 女性 年齢 28才 血液型 A型 集団 100人のデータNo.1 No.2 No.3 … No.100
男性 女性 女性 … 男性 24才 32才 28才 … 40才 人数(個体数) 100人 割合(比率) 男性 70% 女性 30% 平均値 28.5才 基本統計量を算出