• 検索結果がありません。

Excel で学ぶ統計解析入門 ―Excel 2013/2010 対応版―

N/A
N/A
Protected

Academic year: 2021

シェア "Excel で学ぶ統計解析入門 ―Excel 2013/2010 対応版―"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)
(2)

本書を発行するにあたって、内容に誤りのないようできる限りの注意を払いました が、本書の内容を適用した結果生じたこと、また、適用できなかった結果について、 著者、出版社とも一切の責任を負いませんのでご了承ください。 本書に掲載されている会社名・製品名は一般に各社の登録商標または商標です。 本書は、「著作権法」によって、著作権等の権利が保護されている著作物です。本 書の複製権・翻訳権・上映権・譲渡権・公衆送信権(送信可能化権を含む)は著作 権者が保有しています。本書の全部または一部につき、無断で転載、複写複製、電 子的装置への入力等をされると、著作権等の権利侵害となる場合があります。また、 代行業者等の第三者によるスキャンやデジタル化は、たとえ個人や家庭内での利用 であっても著作権法上認められておりませんので、ご注意ください。 本書の無断複写は、著作権法上の制限事項を除き、禁じられています。本書の複写 複製を希望される場合は、そのつど事前に下記へ連絡して許諾を得てください。 オーム社開発部「<書名を記載>」係宛、 E-mail(kaihatu@ohmsha.co.jp)または書状、FAX(03-3293-2825)にて   

(3)

...iii

まえがき

パソコンの普及のおかげでデータ解析を行う機会が増えています。作表・作図時間の短 縮化が図れたのは確かですが、反面、結果がたくさんありすぎてまとめに手間取る、見 方・使い方がわからないなどで、事後処理に時間がかかっているのも事実です。 文科系・理科系を問わず、また社会人でデータ処理を行う人ならば、統計学は、誰もが 勉強しておくべき基礎的な素養となりつつあるように思われます。 統計学は数式が多く、たいへん難しいと思われがちですが、ここで学ぶのは数式ではな く、現実の仕事や研究に応用する方法です。 統計学の目的は、現実のある現象を解析して法則性を見出したり、直感による判断が正 しいかどうかを確かめたりすることであり、どんなに高度な理論を使っても、それが実際 に役立たなければ何の価値もありません。 そこで、統計学や統計解析ソフトをより身近なものとして有効に利用していただけるよ うにとMicrosoft社のExcelを取り上げた『Excelで学ぶ統計解析入門』を1999年10月に発行 しました。この本を発行した当初は、Excelを使った統計入門書も少なかったのですが、統 計ツールとしてのExcelのニーズが増え、今では一般的なものになってきています。その後、 Excelのバージョンアップにともない本書を改訂を重ね、今回は2013年版(Excel 2013)に 対応しました。そして、更に書籍の構成を見やすく、特に推測統計学をわかりやすく書き 直しました。 本書は、統計解析の基礎からはじめて、因果関係を把握する相関分析・回帰分析、統計 学の学習者にとって 1 つの到達点というべき「統計的推定・検定」まで解説しました。デ ータ処理に用いる Excel 関数や「データ分析」ツールを解説し、Excel でできない部分は Excelアドインソフトウェアで解析できるようにしました。このアドインソフトは著者の会 社の (株) アイスタットとオーム社のWebページからダウンロードができます。 本書によって、読者の業務・研究に限らず、日常目にする統計数学を正しく理解するた めの一助になれば幸いです。 執筆の機会を与えてくださった株式会社オーム社開発局の皆様には心からお礼申し上げ ます。 2013年9月

菅  民 郎

(4)
(5)

目   次

まえがき ………iii

1.1 本書のねらい ……… 2

1.2 本書で学ぶ内容と関数式の一覧 ……… 3

2.1 統計学とは ……… 6

2.1.1 統計学の役割と活用方法 ★……… 6 2.1.2 集団の特徴や傾向を調べる基本統計量 ★ ……… 7 2.1.3 因果関係を調べる相関分析・多変量解析 ★……… 8 2.1.4 記述統計学と推測統計学 ★……… 9 2.1.5 統計学で用いるデータの種類 ★ ……… 10 2.1.6 基本統計量の種類 ★ ……… 11

2.2 代表値

……… 12

2.2.1 算術平均(相加平均) ★ ……… 12 2.2.2 幾何平均(相乗平均) ★★……… 14 2.2.3 調和平均 ★★……… 16 2.2.4 最頻値 ★ ……… 18 2.2.5 中央値 ★ ……… 19 2.2.6 比率 ★ ……… 21 ...v ●目  次●

はじめに

1

● ● ● ●

統計解析の基礎

2

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

(6)

2.3 散布度

……… 24

2.3.1 偏差平方和 ★ ……… 24 2.3.2 分散 ★ ……… 26 2.3.3 標準偏差 ★ ……… 28 2.3.4 レンジ ★ ……… 30 2.3.5 変動係数 ★ ……… 32 2.3.6 パーセンタイルと四分位偏差 ★★★ ……… 33 2.3.7 「ゆがみ」と「とがり」 ★★ ……… 36 2.3.8 用語の整理 ……… 39

2.4 度数分布

……… 40

2.4.1 度数分布 ★ ……… 40 2.4.2 度数分布のグラフ ★ ……… 44 2.4.3 累積相対度数の活用 ★★ ………45

2.5 クロス集計

……… 46

2.5.1 クロス集計とは ★ ……… 46 2.5.2 数量クロス集計 ★ ……… 47 2.5.3 件数クロス集計 ★ ……… 48

2.6 統計量要約グラフ

……… 51

2.6.1 誤差グラフ ★★……… 51 2.6.2 箱ひげ図 ★★ ……… 52 2.6.3 パレート図 ★ ……… 54

2.7 個々のデータの位置を知る

……… 56

2.7.1 基準値 ★★ ……… 56 2.7.2 偏差値 ★ ……… 59 vi... ●目  次● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

(7)

3.1 相関分析

……… 62

3.1.1 相関分析と回帰分析とは ★★……… 62 3.1.2 単相関係数とは ★★ ……… 63 3.1.3 単相関係数の求め方 ★★ ……… 64 3.1.4 単相関係数の活用 ★ ……… 69 3.1.5 散布図 ★ ………70

3.2 回帰分析

……… 72

3.2.1 関数関係と相関関係 ★ ……… 72 3.2.2 回帰分析とは ★★……… 74 3.2.3 直線回帰式算出の考え方と計算手順 ……… 75 3.2.4 決定係数 ★★ ………80

4.1 確率分布とは 

……… 82

4.2 2 項分布 

★★

……… 84

4.3 ポアソン分布 

★★

……… 90

4.4 正規分布 

★★

……… 94

4.5 標準正規分布 

★★

………102

4.6 正規確率プロット 

………105

...vii ●目  次●

相関分析と回帰分析

3

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

確率分布

4

● ● ● ● ● ● ● ● ● ● ● ●

(8)

5.1 母集団と標本

……… 110

5.1.1 母集団と標本とは ★………110

5.2 統計的推定 ………111

5.2.1 統計的推定とは ★★………111 5.2.2 母平均の推定 ★★………113 5.2.3 母比率の推定 ★★………117 5.2.4 サンプルサイズの決定方法 ★★………119

5.3 統計的検定(1 標本: 1 集団) ……… 121

5.3.1 統計的検定とは ★★ ……… 121 5.3.2 母平均の検定 ★★ ……… 127 5.3.3 母比率の検定 ★★ ……… 131 5.3.4 母分散の検定 ★★★ ……… 134

5.4 統計的検定(2 標本: 2 集団) ……… 136

5.4.1 統計的検定(2 標本: 2 集団)とは ★★………136 5.4.2 母平均の差の検定 ★★ ……… 138 5.4.3 母平均の差の検定(対応のある場合) ★★ ………… 145 5.4.4 母比率の差の検定 ★★ ……… 148 5.4.5 母分散の差の検定 ★★★ ……… 154

6.1 母集団と標本

……… 158

6.1.1 母集団と標本の関係 ★★ ……… 158 6.1.2 標本平均の分布 ★★★ ……… 161 viii... ●目  次● ● ● ● ● ● ●

推測統計学

5

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

実験による統計理論の検証

6

● ● ● ● ● ● ● ●

(9)

6.1.3 中心極限定理 ★★★ ……… 163 6.1.4 標本比率の分布 ★★★ ……… 168

6.2 推測統計学の代表的な 3 つの確率分布 ………170

6.2.1 t 分布 ★★★………170 6.2.2 c2 分布 ★★★ ……… 173 6.2.3 F 分布 ★★★ ……… 176 6.2.4 統計的推定の考え方 ★★★ ……… 179 6.2.5 p値についてのまとめ ★★★ ……… 181

7.1 Excel の関数の基本操作 ………184

7.1.1 数式とは、関数とは………184 7.1.2 関数の入力方法………186 7.1.3 式の内容の変更………187 7.1.4 関数の挿入での指定方法………188 7.1.5 引数、関数の変更方法………191 7.1.6 関数式のコピー………193

7.2 知っておくと便利な機能 ………196

7.2.1 Excel 関数のリファレンス ………196 7.2.2 エラー値について………221 7.2.3 列の参照形式の表示………223

7.3 ピボットテーブル ………224

7.4 グラフ機能 ………232

7.4.1 ヒストグラム………232 7.4.2 誤差グラフ………235 ...ix ●目  次● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

Excel の統計解析機能の解説

7

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

(10)

8.1 ダウンロード方法 ………242

8.2 Excel データ分析の組み込み ………249

8.3 統計解析ソフトウェア ………253

8.3.1 起動と終了………253 8.3.2 例題………256 ■例題 1 基本統計量 ………256 ■例題 2 相関分析 ………258 数量クロス………258 件数クロス(クロス集計表が 1 つの場合)………259 件数クロス(クロス集計表が 2 つ以上の場合)…261 単相関係数………263 ■例題 3 箱ひげ図 ………-265 ■例題 4 偏差値 ………266 ■例題 5 散布図 ………268 ■例題 6 正規分布統計量 ………269 標準正規分布統計量………270 ■例題 7 正規分布グラフ ………272 ■例題 8 正規確率プロット ………273 ■例題 9 中心極限定理 ………275 中心極限母平均−正規実験1………275 中心極限母平均−正規実験2………277 中心極限母平均−非正規実験………279 中心極限母比率………281 ■例題 10 実験t分布 ………283 ■例題 11 実験カイ 2 乗分布 ………285 ■例題 12 実験 F 分布 ………287

索 引

………289

逆数に意味があるとは ………17 絶対参照と相対参照 ………195 4 3 2 1 4 3 2 1 x... ●目  次● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

Excel アドインソフトウェア

8

Tip

(11)

第   章

1

(12)

どんなにすばらしい素材であっても、料理人の腕や使う道具が悪ければ、美味し いごちそうはでき上がりません。 同様にどんなに良質のデータがあっても、分析者の技量が低く解析ソフトを使い こなせなければ、良い結果を生じさせることはできません。目的に応じた分析、ソ フト操作がなされてこそ、初めて価値ある情報になります。 したがってデータ処理入門者が学ぶことは、分析の仕方と解析ソフトの使い方の 2つです。各々やさしくわかりやすく書かれた書籍はあるものの、両方について解 説している書籍はまだ数少ないように思われます。 そこでこの本では例題を設け、この例題に対して、分析の仕方と、ソフトを使っ ての解析の仕方の両面を取り上げ解説することにしました。用いたソフトは表計算 ソフトのExcelです。例題の中にはExcelの機能で計算したりグラフ化したりするの が面倒なものがありますので、著者が開発したExcelアドインソフトウェアも用い ました。このアドインソフトウェアは著者が勤めるアイスタット社のホームページ から無料でダウンロードできます。 この本の内容は、統計学の基礎から、仕事や研究によく使われている相関分析・ 回帰分析、統計学の学習者にとって1つの到達点というべき統計的推定・検定まで を取り上げ、解説しました。 統計学には数学的な要素が多く含まれていて、数式を見たり計算したりすること が嫌いな方にとっては敬遠したくなる学問といえます。初学者、特に文科系の学習 者でも理解していただけるように可能な限りやさしく、さらには楽しく読めるもの になるように、いろいろな工夫をしてみました。 統計学の中で難しいといわれている「標本統計量の分布」は、アイスタットソフ トウェアによって読者が実際にシミュレーションし、結果をビジュアルで理解でき るように配慮しました。 目次および本文には難易度を示す印を付け、データ処理する上で必ず理解すべき ものと、目的に応じて学習すべきものを判別できるようにしました。 ★は簡単、★★はやや難、★★★は難しいと区分しました。 ●第1章 はじめに● 2...

本書のねらい

1.1

(13)

内 容 関数式 関数式の併用 関数式以外の機能 ページ 合計 SUM 186 データ件数(数値のみ) COUNT 21 データ件数(条件付き) COUNTIF 21 算術平均(相加平均) AVERAGE 12 幾何平均(相乗平均) GEOMEAN 14 調和平均 HARMEAN 16 比率 COUNTIF/COUNT 21 最頻値(モード) MODE 18 中央値(メディアン) MEDIAN 19 偏差平方和 DEVSQ 24 分散n–1 VAR 26 分散n VARP 26 標準偏差n–1 STDEV 28 標準偏差n STDEVP 28 変動係数 STDEVP/AVERAGE 32 レンジ MAX–MIN 30 パーセンタイル アイスタット無料ソフト 33 四分位偏差 アイスタット無料ソフト 33 歪度 SKEW 36 尖度 KURT 36 度数分布 FREQUENCY 40 数量クロス集計 ピボットテーブル 47 件数クロス集計 ピボットテーブル 48 基準値 アイスタット無料ソフト 56 偏差値 アイスタット無料ソフト 59 単相関係数 CORREL アイスタット無料ソフト 67 直線の定数項 INTERCEPT 79 直線の傾き SLOPE 79 2項分布 BINOMDIST 86 ポアソン分布 POISSON 91 正規分布(累積確率を算出) NORMDIST アイスタット無料ソフト 96 正規分布(x値を算出) NORMINV アイスタット無料ソフト 97 標準正規分布(累積確率を算出) NORMSDIST 103 標準正規分布(z値を算出) NORMSINV 104 t分布(上側確率を算出) TDIST 171 t分布(t 値を算出) TINV 172 c2分布(上側確率を算出) CHIDIST 174 c2分布(c2値を算出) CHIINV 175 ●1.2 本書で学ぶ内容と関数式の一覧● ...3

本書で学ぶ内容と関数式の一覧

1.2

基 本 統 計 相 関 分 析 確 率 分 布

(14)

F分布(上側確率を算出) FDIST 177 F分布(F値を算出) FINV 178 中心極限母平均−正規実験1 アイスタット無料ソフト 275 中心極限母平均−正規実験2 アイスタット無料ソフト 277 中心極限母平均−非正規実験 アイスタット無料ソフト 279 中心極限母比率 アイスタット無料ソフト 281 実験 t 分布 アイスタット無料ソフト 283 実験c2乗分布 アイスタット無料ソフト 285 実験F分布 アイスタット無料ソフト 287 母平均の推定 TINV 113 母平均の検定 NORMSDIST,TINV,TDIST 126 母比率の検定 NORMSDIST 132 母分散の検定 CHIDIST,CHIINV 134 母平均の差の検定 NORMSDIST,TINV,TDIST 140 母比率の差の検定 NORMSDIST 148 母比率の差の検定(マクネマー検定) CHIDIST,CHIINV 152 母分散の差の検定 FDIST,FINV 154 四捨五入 ROUND 247 切り捨て ROUNDDOWN 249 切り上げ ROUNDUP 249 切り捨てし整数で表示 INT 249 階乗(n!) FACT 258 除算のあまり MOD 253 絶対値 ABS 255 符号判別 SIGN 257 順位 RANK 260 順序統計量 SMALL 262 平方根(ルート) SQRT 259 自然対数 LN 258 対数 LOG 258 自然対数の底のべき乗 EXP 259 円周率 PI 7 条件別実行 IF 236 かつ条件 AND 238 または条件 OR 240 エラー値を検出 ISERR 264 ヒストグラム グラフ機能 55 誤差グラフ グラフ機能 69 箱ひげ図 アイスタット無料ソフト 265 散布図 アイスタット無料ソフト 268 正規分布グラフ アイスタット無料ソフト 272 正規確率プロット アイスタット無料ソフト 273 ●第1章 はじめに● 4... 推 定 ・ 検 定 基 本 数 学 統 計 グ ラ フ

(15)

第   章

2

(16)

私たちの身の周りには様々な情報があふれています。好む・好まざるにかかわら ず、私たちは無意識のうちに情報を選別・選択し、それをもとに物事を把握しなが ら生活しています。どんな些細な事柄であっても、情報なくして意思決定がなされ るということは考えられません。このように、私たちは知らず知らずのうちに情報 を収集し、それを活用することによって社会生活を成り立たせているといえるでし ょう。 “情報なしでは生きていくのすら困難”といっても過言ではない現代という時代 は、逆に、情報を巧みに活用できる人にとっては面白く、刺激的な時代ということ ができるかもしれません。 とはいっても、形も種類も様々な情報をやみくもに集めただけでは、有効に活用 することはままなりません。情報の活用にも一定のルール、つまり『情報の読み 方・伝え方の決まり』があります。ルールを無視して情報を取り扱うことは何のメ リットももたらさないばかりか、事と次第によっては自分や他人に大変な危険を及 ぼすかもしれません。 統計学は、この情報を“正確に読み、間違いなく伝え、有効に活用する”ための 理論で、統計解析の手法はそのための手段といえます。 ここで仕事や研究のために統計学を使われる方のために、一般的な統計解析の活 用手順を示しておきましょう。 * 解決したいこと(目的)を明確にする * 調査、実験、インターネット等でデータ(情報)を集める * 数多くある統計解析手法の中から、どれを適用するかを決める * Excelや統計解析ソフトウェアを用いて計算する * 出力された結果を解釈する したがってこの本は、次の3点を習得できるように執筆しています。 ① 解決したいテーマに対し、どの統計解析手法を使えばよいか? ② Excelや統計解析ソフトの計算方法は? ③ 出力結果の見方と解釈の仕方は? ●第2章 統計解析の基礎● 6...

統計学とは

2.1

2.1.1

統計学の役割と活用方法 

データに光あり、解析力でデータの中の宝を探す 筆者が好きな言葉でモットーとしています。きめ細やかで斬新な統計解析を 行うことによって新しい「価値」を生み出せると、著者は考えています。

(17)

ここに A さんという人がいます。A さんについて様々なデータを収集した結果、 身長が 165cmであり、血液型はA 型、数学の得点は65 点、性別は女性であるなど、 その他諸々のことがわかりました。 Aさんのデータを統計的に処理できるでしょうか。 統計学は、一定の条件に基づいて集められた「データのまとまり」を扱うものです。 ですから、あらゆるデータを扱うことができるといっても、このような「特定の個 人(一人だけ)のデータ」は統計学の関知するところではありません。 例えば「A, B, …」という100人の人たちについて「身長」と「性別」のデータを得たと します。身長は背の高い人も低い人も、また、性別は男性の人も女性の人もいるで しょう。このような個々のデータの差異を変動といいます。 データが変動しているがために、その集団は「背が高いほうなのか低いほうなの か」あるいは「男性は多いほうか少ないほうか」を把握する必要性が生じてくるので す。そこで統計学を用い、身長の平均や性別における男性の割合(比率)などを求 めることになります。 もし、全員の身長が165cm、性別では全員が男性であったとします。これでは身 長の平均や男性の比率を求めること自体意味がないことでしょう。いま述べたよう に、集団に属するデータから平均値や比率を求め、集団の特徴や傾向を明らかにす るための考え方(理論)を、記述統計学といいます。適用した解析手法(平均値、 比率)を基本統計量(要約統計量という)といいます。 なお、情報の主体である「A, B, …」といった複数の人(あるいは物)の集まりを、 集団といいます。また、集団を構成する個々の主体(人あるいは物)を、個体とい います。 個体 Aさんのデータ 名前 山田 性別 女性 年齢 28才 血液型 A型 集団 100人のデータ

No.1 No.2 No.3 … No.100 男性 女性 女性 … 男性 24才 32才 28才 … 40才 人数(個体数) 100人 割合(比率) 男性 70%  女性 30% 平均値 28.5才 基本統計量を算出 ●2.1 統計学とは● ...7

2.1.2

集団の特徴や傾向を調べる基本統計量 

(18)

ある集団について、血圧や食生活の実態を調べたデータがあります。 「塩分を多めに摂取する人の血圧の平均値や変動は?」、「塩分を多く摂取する 人々とそうでない人々で血圧の平均値に違いがあるか?」は、先に述べた基本統計 量で把握できます。 血圧が「高い」「低い」の変動は何によって生じるのでしょうか。少し考えただ けでも、塩分摂取量、喫煙有無、飲酒量、年齢、測定時の心理状態・健康状態など、 様々な要因をあげることができます。「血圧測定値の高低に影響を及ぼす要因は?」、 「飲酒量と血圧測定値とは関係があるか?」などは、相関分析という解析方法で把 握できます。 血圧測定値は色々な要因が絡み合って決まります。ある人が塩分摂取量、喫煙有 無、飲酒量、年齢等をパソコンに入力すると「あなたの近い将来の血圧値は 150に なるので注意せよ」といったことを回答してくれるアプリがあります。多数の要因 から血圧を予測することは、多変量解析という方法で解決できます。 統計学では目的とする要因、この例では血圧を目的変数(結果変数)といいます。 原因となる要因、この例では塩分摂取量、喫煙有無等を説明変数(原因変数)とい います。 相関分析、多変量解析は目的変数と説明変数の関係、すなわち両者の因果関係を 明らかにする解析方法です。 把握したい内容 集団の特徴 集団の違い 関連性 影響度 予測 解析手法 基本統計量 相関分析 多変量解析 塩分を多めに摂取する人の血圧の平均値や 変動は? 塩分の多摂取群と少摂取群で血圧の平均値 に違いがあるか? 血圧測定値の高低に影響を及ぼす要因は? 飲酒量と血圧測定値とは関係があるか? 塩分摂取量、喫煙有無、飲酒量、年齢等か ら血圧を予測するモデル式を作成 ●第2章 統計解析の基礎● 8...

2.1.3

因果関係を調べる相関分析・多変量解析 

(19)

児童数1,000人のK小学校で、お年玉の金額調査を行いました。 集団に属するすべての児童のデータを収集し、集団の特徴や傾向を明らかにする ための考え方(理論)が、記述統計学であるということを先に学びました。 同じく児童数1,000人のL小学校でも、お年玉の調査を行おうとしました。 ところが、L校では調査結果を早く出す必要があったため、200人だけにお年玉 の金額を聞き、データを収集しました。200人のデータから平均金額、金額の分布 (ばらつき)を調べ、その結果から全校1,000人のお年玉の平均金額、および金額の 分布を推測しようというわけです。 このように、集団の一部のデータから集団全体の特徴や傾向を明らかにするため の考え方(理論)を、推測統計学といいます。 記述統計学も推測統計学も、「集団全体の特徴や傾向を把握する」という目的は同 じです。 ●2.1 統計学とは● ...9

2.1.4

記述統計学と推測統計学

記述統計学 推測統計学 集団の一部を調べる 一部を取り出す 集団全体を調べる 集団全体の特徴・傾向を把握する

(20)

下記の表はアンケートより得た情報を一覧表にしたものです。データを見ると、 年収、血液型どちらも数値で表されています。 年収のデータでは、例えば「青木さんは 242 万円で石田さんの 365 万円より低い」 といったことがいえます。また、全回答者の年収を合計し総人数で割り、平均年収 を求めることもできます。 血液型についても同じようなことができるでしょうか。血液型のデータはA型を 1、O 型を 2、B 型を 3、AB 型を 4 とコード化し、コード番号を選択させたので数値 で表されているだけです。「青木さんの血液型 2(O 型)は石田さんの 1(A 型)よ り大きい」といったり、血液型の平均値を算出したりするのは意味のないことだと おわかりいただけるでしょう。 データを大別すると、1つは年収のような数量データ(量的データ)で、もう1つ は血液型のようなカテゴリーデータ(質的データ)です。数量データは、データ間 の大小関係を比較したり、演算を行ったりしたときに意味のある数値となるデータ です。カテゴリーデータは、データ間の大小比較や演算をしても無意味で、ここで の数値は単なる分類の意味しか持ちません。 カテゴリーデータは分類データですから平均値は出せませんが、各分類が全体の 中で何%あるかという割合(比率)を計算することはできます。血液型であればA 型は10人中4人で、比率は40%ということです。 以上のことから、統計学で用いるデータは「数量データ」と「カテゴリーデータ」で、 両データの基本的な統計処理は、前者が平均値、後者が比率となります。 ●第2章 統計解析の基礎● 10...

2.1.5

統計学で用いるデータの種類 

項目 年収 血液型 回答者 (万円) 青木 242 2 石田 365 1 小野 348 3 小林 462 1 佐藤 353 2 田中 552 2 中村 261 4 山田 658 1 吉田 455 1 渡辺 425 3 血液型の コード A型 → 1 O型 → 2 B型 → 3 AB型 → 4

(21)

数量データで構成される集団の特徴や傾向を、統計学を用いて表現する場合、 「基本統計量」と「分布」の2つの方法があります。 基本統計量は、集団の特徴や傾向をたった1つの値で表現する方法です。 分布は、集団の特徴や傾向を分布表やグラフで見る方法です。 基本統計量には、代表値と散布度の2つの方法があります。 代表値は平均値や中央値など集団の真ん中を、散布度は集団の変動の様子をたっ た1つの数値で表現する方法です。基本統計量には次に示すように数多くの解析手 法があります。 ● 基本統計量 ● 分布 平均値 中央値(メディアン) 最頻値(モード) 比率(割合) 偏差平方和、分散 標準偏差 変動係数 パーセンタイル、四分位偏差 レンジ 代表値 散布度 度数分布 ヒストグラム ●2.1 統計学とは● ...11 集団 基本統計量   分 布 平均身長 人 数  未満  以上 168 163 175 170 154 cm…… 168.8 cm 160 cm 160 cm 165 cm 170 cm 175 cm 15 31 62 46 31 165 cm 170 cm 175 cm 未満 未満 未満

2.1.6

基本統計量の種類 

(22)

N m x N x x x x x N N m N m i 1 1 1 1 2 3 4 5 1 2 2 3 3 5 5 3 4 7 6 5 25 5 5 6 30 6 5 4 16 4 4 = = =

(

+ + + +

)

∏ = + + + +

(

)

∏ = ∏ = = = = = = =

Â

/ / 平均にはいろいろな種類があります。日頃よく使われている平均は、算術平均あ るいは相加平均と呼ばれるものです。この平均は、ご存知のように「データを足し 合わせ、データ数で割った値」のことです。 算術平均(相加平均):arithmetic mean ただし、x1, x2, x3, …, xNはデータ N はデータ数 の正しい表記は ですが、i = 1, n の表記は省略 しています。Σとは、数列の和(足し算)を表しています。 AVERAGE <解 答> 1課の平均 (台) 2課の平均 (台) 3課の平均 (台) x Ni i n =

Â

1 x Ni

Â

●第2章 統計解析の基礎● 12... 次の表は、△△会社営業部1課、2課、3課のセールスマンの、こ こ1ヵ月の販売台数を示したものです。 各課における販売台数の平均値(算術平均)を求めなさい。 例題 2-1

代表値

2.2

2.2.1

算術平均(相加平均)

公 式 Excel 関数 m=

Â

x Ni 1課 2課 3課 5 2 4 3 6 4 4 0 4 7 10 4 6 7 5

(23)

N N N N m = + + = + + = = + + + + + + + + + + + + + + ∏ = ∏ = 1 2 3 5 6 4 15 5 3 4 7 6 2 6 0 10 7 5 4 4 4 4 15 71 15 4 7 ( ) . 営業所全体の平均 (台)

AVERAGE

算術平均(相加平均)

●各課の平均を求める 平均を表示するセルA8を選択する。 A8のセルに次を入力する。 =AVERAGE(A2:A7) キーを押す。 A8に計算された平均の値が表示される。 式をコピーして貼り付けることによって2課、3課の平均を求める。 ・ コピー元のセルを選ぶ。 ・ フィルハンドルにマウスを合わせ+型になったら、コピーしたい方向にドラッ グする。 次の結果が表示される。 <留意点> ・文字やブランクのセルは計算の対象外となる。 ・値 0 は計算の対象となる。 ●2.2 代表値● ...13 Excel 関数 + この方向にドラッグ

(24)

N 個のデータがあるとき、「データを掛け合わせ、N 乗根をとった値」を幾何き か平均 あるいは相乗 そうじょう 平均といいます。 伸び率の平均値を算出するときによく用いられます。 幾何平均(相乗平均):geometric mean ただし、N はデータ数 x1, x2, x3, …, xNはデータ (データに1つでもゼロ、負があってはいけない) GEOMEAN <解 答> Excelで3乗根を求める場合の入力式( の場合)は、 答え  値上がり率の平均値は1.26 <留意点> 値上がり率は次の式によって算出されます。 = 2 00 1 3. ^ ( / ) 2 00 3 . ●第2章 統計解析の基礎● 14...

2.2.2

幾何平均(相乗平均)

★★

公 式 Excel 関数 mg=N x1¥ ¥ ¥ ¥x2 x3 L xN 運 賃 値上がり率 − d0=70円 第1回改定 d1=90円 x1=1.286 第2回改定 d2=120円 x2=1.333 第3回改定 d3=140円 x3=1.167 例題 2-2 次の表は、ある鉄道の運賃と値上げの率です。 値上がり率の平均を求めなさい。 N x x x mg x x x = = = = = ¥ ¥ = ¥ ¥ = = 3 1 286 1 333 1 167 1 286 1 333 1 167 2 00 1 26 1 2 3 1 2 3 3 3 3 . . . . . . . . x d d x d d x d d mg x x x d d d d d d d d 1 1 0 2 2 1 3 3 2 1 2 3 3 1 0 2 1 3 2 3 3 0 3 3 140 3 70 2 1 26 = = = = ¥ ¥ = ¥ ¥ = = = = .

(25)

したがって伸び率の相乗平均は によって求められます。 ただし、d0, dNは最初と最後のデータです。注:

GEOMEAN

幾何平均(相乗平均)

値上がり率の幾何平均(相乗平均)を表示するB6を選択する。 B6のセルに次を入力する。 =GEOMEAN(B3:B5) キーを押す。 B6に計算された値が表示される。 d0π0 d d N N 0 ●2.2 代表値● ...15 データ 平均 算出例 算術平均  1.500 調和平均  1.427 幾何平均  1.464 1.1 1.5 1.9 ← 通常 ← 値上がり率 ← 平均時速 平均値には算術平均、幾何平均、調和平均(次節で解説)の 3 つがある。 調和平均が常に最も小さく算術平均が最も大きくなり、幾何平均はその中 間となる。 Excel 関数

(26)

N 個のデータがあるとき、個々のデータの逆数をとり、これらの平均値を求め、 平均値の逆数をとったものを調和平均といいます。 調和平均は、データの逆数に意味があるとき(次ページ参照)、よく用いられます。 調和平均:harmonic mean ただし、Nはデータ数、x1, x2, x3, …, xNはデータ (データにゼロが含まれてはならない。負の値が含まれている場 合にも意味はないでしょう) HARMEAN <解 答> 答え  平均時速20㎞/h ●第2章 統計解析の基礎● 16...

2.2.3

調和平均 

★★

公 式 Excel 関数 mh x N N x i i =

Â

=

Â

1 1 1 ( / ) ( / ) 次のデータについて平均時速(調和平均)を求めなさい。 (注:km/hは時速) 例題 2-3 区 間 時 速 所要時間 最初の60 km区間 x1=30 km/ h 60㎞÷30 km/ h=2時間 中間の60 km区間 x2=15 km/ h 60㎞÷15 km/ h=4時間 最後の60 km区間 x3=20 km/ h 60㎞÷20 km/ h=3時間 N mh N x x x x i = = = + + = + + = + + = =

Â

3 1 3 1 1 1 3 1 30 1 15 1 20 3 0 0333 0 0667 0 05 3 0 15 20 0 1 2 3 ( / ) . . . . .

(27)

<留意点> 算術平均は、 となります。 この問題は、合計180㎞を9時間で走ったので、平均は180÷9=20 km/h と考えるのが普通です。 この考え方が調和平均です。 ⇒算術平均…12ページ

HARMEAN

調和平均

平均時速を表示するA5を選択する。 A5のセルに次を入力する。 =HARMEAN(A2:A4) キーを押す。 A5に計算された値が表示される。 180 3 1 30 151 201 km 9 = + + Ê Ë ˆ¯ x1 x2 x3 3 30 15 20 3 21 7 + + = + + = . km / h ●2.2 代表値● ...17 x x 1 1 30 1 1 30 = km / h = h / km

Tip

逆数に意味があるとは

の逆数は、 です。これは1 km 進むのに所要した時間で すから、逆数に意味がある、ということになります。 Excel 関数 時間

(28)

最 頻 値と は 、 デ ー タ の 中 で 最 も 多 く 存 在 す る 数 値 の こ と で す 。 例 え ば 、 1,1,2,2,2,3,5,5の8個のデータがある場合、2が3個で最も多いので、最頻値は2とな ります。 最頻値:mode MODE <解 答> データの並べ替え これより最頻値は4 答え  4日

MODE

最頻値(モード)

欠席日数の最頻値を表示するA4を選択する。 A4のセルに次を入力する。 =MODE(B2:L2) キーを押す。 A4に計算された値が表示される。 <留意点> 次の例のように最頻値が複数個存在する場合、MODEではデータを入力した順番 で最初に求められた最頻値を表示します。 ●例 入力した順番では「2」より「10」が先に入力されているので最頻値は10となります。 ●第2章 統計解析の基礎● 18...

2.2.4

最頻値 

公 式 Excel 関数 次のデータはある統計ゼミの学生の欠席日数を示したものです。 このデータについて最頻値を求めなさい。 例題 2-4 1, 2, 3, 3 2 , 4, 4, 4 3 , 5, 5 2 , 6, 40 { 123 { 学生 A B C D E F G H I J K 欠席日数 3 1 4 2 4 4 6 5 3 5 40 Excel 関数 10 2 4 10 2 3 2, 2 2 , 3,4, 10, 10 2 { 123

(29)

データを数値の大きい(小さい)順番に並べたとき、ちょうど真ん中に位置する 数値を中央値といいます。 データ数が偶数の場合は、中央の2つのデータの平均をとります。 ●例 中央値:(4+5)÷2=4.5 中央値:median 奇数 偶数 ただし、xmm 番目のデータ、N はデータ数 MEDIAN <解 答> データを並べ替える データの個数が偶数なので、中央に位置する2つの平均値が中央値 答え  平均給与の中央値は26.5万円 答え  平均値を求めると33.0万円 答え  代表値として適しているのは中央値 ⇒ 次ページにて解説 ●2.2 代表値● ...19

2.2.5

中央値 

5,3,6,2,9,4 2,3,4,5,6,9 公 式 Excel 関数 md x m N md x x m N m m m = =

(

+

)

=

(

+ +

)

= 1 2 2 2 1 次のデータはある会社の社員の一ヵ月間平均給与を示したものです。 このデータについて中央値を求めなさい。また、平均値を求め、 中央値と平均値のどちらが代表値として適しているかを述べなさ い。 社員の一カ月間平均給与 単位:万円 例題 2-5 回答者 A B C D E F G H I J データ 26 24 23 27 25 35 20 40 30 80 回答者 G C B E A D I F H J データ 20 23 24 25 26 27 30 35 40 80

(30)

MEDIAN 中央値(メディアン) 平均給与の中央値を表示するA12を選択する。 A12のセルに次を入力する。 =MEDIAN(A2:A11) キーを押す。A12に計算された値が表示される。 中央値と平均値の使い分け データの中に異常に大きい(小さい)データがあるとき、平均値はそのデー タの影響を受け、大きく(小さく)なります。 今回の例ではJが80万円という極端に大きい値となっているため、中央値を使 うほうが良いと思われます。 Jの80万円を除外して平均値を計算した場合、27.8万円となります。 平均値 中央値 件数 全データ 33.0 26.5 10 異常値除外 27.8 26.0 9 平均値と中央値が異なる場合 異常データを除外して平均値を計算する 中央値より平均値を使いたい場合 中央値を適用 平均値を適用 平均値と中央値がほぼ等しい場合 ●第2章 統計解析の基礎● 20... Excel 関数

参照

関連したドキュメント

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

・毎回、色々なことを考えて改善していくこめっこスタッフのみなさん本当にありがとうございます。続けていくことに意味

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま

都調査において、稲わら等のバイオ燃焼については、検出された元素数が少なか

下山にはいり、ABさんの名案でロープでつ ながれた子供たちには笑ってしまいました。つ

大村 その場合に、なぜ成り立たなくなったのか ということ、つまりあの図式でいうと基本的には S1 という 場

田中さんは、インターンを2つされていて、1つが大阪 にある CRAZY WEDDING