11
情報科学 第07回
データ解析と統計
代表値・平均・分散・度数分布表
2/45本日の内容
データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ、第7回のその他の欄に、本日使用する 教材があります。 171025.xls というファイルがありますので、ダウンロー ドして、デスクトップに保存してください。 3/45データ解析とは
4/45はじめに
この世の中には多くのデータが溢れています。 では、この大量のデータを見せられて、我々は何がわ かるでしょうか? わかった! 000,10,13243,213,57 62,214,16,45,652321, 45,3217,23412,84243 ,845,23,125,57,2,5,8... こうなれる人は、そうはいません データを正確に把握する手法が必要 5/45データ解析とその目的
集計したり、代表値を求めたり、傾向を分析すること で、そのデータの特徴を知る技術。統計
数値などの客観的な形で表現することで、勘などに 頼らない判断が可能に。 6/45統計処理の例
1:相関関係
2つ以上の回答項目があるアンケートをとりました。 項目Aと項目Bには関連性があるでしょうか? 同じ傾向が あるかなぁ? 290 65 回答者5 320 75 回答者4 285 65 回答者6 300 80 回答者3 490 100 回答者2 500 120 回答者1 項目B 項目A7/45
統計処理の例
2:推定
一部分の人からアンケートをとりました。 どのぐらい全体を表しているでしょうか? どのようにしたら、全体の推定ができるでしょうか? どのぐらい性質を 引継いでるのかなぁ 8/45統計処理の例
3:検定
あるデータに対して、ある仮説をたてました。 この仮説は正しいでしょうか? この推測、 あってるのかなぁ 仮説 真実 9/45特徴を表す値
10/45代表値とは
そのデータを代表する値です。 代表する値とは何でしょうか? 代表的な代表値として「平均」「中央値」「最頻値」など があります。 何が代表? 11/45平均値
全体の値の平均を平均値と言います。 7人の身長の平均は、 この高さ。 12/45最頻値
もっとも回数が多い値を最頻値と言います 130cmの人だけ2人居る。 130cmが最頻値13/45
中央値(メジアン)
順番に並べたとき、真ん中にくる値を中央値(メジアン) と言います。 1 2 4 3 7 5 5 全部で7人だから、 4番目の自分が中央値 14/45最大値と最小値
代表値とは少し違いますが、グループの中で最大の値 と最小の値も、よく使われます。 最大! 最小! 15/45演習:
Excelで求める代表値
Excelには、代表値を求める関数が準備されています。 平均値:average(セルの範囲) 中央値:median(セルの範囲) 最頻値:mode(セルの範囲) 最大値:max(セルの範囲) 最小値:min(セルの範囲) Excelのシートの指示にしたがって、それぞれの値を求 めてみましょう。 16/45演習:ソート
Excelには、データを並べかえる機能があります。 「データタブ」の「並べ替えとフィルター」グループから実 行できます。 Sheet2のデータを、大きい順、小さい順に並べ買えて みましょう。 複数の条件で並べ買えることもできます。 17/45平均と分散
18/45平均を求めましょう
各データの平均値を求めてセルに記入しましょう。 クラスAの結果 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52 -9 111 -28 62 39 88 分散 26 45 -6 -9 6 45 8 42 -33 15 標準偏差 88 78 23 90 77 44 44 -1 92 74 -24 92 80 26 30 -13 35 5 66 -3 左の50個のデータの... 左の50個のデータの...19/45
平均だけで表現できている?
前回は代表値について説明しました 代表値だけでデータの特徴を表せているでしょうか? 平均は一緒だけど... 今日はデータのばらつきぐあいのお話です 平均 グループA グループB 20/45データのばらつき
どんぐりの背比べなデータもあれば、10人10色なデー タもあります。 平均値では、データのばらつきはわかりません。 データのばらつきを評価するものとして、標準偏差が あります。 平均 10色 どんぐり 21/45標準偏差
データのばらつきぐあいを表す指標です。 n個のデータ に対して、 を平均値とし たとき、 を分散と言います。 分散の正の平方根 を標準偏差と言います。 n x x x1, 2,, X
2 1 21
n i ix
X
n
22/45標準偏差の意味
平均値と個々のデータとの間の差が大きいか小さい かで、ばらつき度合いを評価します。 平均 10色 どんぐり赤い縦棒の長さの2乗和が大きいと、
ばらつきも大きい
23/45標準偏差の計算(手作業)
1
実際に、作業を1ステップずつやってみましょう。 seet2を開いて、次の順番に行います。 1. 平均値を求めます。 2. 平均値と各値の引き算の結果を計算します。 データ 平均-値 (平均-値)の2乗 59 平均 49 分散 23 標準偏差 31 66 15 9 9 8 71
2
24/45標準偏差の計算(手作業)
2
seet2を開いて、次の順番に行います。 3. ステップ2で計算した各値の2乗の値を計算します。 4. ステップ3で計算した値の平均値を計算します。 これが分散となります。 データ 平均-値 (平均-値)の2乗 59 -12.78 平均 46.22 49 -2.78 分散 23 23.22 標準偏差 31 15.22 66 -19.78 15 31.22 9 37.22 9 37.22 8 38.22 7 39.224
3
25/45
標準偏差の計算(手作業)
3
seet2を開いて、次の順番に行います。 5. 分散の値の正の平方根を計算します。 これが標準偏差となります。 データ 平均-値 (平均-値)の2乗 59 -12.78 163.3284 平均 46.22 49 -2.78 7.7284 分散 713.0516 23 23.22 539.1684 標準偏差 31 15.22 231.6484 66 -19.78 391.2484 15 31.22 974.6884 9 37.22 1385.3284 9 37.22 1385.3284 8 38.22 1460.7684 7 39.22 1538.20845
26/45分散の計算(関数利用)
分散を計算する関数はVARP です VARP(セルを指定)として使用します。 分散のセルにそれぞれの分散を計算しましょう。 クラスAの結果 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52 -9 111 -28 62 39 88 分散 26 45 -6 -9 6 45 8 42 -33 15 標準偏差 88 78 23 90 77 44 44 -1 92 74 -24 92 80 26 30 -13 35 5 66 -3 左の50個のデータの... 左の50個のデータの... 27/45標準偏差の計算(関数利用)
標準偏差を計算する関数はSTDEVP です STDEVP(セルを指定)として使用します。 分散のセルにそれぞれの分散を計算しましょう。 クラスAの結果 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52 -9 111 -28 62 39 88 分散 26 45 -6 -9 6 45 8 42 -33 15 標準偏差 88 78 23 90 77 44 44 -1 92 74 -24 92 80 26 30 -13 35 5 66 -3 左の50個のデータの... 左の50個のデータの... 28/45度数分布表とヒストグラム
29/45平均・分散を求めましょう
Excelの関数を利用して、平均値・分散・標準偏差を求 めてみましょう。 average(), varp(), stdevp()
40 46 48 48 47 56 66 26 46 71 平均値 33 55 48 47 47 46 49 62 35 45 分散 52 50 49 50 23 62 50 27 42 38 標準偏差 53 41 48 47 54 38 78 52 47 50 60 68 70 42 43 45 50 64 34 34 46 54 47 28 50 48 49 46 46 39 範囲 人数 累計人数 83 41 41 68 27 57 74 57 46 50 10 59 32 33 26 73 25 63 39 37 42 20 26 40 55 48 58 37 57 68 48 20 30 69 53 48 30 41 49 55 45 55 62 40 50 クラスAの結果 左のデータの... 度数分布表(手作業) 30/45
分散と実際の分布
分散は、データの散らばりぐらいを表現しています。 では、データは具体的に、どのように分布しているで しょうか? 160cm台の人が3人... 今回は、段階毎の数え上げについてです31/45
やりたいこと
データの傾向を見るために、値をいくつかの段階に分 け、それぞれの人数を数え上げることが行われます。 例: テストの点数の分布を10点刻みの人数で見る 年間給与を100万円刻みで見る このように、値を段階に分け、それぞれのデータ数を集 計した表を"度数分布表" と言います。 32/45累計
その値までの総数を数え上げたのが累計です。 今回の場合、 10点以下 20点以下 ... のようになります 累計人数 0 20 40 60 80 100 120 10 20 30 40 50 60 70 80 90 100 累計人数 33/45累計と度数分布
各値の差が、その段階で増えた人数になります。 累計人数 0 20 40 60 80 100 120 10 20 30 40 50 60 70 80 90 100 累計人数 この差が その階級の値 34/45手動で頑張る数え上げ
実際に手を動かして、手動で集計してみましょう。 40 46 48 48 47 56 66 26 46 71 範囲 人数 累計人数 意味 33 55 48 47 47 46 49 62 35 45 10 10点以下 52 50 49 50 23 62 50 27 42 38 20 11点以上20点以下 53 41 48 47 54 38 78 52 47 50 30 21点以上30点以下 60 68 70 42 43 45 50 64 34 34 40 31点以上40点以下 46 54 47 28 50 48 49 46 46 39 50 41点以上50点以下 83 41 41 68 27 57 74 57 46 50 60 51点以上60点以下 59 32 33 26 73 25 63 39 37 42 70 61点以上70点以下 26 40 55 48 58 37 57 68 48 20 80 71点以上80点以下 69 53 48 30 41 49 55 45 55 62 90 81点以上90点以下 100 91点以上100点以下 度数分布表(frequency) クラスAの結果 35/4540 46 48 48 47 56 66 26 46 71
33 55 48 47 47 46 49 62 35 45
52 50 49 50 23 62 50 27 42 38
53 41 48 47 54 38 78 52 47 50
60 68 70 42 43 45 50 64 34 34
46 54 47 28 50 48 49 46 46 39
83 41 41 68 27 57 74 57 46 50
59 32 33 26 73 25 63 39 37 42
26 40 55 48 58 37 57 68 48 20
69 53 48 30 41 49 55 45 55 62
クラスAの結果
36/45範囲
人数 累計人数 意味
10
10点以下
20
11点以上20点以下
30
21点以上30点以下
40
31点以上40点以下
50
41点以上50点以下
60
51点以上60点以下
70
61点以上70点以下
80
71点以上80点以下
90
81点以上90点以下
100
91点以上100点以下
度数分布表(frequency)
37/45
countifを用いた数え上げ(1)
countifは、条件に合ったデータを数え上げる関数です。 条件に"<=10" のように書くことで、10以下のデータ の個数を数え上げることができます。 たとえば、 =COUNTIF(A28:J37,“<=10”) とすると、セルA28からJ37の範囲で、 10以下の値の セルの個数を数え上げます。 Excelでは、&で文字列を連結できるので、 =COUNTIF(A28:J37,“<=” & D5) とすると、D5のセルの値以下をカウントできます。 38/45countifを用いた数え上げ(2)
countif関数を利用して、累計人数欄に、上からそれぞ れ、「10点以下の人数」「20点以下の人数」「30点以下 の人数」... を書いてみましょう。 40 46 48 48 47 56 66 26 46 71 範囲 人数 累計人数 意味 33 55 48 47 47 46 49 62 35 45 10 10点以下 52 50 49 50 23 62 50 27 42 38 20 11点以上20点以下 53 41 48 47 54 38 78 52 47 50 30 21点以上30点以下 60 68 70 42 43 45 50 64 34 34 40 31点以上40点以下 46 54 47 28 50 48 49 46 46 39 50 41点以上50点以下 83 41 41 68 27 57 74 57 46 50 60 51点以上60点以下 59 32 33 26 73 25 63 39 37 42 70 61点以上70点以下 26 40 55 48 58 37 57 68 48 20 80 71点以上80点以下 69 53 48 30 41 49 55 45 55 62 90 81点以上90点以下 100 91点以上100点以下 度数分布表(frequency) クラスAの結果 39/45countifを用いた数え上げ(3)
「50点より大きく60点以下の人」は 「60点以下の人」 - 「50点以下の人」 で計算できます。人数の部分を埋めましょう。 40 46 48 48 47 56 66 26 46 71 範囲 人数 累計人数 意味 33 55 48 47 47 46 49 62 35 45 10 0 10点以下 52 50 49 50 23 62 50 27 42 38 20 1 11点以上20点以下 53 41 48 47 54 38 78 52 47 50 30 10 21点以上30点以下 60 68 70 42 43 45 50 64 34 34 40 24 31点以上40点以下 46 54 47 28 50 48 49 46 46 39 50 67 41点以上50点以下 83 41 41 68 27 57 74 57 46 50 60 84 51点以上60点以下 59 32 33 26 73 25 63 39 37 42 70 95 61点以上70点以下 26 40 55 48 58 37 57 68 48 20 80 99 71点以上80点以下 69 53 48 30 41 49 55 45 55 62 90 100 81点以上90点以下 100 100 91点以上100点以下 度数分布表(countif) クラスAの結果 40/45frequencyを用いた数え上げ(1)
Excelの関数 frequency を使っても、度数分布表を作 成できます。 今までの関数と、少し使い方が違います。 40 46 48 48 47 56 66 26 46 71 範囲 人数 累計人数 意味 33 55 48 47 47 46 49 62 35 45 10 10点以下 52 50 49 50 23 62 50 27 42 38 20 11点以上20点以下 53 41 48 47 54 38 78 52 47 50 30 21点以上30点以下 60 68 70 42 43 45 50 64 34 34 40 31点以上40点以下 46 54 47 28 50 48 49 46 46 39 50 41点以上50点以下 83 41 41 68 27 57 74 57 46 50 60 51点以上60点以下 59 32 33 26 73 25 63 39 37 42 70 61点以上70点以下 26 40 55 48 58 37 57 68 48 20 80 71点以上80点以下 69 53 48 30 41 49 55 45 55 62 90 81点以上90点以下 100 91点以上100点以下 度数分布表(frequency) クラスAの結果 41/45frequencyを用いた数え上げ(2)
1. 人数の一番上のところに、図のように書きましょう。 10点以下の人数が数え上げられます。 40 46 48 48 47 56 66 26 46 71 範囲 人数 累計人数 意味 33 55 48 47 47 46 49 62 35 45 10 10点以下 52 50 49 50 23 62 50 27 42 38 20 11点以上20点以下 53 41 48 47 54 38 78 52 47 50 30 21点以上30点以下 60 68 70 42 43 45 50 64 34 34 40 31点以上40点以下 46 54 47 28 50 48 49 46 46 39 50 41点以上50点以下 83 41 41 68 27 57 74 57 46 50 60 51点以上60点以下 59 32 33 26 73 25 63 39 37 42 70 61点以上70点以下 26 40 55 48 58 37 57 68 48 20 80 71点以上80点以下 69 53 48 30 41 49 55 45 55 62 90 81点以上90点以下 100 91点以上100点以下 度数分布表(frequency) クラスAの結果 =FREQUENCY(A41:J50,L42:L51) frequency(データセル、区間の切方のセル)として使います 42/45frequencyを用いた数え上げ(3)
2. 人数のセル全体を選択します。 3. F2を押します。 4. ShiftとCtrlを押しながらEnterを押します。 他のセルにも人数が表示されるようにします 範囲 人数 累計人数 意味 10 0 10点以下 20 11点以上20点以下 30 21点以上30点以下 40 31点以上40点以下 50 41点以上50点以下 60 51点以上60点以下 70 61点以上70点以下 80 71点以上80点以下 90 81点以上90点以下 100 91点以上100点以下 度数分布表(frequency) 2. この部分を選択する。 3. F2を押す。 4. ShiftとCtrlを押しなが らEnterする43/45