※講義で使用するので、テキスト(地域診断のすすめ方)を必ず持参すること。 【5−4 統計処理のすすめ方】(テキストP. 134〜136) 1. 6つのステップ ・ 分布を知る(度数分布表、ヒストグラム) ・ 基礎統計量を求める Ø 代表値 Ø バラツキ:範囲(最大値、最小値、四分位偏位)、分散、標準偏差、 標準誤差 ・ 集計する(単純集計、クロス集計) ・ 母集団の情報を推定する(母平均、母比率など) ・ 差の検定(パラメトリック検定、ノンパラメトリック検定など) ・ 結果の意味を解釈する(偶然、バイアス、交絡因子、サンプル数) (P. 139) 2.平均値の落とし穴 とりあえず平均値をとればいいと思うかもしれないが、ケースによっては平均値では データの分布を正しく反映していない場合が出てくる。 例えば、5 名のスコア(点数)があったとする。 100、110、105、115、120、
この場合、平均値は 110 になる。ここに 190 という数字が加わったとするとどうなる であろうか? 平均値は 150 となり、平均値の近くにはあまり観測値がないことになる。極端に大き な観測値や小さな観測値(はずれ値という)が含まれていると、その影響を強く受けて しまうことを認識しておく必要がある。 こうした現象を見抜くにはデータの分布を見ることが大切である。 3.データの分布をみる 階級:変数が取る値の範囲をグループ分けしたそれぞれの区間のこと。 度数(頻度):階級に含まれる観測値の個数をその階級の度数という。 度数分布:階級ごとに度数を整理したものであり、その表のことを度数分布表という。 相対度数:階級の度数÷度数の合計で求められる。相対度数を小さい階級から合計して 得られるものは累積相対度数という。 (累積度数分布図のイメージ):パーセンタイル図ともいう。 【度数分布表、ヒストグラムのイメージ】
【問題1】 あるクラスで通学時間を調べたところ、次のような度数分布表が得られた。 通学時間(分) 度数 0 〜 2 3 2 〜 4 7 4 〜 6 10 6 〜 8 6 8 〜 10 2 10 〜 12 3 12 〜 14 2 14 〜 16 1 16 〜 18 0 18 〜 20 1 合計 35 問.この度数分布表を使って描かれたヒストグラムとして適切なのはどれか。
4.代表値とは?(P. 148〜151) 一般に知られている代表値としては3つあり、平均値、中央値、最頻値である。 4-1 平均値 観測値÷観測値の個数で定義される。ただし、はずれ値の影響を受けるので代表性の解 釈には注意を要する。 4-2 中央値 中位数、メジアン、メディアンという。はずれ値の影響を受けにくいという点で平均値 とは異なる性質を有している。n が奇数の場合は(n+1/2)を中央値とし、n が偶数の場合 は(n/2)と(n/2+1)の平均を中央値とする。 4-3 最頻値 モードともいう。最も頻繁に出現する値を意味する。 【問題2】 次は、10 名の学生が読んだ本の数を示すデータである。 5、5、5、10、10、10、10、15、20、50(冊) このデータに関する記述として、誤っているのはどれか。 a. 中央値は 15(冊)である。 b. 平均値は 14 である。 c. 最頻値は 10 である。 d. 最大値は 50 である。
5.分位数と箱ひげ図 分位数とはデータを大きさの順に並べ、データ全体をいくつかのグループに観測値の個 数で等分した際の境界となる値である。データ全体を4 等分した場合の四分位数はよく 使われる。 また、最小値、第 1 四分位数(Q1)、第 2 四分位数(中央値)(Q2)、第 3 四分位数 (Q3)、最大値の5つの数をまとめて、5 数要約といい、分布の形状を判断するために 用いられる。 7.はずれ値(外れ値) ※IQR:Inter-Quartile Range の略。Q3−Q1 のこと。四分位範囲ともいう。 はずれ値とは、他の観測値と比べて大きくはずれた観測値のことをいう。箱ひげ図は、 はずれ値を検出するための簡易な手法であり、四分位範囲(Q3−Q1)の 1.5 倍よりも外
側に離れている観測値をはずれ値という。 【問題3】 次のデータはあるクラスの20 人の通学時間の測定結果である。 56 24 32 19 33 60 31 23 22 87 45 47 12 28 7 12 43 32 101 26 平均値は37.0 分、第 1 四分位数 22.5 分、第 2 四分位数 31.5 分、第 3 四分位数 46.0 分、 最小値 7 分、最大値 101 分である。箱ひげ図を利用してはずれ値の検出を行い、その 結果を述べよ。 【解答】 IQR= 46−22.5= 23.5 Q3+1.5×IQR= 46+1.5×23.5= 81.25 よって、87 分と 101 分がはずれ値となる。低い方の外れ値はマイナス値になるのでこ の場合はあり得ない。 6.正規分布
データが左右対称で、1つの山型の分布に従う場合、正規分布に従う、という。人の身 長やよく管理された製品の寸法の分布などは正規分布に近いとされる。 正規分布の検定にはいくつかあるが、Kolmogorov-Smirnov 検定などが代表的。 ※正規分布では、平均値、中央値、最頻値は一致する。 また、正規分布の場合、理論上、以下の特徴がある。 1)平均値−標準偏差(SD)から平均値+SD の間にデータ全体の約 68%が存在する 2)平均値−2SD から平均値+2SD の間にデータ全体の約 95%が存在する 3)平均値−3SD から平均値+3SD の間にデータ全体の約 99.7%が存在する 7.分散、標準偏差について 偏差=観測値-平均値=𝑥𝑖 – 𝑥 ̅ 偏差が正の値のときは𝑥𝑖>𝑥 ̅ 負の値のときは𝑥𝑖<𝑥 ̅を意味する。 定義より偏差の合計は0 となる。 分散(s2) = 偏差を平方した値の平均値 % & 𝑥𝑖 – 𝑥 ̅ ( & )*% 標準偏差(s) = 分散の正の平方根
【問題4】 学生 点数 偏差 偏差の2 乗 1 2 3 …. 20 82 13.1 171.61 91 22.1 488.41 38 -30.9 954.81 … … … 69 0.1 0.01 合計 1378 0 5929.80 平均 68.9 0 296.49 この得点の標準偏差はいくらか。 1. 5929.80 2. 296.49 3. 296.49 = 17.22 4. この情報だけでは求められない。 8.スキューネスとカルトシス 検定ではないが、正規性があるかどうかの傾向をみる場合、Skewness や Kurtosis と いった指標がある。 1)Skewness(歪度わ い ど):分布の左右対称性の違いをみる。正規分布のように左右対称の とき歪度=0(ゼロ)となる。右に裾が長い分布では歪度は正の値を、左に裾が長 い分布では負の値になる。 2)Kurtosis(尖度せ ん ど):分布の山が一つ(単峰)であるとき、山のとがり度と裾の広が りを示す値として尖度(とがり度)がある。正規分布では必ず尖度=0 となる。正
規分布との比較で、とがっていて裾の長い分布の尖度は正の値となる。一様分布や ドーム型の分布のように裾の短い分布の尖度は負の値になる。 ※なお、正規分布の尖度を3 とする定義もあるので注意。 9.クロス集計(P. 163〜168) 『行』と『列』の要因別に集計することをクロス集計という。 【例】 下宿 自宅 男 110 214 女 30 290 (テキストP. 168)
※クロス集計を用いた検定としてχ2 (カイ 2 乗)検定がある。 【CBT 問題から】 無作為抽出した標本に同一の食品を摂取させ、アンケートに回答してもらった結果を表 に示す。 好き 嫌い 男 30 人 70 人 女 60 人 40 人 この結果から食品の好き嫌いが性別によって影響されているか否かを分析する方法は どれか。 A t 検定 B U 検定 C χ2 検定 D 相関分析 E 分散分析
また、類似した検定として、フィッシャーの直接確率検定(Fisher’s exact test)が ある。この検定は、1つのセル内の数値が5以下の場合に適用される。 10.ノンパラかパラか、検定法の選択 ポイントとしては、正規分布に従うかどうか、2 群間の比較なのか、3 群間以上の比較 なのか、を考慮して選択する。 11.その他の解析方法(P. 136) 1)相関分析 相関の強さは相関係数によって求められ、ピアソン積率相関係数とスピアマン順位相関 係数などがある。相関係数は−1から1の間の値をとる。相関係数の値の正負は、正の 相関、負の相関を示し、値の絶対値が大きいほど強い相関といえる。目安としては、相 関係数が0.4〜0.7 の場合弱い相関、0.7〜1の場合強い相関としていることが多い。 【例】 2)単回帰分析 単回帰分析は回帰分析の中で最も単純なモデルであり、目的変数(従属変数ともいう) y の値を1つの説明変数(独立変数ともいう)x の一次式(y = ax + b)で予測する分析
•
–
– t
– ANOVA
•
–
– Mann-Whitney U
2
– Kruscal-Wallis
3
方法である。この場合、目的変数および説明変数は連続変数を用いる。 3)重回帰分析 単回帰分析の応用編で、複数の説明変数x1, x2, ,,, xi を組み合わせて1つの目的変数 y を予測する方法である。変数は連続変数を用いる。 4)ロジスティック回帰分析 回帰分析の一つだが、目的変数が「成功・失敗」や「生存・死亡」といった2 値(0か 1の変量)のデータである場合に用いる方法である。 12.第 1 種の過誤(αエラー)、第 2 種の過誤(βエラー)(P. 135) αエラーとは、差がないのに差があると誤ってしまうこと。 βエラーとは、差があるのに差がないと見逃してしまうこと。 ※βエラーはサンプルサイズが小さいと起こりやすい。 13.データの解釈 検定の結果、有意差があったかどうかだけをみるのではなく、例えば、バイアス(対象 者の選択バイアス、報告バイアス)の有無、交絡因子(原因と結果の両方の要因に関係 する要因の影響)の有無、標本数(サンプルサイズ)は十分だったか、などについて検 討することが必要である。
α
β
β β α α【補足】 パソコン用統計関連ソフト(P. 136) 代表的なのは、SPSS(エスピーエスエス)や SAS(サス)だが、他にも STATA や JMP などもある。また、フリーソフトでR(アール)、js-STAR などもある。これらは通常、 エクセルに入力されたデータを読み取る形で使用する。統計専用ソフトがなくてもエク セルがあれば、エクセル統計(社会情報サービス)を購入すればほとんどの統計分析が 可能となる。 【参考文献】 1)データの分析、日本統計学会 編、東京図書.