講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例度数分布表の作成データの度数を把握する入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

(1)

【前回の復習】尺度について数字には情報量に応じて 4 段階の種類がある名義尺度順序尺度　：質的データ間隔尺度比例尺度　：量的データ尺度によって利用できる分析方法に差異がある SPSS での入力の練習と簡単な操作の説明変数ビューで変数を設定（型や尺度に注意） fig. 変数ビューデータビューでデータを入力 fig. データビュー

(2)

データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認する　データの分布を把握する　 fig. ヒストグラムの作成 fig. ヒストグラムの出力例度数分布表の作成データの度数を把握する入力間違いが無いかの確認にも便利　 fig. 度数分布表の作成

(3)

fig. 度数分布表の出力例基本統計量の算出度数分布表のオプションで「統計量」を選ぶ　 fig. 基本統計量の算出中心傾向（代表値）散らばり（散布度）分布前回のサンプルデータを用いて整理する手元に無い人はダウンロードしておくこと

(4)

ばらつき具合とその指標 Excel を用いた基本統計量の理解代表値（中心傾向）平均値（=average 関数）中央値（=median 関数）散布度（散らばり）分散標準偏差本日の内容ばらつき具合とその指標散布度の求め方 Z スコアと偏差値使用するデータの特徴代表値代表値として「平均値」を用いる数学的に最も高度な代表値分布の全ての値を使って求める分布の形いわゆる「正規分布」を前提とする正規分布の特徴を確認してみよう正規分布の特徴・左右対称・中央部分が最も値が多い・極端な値は少ない・釣り鐘型 fig. 正規分布の例

}

今日はここを理解する

(5)

正規分布の比較と標準正規分布平均値が等しい正規分布の比較平均値が等しいからといっても同じ正規分布ではない平均値が等しい正規分布の比較下の二つの図は何が違うのか？ fig. 平均値の等しい 2 種類の正規分布の例解答：ばらつき具合の違いの表現なだらかな分布データがばらついている尖った分布データがばらついていない「尖度」という指標で確認可能 SPSS では 0 を基準としているプラスの値は尖った分布を意味するデータのばらつきが分布の形を決めるばらつき具合を他人に伝えるためには？視覚的に把握する簡潔には伝えられない数値で表現する「散布度」という指標を用いる「代表値」と「散布度」で分布の特徴を表現する「代表値」とは何か、簡潔に説明できるようになっておこう！

(6)

簡単な散布度範囲（〈分析〉→〈記述統計〉→〈度数分布表〉の「統計量」）最大値と最小値から求める値極端な値に弱い 2 つの値しか使っていないので、情報量が少ない平均値のように「全てのデータ」を使いたいより高度なばらつき具合の表現へばらつき具合の表現ばらつきとは「何からの」ばらつきか？代表値（平均値）からどれだけ離れているかそれぞれの値が平均値からどれだけ離れているかを計算して集計すれば良い以下の表の空欄を埋める。CourceN@vi からファイルをダウンロードし、Excel で実習する SPSS で値だけ求めても無意味それが何の意味なのか理解しておく必要がある散布度の計算過程名前得点得点-平均値 (得点-平均値)^2 A

2

B

2

C

3

D

3

E

5

F

6

G

6

H

7

I

8

J

8

平均値合計値合計値 = 偏差平方和

5

分散 = 偏差平方和/ データ数標準偏差 = √分散

(7)

偏差代表値からどれだけ離れているか偏差＝個々の値 - 平均値計算結果を p.6 の表に書き入れること偏差の合計偏差を出し終えたら合計する 0 になる証明は以下の通り偏差の平均 = 偏差の合計 / データ数 =（（それぞれのデータから平均値を引いたもの）の合計）÷ データ数 =（全データの合計から平均値 × データ数を引いたもの）÷ データ数 =（全データの合計 ÷ データ数）ー（平均値 × データ数 ÷ データ数） = 平均値ー平均値 =0 従ってそのままでは立ち行かなくなる偏差二乗和なぜ偏差の合計は 0 になるかは上の証明通りならば全てを正の数にすればいい二乗すれば正の数になる（単位も二乗になる）全て計算したら合計する計算結果を p.6 の表に書き入れること偏差二乗和（Sum of Squares = SS）「偏差二乗和」　「偏差自乗和」　「偏差平方和」どれも同じものを指す最も基本となる散布度の指標データ数が増えると値が大きくなる分散偏差二乗和をデータ数で調整した値不偏分散＝偏差二乗和 ÷ 自由度（データ数 -1）調整してあるので、ばらつき具合の評価が比較しやすい自由度で割っているので母集団の性質を求めているただし単位は二乗のまま不偏標準偏差（本来は「標本標準偏差」と言われるが、混乱を避けるために「不偏標準偏差」とする）不偏分散の単位を元の単位に戻したもの不偏分散の平方根（ルート）を取る不偏標準偏差＝ √不偏分散 p.6 のサンプルデータの不偏標準偏差 √ 5.56 ≒ 2.36 「このテストの結果は平均 5.0 点で、おおよそのばらつき具合は平均点を中心にしてを 2.36 点である」といえる

(8)

散布度についてのまとめ代表値と散布度でデータのおおまかな性質を捉えられる代表値平均値・中央値・最頻値散布度偏差二乗和・分散・標準偏差データを比較する「異なる科目のテストで同じ点数を取ったとする。それぞれの科目の平均値が同じなら成績は等しくなるか？」実は散布度を考慮していない設問「各科目の成績はどの程度ばらついているか」の情報が必要平均 50 点のテストで 60 点を取った場合標準偏差 10 点の分布 60 点は標準偏差 1 つ分上回っているといえる標準偏差 5 点の（10 点よりもばらつきが少ない）分布 60 点は標準偏差 2 つ分上回っているといえる標準偏差を単位として個々の得点がどれだけ平均値から離れているかが数値化できる偏差 ÷ 標準偏差＝標準得点データを全て標準得点に直した分布を「標準正規分布」と呼ぶ標準正規分布の形に変換することを「標準化」という 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 fig. 標準化の模式図 Z スコア（個々の得点ー平均値）÷ 標準偏差＝ Z スコア（標準得点）標準正規分布の形に変換すればどんなデータでも比較可能異なる科目間身長と体重

(9)

以下の表を埋めてみようデータの標準化（Zスコア）と偏差値名前得点偏差 Zスコア（偏差/標準偏差） A 2 B 2 C 3 D 3 E 5 F 6 G 6 H 7 I 8 J 8 Z スコアの意味 E くん（平均値と完全に一致した成績） 0 ÷ 2.36 = 0 F くん（平均値 +1.0SD の成績） 1 ÷ 2.36 ≒ 0.42 データの個々の位置を表すのに役立つ偏差値 Z スコアには小数点以下の値もマイナスの値もある Z スコアを 10 倍して 50 を足した値が「偏差値」偏差値 60 は、標準偏差 1 つ分プラスである、という意味上側確率標準正規分布の特徴全体の面積を 1 とした際の「ある値より上」の面積が既に計算済み斜線の部分の面積は全体の 2.5% 標準偏差 ±1 の範囲に、全体の 68.26% が入る「このテストの結果は平均 5.0 点で、平均点を中心とした ±2.36 点の範囲に全体の 68.26% のデータが入る」といえる

(10)

SPSS での Z スコアと偏差値の求め方ただし、SPSS では不偏標準偏差（不偏分散の平方根）を用いて計算されるデータビューに Excel のデータをコピーする fig. Excel のデータをコピー＆貼り付け変数ビューを編集する fig. 変数ビューの「名前」と「尺度」を編集〈分析〉→〈記述統計〉→〈記述統計〉を選択 fig. メニューから分析方法を選択

(11)

Z スコアに変換する変数の指定「標準化された値を変数として保存」にチェック fig. 変数の指定必要なら記述統計のオプションを指定 fig. 記述統計のオプションを指定続行ボタンを押すと、結果と共にデータビューに Z スコアの値が自動的に入力される　 fig. Z スコアの出力結果

(12)

Z スコアと偏差値いわゆる「偏差値」は Z スコアを 10 倍し、50 を加算するという線形変換をした値である偏差値 =Z スコア *10+50 SPSS では以下のようにして算出することが可能である前提として Z スコアを算出しておく〈変換〉→〈変数の計算〉を選択 fig. 変数の計算を選択出現した「変数の計算」ダイアログボックスで「Z スコアの変数」を選択する「数式」欄で、その変数名に 10 を乗算し、50 を加算する「Z 成績 *10+50」となる目標変数の名称を入力する（ここでは「偏差値」とした） fig. 目標変数と数式を入力 OK ボタンを押すと、全データの偏差値が出力される

(13)

fig. 偏差値の出力 Excel での偏差値の求め方各 Z スコアのセルを指定し、「= セル番地 *10+50」として算出する練習問題以下のサンプルデータの菓子 A と菓子 B について、それぞれ基本統計量と Z スコアを求めなさい。

名前

性別

菓子 A

菓子 B

安藤

1

7

9 石井

2

7

10 今井

2

6

7 上田

1

6

10 遠藤

1

8

7 大塚

2

7

6 大和田

1

5

7 香山

2

9

6 桑原

2

7

6 近藤

2

10

10 佐藤

1

8

5 島村

1

8

8 杉田

2

6

4 立川

1

4

9 戸田

2

9

9 新倉

1

2

4 深町

2

8

2 町田

1

7

8 山田

1

8

8 横川

2

6

3

(14)

【第 2-3 回課題（次々回授業前までを提出期限とする）】なお、計算には Excel を用いても SPSS を用いても良いが、どちらの環境で算出したかを明記すること。問 1 あるテストを 10 人に課したところ、得点が以下のようなものになった。 a：22 b：24 c：55 d：46 e：47 f：38 g：53 h：60 i：74 j：51 1-1 平均値を求めなさい。 1-2 偏差平方和を求めなさい。 1-3 分散を求めなさい。 1-4 標準偏差を求めなさい。 1-5 f と i の z スコアを求めなさい。 1-6 g の偏差値を求めなさい。問 2 データ数が 25、分散が 16.0 であったとき、標準偏差と偏差二乗和を求めなさい。問 3 以下のデータから平均値、偏差二乗和、分散、標準偏差を求めなさい。また j の偏差値を求めなさい。 a：48 b：42 c：49 d：43 e：51 f：59 g：65 h：68 i：78 j：84 平均値は小数点以下第 1 位まで求め、散布度は小数点以下第 2 位まで求めなさい。偏差値は整数位までで良いものとする。問 4 10 人のデータの値が全て同じものであった場合、標準偏差を求めることはできるかどうか考察しなさい。