• 検索結果がありません。

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

N/A
N/A
Protected

Academic year: 2021

シェア "講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

【前回の復習】 尺度について 数字には情報量に応じて 4 段階の種類がある 名義尺度 順序尺度 :質的データ 間隔尺度 比例尺度 :量的データ 尺度によって利用できる分析方法に差異がある SPSS での入力の練習と簡単な操作の説明 変数ビューで変数を設定(型や尺度に注意) fig. 変数ビュー データビューでデータを入力 fig. データビュー

(2)

データの視覚化 ヒストグラムの作成 直感的な把握のために重要 入力間違いがないか確認する データの分布を把握する   fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利   fig. 度数分布表の作成

(3)

fig. 度数分布表の出力例 基本統計量の算出 度数分布表のオプションで「統計量」を選ぶ   fig. 基本統計量の算出 中心傾向(代表値) 散らばり(散布度) 分布 前回のサンプルデータを用いて整理する 手元に無い人はダウンロードしておくこと

(4)

ばらつき具合とその指標 Excel を用いた基本統計量の理解 代表値(中心傾向) 平均値(=average 関数) 中央値(=median 関数) 散布度(散らばり) 分散 標準偏差 本日の内容 ばらつき具合とその指標 散布度の求め方 Z スコアと偏差値 使用するデータの特徴 代表値 代表値として「平均値」 を用いる 数学的に最も高度な代表値 分布の全ての値を使って求める 分布の形 いわゆる「正規分布」を前提とする 正規分布の特徴を確認してみよう 正規分布の特徴 ・左右対称 ・中央部分が最も値が多い ・極端な値は 少ない ・釣り鐘型                fig. 正規分布の例

}

今日はここを理解する

(5)

正規分布の比較と標準正規分布 平均値が等しい正規分布の比較 平均値が等しいからといっても同じ正規分布ではない 平均値が等しい正規分布の比較 下の二つの図は何が違うのか?                               fig. 平均値の等しい 2 種類の正規分布の例 解答: ばらつき具合の違いの表現 なだらかな分布 データがばらついている 尖った分布 データがばらついていない 「尖度」という指標で確認可能 SPSS では 0 を基準としている プラスの値は尖った分布を意味する データのばらつきが分布の形を決める ばらつき具合を他人に伝えるためには? 視覚的に把握する 簡潔には伝えられない 数値で表現する 「散布度」という指標を用いる 「代表値」と「散布度」で分布の特徴を表現する 「代表値」とは何か、簡潔に説明できるようになっておこう!

(6)

簡単な散布度 範囲(〈分析〉→〈記述統計〉→〈度数分布表〉の「統計量」) 最大値と最小値から求める値 極端な値に弱い 2 つの値しか使っていないので、情報量が少ない 平均値のように「全てのデータ」を使いたい より高度なばらつき具合の表現へ ばらつき具合の表現 ばらつきとは「何からの」ばらつきか? 代表値(平均値)からどれだけ離れているか それぞれの値が平均値からどれだけ離れているかを計算して集計すれば良い 以下の表の空欄を埋める。CourceN@vi からファイルをダウンロードし、Excel で実習する SPSS で値だけ求めても無意味 それが何の意味なのか理解しておく必要がある 散布度の計算過程 名前 得点 得点-平均値 (得点-平均値)^2 A

2

B

2

C

3

D

3

E

5

F

6

G

6

H

7

I

8

J

8

平均値 合計値 合計値 = 偏差平方和

5

分散 = 偏差平方和/ データ数 標準偏差 = √分散

(7)

偏差 代表値からどれだけ離れているか 偏差 = 個々の値 - 平均値 計算結果を p.6 の表に書き入れること 偏差の合計 偏差を出し終えたら合計する 0 になる 証明は以下の通り 偏差の平均 = 偏差の合計 / データ数 =((それぞれのデータから平均値を引いたもの)の合計)÷ データ数 =(全データの合計から平均値 × データ数を引いたもの)÷ データ数 =(全データの合計 ÷ データ数)ー(平均値 × データ数 ÷ データ数) = 平均値ー平均値 =0 従ってそのままでは立ち行かなくなる 偏差二乗和 なぜ偏差の合計は 0 になるかは上の証明通り ならば全てを正の数にすればいい 二乗すれば正の数になる(単位も二乗になる) 全て計算したら合計する 計算結果を p.6 の表に書き入れること 偏差二乗和(Sum of Squares = SS) 「偏差二乗和」 「偏差自乗和」 「偏差平方和」 どれも同じものを指す 最も基本となる散布度の指標 データ数が増えると値が大きくなる 分散 偏差二乗和をデータ数で調整した値 不偏分散=偏差二乗和 ÷ 自由度(データ数 -1) 調整してあるので、ばらつき具合の評価が比較しやすい 自由度で割っているので母集団の性質を求めている ただし単位は二乗のまま 不偏標準偏差(本来は「標本標準偏差」と言われるが、混乱を避けるために「不偏標準偏差」とする) 不偏分散の単位を元の単位に戻したもの 不偏分散の平方根(ルート)を取る 不偏標準偏差 = √不偏分散 p.6 のサンプルデータの不偏標準偏差 √ 5.56 ≒ 2.36 「このテストの結果は平均 5.0 点で、おおよそのばらつき 具合は平均点を中心にしてを 2.36 点である」といえる

(8)

散布度についてのまとめ 代表値と散布度でデータのおおまかな性質を捉えられる 代表値 平均値・中央値・最頻値 散布度 偏差二乗和・分散・標準偏差 データを比較する 「異なる科目のテストで同じ点数を取ったとする。 それぞれの科目の平均値が同じなら成績は等しくなるか?」 実は散布度を考慮していない設問 「各科目の成績はどの程度ばらついているか」の情報が必要 平均 50 点のテストで 60 点を取った場合 標準偏差 10 点の分布 60 点は標準偏差 1 つ分上回っているといえる 標準偏差 5 点の(10 点よりもばらつきが少ない)分布 60 点は標準偏差 2 つ分上回っているといえる 標準偏差を単位として個々の得点がどれだけ平均値から離れて いるかが数値化できる 偏差 ÷ 標準偏差=標準得点 データを全て標準得点に直した分布を「標準正規分布」と呼ぶ 標準正規分布の形に変換することを「標準化」という 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 0.0 0.1 0.2 0.3 0.4 0.5 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 fig. 標準化の模式図 Z スコア (個々の得点 ー 平均値)÷ 標準偏差= Z スコア(標準得点) 標準正規分布の形に変換すればどんなデータでも比較可能 異なる科目間 身長と体重

(9)

以下の表を埋めてみよう データの標準化(Zスコア)と偏差値 名前 得点 偏差 Zスコア(偏差/標準偏 差) A 2 B 2 C 3 D 3 E 5 F 6 G 6 H 7 I 8 J 8 Z スコアの意味 E くん(平均値と完全に一致した成績) 0 ÷ 2.36 = 0 F くん(平均値 +1.0SD の成績) 1 ÷ 2.36 ≒ 0.42 データの個々の位置を表すのに役立つ 偏差値 Z スコアには小数点以下の値もマイナスの値もある Z スコアを 10 倍して 50 を足した値が「偏差値」 偏差値 60 は、標準偏差 1 つ分プラスである、という意味 上側確率 標準正規分布の特徴 全体の面積を 1 とした際の「ある値より上」の面積が既に計算済み 斜線の部分の面積は全体の 2.5% 標準偏差 ±1 の範囲に、 全体の 68.26% が入る 「このテストの結果は平均 5.0 点で、平均点を中心とした ±2.36 点の範囲に 全体の 68.26% のデータが入る」といえる

(10)

SPSS での Z スコアと偏差値の求め方 ただし、SPSS では不偏標準偏差(不偏分散の平方根)を用いて計算される データビューに Excel のデータをコピーする fig. Excel のデータをコピー&貼り付け 変数ビューを編集する fig. 変数ビューの「名前」と「尺度」を編集 〈分析〉→〈記述統計〉→〈記述統計〉を選択 fig. メニューから分析方法を選択

(11)

Z スコアに変換する変数の指定 「標準化された値を変数として保存」にチェック fig. 変数の指定 必要なら記述統計のオプションを指定 fig. 記述統計のオプションを指定 続行ボタンを押すと、結果と共にデータビューに Z スコアの値が自動的に入力される   fig. Z スコアの出力結果

(12)

Z スコアと偏差値 いわゆる「偏差値」は Z スコアを 10 倍し、50 を加算するという線形変換をした値である 偏差値 =Z スコア *10+50 SPSS では以下のようにして算出することが可能である 前提として Z スコアを算出しておく 〈変換〉→〈変数の計算〉を選択 fig. 変数の計算を選択 出現した「変数の計算」ダイアログボックスで「Z スコアの変数」を選択する 「数式」欄で、その変数名に 10 を乗算し、50 を加算する 「Z 成績 *10+50」となる 目標変数の名称を入力する (ここでは「偏差値」とした) fig. 目標変数と数式を入力 OK ボタンを押すと、全データの偏差値が出力される

(13)

fig. 偏差値の出力 Excel での偏差値の求め方 各 Z スコアのセルを指定し、「= セル番地 *10+50」として算出する 練習問題 以下のサンプルデータの菓子 A と菓子 B について、それぞれ基本統計量と Z スコアを求めなさい。

名前

性別

菓子 A

菓子 B

安藤

1

7

9

石井

2

7

10

今井

2

6

7

上田

1

6

10

遠藤

1

8

7

大塚

2

7

6

大和田

1

5

7

香山

2

9

6

桑原

2

7

6

近藤

2

10

10

佐藤

1

8

5

島村

1

8

8

杉田

2

6

4

立川

1

4

9

戸田

2

9

9

新倉

1

2

4

深町

2

8

2

町田

1

7

8

山田

1

8

8

横川

2

6

3

(14)

【第 2-3 回課題(次々回授業前までを提出期限とする)】 なお、計算には Excel を用いても SPSS を用いても良いが、どちらの環境で算出したかを明記すること。 問 1 あるテストを 10 人に課したところ、得点が以下のようなものになった。 a:22 b:24 c:55 d:46 e:47 f:38 g:53 h:60 i:74 j:51 1-1 平均値を求めなさい。 1-2 偏差平方和を求めなさい。 1-3 分散を求めなさい。 1-4 標準偏差を求めなさい。 1-5 f と i の z スコアを求めなさい。 1-6 g の偏差値を求めなさい。 問 2 データ数が 25、分散が 16.0 であったとき、標準偏差と偏差二乗和を求めなさい。 問 3 以下のデータから平均値、偏差二乗和、分散、標準偏差を求めなさい。また j の偏差値を求めなさい。 a:48 b:42 c:49 d:43 e:51 f:59 g:65 h:68 i:78 j:84 平均値は小数点以下第 1 位まで求め、散布度は小数点以下第 2 位まで求めなさい。偏差値は整数位までで 良いものとする。 問 4 10 人のデータの値が全て同じものであった場合、標準偏差を求めることはできるかどうか考察しなさい。

fig. 度数分布表の出力例 基本統計量の算出 度数分布表のオプションで「統計量」を選ぶ   fig. 基本統計量の算出 中心傾向(代表値) 散らばり(散布度) 分布 前回のサンプルデータを用いて整理する  手元に無い人はダウンロードしておくこと
fig. 偏差値の出力 Excel での偏差値の求め方 各 Z スコアのセルを指定し、「= セル番地 *10+50」として算出する 練習問題 以下のサンプルデータの菓子 A と菓子 B について、それぞれ基本統計量と Z スコアを求めなさい。 名前 性別 菓子 A 菓子 B 安藤 1 7 9 石井 2 7 10 今井 2 6 7 上田 1 6 10 遠藤 1 8 7 大塚 2 7 6 大和田 1 5 7 香山 2 9 6 桑原 2 7 6 近藤 2 10 10 佐藤 1 8 5 島村 1 8 8 杉田 2

参照

関連したドキュメント

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

腐植含量と土壌図や地形図を組み合わせた大縮尺土壌 図の作成 8) も試みられている。また,作土の情報に限 らず,ランドサット TM

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

彩度(P.100) 色の鮮やかさを 0 から 14 程度までの数値で表したもの。色味の

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ

・微細なミストを噴霧することで、気温は平均 2℃、瞬間時には 5℃の低下し、体感温 度指標の SET*は

「違反の深刻度レベル」は、違反の深刻度に応じて「SL Ⅰ」 「SL Ⅱ」 「SL Ⅲ」 「SL Ⅳ」. の順に区分される。深刻度「SL