法情報学
相関分析・回帰分析 その 2
2
データの並べ替え
3
• サンプルファイルの「偏差値用」シートのデータ を利用する
• 10人の受験生の中から、得点合計の順に、成 績上位者5名を合格としたい
• 得点合計の順に並べ替えるには、どうすれば よいか
4
• 並べ替えをしたい範囲を選択
5
• 「データ」タブ→「並べ替え」
6
• 並べ替えの条件を指定する
7
8
度数分布と標準偏差
9
度数分布とは
• ある集団についてのデータがどのように分布し ているかを表す
– 度数分布表
• データをその大きさによりいくつかの階級 に区分し、その階級ごとの個数 (度数) を カウントして表にしたもの
– ヒストグラム
• 度数分布表を棒グラフにしたもの
10
ヒストグラムを作る準備
• サンプルファイルの「度 数分布用」シートのデー タを使う
• 「階級」を入力する
※今回の例では、何点 ごとに何人ぐらいの学 生がいるのかのヒスト グラムを作りたい。
そこで、「何点ごと」の部
分を入力する 11
ヒストグラムの作り方
• データ分析 → ヒストグラム
• データ分析メニューの設定は、昨日の資料を参 照
12
• 入力範囲には、点数が入っているセルの範囲 を入力する
• データ区間には、階級が入っているセルの範 囲を入力する
• 最後に「ラベル」をクリック
• 「ラベル」は、データの一番上の行を、データの 名前として利用すること
• 「OK」をクリック
13
14
• 度数分布表が作成される
15
• ヒストグラムを同時に作るとき
• 「グラフ作成」
16
課題
• サンプルファイルの「度数分布用課題」シートの データを利用する
1. 高校評定値について、適切に階級を設定し て、度数分布表とヒストグラムを作ってみま しょう。
2. 同様に、高校欠席日数についても、適切に 階級を設定して、度数分布表とヒストグラム を作ってみましょう。
17
標準偏差とは
• データの散らばり具合、ばらつき具合を示す数 値のひとつ
• 標準偏差
– データの散布度を示す
– データの平均値との差 (偏差) の2乗を平均 し、これを変数と同じ次元で示すために平方 根をとったもの
• 関数
– STDEVPA
18
利用例 1
• サンプルファイルの「標準偏差用」シートのデー タを使用する
• AさんとBさんが、それぞれコップに200ミリリット ルちょうどの水を入れようと試し、10回繰り返し てみたもの
– AさんとBさんを、比較すると、どちらが正確 に水を入れることができたのか
– 平均値を比べただけではわからない(どちら もほぼ同じ)
19
利用例 2
• データの並べ替えの例では、日本史または現 代社会は、どちらかを選択することとした
• 日本史は問題の難易度が高かったようで、全 体的に日本史選択者の得点は現代社会選択 者よりも低かった
• このままでは日本史選択者が不利になり、公 平に合格者を決定することができない
• 科目間の得点調整を行うようにするには、どう するか → 偏差値を利用する
20
偏差値の出し方
• 偏差値の出し方
1. 得点から平均値(平均点)を差し引いた数を 10倍する
2. その結果を、標準偏差で割る 3. その結果に、50を加える
• Excelで偏差値を出すには、いろいろなやり方 がある
• 次ページ以降は、その一例
21
• 各科目の標準偏差を求める
• 標準偏差の関数:STDEVPA 22
• 科目ごとの偏差値を求める
23
注意
• 「B12」とせず、「$B$12」とする理由は?
– 通常、式をコピーしたり、オートフィルで入力 したりすると、それに応じて参照するセルの 番地が自動で変わる
– 今回の場合は、B1~B11は自動で番地を変 えたいが、B12とB13は常に固定して参照す る必要がある
– 「B12」を「$B$12」と入力すると、自動で番地 が変更されない
24
データの標準化(基準
化)
25
データの基準化(標準化)
• なぜデータの基準化(標準化)が必要か
– 重回帰分析を使って、結果の分析をするとき に必要
– 変数ごとの大小が違いすぎると・・・
• Y = aX1 + bX2 + cX3 + d
X1:1~10 X2:1~100000000
• X2の結果に与える影響力が、異様に大き くなってしまうので、係数でそれを調整
– 係数の大きさの比較による結果に与える影 響力の考察ができない
26
• 標準化(基準化)とは
– 平均値 0 、標準偏差 1 となるように
変換すること
– データを標準正規分布させる
• 使う関数
–=STANDARDIZE(x, 平均 , 標準偏
差 )
27
X1 X2
A 1 1
B 2 500
C 3 1000
D 4 5000
E 5 10000
F 6 500000
G 7 1000000
H 8 100000000
I 9 1000000000
28
• 算術平均と、標準偏差を出しておく
29
• 関数を使って標準化を行う(図はB2セルの例)
30
• 原因X1、原因X2の標準化を行った
31
32
Coefficientsa
-6975.311 4671.188 -1.493 .142
1.127E-03 .002 .014 .512 .611
.513 .444 .023 1.155 .253
.369 .046 2.061 8.049 .000
-.305 .035 -.912 -8.797 .000
-.288 .268 -.213 -1.072 .289
-48.767 8785.587 .000 -.006 .996
(Constant) V_POP SQUARE HISPANIC OVER65 D_DIVIDE E_VOTE Model
1
B Std. Error Unstandardized
Coefficients
Beta Standardi
zed Coefficien
ts
t Sig.
Dependent Variable: BUSH a.
統計ソフトウェアを使うと、 自動的に標準化して分析し てくれる
回帰分析
2 個以上の原因があるとき
33
重回帰分析
• 2 個以上の原因変数(独立変数)があ
る場合
• 次のように式に表す
Y = aX
1+ bX
2+ cX
3+ d
34
原因1 の係 数
原因1 原因2 の係 数
原因2 原因3 の係 数
原因3 切片
分析の仕方
• Excelの操作の仕方は、原因が1個の場合と同 じ
35
受験生 英語 日本史 現代社会 現代国語 高校評定値
1 80 45 0 68 3.7
2 78 0 90 70 3.7
3 88 50 0 71 3.2
4 65 38 0 66 4.2
5 68 30 0 77 4.1
6 78 0 92 80 4.1
7 89 40 0 79 3.7
8 59 0 88 77 3.1
9 80 21 0 85 3.2
10 79 0 78 69 3.6
原因1~原因4 結果
36
37
概要
回帰統計
重相関R 0.324617
重決定R2 0.105376
補正R2 -0.61032
標準誤差 0.504766
観測数 10
分散分析表
自由度 変動 分散
観測された分 散比
有意F
回帰 4 0.150056 0.037514 0.147236 0.956436
残差 5 1.273944 0.254789
合計 9 1.424
係数 標準誤差 t P-値 下限95% 上限95% 下限95.0% 上限95.0%
切片 5.819057 3.073108 1.893542 0.116828 -2.08062 13.71873 -2.08062 13.71873 英語 -0.00534 0.020059 -0.26639 0.800572 -0.05691 0.046219 -0.05691 0.046219 日本史 -0.00649 0.028129 -0.23059 0.826769 -0.07879 0.065822 -0.07879 0.065822 現代社会 -0.00361 0.012155 -0.29727 0.778212 -0.03486 0.027632 -0.03486 0.027632 現代国語 -0.01994 0.034464 -0.57866 0.587905 -0.10854 0.06865 -0.10854 0.06865
38
切片
原因1~原因4 の係数
重回帰分析
ポイント
– 問題の所在 – 仮説を立てる
– 先行研究ではどう論じられているのか を調べて、整理
– データの作成、分析 – 分析結果の考察
– まとめ、提言
流れ
• 量的なデータではないものを、取
り扱うための方法
• 0 と 1 に置き換える
– 例
• 男子= 0 、女子= 1
• 嫌い= 0 、好き= 1
ダミー
• サンプルが少ない
– 統計的に信頼できる分析結果
が出ない(有意な結果が得られ
ない)
– 偏った結果になる
• 原因として投入する数(独立変数
)のほうが、サンプル数よりも多い
– エラーになる
べからず集
• セルの中に空欄や、数字ではない文
字がある(文字はラベルの行には入
れて良い)
– エラーになる
• 原因と結果の取り違え
– 因果関係をよく考える
• 多重共線性( 2 日目資料参照)
– 原因変数同士の相関分析で防ぐ
• 変数間で、データのちらばりの差が大
きすぎる
– 正確な分析ができない
– データの標準化を行い、標準化され
たデータを独立変数として投入する
44
R2は、式のあてはまりを示す
どの程度の確率で当たる予測か
最終課題
46
47