九州大学法学部「法情報学」 03 print

(1)

法情報学

(2)

相関分析・回帰分析その ₂

2

(3)

データの並べ替え

3

(4)

• サンプルファイルの「偏差値用」シートのデータを利用する

• 10人の受験生の中から、得点合計の順に、成績上位者₅名を合格としたい

• 得点合計の順に並べ替えるには、どうすればよいか

4

(5)

• 並べ替えをしたい範囲を選択

5

(6)

• ^{「データ」タブ}_→^{「並べ替え」}

6

(7)

• 並べ替えの条件を指定する

7

(8)

8

(9)

度数分布と標準偏差

9

(10)

度数分布とは

• ある集団についてのデータがどのように分布しているかを表す

– ^{度数分布表}

• データをその大きさによりいくつかの階級に区分し、その階級ごとの個数 ₍度数₎をカウントして表にしたもの

– ^{ヒストグラム}

• 度数分布表を棒グラフにしたもの

10

(11)

ヒストグラムを作る準備

• サンプルファイルの「度数分布用」シートのデータを使う

• ^{「階級」を入力する}

※今回の例では、何点ごとに何人ぐらいの学生がいるのかのヒストグラムを作りたい。

そこで、「何点ごと」の部

分を入力する ₁₁

(12)

ヒストグラムの作り方

• ^{データ分析} _→ ^{ヒストグラム}

• データ分析メニューの設定は、昨日の資料を参照

12

(13)

• 入力範囲には、点数が入っているセルの範囲を入力する

• データ区間には、階級が入っているセルの範囲を入力する

• 最後に「ラベル」をクリック

• 「ラベル」は、データの一番上の行を、データの名前として利用すること

• ^「OK^{」をクリック}

13

(14)

14

(15)

• 度数分布表が作成される

15

(16)

• ヒストグラムを同時に作るとき

• ^{「グラフ作成」}

16

(17)

課題

• サンプルファイルの「度数分布用課題」シートのデータを利用する

1. 高校評定値について、適切に階級を設定して、度数分布表とヒストグラムを作ってみましょう。

2. 同様に、高校欠席日数についても、適切に階級を設定して、度数分布表とヒストグラムを作ってみましょう。

17

(18)

標準偏差とは

• データの散らばり具合、ばらつき具合を示す数値のひとつ

• ^標準偏差

– ^{データの散布度を示す}

– ^{データの平均値との差} (^偏差) ^の2^乗を平均し、これを変数と同じ次元で示すために平方根をとったもの

• ^関数

– STDEVPA

18

(19)

利用例 ₁

• サンプルファイルの「標準偏差用」シートのデータを使用する

• A^さんとBさんが、それぞれコップに₂₀₀ミリリットルちょうどの水を入れようと試し、₁₀回繰り返してみたもの

– A^さんとBさんを、比較すると、どちらが正確に水を入れることができたのか

– 平均値を比べただけではわからない（どちらもほぼ同じ）

19

(20)

利用例 ₂

• データの並べ替えの例では、日本史または現代社会は、どちらかを選択することとした

• 日本史は問題の難易度が高かったようで、全体的に日本史選択者の得点は現代社会選択者よりも低かった

• このままでは日本史選択者が不利になり、公平に合格者を決定することができない

• 科目間の得点調整を行うようにするには、どうするか _→ 偏差値を利用する

20

(21)

偏差値の出し方

• ^{偏差値の出し方}

1. 得点から平均値（平均点）を差し引いた数を 10^倍する

2. その結果を、標準偏差で割る 3. ^{その結果に、}50^を加える

• Excelで偏差値を出すには、いろいろなやり方がある

• 次ページ以降は、その一例

21

(22)

• 各科目の標準偏差を求める

• ^{標準偏差の関数：}STDEVPA ²²

(23)

• 科目ごとの偏差値を求める

23

注意

(24)

• ^「B12^{」とせず、「}$B$12^{」とする理由は}?

– 通常、式をコピーしたり、オートフィルで入力したりすると、それに応じて参照するセルの番地が自動で変わる

– ^{今回の場合は、}B1^～B11^{は自動で番地を変} えたいが、_B12と_B13は常に固定して参照する必要がある

– ^「B12^」を「$B$12」と入力すると、自動で番地が変更されない

24

(25)

データの標準化（基準

化）

25

(26)

データの基準化（標準化）

• なぜデータの基準化（標準化）が必要か

– 重回帰分析を使って、結果の分析をするときに必要

– 変数ごとの大小が違いすぎると・・・

• Y = aX1 + bX2 + cX3 + d

X1^：1^～10 X2^：1^～100000000

• X2の結果に与える影響力が、異様に大きくなってしまうので、係数でそれを調整

– 係数の大きさの比較による結果に与える影響力の考察ができない

26

(27)

• ^{標準化（基準化）とは}

– ^平均値 0 ^{、標準偏差} 1 ^{となるように}

変換すること

– データを標準正規分布させる

• ^使う関数

–=STANDARDIZE(x, ^平均 , ^標準偏

差 ₎

27

(28)

X1 X2

A 1 1

B 2 500

C 3 1000

D 4 5000

E 5 10000

F 6 500000

G 7 1000000

H 8 100000000

I 9 1000000000

28

(29)

• 算術平均と、標準偏差を出しておく

29

(30)

• 関数を使って標準化を行う（図は_B2セルの例）

30

(31)

• ^原因X1^、原因X2^{の標準化を行った}

31

(32)

32

Coefficients^a

-6975.311 4671.188 -1.493 .142

1.127E-03 .002 .014 .512 .611

.513 .444 .023 1.155 .253

.369 .046 2.061 8.049 .000

-.305 .035 -.912 -8.797 .000

-.288 .268 -.213 -1.072 .289

-48.767 8785.587 .000 -.006 .996

(Constant) V_POP SQUARE HISPANIC OVER65 D_DIVIDE E_VOTE Model

1

B Std. Error Unstandardized

Coefficients

Beta Standardi

zed Coefficien

ts

t Sig.

Dependent Variable: BUSH a.

統計ソフトウェアを使うと、自動的に標準化して分析してくれる

(33)

回帰分析

2 個以上の原因があるとき

33

(34)

重回帰分析

• 2 個以上の原因変数（独立変数）があ

る場合

• ^{次のように式に表す}

Y = aX

₁

+ bX

₂

+ cX

₃

+ d

34

原因₁ の係数

原因₁ 原因₂ の係数

原因₂ 原因₃ の係数

原因₃ 切片

(35)

分析の仕方

• Excelの操作の仕方は、原因が₁個の場合と同じ

35

受験生英語日本史現代社会現代国語高校評定値

1 80 45 0 68 3.7

2 78 0 90 70 3.7

3 88 50 0 71 3.2

4 65 38 0 66 4.2

5 68 30 0 77 4.1

6 78 0 92 80 4.1

7 89 40 0 79 3.7

8 59 0 88 77 3.1

9 80 21 0 85 3.2

10 79 0 78 69 3.6

原因₁～原因₄ 結果

(36)

36

(37)

37

(38)

概要

回帰統計

重相関_R _0.324617

重決定_R2 _0.105376

補正_R2 _-0.61032

標準誤差 _0.504766

観測数 ₁₀

分散分析表

自由度変動分散

観測された分散比

有意_F

回帰 ₄ _0.150056 _0.037514 _0.147236 _0.956436

残差 ₅ _1.273944 _0.254789

合計 ₉ _1.424

係数標準誤差 _t _P-値下限_95% 上限_95% 下限_95.0% 上限_95.0%

切片 _5.819057 _3.073108 _1.893542 _0.116828 _-2.08062 _13.71873 _-2.08062 _13.71873 英語 _-0.00534 _0.020059 _-0.26639 _0.800572 _-0.05691 _0.046219 _-0.05691 _0.046219 日本史 _-0.00649 _0.028129 _-0.23059 _0.826769 _-0.07879 _0.065822 _-0.07879 _0.065822 現代社会 _-0.00361 _0.012155 _-0.29727 _0.778212 _-0.03486 _0.027632 _-0.03486 _0.027632 現代国語 _-0.01994 _0.034464 _-0.57866 _0.587905 _-0.10854 _0.06865 _-0.10854 _0.06865

38

切片

原因₁～原因₄ の係数

(39)

重回帰分析

ポイント

(40)

– ^{問題の所在} – ^{仮説を立てる}

– 先行研究ではどう論じられているのかを調べて、整理

– ^{データの作成、分析} – ^{分析結果の考察}

– ^{まとめ、提言}

流れ

(41)

• 量的なデータではないものを、取

り扱うための方法

• 0 ^と 1 ^{に置き換える}

– ^例

• ^男子＝ 0 ^、女子＝ 1

• ^嫌い＝ 0 ^、好き＝ 1

ダミー

(42)

• ^{サンプルが少ない}

– 統計的に信頼できる分析結果

が出ない（有意な結果が得られ

ない）

– ^{偏った結果になる}

• 原因として投入する数（独立変数

）のほうが、サンプル数よりも多い

– ^{エラーになる}

べからず集

(43)

• セルの中に空欄や、数字ではない文

字がある（文字はラベルの行には入

れて良い）

– ^{エラーになる}

• ^{原因と結果の取り違え}

– ^{因果関係をよく考える}

• ^{多重共線性（} 2 ^{日目資料参照）}

– 原因変数同士の相関分析で防ぐ

(44)

• 変数間で、データのちらばりの差が大

きすぎる

– ^{正確な分析ができない}

– データの標準化を行い、標準化され

たデータを独立変数として投入する

44

(45)

R2は、式のあてはまりを示す

どの程度の確率で当たる予測か

(46)

最終課題

46

(47)

47

九州大学法学部「法情報学」 03 print

法情報学

相関分析・回帰分析 その 2

データの並べ替え

度数分布と標準偏差

度数分布とは

ヒストグラムを作る準備

ヒストグラムの作り方

課題

標準偏差とは

利用例 1

利用例 2

偏差値の出し方

注意

データの標準化（基準

化）

データの基準化（標準化）

• 標準化（基準化）とは

– 平均値 0 、標準偏差 1 となるように

変換すること

– データを標準正規分布させる

• 使う関数

–=STANDARDIZE(x, 平均 , 標準偏

差 )

回帰分析

2 個以上の原因があるとき

重回帰分析

• 2 個以上の原因変数（独立変数）があ

る場合

• 次のように式に表す

Y = aX

+ bX

+ cX

+ d

分析の仕方

重回帰分析

ポイント

流れ

• 量的なデータではないものを、取

り扱うための方法

• 0 と 1 に置き換える

– 例

• 男子＝ 0 、女子＝ 1

• 嫌い＝ 0 、好き＝ 1

ダミー

• サンプルが少ない

– 統計的に信頼できる分析結果

が出ない（有意な結果が得られ

ない）

– 偏った結果になる

• 原因として投入する数（独立変数

）のほうが、サンプル数よりも多い

– エラーになる

べからず集

• セルの中に空欄や、数字ではない文

字がある（文字はラベルの行には入

れて良い）

– エラーになる

• 原因と結果の取り違え

– 因果関係をよく考える

• 多重共線性（ 2 日目資料参照）

– 原因変数同士の相関分析で防ぐ

• 変数間で、データのちらばりの差が大

きすぎる

– 正確な分析ができない

– データの標準化を行い、標準化され

たデータを独立変数として投入する

どの程度の確率で当たる予測か

最終課題

課題

• 法律・政治・行政・地方自治等に関係

するテーマの中から各自の関心に基

づいて自由に選択し、仮説を立て、 Ex

cel を利用して相関分析や回帰分析を

行って仮説を検証した結果について、

レポートを作成しましょう。

相関分析・回帰分析その ₂

利用例 ₁

利用例 ₂

• ^{標準化（基準化）とは}

– ^平均値 0 ^{、標準偏差} 1 ^{となるように}

• ^使う関数

–=STANDARDIZE(x, ^平均 , ^標準偏

差 ₎

• ^{次のように式に表す}

• 0 ^と 1 ^{に置き換える}

– ^例

• ^男子＝ 0 ^、女子＝ 1

• ^嫌い＝ 0 ^、好き＝ 1

• ^{サンプルが少ない}

– ^{偏った結果になる}

– ^{エラーになる}

– ^{エラーになる}

• ^{原因と結果の取り違え}

– ^{因果関係をよく考える}

• ^{多重共線性（} 2 ^{日目資料参照）}

– ^{正確な分析ができない}

づいて自由に選択し、仮説を立て、 _Ex