• 検索結果がありません。

九州大学法学部「法情報学」 03 print

N/A
N/A
Protected

Academic year: 2018

シェア "九州大学法学部「法情報学」 03 print"

Copied!
47
0
0

読み込み中.... (全文を見る)

全文

(1)

法情報学

(2)

相関分析・回帰分析 その 2

2

(3)

データの並べ替え

3

(4)

• サンプルファイルの「偏差値用」シートのデータ を利用する

• 10人の受験生の中から、得点合計の順に、成 績上位者5名を合格としたい

• 得点合計の順に並べ替えるには、どうすれば よいか

4

(5)

• 並べ替えをしたい範囲を選択

5

(6)

「データ」タブ「並べ替え」

6

(7)

• 並べ替えの条件を指定する

7

(8)

8

(9)

度数分布と標準偏差

9

(10)

度数分布とは

• ある集団についてのデータがどのように分布し ているかを表す

度数分布表

• データをその大きさによりいくつかの階級 に区分し、その階級ごとの個数 (度数) を カウントして表にしたもの

ヒストグラム

• 度数分布表を棒グラフにしたもの

10

(11)

ヒストグラムを作る準備

• サンプルファイルの「度 数分布用」シートのデー タを使う

「階級」を入力する

※今回の例では、何点 ごとに何人ぐらいの学 生がいるのかのヒスト グラムを作りたい。

そこで、「何点ごと」の部

分を入力する 11

(12)

ヒストグラムの作り方

データ分析 ヒストグラム

• データ分析メニューの設定は、昨日の資料を参 照

12

(13)

• 入力範囲には、点数が入っているセルの範囲 を入力する

• データ区間には、階級が入っているセルの範 囲を入力する

• 最後に「ラベル」をクリック

• 「ラベル」は、データの一番上の行を、データの 名前として利用すること

OK」をクリック

13

(14)

14

(15)

• 度数分布表が作成される

15

(16)

• ヒストグラムを同時に作るとき

「グラフ作成」

16

(17)

課題

• サンプルファイルの「度数分布用課題」シートの データを利用する

1. 高校評定値について、適切に階級を設定し て、度数分布表とヒストグラムを作ってみま しょう。

2. 同様に、高校欠席日数についても、適切に 階級を設定して、度数分布表とヒストグラム を作ってみましょう。

17

(18)

標準偏差とは

• データの散らばり具合、ばらつき具合を示す数 値のひとつ

標準偏差

データの散布度を示す

データの平均値との差 (偏差) 2乗を平均 し、これを変数と同じ次元で示すために平方 根をとったもの

関数

– STDEVPA

18

(19)

利用例 1

• サンプルファイルの「標準偏差用」シートのデー タを使用する

• AさんとBさんが、それぞれコップに200ミリリット ルちょうどの水を入れようと試し、10回繰り返し てみたもの

– AさんとBさんを、比較すると、どちらが正確 に水を入れることができたのか

– 平均値を比べただけではわからない(どちら もほぼ同じ)

19

(20)

利用例 2

• データの並べ替えの例では、日本史または現 代社会は、どちらかを選択することとした

• 日本史は問題の難易度が高かったようで、全 体的に日本史選択者の得点は現代社会選択 者よりも低かった

• このままでは日本史選択者が不利になり、公 平に合格者を決定することができない

• 科目間の得点調整を行うようにするには、どう するか 偏差値を利用する

20

(21)

偏差値の出し方

偏差値の出し方

1. 得点から平均値(平均点)を差し引いた数を 10倍する

2. その結果を、標準偏差で割る 3. その結果に、50を加える

• Excelで偏差値を出すには、いろいろなやり方 がある

• 次ページ以降は、その一例

21

(22)

• 各科目の標準偏差を求める

標準偏差の関数:STDEVPA 22

(23)

• 科目ごとの偏差値を求める

23

注意

(24)

B12」とせず、「$B$12」とする理由は?

– 通常、式をコピーしたり、オートフィルで入力 したりすると、それに応じて参照するセルの 番地が自動で変わる

今回の場合は、B1B11は自動で番地を変 えたいが、B12B13は常に固定して参照す る必要がある

B12」を「$B$12」と入力すると、自動で番地 が変更されない

24

(25)

データの標準化(基準

化)

25

(26)

データの基準化(標準化)

• なぜデータの基準化(標準化)が必要か

– 重回帰分析を使って、結果の分析をするとき に必要

– 変数ごとの大小が違いすぎると・・・

• Y = aX1 + bX2 + cX3 + d

X1110 X21100000000

• X2の結果に与える影響力が、異様に大き くなってしまうので、係数でそれを調整

– 係数の大きさの比較による結果に与える影 響力の考察ができない

26

(27)

標準化(基準化)とは

平均値 0 、標準偏差 1 となるように

変換すること

– データを標準正規分布させる

使う関数

–=STANDARDIZE(x, 平均 , 標準偏

)

27

(28)

X1 X2

A 1 1

B 2 500

C 3 1000

D 4 5000

E 5 10000

F 6 500000

G 7 1000000

H 8 100000000

I 9 1000000000

28

(29)

• 算術平均と、標準偏差を出しておく

29

(30)

• 関数を使って標準化を行う(図はB2セルの例)

30

(31)

原因X1、原因X2の標準化を行った

31

(32)

32

Coefficientsa

-6975.311 4671.188 -1.493 .142

1.127E-03 .002 .014 .512 .611

.513 .444 .023 1.155 .253

.369 .046 2.061 8.049 .000

-.305 .035 -.912 -8.797 .000

-.288 .268 -.213 -1.072 .289

-48.767 8785.587 .000 -.006 .996

(Constant) V_POP SQUARE HISPANIC OVER65 D_DIVIDE E_VOTE Model

1

B Std. Error Unstandardized

Coefficients

Beta Standardi

zed Coefficien

ts

t Sig.

Dependent Variable: BUSH a.

統計ソフトウェアを使うと、 自動的に標準化して分析し てくれる

(33)

回帰分析

2 個以上の原因があるとき

33

(34)

重回帰分析

• 2 個以上の原因変数(独立変数)があ

る場合

次のように式に表す

Y = aX

1

+ bX

2

+ cX

3

+ d

34

原因1 の係

原因1 原因2 の係

原因2 原因3 の係

原因3 切片

(35)

分析の仕方

• Excelの操作の仕方は、原因が1個の場合と同 じ

35

受験生 英語 日本史 現代社会 現代国語 高校評定値

1 80 45 0 68 3.7

2 78 0 90 70 3.7

3 88 50 0 71 3.2

4 65 38 0 66 4.2

5 68 30 0 77 4.1

6 78 0 92 80 4.1

7 89 40 0 79 3.7

8 59 0 88 77 3.1

9 80 21 0 85 3.2

10 79 0 78 69 3.6

原因1~原因4 結果

(36)

36

(37)

37

(38)

概要

回帰統計

重相関R 0.324617

重決定R2 0.105376

補正R2 -0.61032

標準誤差 0.504766

観測数 10

分散分析表

自由度 変動 分散

観測された分 散比

有意F

回帰 4 0.150056 0.037514 0.147236 0.956436

残差 5 1.273944 0.254789

合計 9 1.424

係数 標準誤差 t P- 下限95% 上限95% 下限95.0% 上限95.0%

切片 5.819057 3.073108 1.893542 0.116828 -2.08062 13.71873 -2.08062 13.71873 英語 -0.00534 0.020059 -0.26639 0.800572 -0.05691 0.046219 -0.05691 0.046219 日本史 -0.00649 0.028129 -0.23059 0.826769 -0.07879 0.065822 -0.07879 0.065822 現代社会 -0.00361 0.012155 -0.29727 0.778212 -0.03486 0.027632 -0.03486 0.027632 現代国語 -0.01994 0.034464 -0.57866 0.587905 -0.10854 0.06865 -0.10854 0.06865

38

切片

原因1~原因4 の係数

(39)

重回帰分析

ポイント

(40)

問題の所在仮説を立てる

– 先行研究ではどう論じられているのか を調べて、整理

データの作成、分析分析結果の考察

まとめ、提言

流れ

(41)

• 量的なデータではないものを、取

り扱うための方法

• 0 1 に置き換える

男子= 0 、女子= 1

嫌い= 0 、好き= 1

ダミー

(42)

サンプルが少ない

– 統計的に信頼できる分析結果

が出ない(有意な結果が得られ

ない)

偏った結果になる

• 原因として投入する数(独立変数

)のほうが、サンプル数よりも多い

エラーになる

べからず集

(43)

• セルの中に空欄や、数字ではない文

字がある(文字はラベルの行には入

れて良い)

エラーになる

原因と結果の取り違え

因果関係をよく考える

多重共線性( 2 日目資料参照)

– 原因変数同士の相関分析で防ぐ

(44)

• 変数間で、データのちらばりの差が大

きすぎる

正確な分析ができない

– データの標準化を行い、標準化され

たデータを独立変数として投入する

44

(45)

R2は、式のあてはまりを示す

どの程度の確率で当たる予測か

(46)

最終課題

46

(47)

47

課題

• 法律・政治・行政・地方自治等に関係

するテーマの中から各自の関心に基

づいて自由に選択し、仮説を立て、 Ex

cel を利用して相関分析や回帰分析を

行って仮説を検証した結果について、

レポートを作成しましょう。

参照

関連したドキュメント

専攻の枠を越えて自由な教育と研究を行える よう,教官は自然科学研究科棟に居住して学

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

藤野/赤沢訳・前掲注(5)93頁。ヘーゲルは、次

市民的その他のあらゆる分野において、他の 者との平等を基礎として全ての人権及び基本

生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・

析の視角について付言しておくことが必要であろう︒各国の状況に対する比較法的視点からの分析は︑直ちに国際法

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま

c・昭和37(1962)年5月25曰,東京,曰比谷公会堂で開かれた参院選の