質問紙による収集データの分析法

(1)

質問紙による収集データの分析法

吉村宰

（アドミッションセンター）

2008年8月26日

長崎大学FD

課題探究・解決型授業の支援

1

概要

はじめに

データの収集

データ分析の前処理二変量データの分析

説明と演習：クロス表，カイ2乗，対応分析

多変量データの分析

説明と演習：多重対応分析

(2)

はじめに

3

データの分類

量的データ

比例尺度，間隔尺度

質的データ

順序尺度，名義尺度

本ワークショップ

で扱うデータ

(3)

データの収集

5

適切な質問紙の作成

綿密なデータ収集計画

何を明らかにしたいのか

考えられることをできるだけ盛り込みつつボリュームは適切な質問紙の作成

質問項目の作成

質問事項

回答形式

(4)

質問事項のいろいろ

認知・知識関心・興味好み・嗜好イメージ好意感情

保有・使用行為

経験満足意向予定要望

社会認識・自己認識信念・信条・価値観賛否

7

回答形式のいろいろ

「はい，いいえ」回答

「〜ですか」

程度回答

「どの程度〜ですか」

選別回答

「あてはまるものに○をしてください」

選択回答

「〜と思うものは何々ですか」

順位回答

「特に（最も，○○番目に）〜と思うものは何ですか」

想起回答

「〜の名前をあげてください」（回答選択肢なし）

(5)

回答形式のいろいろ ^続き

数値回答

「いくら（単位）ですか」（回答選択肢なし）

数値段階カテゴリ回答

「次の段階のどれですか」

項目並列

「あてはまるものに○をつけてください」

1.父親，2.母親，3.兄弟，4.友人，5.先生，6.その他

尺度並列（ひとつの事柄について，複数の尺度，イメージなど）

非常に○ーややー普通ーややー非常に非常に□ーややー普通ーややー非常に△

自由回答

「自由にお答えください」（回答選択肢なし）

9

質問項目作成時の留意点

平易な用語を使用する否定語を多用しない文意は立場によって異なる過去の記憶は正確ではない回答を誘導しない

個人的な質問と社会的な質問は区別

ダブルバーレルは避ける選択肢は過不足なく作成形容詞や副詞，動詞を適切に選択

質問の意図・観点を明確に表現は丁寧に親しみやすく選択肢は短く（冗長さの排除）

評価の判断はバランスよく既存項目の利用

声に出して読んでみる

ステレオタイプ化された表現は避ける

回答者の経験・知識を考慮

フィルター項目は単純に

間接質問の利用

(6)

コードブックの作成

質問項目作成時に準備しておく

質問項目が何を測定しようとしているか質問項目の由来やソース

回答選択肢とそのコード，無回答のコードも無回答に数字のコードを与えるのはとても危険事後に与えられたコードの説明

その他もろもろの記録

11

データ分析の前処理

(7)

データの整理・編集

質問紙の内容をチェック

白票（あるいはそれに近いもの）を取り除く

有効回収数（回収率）の確定

質問紙には通し番号をつける

回答のコーディング

プリコード回答

基本は正確な転記，場合によっては新たなコード

「その他」

「その他」＝＞あてはまる回答があるケース規則通りでない回答＝＞「その他」とすることも

「DK」, 「NA」

出現の頻度そのものが重要な情報

集計＝＞コーディング＝＞集計

13

その他，DK，NA，欠測値

集計から安易に除かない

データ収集方法についての重要な情報

「その他」＝＞適切な回答選択肢がない

「DK」「NA」＝＞不適切な質問？

詳細な解析での扱いはケースバイケース

分析の目的による

統計ソフトが欠測値をどのように処理してるかを

知っておくことが必要

(8)

欠測値の扱い

リストワイズ消去

完全データだけを使う（ケース丸ごと消去）

ペアワイズ消去

欠測値がある変数だけを使わない

決めつけ処理

特定の値を代入する

モデルに基づく推測

15

二変量データの分析

(9)

1．データの要約

基本は「数える」

単純集計：一変量ごとの要約

二変量データの要約

クロス集計

行プロフィール，列プロフィールモザイク図

17

単純集計

31.3

!" 250

100.1

# 800

18.8

$% 150

12.5

&' 100

37.5 (' 300

% N

学部

100.1

! 800

36.3

" 290

63.8

# 510

% N

・変数性別

・質問項目

カテゴリ

(10)

クロス表（N表）

800 250 150 100 300

!

290 100 90 40 60

"

#$ 150

! 510

%& 60 '( 60 )( 240

*

19

クロス表（％表）

列プロフィール

100.1 31.3 18.8 12.5 37.5

!

100.0 34.5 31.0 13.8 20.7

"

#$ 29.4

100.1

!

%& 11.8 '( 11.8 )( 47.1

*

行プロフィール

100.1 100.0 100.0 100.0 100.0

!

36.3 40.0 60.0 40.0 20.0

"

#$ 60.0

! 63.8

%& 40.0 '( 60.0 )( 80.0

*

(11)

プロフィールの図示

0%

20%

40%

60%

80%

男女

工学医学教育

経済

0%

10%

20%

30%

40%

50%

工学医学教育経済

男女

21

モザイク図

0%

20%

40%

60%

80%

100%

工学医学教育経済

男女

(12)

2．二変量の独立と連関

二変量が独立

一方の変量の値が他方の変量の値に依存しない状態。

クロス表のセルの相対頻度が周辺相対頻度の積で表せる状態。

独立ではない＝＞連関がある

23

独立なクロス表

％男女計工学 63.8 36.3 100 医学 63.8 36.3 100 教育 63.8 36.3 100 経済 63.8 36.3 100 計 63.8 36.3 100

人数男女計

工学 191 109 300

医学 64 36 100

教育 96 54 150

経済 159 91 250

計 510 290 800

プロフィールが同じプロフィールが同じ

(13)

独立なクロス表

％男女計

工学 37.5

医学 12.5

教育 18.8

経済 31.3

計 63.8 36.3 100

周辺分布

男女計工学 ax ay a 医学 bx by b 教育 cx cy c 経済 dx dy d 計 x y 1 性別と学部の同時分布同時分布が周辺分布の積で表される

25

3．χ ² 距離 χ ² ^{（カイ二乗）}

２つの分布間の距離

(分布Xのセルa-基準分布Aのセルa)^2 基準分布Aのセルa

のすべてのセルについての総和

独立な分布との χ ² ^距離が大

＝＞独立な状態から遠い＝連関あり

(14)

4．独立性の検定 χ ² ^{を利用した仮説検定}

二変量が独立であるという仮説を検定する。

仮説が棄却される

＝＞独立であるとは言いがたい＝連関あり仮説が棄却されない

＝＞連関あるとは言えない

27

天気

0.00 0.25 0.50 0.75 1.00

くもり雨晴れ

猫の顔洗いと天気 ^{（catP.jmp）}

クロス表

（度数）

天気計

晴れ曇り雨顔

洗い

あり 34 10 6 50 なし 20 19 11 50

猫の顔洗いと天気に連関があるか

↓

検定仮説：顔洗いと天気は独立である

(15)

χ ² を求める

クロス表

（度数）

天気計

晴れ曇り雨顔

洗い

あり 34 10 6 50 なし 20 19 11 50 計 54 29 17 100

観測値

クロス表

（度数）

天気計

晴れ曇り雨顔

洗い

あり 27 14.5 8.5 50 なし 27 14.5 8.5 50 計 54 29 17 100

独立の場合

独立の状態からの距離＝χ ² ＝7.9

29

χ ² 分布から確率を求める

母集団において独立な二変量２３クロス表

このとき，無作為標本におけるχ ² は自由度2のχ ² 分布に従う

χ ² 分布：確率分布の一種

自由度2のχ ² 分布で

χ ² 7.9となる確率p=0.018

(16)

仮説を検定する

「二変量が独立である」という仮説が正しいとき，χ ² 7.9となる確率は，0.02程度である。

↓

「独立である」という仮説を棄却，

すなわち，二変量には連関がある。

31

5．JMPで演習-1

[分析]→[一変量の分布]

顔あらい，天気を選択（shift+クリック）

[Y，列]をクリック [OK]をクリック

ありなし

水準度数割合

度数顔あらい

晴れくもり雨

水準度数割合

度数天気

(17)

JMPで演習 ^続き

[分析]→[二変量の関係]

[顔あらい]を選択→[X，説明変数]をクリック [天気]を選択→[Y，目的変数]をクリック [OK]をクリック

顔あらい

あり

なし 34 34.00 62.96 68.00

10 10.00 34.48 20.00

6 6.00 35.29 12.00 20

20.00 37.04 40.00

19 19.00 65.52 38.00

11 11.00 64.71 22.00

50 50.00

54

54.00 29

29.00 17

17.00 100 度数天気

全体% 列% 行%

晴れくもり雨分割表

モデル誤差全体(修正済み) N

要因 2

96 98 100

自由度 4.001873 95.293801 99.295674 (-1)*対数尤度

0.0403 R2乗(U)

尤度比Pearson

検定 8.004

7.893 カイ2乗

0.0183*

0.0193*

p値(Prob>ChiSq) 検定

33

6．対応分析

独立性の検定

独立か否かという判断のみ

対応分析

それぞれの変数のカテゴリ間の関連がどうなっているかを知るのに便利

プロフィールが似ているものは近い位置にプロットされる

行・列それぞれのカテゴリの特徴を

把握しやすい

(18)

実演

sampleData̲FD2008summer.jmp 回答者：大学生249名

質問項目

楽しかった時期：幼稚園，小，中，高（4水準）

得意科目：国語，社会，数学，理科，英語（5水準）

楽しかった時期

幼稚園小学校中学校高校

4 6.45 28.57

2 7.41 14.29

7 6.86 50.00

1 5.00 7.14

0 0.00 0.00 5

8.06 15.63

6 22.22 18.75

15 14.71 46.88

2 10.00 6.25

4 10.53 12.50 12

19.35 25.53

7 25.93 14.89

14 13.73 29.79

4 20.00 8.51

10 26.32 21.28 41

66.13 26.28

12 44.44 7.69

66 64.71 42.31

13 65.00 8.33

24 63.16 15.38

14 32 47 156

62 27 102 20 38 249

度数得意科目列%行%

英語数学国語理科社会分割表

モデル誤差全体(修正済み) N 要因

12 233 245 249 自由度

6.57195 352.51375 359.08570 (-1)*対数尤度

0.0183 R2乗(U)

尤度比 Pearson 検定

13.144 11.084 カイ2乗

0.3587 0.5218 p値(Prob>ChiSq)

警告: セルのうち20％の期待度数が5未満です。カイ2乗に問題がある可能性があります。

検定

35

二変量のカテゴリの同時布置図

-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4

c1

幼稚園

小学校

中学校高校英語

数学

国語

理科

社会

-0.4 -0.3 -0.2 -0.1 .0 .1 .2 .3 .4

c2 楽しかった時期得意科目

0.14589 0.14002 0.06020

特異値 0.02128 0.01961 0.00362

慣性 0.4782 0.4404 0.0814

割合 0.4782 0.9186 1.0000 累積

幼稚園小学校中学校楽しかった時期

0.3572 0.2729 -0.1249 c1

-0.1686 0.1690 0.2250 c2

0.1840 -0.0813 0.0597 c3

英語数学国語得意科目 -0.0854

0.2216 0.1020 c1

-0.0818 0.3185 -0.0881 c2

0.0844 0.0518 -0.0443 c3 詳細

対応分析

4 28.57

2 14.29

7 50.00

1 7.14

0 0.00 5

15.63 6

18.75 15

46.88 2

6.25 4

12.50 12

25.53 7 14.89

14 29.79

4 8.51

10 21.28 41

26.28 12 7.69

66 42.31

13 8.33

24 15.38

14 32 47 156

62 27 102 20 38 249

度数得意科目

行% 英語数学国語理科社会

行%

4 6.45

2 7.41

7 6.86

1 5.00

0 0.00 5

8.06 6 22.22

15 14.71

2 10.00

4 10.53 12

19.35 7 25.93

14 13.73

4 20.00

10 26.32 41

66.13 12 44.44 66

64.71 13 65.00 24

63.16 14 32 47 156

62 27 102 20 38 249

度数得意科目

列% 英語数学国語理科社会

列%

(19)

やや詳細な説明

中学校高校小学校幼稚園計 c1̲教科

社会 10 24 4 0 38 -0.2466

理科 4 13 2 1 20 -0.0863

英語 12 41 5 4 62 -0.0854

国語 14 66 15 7 102 0.102

数学 7 12 6 2 27 0.2216

計 47 156 32 14 249

c1̲時期 -0.1249 -0.0504 0.2729 0.3572

各カテゴリに数値が付与される点がポイント

37

特異値：与えられた数値による相関

教科時期度数 c1̲教科 c1̲時期

英語幼稚園 4 -0.0854 0.3572

数学幼稚園 2 0.2216 0.3572

国語幼稚園 7 0.102 0.3572

理科幼稚園 1 -0.0863 0.3572

社会幼稚園 0 -0.2466 0.3572

英語小学校 5 -0.0854 0.2729

数学小学校 6 0.2216 0.2729

国語小学校 15 0.102 0.2729

理科小学校 2 -0.0863 0.2729

社会小学校 4 -0.2466 0.2729

英語中学校 12 -0.0854 -0.1249

数学中学校 7 0.2216 -0.1249

国語中学校 14 0.102 -0.1249

理科中学校 4 -0.0863 -0.1249

社会中学校 10 -0.2466 -0.1249

英語高校 41 -0.0854 -0.0504

数学高校 12 0.2216 -0.0504

国語高校 66 0.102 -0.0504

理科高校 13 -0.0863 -0.0504

社会高校 24 -0.2466 -0.0504

• c1̲教科とc1̲時期の相関

=1番目の特異値=0.146

• c2̲教科とc2̲時期の相関

=2番目の特異値=0.140

(20)

慣性（固有値）とχ

²

慣性：固有値

慣性＝特異値の二乗

慣性の総和 N＝ピアソンのχ ²

主成分分析と同じ手法で，

独立からの距離を説明していると言える

寄与：総和＝1

各軸が全体の連関をどの程度説明するかの指標となる

39

7．JMPで演習-2

チーズ.jmp

４種類のチーズの評価値が高いほど良い評価

[分析]→[二変量の関係]

[評価]を選択→[Y，目的変数]をクリック [チーズ]を選択→[X，説明変数]をクリック [度数]を選択→[度数]をクリック

OKをクリック

(21)

モデル誤差全体(修正済み) N

要因 24

176 200 208

自由度 84.38105

345.51986 429.90090 (-1)*対数尤度

0.1963 R2乗(U)

尤度比Pearson

検定 168.762

162.482

カイ2乗 <.0001*

<.0001*

p値(Prob>ChiSq)

警告: セルのうち20％の期待度数が5未満です。カイ2乗に問題がある可能性があります。

検定

0.73609 0.42010 0.25070 特異値

0.54183 0.17649 0.06285 慣性

0.6936 0.2259 0.0805 割合

0.6936 0.9195 1.0000 累積

A B C D

チーズ -0.3763 0.9553 0.3981 -0.9771 c1

-0.2528 0.4728 -0.5540 0.3340 c2

-0.3865 -0.0554 0.2467 0.1952 c3 1 2 3 4 5 6 7 8 9

評価 1.190

1.222 0.964 0.507 0.328 -0.065 -0.623 -0.991 -1.259 c1

0.7764 0.8811 0.2628 -0.0588 -0.6068 -0.0617 -0.1480 0.2634 0.6786 c2

-0.0490 -0.1006 0.0900 -0.1693 0.2705 -0.0472 -0.3510 0.0443 0.5852 c3 詳細

• チーズの評価は高い順にD,A,C,Bとなっている

• 第１軸はチーズの評価の軸

• 第１軸で連関の69％を説明できる

41

多変量データの分析

(22)

多重対応分析

多変量のカテゴリをひとまとめにしてクロス表を作り，その対応分析を行なう手法

解釈等は二変量の対応分析と同じ SAS, SPSS, Rなどで実行可能

JMPではできない

43

crspWin1.1

多重対応分析のプログラム

カテゴリ数量，サンプル数量を計算自身のために作成

データファイルを作成するのが面倒です

二次配布はご遠慮ください

3種のデータタイプに対応

クロス表

カテゴリ型データ（調査型データ）

(23)

データタイプの説明少し

サンプル番号 Q

1 1

2 2

3 3

4 2

5 2

6 1

7 3

8 1

9 3

10 2

カテゴリ型，調査型データ

Q

サンプル番号 1 2 3

1 1 0 0

2 0 1 0

3 0 0 1

4 0 1 0

5 0 1 0

6 1 0 0

7 0 0 1

8 1 0 0

9 0 0 1

10 0 1 0

アイテム-カテゴリ型，二値型データ

45

使い方

プログラムとデータを同じディレクトリに置くプログラムをダブルクリック

データファイル名を入力データ形式の指定

行数の入力列数の入力

カテゴリ数量を求める次元数の入力

（行数，列数の少ない方-1）次元まで

(24)

crspWin1.1起動画面

「1」を入力で計算開始

47

出力ファイル

固有値

全固有値，寄与率，累積寄与率を確認

固有ベクトル（利用しない）

数量化得点（ほとんど利用しない）

標準化数量化得点（求めたかった数値）

AIC指標（二変量の連関の指標）

独立モデルと連関モデルでどちらが尤もらしいか値が正で大きいほど連関モデルが尤もらしい

FisherExactTest

カテゴリが2水準の変数間の連関の確率

クラメール連関係数（二変量の連関の指標）

カテゴリ型調査型データの

場合のみ

(25)

crspWinを使った実習

データ：2008年度新入生を対象とした広報に関する調査

kouhou1574̲34.txt（カテゴリ型・調査型データ）

教養特別講義の第１回目（4/11・2限，4/14・2限，4/16・3限）

手順

1. データファイル作成（作成済みを配布，説明のみ）

• 広報調査分析データ.xls

2. 布置図用にカテゴリラベル作成（作成済みを配布，説明のみ）

• 広報調査分析データ.xls

3. 出力ファイルの中身を確認（エクセルを利用）

• 固有値，AIC指標，標準化数量化得点 4. 標準化数量化得点ファイルをJMPに読み込む 5. カテゴリラベルをコピー＆ペースト

6. 二変量の布置図を作成，変数間の連関を解釈

49

探索的に解析

AIC指標，FisherExactTestの利用 JMPの操作

ラベルの設定外れ値の除外

ラベルの表示・非表示色やマーカーの利用

[分析]→[二変量の関係]：同布置図

[グラフ]→[回転プロット]：３次元布置

(26)

それではやってみましょう

多重対応分析解説を参照自分なりの分析

変数を２〜４に絞り込む

カテゴリ数が多くなると図が見づらい

いろいろな組み合わせ

発見を箇条書きにして発表

布置図の作成と読み取れること

51

質問紙による収集データの 分析法