質問紙による収集データの 分析法
吉村 宰
(アドミッションセンター)
2008年8月26日
長崎大学FD
課題探究・解決型授業の支援
1
概 要
はじめに
データの収集
データ分析の前処理 二変量データの分析
説明と演習:クロス表,カイ2乗,対応分析
多変量データの分析
説明と演習:多重対応分析
はじめに
3
データの分類
量的データ
比例尺度,間隔尺度
質的データ
順序尺度,名義尺度
本ワークショップ
で扱うデータ
データの収集
5
適切な質問紙の作成
綿密なデータ収集計画
何を明らかにしたいのか
考えられることをできるだけ盛り込みつつ ボリュームは適切な質問紙の作成
質問項目の作成
質問事項
回答形式
質問事項のいろいろ
認知・知識 関心・興味 好み・嗜好 イメージ 好意 感情
保有・使用 行為
経験 満足 意向 予定 要望
社会認識・自己認識 信念・信条・価値観 賛否
7
回答形式のいろいろ
「はい,いいえ」回答
「〜ですか」
程度回答
「どの程度〜ですか」
選別回答
「あてはまるものに○をしてください」
選択回答
「〜と思うものは何々ですか」
順位回答
「特に(最も,○○番目に)〜と思うものは何ですか」
想起回答
「〜の名前をあげてください」(回答選択肢なし)
回答形式のいろいろ 続き
数値回答
「いくら(単位)ですか」(回答選択肢なし)
数値段階カテゴリ回答
「次の段階のどれですか」
項目並列
「あてはまるものに○をつけてください」
1.父親,2.母親,3.兄弟,4.友人,5.先生,6.その他
尺度並列(ひとつの事柄について,複数の尺度,イメージなど)
非常に○ーややー普通ーややー非常に 非常に□ーややー普通ーややー非常に△
自由回答
「自由にお答えください」(回答選択肢なし)
9
質問項目作成時の留意点
平易な用語を使用する 否定語を多用しない 文意は立場によって異なる 過去の記憶は正確ではない 回答を誘導しない
個人的な質問と社会的な質問は 区別
ダブルバーレルは避ける 選択肢は過不足なく作成 形容詞や副詞,動詞を適切に 選択
質問の意図・観点を明確に 表現は丁寧に親しみやすく 選択肢は短く(冗長さの排除)
評価の判断はバランスよく 既存項目の利用
声に出して読んでみる
ステレオタイプ化された表現は 避ける
回答者の経験・知識を考慮
フィルター項目は単純に
間接質問の利用
コードブックの作成
質問項目作成時に準備しておく
質問項目が何を測定しようとしているか 質問項目の由来やソース
回答選択肢とそのコード,無回答のコードも 無回答に数字のコードを与えるのはとても危険 事後に与えられたコードの説明
その他もろもろの記録
11
データ分析の前処理
データの整理・編集
質問紙の内容をチェック
白票(あるいはそれに近いもの)を取り除く
有効回収数(回収率)の確定
質問紙には通し番号をつける
回答のコーディング
プリコード回答
基本は正確な転記,場合によっては新たなコード
「その他」
「その他」=>あてはまる回答があるケース 規則通りでない回答=>「その他」とすることも
「DK」, 「NA」
出現の頻度そのものが重要な情報
集計=>コーディング=>集計
13
その他,DK,NA,欠測値
集計から安易に除かない
データ収集方法についての重要な情報
「その他」=>適切な回答選択肢がない
「DK」「NA」 =>不適切な質問?
詳細な解析での扱いはケースバイケース
分析の目的による
統計ソフトが欠測値をどのように処理してるかを
知っておくことが必要
欠測値の扱い
リストワイズ消去
完全データだけを使う(ケース丸ごと消去)
ペアワイズ消去
欠測値がある変数だけを使わない
決めつけ処理
特定の値を代入する
モデルに基づく推測
15
二変量データの分析
1.データの要約
基本は「数える」
単純集計:一変量ごとの要約
二変量データの要約
クロス集計
行プロフィール,列プロフィール モザイク図
17
単純集計
31.3
!" 250
100.1
# 800
18.8
$% 150
12.5
&' 100
37.5 (' 300
% N
学部
100.1
! 800
36.3
" 290
63.8
# 510
% N
・変数 性別
・質問項目
カテゴリ
クロス表(N表)
800 250 150 100 300
!
290 100 90 40 60
"
#$ 150
! 510
%& 60 '( 60 )( 240
*
19
クロス表(%表)
列プロフィール
100.1 31.3 18.8 12.5 37.5
!
100.0 34.5 31.0 13.8 20.7
"
#$ 29.4
100.1
!
%& 11.8 '( 11.8 )( 47.1
*
行プロフィール
100.1 100.0 100.0 100.0 100.0
!
36.3 40.0 60.0 40.0 20.0
"
#$ 60.0
! 63.8
%& 40.0 '( 60.0 )( 80.0
*
プロフィールの図示
0%
20%
40%
60%
80%
男 女
工学 医学 教育
経済
0%
10%
20%
30%
40%
50%
工学 医学 教育 経済
男 女
21
モザイク図
0%
20%
40%
60%
80%
100%
工学 医学 教育 経済
男 女
2.二変量の独立と連関
二変量が独立
一方の変量の値が他方の変量の値に依存しな い状態。
クロス表のセルの相対頻度が周辺相対頻度の 積で表せる状態。
独立ではない=>連関がある
23
独立なクロス表
% 男 女 計 工学 63.8 36.3 100 医学 63.8 36.3 100 教育 63.8 36.3 100 経済 63.8 36.3 100 計 63.8 36.3 100
人数 男 女 計
工学 191 109 300
医学 64 36 100
教育 96 54 150
経済 159 91 250
計 510 290 800
プロフィールが同じ プロフィールが同じ
独立なクロス表
% 男 女 計
工学 37.5
医学 12.5
教育 18.8
経済 31.3
計 63.8 36.3 100
周辺分布
周辺分布
男 女 計 工学 a*x a*y a 医学 b*x b*y b 教育 c*x c*y c 経済 d*x d*y d 計 x y 1 性別と学部の同時分布 同時分布が周辺分布の積で表される
25
3.χ 2 距離 χ 2 (カイ二乗)
2つの分布間の距離
(分布Xのセルa-基準分布Aのセルa)^2 基準分布Aのセルa
のすべてのセルについての総和
独立な分布との χ 2 距離が大
=>独立な状態から遠い=連関あり
4.独立性の検定 χ 2 を利用した仮説検定
二変量が独立であるという仮説を検 定する。
仮説が棄却される
=>独立であるとは言いがたい=連関あり 仮説が棄却されない
=>連関あるとは言えない
27
天気
0.00 0.25 0.50 0.75 1.00
くもり 雨 晴れ
猫の顔洗いと天気 (catP.jmp)
クロス表
(度数)
天気 計
晴れ 曇り 雨 顔
洗い
あり 34 10 6 50 なし 20 19 11 50
猫の顔洗いと天気に連関があるか
↓
検定仮説:顔洗いと天気は独立である
χ 2 を求める
クロス表
(度数)
天気 計
晴れ 曇り 雨 顔
洗い
あり 34 10 6 50 なし 20 19 11 50 計 54 29 17 100
観測値
クロス表
(度数)
天気 計
晴れ 曇り 雨 顔
洗い
あり 27 14.5 8.5 50 なし 27 14.5 8.5 50 計 54 29 17 100
独立の場合
独立の状態からの距離=χ 2 =7.9
29
χ 2 分布から確率を求める
母集団において独立な二変量 2 3クロス表
このとき,無作為標本におけるχ 2 は 自由度2のχ 2 分布に従う
χ 2 分布:確率分布の一種
自由度2のχ 2 分布で
χ 2 7.9となる確率p=0.018
仮説を検定する
「二変量が独立である」という仮説 が正しいとき,χ 2 7.9となる確率 は,0.02程度である。
↓
「独立である」という仮説を棄却,
すなわち,二変量には連関がある。
31
5.JMPで演習-1
[分析]→[一変量の分布]
顔あらい,天気を選択(shift+クリック)
[Y,列]をクリック [OK]をクリック
あり なし
水準 度数 割合
度数 顔あらい
晴れ くもり 雨
水準 度数 割合
度数 天気
JMPで演習 続き
[分析]→[二変量の関係]
[顔あらい]を選択→[X,説明変数]をクリック [天気]を選択→[Y,目的変数]をクリック [OK]をクリック
顔あらい
あり
なし 34 34.00 62.96 68.00
10 10.00 34.48 20.00
6 6.00 35.29 12.00 20
20.00 37.04 40.00
19 19.00 65.52 38.00
11 11.00 64.71 22.00
50 50.00
50 50.00
54
54.00 29
29.00 17
17.00 100 度数 天気
全体% 列% 行%
晴れ くもり 雨 分割表
モデル誤差 全体(修正済み) N
要因 2
96 98 100
自由度 4.001873 95.293801 99.295674 (-1)*対数尤度
0.0403 R2乗(U)
尤度比Pearson
検定 8.004
7.893 カイ2乗
0.0183*
0.0193*
p値(Prob>ChiSq) 検定
33
6.対応分析
独立性の検定
独立か否かという判断のみ
対応分析
それぞれの変数のカテゴリ間の関連が どうなっているかを知るのに便利
プロフィールが似ているものは近い位置に プロットされる
行・列それぞれのカテゴリの特徴を
把握しやすい
実演
sampleData̲FD2008summer.jmp 回答者:大学生249名
質問項目
楽しかった時期:幼稚園,小,中,高(4水準)
得意科目:国語,社会,数学,理科,英語(5水準)
楽しかった時期
幼稚園 小学校 中学校 高校
4 6.45 28.57
2 7.41 14.29
7 6.86 50.00
1 5.00 7.14
0 0.00 0.00 5
8.06 15.63
6 22.22 18.75
15 14.71 46.88
2 10.00 6.25
4 10.53 12.50 12
19.35 25.53
7 25.93 14.89
14 13.73 29.79
4 20.00 8.51
10 26.32 21.28 41
66.13 26.28
12 44.44 7.69
66 64.71 42.31
13 65.00 8.33
24 63.16 15.38
14 32 47 156
62 27 102 20 38 249
度数 得意科目 列%行%
英語 数学 国語 理科 社会 分割表
モデル誤差 全体(修正済み) N 要因
12 233 245 249 自由度
6.57195 352.51375 359.08570 (-1)*対数尤度
0.0183 R2乗(U)
尤度比 Pearson 検定
13.144 11.084 カイ2乗
0.3587 0.5218 p値(Prob>ChiSq)
警告: セルのうち20%の期待度数が5未満です。カイ2乗に問題が ある可能性があります。
検定
35
二変量のカテゴリの同時布置図
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
c1
幼稚園
小学校
中学校 高校英語
数学
国語
理科
社会
-0.4 -0.3 -0.2 -0.1 .0 .1 .2 .3 .4
c2 楽しかった時期 得意科目
0.14589 0.14002 0.06020
特異値 0.02128 0.01961 0.00362
慣性 0.4782 0.4404 0.0814
割合 0.4782 0.9186 1.0000 累積
幼稚園小学校 中学校 楽しかった時期
0.3572 0.2729 -0.1249 c1
-0.1686 0.1690 0.2250 c2
0.1840 -0.0813 0.0597 c3
英語数学 国語 得意科目 -0.0854
0.2216 0.1020 c1
-0.0818 0.3185 -0.0881 c2
0.0844 0.0518 -0.0443 c3 詳細
対応分析
楽しかった時期
幼稚園 小学校 中学校 高校
4 28.57
2 14.29
7 50.00
1 7.14
0 0.00 5
15.63 6
18.75 15
46.88 2
6.25 4
12.50 12
25.53 7 14.89
14 29.79
4 8.51
10 21.28 41
26.28 12 7.69
66 42.31
13 8.33
24 15.38
14 32 47 156
62 27 102 20 38 249
度数 得意科目
行% 英語 数学 国語 理科 社会
行%
楽しかった時期
幼稚園 小学校 中学校 高校
4 6.45
2 7.41
7 6.86
1 5.00
0 0.00 5
8.06 6 22.22
15 14.71
2 10.00
4 10.53 12
19.35 7 25.93
14 13.73
4 20.00
10 26.32 41
66.13 12 44.44 66
64.71 13 65.00 24
63.16 14 32 47 156
62 27 102 20 38 249
度数 得意科目
列% 英語 数学 国語 理科 社会
列%
やや詳細な説明
中学校 高校 小学校 幼稚園 計 c1̲教科
社会 10 24 4 0 38 -0.2466
理科 4 13 2 1 20 -0.0863
英語 12 41 5 4 62 -0.0854
国語 14 66 15 7 102 0.102
数学 7 12 6 2 27 0.2216
計 47 156 32 14 249
c1̲時期 -0.1249 -0.0504 0.2729 0.3572
各カテゴリに数値が付与される点がポイント
37
特異値:与えられた数値による相関
教科 時期 度数 c1̲教科 c1̲時期
英語 幼稚園 4 -0.0854 0.3572
数学 幼稚園 2 0.2216 0.3572
国語 幼稚園 7 0.102 0.3572
理科 幼稚園 1 -0.0863 0.3572
社会 幼稚園 0 -0.2466 0.3572
英語 小学校 5 -0.0854 0.2729
数学 小学校 6 0.2216 0.2729
国語 小学校 15 0.102 0.2729
理科 小学校 2 -0.0863 0.2729
社会 小学校 4 -0.2466 0.2729
英語 中学校 12 -0.0854 -0.1249
数学 中学校 7 0.2216 -0.1249
国語 中学校 14 0.102 -0.1249
理科 中学校 4 -0.0863 -0.1249
社会 中学校 10 -0.2466 -0.1249
英語 高校 41 -0.0854 -0.0504
数学 高校 12 0.2216 -0.0504
国語 高校 66 0.102 -0.0504
理科 高校 13 -0.0863 -0.0504
社会 高校 24 -0.2466 -0.0504
• c1̲教科とc1̲時期の相関
=1番目の特異値=0.146
• c2̲教科とc2̲時期の相関
=2番目の特異値=0.140
慣性(固有値)とχ
2慣性:固有値
慣性=特異値の二乗
慣性の総和 N=ピアソンのχ 2
主成分分析と同じ手法で,
独立からの距離を説明していると言える
寄与:総和=1
各軸が全体の連関をどの程度説明するかの 指標となる
39
7.JMPで演習-2
チーズ.jmp
4種類のチーズの評価 値が高いほど良い評価
[分析]→[二変量の関係]
[評価]を選択→[Y,目的変数]をクリック [チーズ]を選択→[X,説明変数]をクリック [度数]を選択→[度数]をクリック
OKをクリック
モデル誤差 全体(修正済み) N
要因 24
176 200 208
自由度 84.38105
345.51986 429.90090 (-1)*対数尤度
0.1963 R2乗(U)
尤度比Pearson
検定 168.762
162.482
カイ2乗 <.0001*
<.0001*
p値(Prob>ChiSq)
警告: セルのうち20%の期待度数が5未満です。カイ2乗に問題が ある可能性があります。
検定
0.73609 0.42010 0.25070 特異値
0.54183 0.17649 0.06285 慣性
0.6936 0.2259 0.0805 割合
0.6936 0.9195 1.0000 累積
A B C D
チーズ -0.3763 0.9553 0.3981 -0.9771 c1
-0.2528 0.4728 -0.5540 0.3340 c2
-0.3865 -0.0554 0.2467 0.1952 c3 1 2 3 4 5 6 7 8 9
評価 1.190
1.222 0.964 0.507 0.328 -0.065 -0.623 -0.991 -1.259 c1
0.7764 0.8811 0.2628 -0.0588 -0.6068 -0.0617 -0.1480 0.2634 0.6786 c2
-0.0490 -0.1006 0.0900 -0.1693 0.2705 -0.0472 -0.3510 0.0443 0.5852 c3 詳細
• チーズの評価は高い順にD,A,C,Bとなっている
• 第1軸はチーズの評価の軸
• 第1軸で連関の69%を説明できる
41
多変量データの分析
多重対応分析
多変量のカテゴリをひとまとめにし てクロス表を作り,その対応分析を 行なう手法
解釈等は二変量の対応分析と同じ SAS, SPSS, Rなどで実行可能
JMPではできない
43
crspWin1.1
多重対応分析のプログラム
カテゴリ数量,サンプル数量を計算 自身のために作成
データファイルを作成するのが面倒です
二次配布はご遠慮ください
3種のデータタイプに対応
クロス表
カテゴリ型データ(調査型データ)
データタイプの説明少し
サンプル番号 Q
1 1
2 2
3 3
4 2
5 2
6 1
7 3
8 1
9 3
10 2
カテゴリ型,調査型データ
Q
サンプル番号 1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 1 0
5 0 1 0
6 1 0 0
7 0 0 1
8 1 0 0
9 0 0 1
10 0 1 0
アイテム-カテゴリ型,二値型データ
45
使い方
プログラムとデータを同じディレクトリに置く プログラムをダブルクリック
データファイル名を入力 データ形式の指定
行数の入力 列数の入力
カテゴリ数量を求める次元数の入力
(行数,列数の少ない方-1)次元まで
crspWin1.1起動画面
「1」を入力で計算開始
47
出力ファイル
固有値
全固有値,寄与率,累積寄与率を確認
固有ベクトル(利用しない)
数量化得点(ほとんど利用しない)
標準化数量化得点(求めたかった数値)
AIC指標(二変量の連関の指標)
独立モデルと連関モデルでどちらが尤もらしいか 値が正で大きいほど連関モデルが尤もらしい
FisherExactTest
カテゴリが2水準の変数間の連関の確率
クラメール連関係数(二変量の連関の指標)
カテゴリ型 調査型データの
場合のみ
crspWinを使った実習
データ:2008年度新入生を対象とした広報に関する調査
kouhou1574̲34.txt(カテゴリ型・調査型データ)
教養特別講義の第1回目(4/11・2限,4/14・2限,4/16・3限)
手順
1. データファイル作成(作成済みを配布,説明のみ)
• 広報調査分析データ.xls
2. 布置図用にカテゴリラベル作成(作成済みを配布,説明のみ)
• 広報調査分析データ.xls
3. 出力ファイルの中身を確認(エクセルを利用)
• 固有値,AIC指標,標準化数量化得点 4. 標準化数量化得点ファイルをJMPに読み込む 5. カテゴリラベルをコピー&ペースト
6. 二変量の布置図を作成,変数間の連関を解釈
49
探索的に解析
AIC指標,FisherExactTestの利用 JMPの操作
ラベルの設定 外れ値の除外
ラベルの表示・非表示 色やマーカーの利用
[分析]→[二変量の関係]:同布置図
[グラフ]→[回転プロット]:3次元布置
それではやってみましょう
多重対応分析解説を参照 自分なりの分析
変数を2〜4に絞り込む
カテゴリ数が多くなると図が見づらい
いろいろな組み合わせ
発見を箇条書きにして発表
布置図の作成と読み取れること
51
布置図と解釈例
オープンキャンパスや説明会 に参加して受験校が決まるの ではなく,比較的早期に長崎 大学受験を決めた者がそれら に参加する。
AO入試や推薦入学による入 学者にその傾向が強い。
また彼らはそれらへの参加
が「一般的に」受験校選びに
影響を与えると考えている。
おつかれさまでした。
53