質問紙によるデータ収集 およびその分析
アドミッションセンター 吉村宰
2007年9月12日
長崎大学FD
課題探究・解決型授業の支援
内容
• 基本事項の確認:妥当性と信頼性
• 質問紙を作成する
• 質問紙の吟味
• データ分析の準備
• データの分析1:二変量間の関係を探る
• データの分析2:仮説を検証する
• データの分析3:多変量データを探索する
質問紙作成の前に
基本事項の確認
データ収集の前に
• 目的を明確にする
‒ 何を明らかにしたいのか
‒ そのためには何を知らなければならないの か
• 仮説検証か問題探索か
‒ 仮説検証:現象の理解,焦点を絞る
‒ 問題探索:現象の把握,多角的,幅広く
調査における二つの推論
回答者による質問への回答
回答者の性質 標本の性質
母集団の性質
推論
推論
統計量の 計算
サンプリングフレームの選択
標本設計と標本抽出
研究対象の定義
データ収集モードの選択
回答依頼とデータ収集 質問紙(調査票)の構成と
予備調査
データのコーディングと編集
事後調整
サンプリングフレームの選択
標本設計と標本抽出
研究対象の定義
データ収集モードの選択
回答依頼とデータ収集 質問紙(調査票)の構成と
予備調査
データのコーディングと編集
事後調整 分析
代表性のない 便宜標本
データの質(調査の質)
• 測定値(回答)=真値+誤差
• 測定したいものを
‒ 測定したいものを測定しているかどうか:妥当性
• 測定値と真値の相関
• 小さい誤差で
‒ 回答の偏り(バイアス):
正確さ,真値と期待値との偏差
‒ 回答のちらばり・変動:精度の問題:信頼性
• 真値の分散/回答の分散
‒ 「信頼性が高く,バイアスがある測定」もあり得る
• 誤差はいろいろな段階で発生
!
Y
it= µ
i+ "
it構成概念
測定
回答
編集後の回答
(調査)統計量
標本
回答者
事後調整
測 定 代表性
目標母集団
標本抽出枠
カバレッジ誤差
標本抽出誤差 妥当性
測定誤差
処理誤差
無回答誤差
調整誤差
調査の各プロセスで発生する誤差
妥当性
• 原義:「測定したいものが測定できている」
• 古典的には
‒ 構成概念妥当性,内容的妥当性,基準関連妥当性
• 近ごろは
‒ 妥当性=構成概念妥当性
• 検証すべき6つの側面:内容,反応プロセス,構造,一般化の 可能性,外的基準との関係,結果使用の社会的影響
‒ 概念が拡散しているとの批判も
妥当性
続き• 「測定したいものが測定できている」かどうか
‒ 質問の内容の吟味
‒ 調査外の記録等のデータと回答データとの相関をみる
‒ 理論上高い相関があるはずの他の質問への回答との相関を 調べる(まずムリ)
‒ 収束性と弁別性:multitrait-multimethod matrixの分析
‒ 同じ構成概念についての複数の指標を利用(因子分析,
SEMによる検証)
‒ 意図した構成概念がうまく測定できていれば異なるはずの 二群の回答の違いを調べる
• 重要なのは構成概念から観測変数への”因果の有無”で あり”相関関係の有無”ではない,という指摘もある
赤:異なる方法で-同じ特性を 橙:同じ方法で-異なる特性を 黒:異なる方法で-異なる特性を 青:同じ方法で-同じ特性を
•赤の部分は十分に大きな値であるべき
•特性ごとに,赤>黒であるべき
•特性ごとに,赤>橙であるべき
3つの特性を2つの方法で測定
信頼性
• 測定値の分散に占める真値の分散の割合
‒ 測定値に誤差が少ない=安定した測定である
• 確認の仕方
‒ 反復測定による方法
‒ 多重指標を用いる方法
• 例えばα係数( :指標の数,:指標間の相関の平均)
!
" = kr
1 + (k # 1)r
!
r
!
k
質問紙を作成する
質問項目の作成
• 質問によって明らかにしたい事項をう まくとらえるものになっているかどう か
‒ 明らかにしたい事項の概念整理
‒ 何を測定しようとしているのか
• 質問事項のいろいろ
• 回答形式のいろいろ
• 項目作成時の留意点
質問事項のいろいろ
• 認知・知識
‒ あなたは多重対応分析を知っていますか
• 関心・興味
‒ あなたは投資信託に興味がありますか
• 好み・嗜好
‒ あなたが好きなテレビタレントを男女3人ずつあげてください
• イメージ
‒ あなたは長崎大学についてどんなイメージをお持ちですか。自由 にお答えください
• 好意
‒ 次の国についてあなたはどの程度親しみを感じますか
質問事項のいろいろ
続き• 感情
‒ あなたは「交通事故」についてどの程度不安を感じますか
• 保有・使用
‒ あなたはPDAを持っていますか
• 行為
‒ あなたはふだん運動をしていますか
• 経験
‒ あなたは黒埼茶豆を食べたことがありますか
• 満足
‒ あなたは現在の職場に満足していますか,それとも不満ですか
• 意向
‒ あなたは次回の参議院選挙で誰に投票するつもりですか
質問事項のいろいろ
続き• 予定
‒ 今年度内に温泉旅行に行く予定はありますか
• 要望
‒ 今後,政府に重点的にやってもらいたいと思うことを一つだけあ げてください
• 社会認識・自己認識
‒ あなたが日本の国や国民について誇りに思うことは何ですか
• 信念・信条・価値観
‒ あなたにとって一番大切と思うものは何ですか
• 賛否
‒ あなたは憲法改正に賛成ですか,反対ですか
回答形式のいろいろ
• 「はい,いいえ」回答
‒ 「〜ですか」
• 程度回答
‒ 「どの程度〜ですか」
‒ 1:非常に○○,2やや○○,3:やや ,4:非常に
• 選別回答
‒ 「あてはまるものに○をしてください」(SA)
• 選択回答
‒ 「〜と思うものはどれですか」(MA)
• 順位回答
‒ 「特に(最も,○○番目に)〜と思うものは何ですか」
• 想起回答
‒ 「〜の名前をあげてください」 (回答選択肢なし)
回答形式のいろいろ
続き• 数値回答
‒ 「いくら(単位)ですか」 (回答選択肢なし)
• 数値段階カテゴリ回答
‒ 「次の段階のどれですか」
‒ 1:年に一度程度,2:半年に一度程度,3:月に一度程度,4:週に一度程度
• 項目並列
‒ 「あてはまるものに○をつけてください」
‒ 一番こわいのは?,話しやすいのは?,,,
• 選択肢:1.父親,2.母親,3.兄弟,4.友人,5.先生,6.その他
• 尺度並列(ひとつの事柄について,複数の尺度,イメージなど)
‒ 焼酎のイメージついて
• 非常に○○ーややー普通ーややー非常に 非常に△△ーややー普通ーややー非常に□□
• 自由回答
‒ 「自由にお答えください」 (回答選択肢なし)
質問項目作成時の留意点
• 平易な用語を使用する
• 否定語を多用しない
• 文意は立場によって異なる
• 過去の記憶は正確ではない
• 回答を誘導しない
• 個人的な質問と社会的な質 問は区別
• ダブルバーレルは避ける
• 選択肢は過不足なく作成
• 形容詞や副詞,動詞を適切 に選択
• 質問の意図・観点を明確に
• 表現は丁寧に親しみやすく
• 選択肢は短く(冗長さの排 除)
• 評価の判断はバランスよく
• 既存項目の利用
• 声に出して読んでみる
• ステレオタイプ化された表 現は避ける
• 回答者の経験・知識を考慮
• 分岐用の項目は単純に
• 間接質問の利用
•
農産物の輸入自由化は食の安全性や農家の生活をおび やかすと思いますか•
おとといの夕食のメニューをお答えください•
たばこを吸わないことは生活習慣病にかからないように するためにそれほど重要ではない、という意見にどの程 度賛成しますか•
テロ特措法の延長についてどのように思われますか•
大地震が起これば周囲に放射能が漏れるかも知れない 原子力発電所ですが,あなたがお住まいの地域に原子 力発電所が建設されることに賛成ですか,それとも反対 ですか質問紙の構成
• 答えやすい質問をはじめに
• 関連のある質問はまとめて
• 重要な質問は中ほどに(疲れる前に)
• キャリーオーバー効果に注意
• ほどほどのボリューム
• フェイスシート(性,年齢,職業,未既婚等 の個人属性に関わる質問)を最後に
質問紙の形式
• 調査のタイトル・調査名
• 挨拶文
• 実施者
• 実施期間・実施日
• 記入上の注意
• 回収に関する注意
• 質問
挨拶文
• 何に関する調査か,その必要性はなにか
• どの程度の量なのか(時間で記述)
• なぜ選ばれたのか(標本抽出を伴う場合)
• 調査結果は何に使われるのか
• 個人情報の取り扱い方
• 責任の所在
• 長すぎず,丁寧に,よい印象を与えるよう
質問紙の吟味
スケールのデザイン:分割線の有無
分割線無しの方が 高い評定値となる
選択肢の配置による回答の違い
Q1. あなたはXX大学での教育をどのように評価しますか Q2. あなたはXX大学の学生の質をどのように評価しますか
・Excellent
・Very Good
・Good
・Fair
・Poor
・Excellent ・Good ・Poor
・Very Good ・Fair
・Excellent ・Very Good ・Good
・Fair ・Poor
1.Excellent 3.Good 5.Poor 2.Very Good 4.Fair
C V
V/N
H
入力欄の大きさの影響
• 「あなたが住んでいる建物の住人は,
10人中何人が次の人種ですか。」
‒ 人種のリスト,それぞれに入力欄
‒ 0-10の数字,あるいはDK,NAを入力
‒ 入力欄の大きさ:大,小
‒ 比較のためにラジオボタン
• 無効な入力の割合
‒ ラジオボタン=0.0%
‒ 入力欄(小)=11.3%,入力欄(大)=20.7%
「今年, 3 月 1 日以降,何回買い物に 行きましたか?」
洋服店 食料品店
分岐の形態とエラー生起
(Dillman他)
分岐形態の違いでエラーの生起率が異なる
質問項目が満たすべき基準
• 内容面での基準(content standard)
‒ まさに尋ねるべきことを尋ねているか
• 回答面での基準(cognitive standard)
‒ 回答者は理解できるか,回答者は回答に必要な情 報をもっているか,回答者に回答する意思と能力 があるか
• 実施面での基準(usability standard)
‒ 意図した通りに容易に実施できるか
質問項目の評価手法
• 専門家による検討
‒ 調査内容の専門家が質問が目的の構成概念を測定するのに適切かどうかを評価する
• フォーカスグループ
‒ 目標母集団に属する人をメンバーとするグループに半構造化された(フォーカスされ た)議論を行ってもらうことで,質問内容について回答者が何を知っているか,どの ような考えを持っているか,どんな語を用いるかなどを探る,
• 認知インタビュー
‒ 質問項目(案)を用いた個人面接を行い,回答者がどのように質問を理解し,どのよ うに回答に至るのか,その認知過程をさぐる
• 予備調査
‒ 実際の調査手順で小規模な調査を行う。調査員からの報告やデータ集計時のトラブル の有無,面接の記録などから実施を含めた調査全体に関する情報を得る
• ランダマイズ実験
‒ 同じものを測定する異なる言い回しの質問を用意し,予備調査でそれぞれ異なるグ ループに対して用い結果を比較する。
データの分析の前に
コードブック
• 質問項目作成時に準備しておく
‒ 質問項目が何を測定しようとしているか
‒ 質問項目の由来やソース
‒ 回答選択肢とそのコード,無回答のコードも
• 無回答に数字のコードを与えるのはとても危険
‒ 事後に与えられたコード
‒ その他もろもろの記録
データのまとめ方
• 質問紙の内容をチェック(エディティング)
‒ 白票(あるいはそれに近いものを取り除く
• 有効回収数(回収率)の確定
‒ 質問紙には通し番号をつける
• 回答のコーディング
‒ プリコード回答
• 基本は正確な転記,場合によっては新たなコード
‒ 「その他」
• 「その他」=>あてはまる回答があるケース
• 規則通りでない回答=>「その他」とすることも
‒ D.K.,N.A.
• 出現の頻度そのものが重要な情報
‒ 集計=>コーディング=>集計
「その他」「D.K.」「N.A.」
• 集計から安易に除かない
• データの性質についての重要な情報
‒ 「その他」=>適切な回答選択肢がなかった
‒ 「D.K.」, 「N.A.」 =>不適切な質問?
• 詳細な解析での扱いはケースバイケース
‒ 分析の目的による
‒ 統計ソフトがどのように扱うかを知っておくこと
欠損データの取り扱い
• 欠損データの生起タイプ
‒ Missing Completely At Random (MCAR)
‒ Missing At Random (MAR)
‒ Non Ignorable Missing
• 対処方法
‒ complete data analysis (listwise deletion)
‒ available-case methods (pairwise deletion)
‒ imputation (fill-in methods)
‒ direct methods
データの分析1
二変量間の関係を探る
質的データの要約と 二変量間の連関
• 基本は「数える」
‒ 単純集計:変数の整理
• 二変量間の連関
‒ ピアソンの積率相関係数は使えない
‒ クロス集計
• 行プロフィール、列プロフィール
• 二変量の連関の様子が確認できる
‒ 独立ではない→連関がある
単純集計
31.3
工学250
100.0 800
計
18.8 150
農学
12.5 100
文学
37.5 300
教育
% N
100.0
計800
37.5
女300
62.5 500
男
% N
学部別学生数集計 男女別学生数集計
クロス表(分割表)
800 250 150 100 300
計300 30 50 40 180
女220
工学500
計農学
100
60
文学120
教育男
100.0 100.0 100.0 100.0 100.0
計
37.5 12.0 33.3 40.0 60.0
女
88.0
工学62.5
計農学
66.7
60.0
文学40.0
教育男
N
表 %表(行100%
:行プロフィール)行プロフィールの図示
クロス表(分割表)
800 250 150 100 300
計300 30 50 40 180
女220
工学500
計農学
100
60
文学120
教育男
100.0 31.3 18.8 12.5 37.5
計
100.0 12.0 33.3 40.0 60.0
女
44.0
工学100.0
計農学
20.0
12.0
文学24.0
教育男
N
表 %表(列100%
:列プロフィール)列プロフィールの図示
クロス表に表れる2変数の連関
100.0 100.0 100.0 100.0 100.0
計
37.5 12.0 33.3 40.0 60.0
女
工学
88.0
計62.5
66.7
農学60.0
文学教育
40.0
男 表B
100.0 100.0 100.0 100.0 100.0
計
37.5 37.5 37.5 37.5 37.5
女
工学
62.5
計62.5
62.5
農学62.5
文学教育
62.5
男 表A
学部によって男女比に違いがない
→男女比は学部に関係しない
学部によって男女比が異なる
→男女比は学部と連関する
帯グラフ表示:表A
プロフィールは平行
帯グラフ表示:表B
独立ではない→関係がある
• 表A :学部と性別という2つの変数は無関係
→学部と性別は「独立」
‒ 性別の値(男か女か)は学部の値とは関係なく決まる
‒ 1つの変数は他方の変数の値に依存しない
• 独立な2つのサイコロ(A,B)
‒ Aの目はBの目と無関係に決まる
• 独立でない2つのサイコロ(C,D)
‒ Cの目が偶数のときDの目は奇数がよく出る
連関の程度を表す指標もある
• 基本はχ
2統計量:独立の状態からの距離
• クラメールの連関係数など
JMPで演習:cat.jmp
• 分析=>一変量の分布
! "
# $
! "
# $
%&
'()
*+
*+
,++
-.
+/*++++
+/*++++
,/+++++
0%
)1234 +
5 )'(
- . 6 ! 7 8
9 : "
;
<=
9 : "
;
<=
%&
'() 5>
,?
*@
,++
-.
+/5>+++
+/,?+++
+/*@+++
,/+++++
0%
)1234 +
A )'(
- . B C
JMPで演習:cat.jmp
• 分析=>二変量の関係
!"
#$##
#$%&
#$&#
#$'&
($##
) * + ,
- ) . /
0 1 * 2 34
!"#$
" %
& ' ()
*)+)) , (*+))
-.
,/+)) (0
-/+)) ((
**+))
*) .)+))
1) 1)
*0 (2 1. ())
34 56
78
9 : % ; <=
データの分析2
仮説を検証する
(χ
2による独立性の検定)
χ 2 検定(独立性の検定)
観測値の理論値からの
ズレの大きさに基づいて
2つの変量間の連関関係を調べる
ロジック
• χ
2値とは,ズレの大きさである
• 理論が正しくても観測値はある程度ズレる
(何事も理論どおりには行かない)
• あんまり大きなズレはめったに起こらない
• 観察されたズレがある大きさを超えれば 理論は成り立たないと考えよう
いかさまサイコロ?
• 正常なサイコロなら各目の出る確率は1/6と考えることができる
(=理論)
• 60回サイコロを振れば各目が10回ずつ出ることが期待される
(=理論値=期待値)
• もちろん,各目が必ず10回ずつ出るわけではない
• 実際に60回振ったら1の目が30回でた(=観測値)
• このときに,各目の出る確率を1/6と考えるのは不合理である
• いかさまサイコロだ!(=理論は成り立たない)
60回サイコロを振りました(1)
理論値とのズレ
2つの度数分布表のズレ
セルごとの「(観測値−理論値)^2/理論値」の総和
11 9
8 8
11 観測値 13
6 5
4 3
2 1
10 10
10 10
10 理論値 10
6 5
4 3
2 1
0.1 0.1
0.4 0.4
0.1 0.9
各セルのズレ
理論が正しいときに,
これ以上のズレが起こる 可能性(確率)は約0.85
理論が成り立っていない
(=いかさま)とは言えない
十分に起こりうることが 起こったに過ぎない
60回サイコロを振りました(2)
理論値とのズレ
2つの度数分布表のズレ
セルごとの「(観測値−理論値)^2/理論値」の総和
15 5
5 5
10 20
観測値
6 5
4 3
2 1
10 10
10 10
10 理論値 10
6 5
4 3
2 1
2.5 2.5
2.5 2.5
0 10
各セルのズレ
ズレの総和=χ
2=20
理論が正しいときに,
これ以上のズレが起こる 可能性(確率)は0.001程度
理論が成り立っていない
(=いかさま)と考える
ほとんど起こり得ない ことが起こった!!!
では本題:独立性の検定とは
• 2つの変量が独立である(=帰無仮説)
• 帰無仮説(=理論)が正しいときの分割表と 観測された分割表のズレの大きさを求める
• 帰無仮説が正しいとき(2つの変量が独立で あるとき),ある程度を超える大きさのズレ は非常に起こりにくい
• 計算された確率が小さい
=>2つの変量は独立ではない
=>2つの変量間には連関関係がある
54
晴
100 17
29 列計
50
顔洗いなし
50
顔洗いあり
雨
行計 理論値
くもり54 20 34
晴
100 17
29 列計
50 11
19
顔洗いなし
50 6
10
顔洗いあり
雨
行計 観測値
くもり27 8.5
14.5
27 8.5
14.5
1.81 1.81
晴
0.74
顔洗いなし
1.40
0.74
顔洗いあり
1.40
雨 くもり
各セルのズレ
セルごとの「(観測値‐理論値)^2/理論値」の総和
観測値と理論値(期待値)のズレ
ズレの総和=χ2=7.90
理論が正しい(天気と猫の顔洗いが独立)とき これ以上のズレが生じる確率は0.02程度
天気と猫の顔洗いには何らかの 関連があると判断しよう
検定仮説:
猫の顔洗いと天気とは独立である
!"#$
" %
& '
()
*)+)) (,+- (+./00
0 (*+)) 1+- )+2.-.
., 01+))
*2 (+1(,1 (/
.1+)) (,+- (+./00
((
**+)) 1+- )+2.-.
*) ,)+))
*2 (+1(,1
-)
-)
*/ (2 -, ())
34 56
78 9:;
<=>?@*A
B C % D EF
!"#
$%
&'()*+,- .
/0
1 23 24 566 789
:;6654<=
2>;12=465 22;12>3<:
(?5-@ABC9 6;6:6=
D1E(F-
C9G HIJKLMN OP
4;66:
<;42=
Q R 1 E
6;654=@
6;652=@
ST(HKMUVWXYZ[-
JMPで演習
:exampleData̲FD2007summer.jmp• 一変量の分布
‒ 量的変数,質的変数
• 二変量の関係
‒ 目的変数(量)=複数,説明変数(質)=兄弟姉 妹の有無
• ANOVA
‒ 目的変数(質)=楽しかった時期,説明変数
(質)=得意教科
• 分割表,χ2乗検定,対応分析
データの分析3
多変量データを探索する
多次元データ解析
• 多変量データ解析ともいう
‒ データの視点に立った解析法
• 多変量解析:モデルが大事
• 基準変数あり
‒ 量的変数:一般線形モデル/数量化I類
• 因子分析,SEM:観測されるのは基準変数のみ,説明変数は 潜在変数
‒ 質的変数:一般化線形モデル/数量化II類
• 基準変数なし
‒ 主成分分析
‒ 数量化III類,対応分析・多重対応分析,双対尺度法
‒ 多次元尺度構成法(MDS)
授業評価アンケートについての調査
問1:あなたの学部,学年,性別,学生番号を以下に記入してください.
なお,学生番号は記入してもよいと思う方だけで結構です.
学部( ) 学年( ) 性別( ) 学生番号( ) 問2:以下は,授業評価アンケート(マークシート,自由記述)についての意見です.
あなたの気持ちに近い意見を選んで( )に○をつけてください.○はいくつつけてもかまいません.
(1)アンケートは匿名で実施して欲しい ( )
(2)学籍番号を記入すると本音を書きにくい ( )
(3)成績に影響するのかも知れないので本音を書かない ( )
(4)アンケートに協力したくない ( )
(5)アンケートには関心がない ( )
(6)学籍番号を記入しなければ多くの人は無責任に答える ( )
(7)授業科目ごとのアンケート結果を公表して欲しい ( )
(8)アンケートの実施は授業改善につながっている ( )
(9)アンケート結果を有効に活用して欲しい ( )
(10)教官ごとのアンケート結果を公表して欲しい ( )
(11)学生番号を記入するのであれば自由記述アンケートは書かない ( )
(12)授業科目ごとのアンケート結果を履修の参考にしたい ( ) 問3:この授業の良かった点,改善すべき点について以下に自由にお書き下さい.
書く欄が足りない場合は用紙の裏を使って下さい.
項目選択率
(学籍番号記入の有無別)!"
!#
!$
%
$
#
"
&
' (
)*+#
,-./
0./
1234
#56 $56
"56
&56
78 98
. : ; <
. : = >
?@ABC D E F G H I J KLMNOPQ
R S > T I = J
UPV=J
WIMXYZ[
4\]^H_`
abcdHe=VfgJh ijklmn
,o]^H_`
.:pq=rFs=J
tuMvwH>TJ
?@ABCxyzDEFGHIJxyz KLMNOPQxyz
RS>TI=Jxyz UPV=Jxyz
WIMXYZ[xyz
4\]^H_`xyz
abcdHe=VfgJhxyz
ijklmnxyz ,o]^H_`xyz
.:pq=rFs=Jxyz
tuMvwH>TJxyz
!# !$ % $ #
) * + $
多重対応分析による 複数の質問のカテゴリの布置
多重対応分析プログラム crspWinについて
• 配布物
– プログラム本体,使い方,サンプルデータ(3種)
• 使い方
– データファイルを用意しプログラムと同じディレクトリに置く – アイコンをダブルクリックして起動
– データファイル名,行数,列数,求める次元数等を半角英数で正 しく入力
– 出力された数量化得点(標準化数量化得点)を用い,エクセルや その他のグラフ作成ができるソフトで作図
– 通常,各軸の固有値や寄与率も報告
• 二次配布はしないでください
• 対応分析・多重対応分析の詳細については以下を参照ください – 「記述的多変量解析法」,大隅他,日科技連,1994
引用・参考文献
• 社会調査ハンドブック
‒ 林知己夫(編),朝倉書店,2002
• Survey Methodology
‒ Groves・Fowler・Couper・Lepkowski・Singer・
Tourangeau,WILEY, 2004
• 調査法講義
‒ 豊田秀樹,朝倉書店,1998
• 調査の実際
‒ 林文・山岡和枝,朝倉書店,2002
• データの科学
‒ 林知己夫,朝倉書店,2001