• 検索結果がありません。

質問紙による収集データの 分析法

N/A
N/A
Protected

Academic year: 2021

シェア "質問紙による収集データの 分析法"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

質問紙による収集データの 分析法

吉村 宰

(アドミッションセンター)

2008年8月26日

長崎大学FD

課題探究・解決型授業の支援

1

概 要

はじめに

データの収集

データ分析の前処理 二変量データの分析

説明と演習:クロス表,カイ2乗,対応分析

多変量データの分析

説明と演習:多重対応分析

(2)

はじめに

3

データの分類

量的データ

比例尺度,間隔尺度

質的データ

順序尺度,名義尺度

本ワークショップ

で扱うデータ

(3)

データの収集

5

適切な質問紙の作成

綿密なデータ収集計画

何を明らかにしたいのか

考えられることをできるだけ盛り込みつつ ボリュームは適切な質問紙の作成

質問項目の作成

質問事項

回答形式

(4)

質問事項のいろいろ

認知・知識 関心・興味 好み・嗜好 イメージ 好意 感情

保有・使用 行為

経験 満足 意向 予定 要望

社会認識・自己認識 信念・信条・価値観 賛否

7

回答形式のいろいろ

「はい,いいえ」回答

「〜ですか」

程度回答

「どの程度〜ですか」

選別回答

「あてはまるものに○をしてください」

選択回答

「〜と思うものは何々ですか」

順位回答

「特に(最も,○○番目に)〜と思うものは何ですか」

想起回答

「〜の名前をあげてください」(回答選択肢なし)

(5)

回答形式のいろいろ  続き

数値回答

「いくら(単位)ですか」(回答選択肢なし)

数値段階カテゴリ回答

「次の段階のどれですか」  

項目並列

「あてはまるものに○をつけてください」

1.父親,2.母親,3.兄弟,4.友人,5.先生,6.その他

尺度並列(ひとつの事柄について,複数の尺度,イメージなど)

非常に○ーややー普通ーややー非常に 非常に□ーややー普通ーややー非常に△

自由回答

「自由にお答えください」(回答選択肢なし)

9

質問項目作成時の留意点

平易な用語を使用する 否定語を多用しない 文意は立場によって異なる 過去の記憶は正確ではない 回答を誘導しない

個人的な質問と社会的な質問は 区別

ダブルバーレルは避ける 選択肢は過不足なく作成 形容詞や副詞,動詞を適切に 選択

質問の意図・観点を明確に 表現は丁寧に親しみやすく 選択肢は短く(冗長さの排除)

評価の判断はバランスよく 既存項目の利用

声に出して読んでみる

ステレオタイプ化された表現は 避ける

回答者の経験・知識を考慮

フィルター項目は単純に

間接質問の利用

(6)

コードブックの作成

質問項目作成時に準備しておく

質問項目が何を測定しようとしているか 質問項目の由来やソース

回答選択肢とそのコード,無回答のコードも 無回答に数字のコードを与えるのはとても危険 事後に与えられたコードの説明

その他もろもろの記録

11

データ分析の前処理

(7)

データの整理・編集

質問紙の内容をチェック

白票(あるいはそれに近いもの)を取り除く

有効回収数(回収率)の確定

質問紙には通し番号をつける

回答のコーディング

プリコード回答

基本は正確な転記,場合によっては新たなコード

「その他」

「その他」=>あてはまる回答があるケース 規則通りでない回答=>「その他」とすることも

「DK」, 「NA」

出現の頻度そのものが重要な情報

集計=>コーディング=>集計

13

その他,DK,NA,欠測値

集計から安易に除かない

データ収集方法についての重要な情報

「その他」=>適切な回答選択肢がない

「DK」「NA」 =>不適切な質問?

詳細な解析での扱いはケースバイケース

分析の目的による

統計ソフトが欠測値をどのように処理してるかを

知っておくことが必要

(8)

欠測値の扱い

リストワイズ消去

完全データだけを使う(ケース丸ごと消去)

ペアワイズ消去

欠測値がある変数だけを使わない

決めつけ処理

特定の値を代入する

モデルに基づく推測

15

二変量データの分析

(9)

1.データの要約

基本は「数える」

単純集計:一変量ごとの要約

二変量データの要約

クロス集計

行プロフィール,列プロフィール モザイク図

17

単純集計

31.3

!" 250

100.1

# 800

18.8

$% 150

12.5

&' 100

37.5 (' 300

% N

学部

100.1

! 800

36.3

" 290

63.8

# 510

% N

・変数 性別

・質問項目

カテゴリ

(10)

クロス表(N表)

800 250 150 100 300

!

290 100 90 40 60

"

#$ 150

! 510

%& 60 '( 60 )( 240

*

19

クロス表(%表)

列プロフィール

100.1 31.3 18.8 12.5 37.5

!

100.0 34.5 31.0 13.8 20.7

"

#$ 29.4

100.1

!

%& 11.8 '( 11.8 )( 47.1

*

行プロフィール

100.1 100.0 100.0 100.0 100.0

!

36.3 40.0 60.0 40.0 20.0

"

#$ 60.0

! 63.8

%& 40.0 '( 60.0 )( 80.0

*

(11)

プロフィールの図示

0%

20%

40%

60%

80%

男 女

工学 医学 教育

経済

0%

10%

20%

30%

40%

50%

工学 医学 教育 経済

男 女

21

モザイク図

0%

20%

40%

60%

80%

100%

工学 医学 教育 経済

男 女

(12)

2.二変量の独立と連関

二変量が独立

一方の変量の値が他方の変量の値に依存しな い状態。

クロス表のセルの相対頻度が周辺相対頻度の 積で表せる状態。

独立ではない=>連関がある

23

独立なクロス表

% 男 女 計 工学 63.8 36.3 100 医学 63.8 36.3 100 教育 63.8 36.3 100 経済 63.8 36.3 100 計 63.8 36.3 100

人数 男 女 計

工学 191 109 300

医学 64 36 100

教育 96 54 150

経済 159 91 250

計 510 290 800

プロフィールが同じ プロフィールが同じ

(13)

独立なクロス表

% 男 女 計

工学 37.5

医学 12.5

教育 18.8

経済 31.3

計 63.8 36.3 100

周辺分布

周辺分布

男 女 計 工学 a*x a*y a 医学 b*x b*y b 教育 c*x c*y c 経済 d*x d*y d 計 x y 1 性別と学部の同時分布 同時分布が周辺分布の積で表される

25

3.χ 2 距離 χ 2 (カイ二乗)

2つの分布間の距離

(分布Xのセルa-基準分布Aのセルa)^2   基準分布Aのセルa

のすべてのセルについての総和

独立な分布との  χ 距離が大

=>独立な状態から遠い=連関あり

(14)

4.独立性の検定 χ を利用した仮説検定

二変量が独立であるという仮説を検 定する。

仮説が棄却される

 =>独立であるとは言いがたい=連関あり 仮説が棄却されない

 =>連関あるとは言えない

27

天気

0.00 0.25 0.50 0.75 1.00

くもり 雨 晴れ

猫の顔洗いと天気 (catP.jmp)

クロス表

(度数)

天気 計

晴れ 曇り 雨 顔

洗い

あり 34 10 6 50 なし 20 19 11 50

猫の顔洗いと天気に連関があるか

検定仮説:顔洗いと天気は独立である

(15)

χ 2  を求める

クロス表

(度数)

天気 計

晴れ 曇り 雨 顔

洗い

あり 34 10 6 50 なし 20 19 11 50 計 54 29 17 100

観測値

クロス表

(度数)

天気 計

晴れ 曇り 雨 顔

洗い

あり 27 14.5 8.5 50 なし 27 14.5 8.5 50 計 54 29 17 100

独立の場合

独立の状態からの距離=χ 2 =7.9

29

χ 2  分布から確率を求める

母集団において独立な二変量 2 3クロス表

このとき,無作為標本におけるχ 2 は 自由度2のχ 2 分布に従う

χ 2 分布:確率分布の一種

自由度2のχ 2 分布で

χ 2 7.9となる確率p=0.018

(16)

仮説を検定する

「二変量が独立である」という仮説 が正しいとき,χ 2 7.9となる確率 は,0.02程度である。

       ↓

「独立である」という仮説を棄却,

すなわち,二変量には連関がある。

31

5.JMPで演習-1

[分析]→[一変量の分布]

顔あらい,天気を選択(shift+クリック)

[Y,列]をクリック [OK]をクリック

あり なし

水準 度数 割合

度数 顔あらい

晴れ くもり 雨

水準 度数 割合

度数 天気

(17)

JMPで演習  続き

[分析]→[二変量の関係]

[顔あらい]を選択→[X,説明変数]をクリック [天気]を選択→[Y,目的変数]をクリック [OK]をクリック

顔あらい

あり

なし 34 34.00 62.96 68.00

10 10.00 34.48 20.00

6 6.00 35.29 12.00 20

20.00 37.04 40.00

19 19.00 65.52 38.00

11 11.00 64.71 22.00

50 50.00

50 50.00

54

54.00 29

29.00 17

17.00 100 度数 天気

全体%% 行%

晴れ くもり 雨 分割表

モデル誤差 全体(修正済み) N

要因 2

96 98 100

自由度 4.001873 95.293801 99.295674 (-1)*対数尤度

0.0403 R2乗(U)

尤度比Pearson

検定 8.004

7.893 カイ2

0.0183*

0.0193*

p(Prob>ChiSq) 検定

33

6.対応分析

独立性の検定

独立か否かという判断のみ

対応分析

それぞれの変数のカテゴリ間の関連が どうなっているかを知るのに便利

プロフィールが似ているものは近い位置に プロットされる

行・列それぞれのカテゴリの特徴を

把握しやすい

(18)

実演

sampleData̲FD2008summer.jmp 回答者:大学生249名

質問項目

楽しかった時期:幼稚園,小,中,高(4水準)

得意科目:国語,社会,数学,理科,英語(5水準)

楽しかった時期

幼稚園 小学校 中学校 高校

4 6.45 28.57

2 7.41 14.29

7 6.86 50.00

1 5.00 7.14

0 0.00 0.00 5

8.06 15.63

6 22.22 18.75

15 14.71 46.88

2 10.00 6.25

4 10.53 12.50 12

19.35 25.53

7 25.93 14.89

14 13.73 29.79

4 20.00 8.51

10 26.32 21.28 41

66.13 26.28

12 44.44 7.69

66 64.71 42.31

13 65.00 8.33

24 63.16 15.38

14 32 47 156

62 27 102 20 38 249

度数 得意科目 列%行%

英語 数学 国語 理科 社会 分割表

モデル誤差 全体(修正済み) N 要因

12 233 245 249 自由度

6.57195 352.51375 359.08570 (-1)*対数尤度

0.0183 R2乗(U)

尤度比 Pearson 検定

13.144 11.084 カイ2乗

0.3587 0.5218 p値(Prob>ChiSq)

警告: セルのうち20%の期待度数が5未満です。カイ2乗に問題が ある可能性があります。

検定

35

二変量のカテゴリの同時布置図

-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4

c1

幼稚園

小学校

中学校 高校英語

数学

国語

理科

社会

-0.4 -0.3 -0.2 -0.1 .0 .1 .2 .3 .4

c2 楽しかった時期 得意科目

0.14589 0.14002 0.06020

特異値 0.02128 0.01961 0.00362

慣性 0.4782 0.4404 0.0814

割合 0.4782 0.9186 1.0000 累積

幼稚園小学校 中学校 楽しかった時期

0.3572 0.2729 -0.1249 c1

-0.1686 0.1690 0.2250 c2

0.1840 -0.0813 0.0597 c3

英語数学 国語 得意科目 -0.0854

0.2216 0.1020 c1

-0.0818 0.3185 -0.0881 c2

0.0844 0.0518 -0.0443 c3 詳細

対応分析

楽しかった時期

幼稚園 小学校 中学校 高校

4 28.57

2 14.29

7 50.00

1 7.14

0 0.00 5

15.63 6

18.75 15

46.88 2

6.25 4

12.50 12

25.53 7 14.89

14 29.79

4 8.51

10 21.28 41

26.28 12 7.69

66 42.31

13 8.33

24 15.38

14 32 47 156

62 27 102 20 38 249

度数 得意科目

% 英語 数学 国語 理科 社会

行%

楽しかった時期

幼稚園 小学校 中学校 高校

4 6.45

2 7.41

7 6.86

1 5.00

0 0.00 5

8.06 6 22.22

15 14.71

2 10.00

4 10.53 12

19.35 7 25.93

14 13.73

4 20.00

10 26.32 41

66.13 12 44.44 66

64.71 13 65.00 24

63.16 14 32 47 156

62 27 102 20 38 249

度数 得意科目

列% 英語 数学 国語 理科 社会

列%

(19)

やや詳細な説明

中学校 高校 小学校 幼稚園 計 c1̲教科

社会 10 24 4 0 38 -0.2466

理科 4 13 2 1 20 -0.0863

英語 12 41 5 4 62 -0.0854

国語 14 66 15 7 102 0.102

数学 7 12 6 2 27 0.2216

計 47 156 32 14 249

c1̲時期 -0.1249 -0.0504 0.2729 0.3572

各カテゴリに数値が付与される点がポイント

37

特異値:与えられた数値による相関

教科 時期 度数 c1̲教科 c1̲時期

英語 幼稚園 4 -0.0854 0.3572

数学 幼稚園 2 0.2216 0.3572

国語 幼稚園 7 0.102 0.3572

理科 幼稚園 1 -0.0863 0.3572

社会 幼稚園 0 -0.2466 0.3572

英語 小学校 5 -0.0854 0.2729

数学 小学校 6 0.2216 0.2729

国語 小学校 15 0.102 0.2729

理科 小学校 2 -0.0863 0.2729

社会 小学校 4 -0.2466 0.2729

英語 中学校 12 -0.0854 -0.1249

数学 中学校 7 0.2216 -0.1249

国語 中学校 14 0.102 -0.1249

理科 中学校 4 -0.0863 -0.1249

社会 中学校 10 -0.2466 -0.1249

英語 高校 41 -0.0854 -0.0504

数学 高校 12 0.2216 -0.0504

国語 高校 66 0.102 -0.0504

理科 高校 13 -0.0863 -0.0504

社会 高校 24 -0.2466 -0.0504

• c1̲教科とc1̲時期の相関

=1番目の特異値=0.146

• c2̲教科とc2̲時期の相関

=2番目の特異値=0.140

(20)

慣性(固有値)とχ

2

慣性:固有値

慣性=特異値の二乗

慣性の総和 N=ピアソンのχ 2

主成分分析と同じ手法で,

独立からの距離を説明していると言える

寄与:総和=1

各軸が全体の連関をどの程度説明するかの 指標となる

39

7.JMPで演習-2

チーズ.jmp

4種類のチーズの評価 値が高いほど良い評価

[分析]→[二変量の関係]

[評価]を選択→[Y,目的変数]をクリック  [チーズ]を選択→[X,説明変数]をクリック  [度数]を選択→[度数]をクリック

OKをクリック

(21)

モデル誤差 全体(修正済み) N

要因 24

176 200 208

自由度 84.38105

345.51986 429.90090 (-1)*対数尤度

0.1963 R2乗(U)

尤度比Pearson

検定 168.762

162.482

カイ2乗 <.0001*

<.0001*

p値(Prob>ChiSq)

警告: セルのうち20%の期待度数が5未満です。カイ2乗に問題が ある可能性があります。

検定

0.73609 0.42010 0.25070 特異値

0.54183 0.17649 0.06285 慣性

0.6936 0.2259 0.0805 割合

0.6936 0.9195 1.0000 累積

A B C D

チーズ -0.3763 0.9553 0.3981 -0.9771 c1

-0.2528 0.4728 -0.5540 0.3340 c2

-0.3865 -0.0554 0.2467 0.1952 c3 1 2 3 4 5 6 7 8 9

評価 1.190

1.222 0.964 0.507 0.328 -0.065 -0.623 -0.991 -1.259 c1

0.7764 0.8811 0.2628 -0.0588 -0.6068 -0.0617 -0.1480 0.2634 0.6786 c2

-0.0490 -0.1006 0.0900 -0.1693 0.2705 -0.0472 -0.3510 0.0443 0.5852 c3 詳細

• チーズの評価は高い順にD,A,C,Bとなっている

• 第1軸はチーズの評価の軸

• 第1軸で連関の69%を説明できる

41

多変量データの分析

(22)

多重対応分析

多変量のカテゴリをひとまとめにし てクロス表を作り,その対応分析を 行なう手法

解釈等は二変量の対応分析と同じ SAS, SPSS, Rなどで実行可能

JMPではできない

43

crspWin1.1

多重対応分析のプログラム

カテゴリ数量,サンプル数量を計算 自身のために作成

データファイルを作成するのが面倒です

二次配布はご遠慮ください

3種のデータタイプに対応

クロス表

カテゴリ型データ(調査型データ)

(23)

データタイプの説明少し

サンプル番号 Q

1 1

2 2

3 3

4 2

5 2

6 1

7 3

8 1

9 3

10 2

カテゴリ型,調査型データ

Q

サンプル番号 1 2 3

1 1 0 0

2 0 1 0

3 0 0 1

4 0 1 0

5 0 1 0

6 1 0 0

7 0 0 1

8 1 0 0

9 0 0 1

10 0 1 0

アイテム-カテゴリ型,二値型データ

45

使い方

プログラムとデータを同じディレクトリに置く プログラムをダブルクリック

データファイル名を入力 データ形式の指定

行数の入力 列数の入力

カテゴリ数量を求める次元数の入力

(行数,列数の少ない方-1)次元まで

(24)

crspWin1.1起動画面

「1」を入力で計算開始

47

出力ファイル

固有値

全固有値,寄与率,累積寄与率を確認

固有ベクトル(利用しない)

数量化得点(ほとんど利用しない)

標準化数量化得点(求めたかった数値)

AIC指標(二変量の連関の指標)

独立モデルと連関モデルでどちらが尤もらしいか 値が正で大きいほど連関モデルが尤もらしい

FisherExactTest

カテゴリが2水準の変数間の連関の確率

クラメール連関係数(二変量の連関の指標)

カテゴリ型 調査型データの

場合のみ

(25)

crspWinを使った実習

データ:2008年度新入生を対象とした広報に関する調査

kouhou1574̲34.txt(カテゴリ型・調査型データ)

教養特別講義の第1回目(4/11・2限,4/14・2限,4/16・3限)

手順

1. データファイル作成(作成済みを配布,説明のみ)

• 広報調査分析データ.xls

2. 布置図用にカテゴリラベル作成(作成済みを配布,説明のみ)

• 広報調査分析データ.xls

3. 出力ファイルの中身を確認(エクセルを利用)

• 固有値,AIC指標,標準化数量化得点 4. 標準化数量化得点ファイルをJMPに読み込む 5. カテゴリラベルをコピー&ペースト

6. 二変量の布置図を作成,変数間の連関を解釈

49

探索的に解析

AIC指標,FisherExactTestの利用 JMPの操作

ラベルの設定 外れ値の除外

ラベルの表示・非表示 色やマーカーの利用

[分析]→[二変量の関係]:同布置図

[グラフ]→[回転プロット]:3次元布置

(26)

それではやってみましょう

多重対応分析解説を参照 自分なりの分析

変数を2〜4に絞り込む

カテゴリ数が多くなると図が見づらい

いろいろな組み合わせ

発見を箇条書きにして発表

布置図の作成と読み取れること

51

布置図と解釈例

オープンキャンパスや説明会 に参加して受験校が決まるの ではなく,比較的早期に長崎 大学受験を決めた者がそれら に参加する。

AO入試や推薦入学による入 学者にその傾向が強い。

また彼らはそれらへの参加

が「一般的に」受験校選びに

影響を与えると考えている。

(27)

おつかれさまでした。

53

参照

関連したドキュメント

身体主義にもとづく,主格の認知意味論 69

テ手術後白血球敷ノ」曾加シ,白血球百分率二於

HORS

※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

三好市三野体育館 三好市三野町芝生 1293 番地 30 三好市屋内ゲートボール場「すぱーく三野」 三好市三野町芝生 1283 番地 28 三好市三野サッカー場

電子式の検知機を用い て、配管等から漏れるフ ロンを検知する方法。検 知機の精度によるが、他

実効性 評価 方法. ○全社員を対象としたアンケート において,下記設問に関する回答