• 検索結果がありません。

XX data 03.xls sheet(1) data 03.xls sheet(1) 2 1. n 1 2. m 1 3. O 11 O

N/A
N/A
Protected

Academic year: 2021

シェア "XX data 03.xls sheet(1) data 03.xls sheet(1) 2 1. n 1 2. m 1 3. O 11 O"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

1

経済情報処理 講義ノート

5

回 質的データの分析

2017

5

8

日 (月)

4

担当教員: 唐渡 広志 website: http://www3.u-toyama.ac.jp/kkarato/ email: kkarato@eco.u-toyama.ac.jp

目次

1 質的データの整理 2 1.1 クロス集計表の作成 . . . 2 1.2 IF関数 . . . 3 1.3 ピボットテーブル. . . 4 2 分布の検定 6 2.1 母比率の適合度検定 . . . 6 2.2 独立性の検定 . . . 9

(2)

1 質的データの整理 2

1

質的データの整理

1.1

クロス集計表の作成

表1は20XX年度の統計学受講者について,性別や学年ごとの人数を集計した結果である。例 えば,2年の男性は63人,3年の女性は31人受講していた。また,学年に関係なく女性の受講者 数は45人であり(合計欄),性別に関係なく4年生の受講者数は23人であったことが示されてい る。「性別」と「学年」のように異なる二つの情報を交差させて集計した表をクロス集計表とよぶ。 表1 統計学受講者の性別と学年 学年 2年 3年 4年 合計 男性 63 74 20 157 性別 女性 11 31 3 45 合計 74 105 23 202   例題 1 data 03.xls sheet(1)のデータは,性別と喫煙しているかどうかを聞いたアンケー トの結果である。クロス集計表を作成しなさい。   data 03.xls sheet(1)のように「性別」と「喫煙」という二つの質的なデータを利用して,ク ロス集計表(表2を参照)を完成させよう。 作成方法のアウトラインは次のようになる。 1. 性別「男性」の人数を求める。n1 2. 喫煙「する」の人数を求める。m1 3. 性別「男性」かつ喫煙「する」の人数を求める。O11 必要な情報は以上である。残りのO12, O21, O22, n2, m2は以下の計算から自動的に求めることが 表2 性別と喫煙 喫煙 する しない 合計 男性 O11 = 3 O12 = 4 n1= 7 性別 女性 O21 = 1 O22 = 2 n2= 3 合計 m1= 4 m2= 6 N = 10

(3)

1 質的データの整理 3 できる。 O12 = n1− O11 O21 = m1− O11 n2= N− n1 m2= N− m1 O22 = n2− O21 (または O22= m2− O12) 事象X(性別)の要素が{x1, x2,},事象Y(喫煙の有無)の要素が{y1, y2}であるとき,2× 2 (升目が4つ)のクロス集計表を作ることができる。この四つの升目のうち,真に必要な情報は一 つで十分である。K× L のクロス集計表の場合は(K − 1) × (L − 1)個の情報が分かっていれば よいので,自由度は(K− 1) × (L − 1) である。

1.2

IF

関数

集計を行う場合,文字の情報を計算可能な数値に変換しておくと便利である。ここでは,「性別」 が「男性」ならば1,そうでなければ0となる2値変数x1,や「喫煙」が「する」ならば1,そう でなければ0となる2値変数y1などを作成してみよう。このような,条件によって異なる値に変 換するにはIF関数を利用する。IF関数の記述は   = if( 論理式, 論理式が真のときの値, 論理式が偽のときの値 )   である.例えば, = if( 3 + 2 = 5, 1,0 ) と入力すると,論理式3 + 2 = 5は真であるから,論理式が真のときの値= 1が返される.また, = if( 3 + 2 = 3, "真","偽" ) と入力する場合は,論理式3 + 2 = 3は偽であるから,論理式が偽のときの値= ”偽”が返される. なお,関数で文字を扱う場合には,”文字”のようにダブル・クォーテーションで括る必要がある. 2値変数x1は x1= { 1, 男性のとき 0, 女性のとき 「性別」が「男性」ならば1,そうでなければ0 であるので,data 03.xls sheet(1)F4番地に   = IF ( C4 = "男性", 1, 0 )   と入力する。また,2値変数y1は 「喫煙」が「する」ならば1,そうでなければ0 であるので,G4番地に

(4)

1 質的データの整理 4   = IF ( D4 = "する", 1, 0 )   と入力する。x1 の合計値n1 は男性の人数を示しており,y1 の合計値m1 は喫煙者の人数を示し ている。さらに, 「性別」が「男性」で,かつ「喫煙」が「する」のとき1,そうでなければ0 となる2値変数を作るには,   = IF ( F4 + G4 = 2, 1, 0 )   を入力すればよい。こうすれば,x1= 1とy1= 1が同時に成り立つときだけ1となる2値変数に なる(x1i+ y1i = 2となるとき1,そうでなければ0となる変数)。このH列の合計がO11である。   問題 1 data 03.xls sheet(2)のデータは,T大学学生の通学手段を調べた結果である。性 別と通学手段(徒歩,自転車,電車)のクロス集計表を作成しなさい。 解答例 通学手段 徒歩 自転車 電車 合計 性別 男性 46 39 21 106 女性 13 6 15 34 合計 59 45 36 140  

1.3

ピボットテーブル

Excelにはピボットテーブルという独自のクロス集計機能が備わっている。この機能を用いる と,IF関数を使わなくても同様なクロス集計表を簡単に作成することができる。   例題 2 data 03.xls sheet(2)のデータについて,ピボットテーブルを利用してクロス集計 表を作成しなさい。   ■ピボットテーブルによるクロス集計の手順 「性別」「通学手段」のデータ系列を変数名も含めて選択状態にする。 「挿入」タブのピボットテーブルをクリックしてデータ範囲が選択されていることを確認し てOK(図1)。 新しいシートが開いたら,画面右端に表示される「ピボットテーブルのフィールドリスト」 の変数名を空白のクロス集計表にドラッグする。 「性別」を「行ラベル」のフィールドに,「通学手段」を「列ラベル」のフィールドに,最後 にもう一度「性別」を「値」フィールドにドラッグする(図2)。

(5)

1 質的データの整理 5 図1 「挿入」タブ–ピボットテーブル 図2 行,列,値フィールドへのドラッグ   問題 2 data 03.xls sheet(3)のデータは,20および30歳代の男女についての主観的幸福 度(質問:「全体として,あなたは現在幸せですか」) 1 不幸せ 2 どちらかといえば不幸せ 3 どちらともいえない 4 どちらかといえば幸せ 5 幸せ を調査した結果である。 主観的幸福度と年齢のクロス集計表を作成しなさい。 主観的幸福度と性別のクロス集計表を作成しなさい。  

(6)

2 分布の検定 6   問題 3 data 03.xls sheet(5)のデータは,中部地方の労働者の年収(2005年)を示して いる。 「居住地」と「最終学歴」をクロスさせて,その度数を求めなさい。 「最終学歴」と「年齢階級」をクロスさせて,その度数を求めなさい。 「最終学歴」と「年齢階級」をクロスさせて,各クロス項の「年収」の平均を計算しな さい。 「個住地」と「年齢階級」をクロスさせて,各クロス項の「年収」の平均を計算しなさい。 「年齢階級」と「年収階級」をクロスさせて,その度数を求めなさい。 「居住地」と「年収階級」をクロスさせて,各クロス項の「年齢」の平均を計算しなさい。  

2

分布の検定

2.1

母比率の適合度検定

観測値の数がN の標本について,ある変数がm個のカテゴリーに分解できるものとしよう。各 カテゴリーの母集団比率p1, p2,· · · , pmについて,帰無仮説 H0: p1= p10, p2= p20,· · · , pm= pm0 を検定する(母比率の適合度検定)。観察された実際の度数をO1, O2,· · · , Om 期待度数をE1 = N p10, E2= N p20,· · · , Em= N pm0 とする。検定統計量は Q = mj=1 (Oj − Ej)2 Ej 自由度m− 1χ2分布 (1) である。適合度検定は,観察された実際の度数と(帰無仮説を仮に正しいと考えたときの)期待度 数に差があるかどうかを調べる検定である。あまりにも差が大きい場合は,帰無仮説を仮に正しい と考えたこと自体が誤りであり,帰無仮説を棄却する。逆に,差がそれほど大きくない場合は,帰 無仮説が正しいという考えを否定するには証拠不十分となる。   例題 3 data 03.xls sheet(6)のデータは,都市Aに住む360人の男性(年齢25-29歳)を 対象として就業状況の調査を行った結果である。 就業状況 都市A [人] 全国[%] 正規雇用者 220 62 非正規雇用者 99 31 失業者 41 7 合計 360 100 問. 都市Aの就業状況は全国の調査結果と同じと言ってよいだろうか。有意水準5%で仮説 検定しなさい。  

(7)

2 分布の検定 7 例題3の整理 帰無仮説は「都市Aの就業状況は全国のそれと同じ」,対立仮説は「都市Aの就業状況は全国の それと異なる」である。したがって,帰無仮説は全国水準より H0: p1= 0.62, p2= 0.31, p3= 0.07 と書ける。ここで,p1, p2, p3 は都市Aの就業状況を示した母比率である。3つのカテゴリー(正 規雇用者,非正規雇用者,失業者)について,観測された実際の度数と期待度数に差があるかどう かを検定する。観測された実際の度数は都市Aで観察されたデータである。 O1= 220 (実際の度数1) O2= 99 (実際の度数2) O3= 41 (実際の度数3) このときデータサイズはN = 220 + 99 + 41 = 360[人]である。都市Aの度数が全国と同じある ならば,各カテゴリーの割合は全国のそれに等しいことが期待されるので,期待度数は E1= 360× 0.62 = 223.2 (期待度数1) E2= 360× 0.31 = 111.6 (期待度数2) E3= 360× 0.07 = 25.2 (期待度数3) となる。これらの値を利用して,(1)の検定統計量を計算することができる。カテゴリー数が m = 3のとき,自由度 3− 1 = 2χ2 分布の有意水準5%臨界値はχ2 0.05,2 = 5.991であるから, Q > 5.991のとき帰無仮説を棄却する。このように検定統計量Qが棄却域に入れば「都市Aの就 業状況は全国のそれと異なる」ことが主張される。 計算結果   検定統計量: Q = (220− 223.2) 2 223.2 + (99− 111.6)2 111.6 + (41− 25.2)2 25.2 = 11.37480799 有意水準: 0.05 カテゴリー数: m = 3 自由度: m− 1 = 2 臨界値: CQ = 5.991464547   以上の計算から検定統計量は臨界値の値よりも大きいので,帰無仮説を棄却する。すなわち,都市 Aの就業状況は全国的な就業状況と同じであるとは言えない(都市Aの就業状況は全国的な就業 状況と有意に異なる)。 χ2分布の臨界値: CHIINV関数を利用   = chiinv(有意水準,自由度)  

(8)

2 分布の検定 8 図3 CHITEST関数によるp値の計算 図4 自由度2のχ2分布: 有意水準5%の臨界値 0 5 10 15 0.0 0.1 0.2 0.3 0.4 0.5 x f(x) 0.05 chiinv(0.05,2)=5.991 χ2分布のp(1): CHIDIST関数を利用   = chidist(検定統計量,自由度)   Q = 11.37480799のとき,p値は0.003388378となる(0.338%).有意水準の0.05よりも値は十

(9)

2 分布の検定 9 分に小さいので,検定統計量は棄却域に入っていることがわかる。 χ2分布のp(2): CHITEST関数を利用   = chitest(実際の度数,期待度数)   CHITEST関数は実際の度数と期待度数を指定することで,自動的にp値計算する関数である. このp値から検定統計量Qを逆算することもできる. = chiinv(p値,自由度) 以上のことから次のように使い分けることができる. p= chidist(Q,自由度) Q = chiinv(p,自由度)   問題 4 data 03.xls sheet(7)のデータは,北陸地方の世帯年収を示している。 問. 北陸地方の世帯年収は全国の調査結果と同じと言ってよいだろうか。有意水準5%で仮 説検定しなさい.   計算結果   検定統計量: Q = 5.128235775 有意水準: 0.05 カテゴリー数: m = 7 自由度: m− 1 = 6 臨界値: CQ= 12.59158724   検定統計量は(臨界値よりも小さいため)棄却域に入らないので,帰無仮説を棄却できない。結 論として,北陸地方の世帯年収が全国の調査結果と異なるとはいえない。なお,検定のp値は 0.527474409であり,有意水準0.05よりも大きい。

2.2

独立性の検定

K(行)× L(列)のクロス集計表が各カテゴリー間で独立かどうかを調べるには,自由度 (K− 1)(L − 1)χ2分布を利用する。

(10)

2 分布の検定 10   例題 4 data 03.xls sheet(8)のデータは,ある大学のN = 25人の学生の通学元を調べ, 性別とクロスさせた表である。 自宅 下宿 男性 5 10 女性 6 4 問. 性別と通学元の間には何か関係があるだろうか。有意水準5%で検定しなさい.   例題4の整理 2× 2のカテゴリー((男性,女性)× (自宅,下宿))について,実際の度数と期待度数に差がある かどうかを検定する。実際の度数はクロス集計表で観察されたデータである。 ( 実際の度数11 実際の度数12 実際の度数21 実際の度数22 ) = ( O11 O12 O21 O22 ) = ( 5 10 6 4 ) (2) このときデータサイズは N = 5 + 10 + 6 + 4 = 25[人]である.性別と通学元がまったく独立の 関係にあるならば,周辺確率の積は同時確率に等しくなっているはずである.独立であると仮定す ると, Pr(男性,自宅) = Pr(男性)× Pr(自宅) = 15 25 × 11 25 = 0.264 Pr(男性,下宿) = Pr(男性)× Pr(下宿) = 15 25 × 14 25 = 0.336 Pr(女性,自宅) = Pr(女性)× Pr(自宅) = 10 25 × 11 25 = 0.176 Pr(女性,下宿) = Pr(女性)× Pr(下宿) = 10 25 × 14 25 = 0.224 であるから,期待度数{Eij}は ( 期待度数11 期待度数12 期待度数21 期待度数22 ) = ( Pr(男性,自宅)× N Pr(男性,下宿)× N Pr(女性,自宅)× N Pr(女性,下宿)× N ) = ( 6.6 8.4 4.4 5.6 ) (3) である。 検定統計量は次のように計算する. Q = Ki=1 Lj=1 (実際の度数ij 期待度数ij)2 期待度数ij 自由度(K− 1)(L − 1)χ 2分布 (4) Q = Ki=1 Lj=1 (Oij− Eij)2 Oij ここでKは表側カテゴリー数,Lは表頭カテゴリー数を示している.K = 2, L = 2のとき,自由 度(2− 1) × (2 − 1) = 1χ2分布の5%臨界値は3.841であるから,Q > 3.841のとき帰無仮説 を棄却する。Qが棄却域に入れば「性別と通学元は独立でない」ことが主張される。Qが棄却域に 入らなければ「性別と通学元は独立である」ということになる。

(11)

2 分布の検定 11 計算結果   検定統計量: Q = (5− 6.6) 2 6.6 + (10− 8.4)2 8.4 + (6− 4.4)2 4.4 + (4− 5.6)2 5.6 = 1.731601732 有意水準: 0.05 表側カテゴリー数: K = 2 表頭カテゴリー数: L = 2 自由度: (K− 1)(L − 1) = 1 臨界値: CQ = 3.841459149   ここで,臨界値CQχ20.05,1のことであるから, = chiinv(0.05,1) より計算できる。以上の計算から検定統計量は臨界値の値よりも小さいので,帰無仮説を棄却する ことができない。すなわち,「性別と通学元は独立である」ことが主張される。 なお,このときのp値は = chidist(検定統計量,自由度) よりPr(1.731601732 < χ2) = 0.188206555となる(18.82%)。有意水準5%よりも大きな値であ るから,帰無仮説を棄却できないことがわかる。 = chitest(実際の度数,期待度数) を利用してもp値を計算できる。   問題 5 data 03.xls sheet(4)のデータを利用して,「性別」と「通学元」の間に関係性があ るかどうか独立性の検定によって調べなさい。ただし,有意水準は5%とする。  

参照

関連したドキュメント

6/18 7/23 10/15 11/19 1/21 2/18 3/24.

For best postemergence weed control, activate Pruvin in the soil with rainfall or sprinkler irrigation of 1/3 to 1” (sandy soils apply at least 1/3”, sandy loams apply at least

For best results with SOLIDA herbicide postemergence, rainfall or sprinkler irrigation of 1/3 to 1 inch (sandy soils apply at least 1/3 inch, sandy loams apply at least 1/2 inch,

タッチON/OFF判定 CinX Data Registerの更新 Result Data 1/2 Registerの更新 Error Status Registerの更新 Error Status Channel 1/2 Registerの更新 (X=0,1,…,15).

作業項目 11月 12月 2021年度 1月 2月 3月 2022年度. PCV内

画像 ノッチ ノッチ間隔 推定値 1 1〜2 約15cm. 1〜2 約15cm 2〜3 約15cm

8月 9月 10月 11月 12月 1月 2月 3月..

[r]