・提出期限:各問題に記載。
・提出場所:
manabaコース 「生活の中の統計技術」
・(ファイル送信レポートの場合の) 提出ファイルについて:
提出ファイルの名前には学籍番号とレポート課題番号をいれてください,例えば,
tyy00zz report1.
拡張子,
などのように。
<注> ファイル名が変更できない場合は本文中に,学籍番号と氏名,レポート課題番号,複 数ファイルの場合はその順番,を記入しておいてください。
<注> 上の「拡張子」とは
pdf,
jpg,
HEIC,
pngなどファイルの種類を識別するためにファ イル名の末尾につけられる文字列です。もしファイルの種類を変換できる場合は
pdfにそろえてください。
(1)
手書きの場合:スキャナーで読み込みんだファイル,あるいはスマートフォンでとった写真をアッ プロードしてください。写真が複数になる場合は,
tyy00zz report1-1.
拡張子,tyy00zz report1-2. 拡張子,
など,順番がわかるようにお願いします。
(2)
ワード や
TEXを使う場合:pdf をアップロードしてください。ワードの場合は
docxファイルで も構いません。
質問・希望など:manaba の掲示板か,[email protected] まで,お願いします。レポートに書いても らっても結構です。
箱ひげ図
★★★★ レポート課題1
(オンライン入力)★★★★
出題:9 月
28日
(月),提出期限:10月
03日
(土)配点:
5点
問題
1-1 (2012年度統計検定
2級 問
6を一部変更)
図
1-1は,2 つの都市
(A市と
B市) の一日の最高気温を,30 日間にわたって測ったデータから描いた箱ひ げ図である。この箱ひげ図に関する次の記述のうち,正しいものを全て選びなさい。
(ア) A
市の最高気温の中央値はおよそ
15℃であった。
(イ)
最高気温の最大値は
A市と
B市でほほ同じ温度であった。
(ウ) B
市では最高気温が
15℃を下回る日が
10日以上あった。
(エ) A
市では最高気温が
10℃を超えた日が
15日以上あった。
0 5 10 15 20 25 30
ᦨ㜞᳇᷷㧔͠㧕 㧭Ꮢ
㧮Ꮢ
図
1-1解
1-1内容の正しい記述は
(イ)と
(エ)。(ア) A
市の最高気温の中央値は
12℃。
(イ) A
市と
B市の最高気温の最大値はともに
26℃。
(
ウ
) B市については
Q1= 16℃ なので,最高気温が
16℃以下の日が
30日の
1/4,すなわち
7日ある。従って 最高気温が
15℃を下回る日は
7日以下。
(エ) A
市の最高気温の中央値が
12℃なので,最高気温が
12℃以上の日が
30日の
1/2,すなわち
15日ある。従っ
て最高気温が
10℃を超えた日は
15日以上あることになる。
ヒストグラムと箱ひげ図
★★★★ レポート課題2
(オンライン入力)★★★★
出題:10 月
05日
(月),提出期限:10月
10日
(土)配点:小問各
3点
問題
2-1図
2-1のヒストグラムの表すデータについて以下の問に答えなさい。ただし,ヒストグラムのある階 級
(例えば4以上
6未満) に入るデータの値はすべてその階級の階級値
(上の例では5)をとると考える。
(1)
図
2-1(b)のヒストグラムの表すデータについて,四分位数Q1,Q
2,Q
3を求めなさい。
(2)
図
2-1(c)のヒストグラムの表すデータについて,四分位数Q1,Q
2,Q
3を求めなさい。
20
15
5
0
2
10
4 6 8 10 12 14 16 18 20 22 24 26 28
図2-1 (a)
20
15
5
0
2
10
4 6 8 10 12 14 16 18 20 22 24 26 28
図2-1 (b)
20
15
5
0
2
10
4 6 8 10 12 14 16 18 20 22 24 26 28
図2-1 (c)
20
15
5
0
2
10
4 6 8 10 12 14 16 18 20 22 24 26 28
㻌 㻌 㻌
図2-1 (d)
問題
2-2図
2-2の箱ひげ図について以下の問に答えなさい。ただし図
2-2の箱ひげ図は外れ値を考慮していない。
(1) (ウ)
の箱ひげ図のヒストグラムとして正しいものを図
2-1の
(a)∼(d)から一つ選びなさい。
(2) (エ)
の箱ひげ図のヒストグラムとして正しいものを図
2-1の
(a)∼(d)から一つ選びなさい。
0 4 8 12 16 20 24 28
( ) ( ) ( )࢘ ( )࢚
図2-2
データを小さい順に
x1≤x2≤ · · · ≤x48とすると,
最小値
=x1, Q1=x12+x132 , Q2= x24+x25
2 , Q3= x36+x37
2 ,
最大値
=x48 (p2.1)となる。従って,図
2-1のそれぞれのヒストグラムについて
(a) 4≤
最小値
≤Q1<6, 6≤Q2<8, 8≤Q3<10, 18≤最大値
<20, (p2.2) (b) 4≤最小値
<6, 8≤Q1≤Q2<10, 12≤Q3<14, 24≤最大値
<26, (p2.3) (c) 0≤最小値
<2, 2≤Q1≤4, 4≤Q2<6, 6≤Q3<8, 26≤最大値
<28, (p2.4) (d) 2≤最小値
<4, 4≤Q1≤6, 6≤Q2<8, 8≤Q3<10, 18≤最大値
<20 (p2.5)となる。
解
2-1この問題ではヒストグラムのある階級に入るデータの値はすべてその階級の階級値をとると考えので,(b) と
(c)のヒストグラムの四分位数は以下となる:
(1) (b)
のヒストグラムの四分位数は
Q1= 9, Q2= 9, Q3= 13. (p2.6)
(2) (c)
のヒストグラムの四分位数は
Q1= 3, Q2= 5, Q3= 7. (p2.7)
解
2-2箱ひげ図より,最小値,最大値,四分位数を読みとると,
(
ウ
)の場合は
最小値
∼3, 5< Q1<6, 6< Q2<7, Q3∼9, 19<最大値
<20, (p2.8) (エ)の場合は
最小値
∼4, Q1∼5, Q2∼7, 8< Q3<9, 19<最大値
<20 (p2.9)となる。
(1) (ウ)
の箱ひげ図のヒストグラムは
(d)。(2) (エ)
の箱ひげ図のヒストグラムは
(a)。平均値と標準偏差
★★★★ レポート課題3
(オンライン入力)★★★★
出題:10 月
12日
(月),提出期限:10月
17日
(土)配点:小問各
3点
ᗘᩘ
0 1 2 3 4 5
10 12 14 16 18 20 22
8 24
図3-1
問題
3-1図
3-1のヒストグラムが表すデータについて,以下の問に答えなさい。ただし,ヒストグラムのある階 級
(例えば
10以上
12未満
)に入るデータの値はすべてその階級の階級値
(上の例では
11)をとると考える。
(1)
階級値を用いて平均値
mを求めなさい。
(2)
階級値を用いて標準偏差を計算する式として適切なものを,次の
(ア)∼(ク)から一つ選びなさい。ただし,式 中の
mはデータの平均値とする。また,
|x|は
xの絶対値を表す。
(ア)
√|11−m|+|13−m|+|15−m|+|17−m| ×3 +|19−m| ×3 +|21−m| 6
(イ)
√|11−m|+|13−m|+|15−m|+|17−m| ×3 +|19−m| ×3 +|21−m| 10
(ウ)
√|11−m|+|13−m|+|15−m|+|17−m|+|19−m|+|21−m| 6
(エ)
√|11−m|+|13−m|+|15−m|+|17−m|+|19−m|+|21−m| 10
(
オ
)√(11−m)2+ (13−m)2+ (15−m)2+ (17−m)2×3 + (19−m)2×3 + (21−m)2 6
(カ)
√(11−m)2+ (13−m)2+ (15−m)2+ (17−m)2×3 + (19−m)2×3 + (21−m)2 10
(キ)
√(11−m)2+ (13−m)2+ (15−m)2+ (17−m)2+ (19−m)2+ (21−m)2 6
(ク)
√(11−m)2+ (13−m)2+ (15−m)2+ (17−m)2+ (19−m)2+ (21−m)2 10
解
3-1図
3-1のヒストグラムに対応する度数分布表は以下のようになる。
階級 階級値 度数
8
以上
10未満
9 010
以上
12未満
11 112
以上
14未満
13 114
以上
16未満
15 116
以上
18未満
17 318
以上
20未満
19 320
以上
22未満
21 122
以上
24未満
23 0合計
10表
3-1(1)
平均値は
m= 11×1 + 13×1 + 15×1 + 17×3 + 19×3 + 21×1
10 = 168
10 = 16.8. (p3.1)
有効数字が
2桁と考えて
m= 17としても正解です。
(2)
標準偏差を計算する式として適切なものは
(カ)。標準得点と偏差値
★★★★ レポート課題4
(オンライン入力)★★★★
出題:10 月
19日
(月),提出期限:10月
24日
(土)配点:小問各
3点
問題
4-1あるデータの集まりの平均値が
26,標準偏差が6であった。値が
11のデータの標準得点と偏差値を求 めなさい。
問題
4-2あるクラスのテストの標準偏差が
5点であった。テストの点数が
70点の
Aさんの偏差値は
70であった。
(1)
このテストの平均値は何点であったか求めなさい。
(2)
偏差値が
40の
Bさんのテストの点数を求めなさい。
解
4-1配布資料の
(17.1)と
(17.2)より
標準得点
= 11−26 6 =−52 =−2.5, (p4.1)
偏差値
= −2.5×10 + 50 = 25 (p4.2)となる。
解
4-2平均値を
m,標準偏差をsとすると,データの値が
xiの偏差値は
偏差値
= xi−ms ×10 + 50 (p4.3)
となる。
(1)xi= 70
,
s= 5を
(p4.3)に代入して
70 =70−m
5 ×10 + 50 (p4.4)
より,平均値は
60点 であることがわかる。
あるいは図
4-1より,偏差値
70に対応するデータの値,m
+ 2s=m+ 10,が70となることから
m= 60になると考えてもよい。
(2) B
さんの得点を
xBとすると
(p4.3)より
40 = xB−60
5 ×10 + 50 (p4.5)
なので,B さんの得点は
55点 となる。
X m m+s m+2s m+3s 3
m− s m−2s m−s
X m Z
s
= −
ᶆ‽ᚓⅬ
=× ೫ᕪ್
60 70 80 0
30 20
図
4-1 mは平均値,s は標準偏差。
単位を変更した場合の統計量の値の変化
★★★★ レポート課題5
(オンライン入力)★★★★
出題:10 月
26日
(月),提出期限:10月
31日
(土)配点:小問各
3点
問題
5-1あるクラスの身長をセンチメートルで測ったデータを
X ={x1, x2,· · ·, xN},体重をキログラムの単 位で測ったデータを
Y ={y1, y2,· · ·, yN}とする。X の平均値と標準偏差を
mXと
sX,Y の平均値と標準偏差 を
mYと
sYとする。また,
2変量データ
(X, Y) ={(x1, y1),(x2, y2),· · ·,(xN, yN)}の共分散を
C,相関係数を
rとする。
身長のデータの単位をセンチメートルからメートルに変更
(1メートル=100 センチメートル),体重のデータを キログラムからグラムに変更する
(1キログラム=1000 グラム)。つまり,データの数値は
xi→0.01×xi, yi→1000×yi, (p5.1)
と変わる。このとき,以下の統計量の値が何倍になるかを答えなさい。ただし
mX, mY, sX, sY, C, rの値は全て
0ではないとする。また,値が変化しない場合は「値は
1倍になる」あるいは「値は変化しない」と答えてください。
(1)mX
と
mYの値はそれぞれ何倍になるかを答えなさい。
(2)sX
と
sYの値はそれぞれ何倍になるかを答えなさい。
(3)C
と
rの値はそれぞれ何倍になるかを答えなさい。
解
5-1 Xのデータを
α倍したデータを
X′,Y のデータを
β倍したデータを
Y′とすると,統計量は以下のよう に変化する:
mX′ =α mX, mY′ =β mX, sX′ =|α|SX, sY′ =|β|SY . (p5.2)
また,X
′と
Y′の共分散
C′と相関係数
r′は
C′=αβ C , r′= αβ
|αβ| r (p5.3)
となる。特に,
α >0, β >0の場合は,
r′=rとなり相関係数の値は変化しない。
この問題の場合,α
= 0.01,β= 1000なので,答えは以下となる:
(1) mX
の値は
0.01倍,m
Yの値は
1000倍の値になる。
(2) sX
の値は
0.01倍,
sYの値は
1000倍になる。
(3)C
の値は
10倍になる。r の値は変化しない
(1倍になる)。
相関係数と回帰直線
★★★★ レポート課題6
(オンライン入力)★★★★
出題:11 月
02日
(月),提出期限:11月
07日
(土)配点:小問各
3点
問題
6-1 (2017年
6月統計検定
2級の問
4を変更して一部使用)
1991
年から
2015年までの各年における日本のコーヒー小売価格を
Y(縦軸),各年についてその前年の世界のコーヒー生産量を
X(横軸
)とした散布図を考える。
(1)Y
の
Xへの回帰直線を実線として散布図に書き加えたグラフとして最も適切なものを,図
6-1の
(a)∼(d)か ら一つ選びなさい。
(2)
価格と生産量の間の相関係数の値として次の
(ア)∼(オ)のうちから最も適切なものを一つ選びなさい。
(
ア
) −0.994 (イ
) −0.794 (ウ
) 0.094 (エ
) 0.794 (オ
) 0.994生産量
価格
生産量
価格
(a) (b)
生産量
価格
生産量
価格
(c) (d)
図
6-1 (2017年
6月統計検定
2級 問
4より一部省略して転写
)解
6-1(1)
最も適切なグラフは
(d)。点の集まりの中央を通る直線を選ぶ。(a),(c) は下過ぎる。(b) は上過ぎる。
(2)
相関係数の値として最も適切なものは
(イ
)。
生産量が多いほど価格が低いという傾向があるので,相関係数の値は負になる。-0.994 はほとんど直線上に
データがならんでいる状況に対応するので,選択肢の中では-0.794 が適切と考えられる。
相関係数と偏相関係数
★★★★ レポート課題7
(オンライン入力)★★★★
出題:11 月
09日
(月),提出期限:11月
14日
(土)配点:小問各
4点
問題
7-1 (2019年
6月統計検定
2級の問
4を変更して一部使用)
世帯人員
(人
)持家率
(%
)勤め先収入
(万円
/月
)2 75.1 41.3
3 77.3 49.0
4 83.7 54.0
5 82.9 55.6
6
以上
84.8 52.1表
7.1資料:総務省「家計調査」
世帯人員と持家率の相関係数は
0.91,勤め先収入の影響を除去した世帯人員と持家率の偏相関係数は0.79と計 算された。ここで, 「
6以上」という世帯数については,平均値として与えられている
6.36を用いた。
(1)
この相関係数と偏相関係数に関する次の記述のうちから最も適切なものを一つ選びなさい。
(a)
相関係数が
0.91とういことから,世帯人員と持家率に,近似的に傾きが正の直線の関係があると考え られる。
(b)
偏相関係数は,非線形関係
(直線でない関係
)を捉えるものである。偏相関係数が
0.79ということは,
世帯人員と持家率に非線形関係が存在する可能性を示唆する。
(c)
一般的に,相関係数が正なら偏相関係数は負になるという法則性がある。相関係数も偏相関係数も正と いう今回の計算結果から,世帯人員と持家率には全く関係のないことがわかる。
(2)
この相関係数と偏相関係数を比較したときの解釈に関する次の記述のうちから最も適切なものを一つ選びな さい。
(ア)
相関係数が
0.91で偏相関係数が
0.79とうことは,収入の水準が上昇すると,世帯人員と持家率の相 関が
0.79から
0.91に増加することを示している。世帯人員と持家率の相関は高収入の世帯ほど高いと 考えられる。
(イ)
相関係数が
0.91で偏相関係数が
0.79とうことは,収入の水準が変動すると,世帯人員と持家率の相 関が
0.79から
0.91の間で変動することを示している。世帯人員と持家率の相関はやや不安定だと考え られる。
(
ウ
)相関係数が
0.91で偏相関係数が
0.79とうことは,収入の影響を取り除くと,世帯人員と持家率の相
関が
0.91から
0.79に減少することを示している。世帯人員と持家率の相関には,収入を共通の要因と
する見かけ上の相関
(擬相関)による部分が含まれていると考えられる。
解
7-1(1)
最も適切な記述は
(a)。(2)
最も適切な記述は
(ウ)。離散的な値をとる確率変数:母平均と母分散
★★★★ レポート課題8
(オンライン入力)★★★★
出題:11 月
16日
(月),提出期限:11月
21日
(土)配点:小問各
4点
問題
8-1離散的な値,
{9,15,21},をとる確率変数
Xの確率が下の表に与えられている:
X
の値
9 15 21確率
1 61 6
2 3 (1)
この確率変数
Xの母平均
µを求めなさい。
(2)
この確率変数
Xの母分散
σ2を求めなさい。
解
8-1(1) (33.3)
より,
µ= 9×1
6+ 15×1
6 + 21×2
3 = 18. (p8.1)
(2) (33.4)
より,
σ2= (9−18)2×1
6 + (15−18)2×1
6 + (21−18)2×2
3 = 21. (p8.2)
なお,
E(X2) = 92×1
6+ (15)2×1
6+ (21)2×2
3 = 345 (p8.3)
なので,確かに
E(X2)−µ2= 345−(18)2= 345−324 = 21 =σ2 (p8.4)
となっている。
離散的な値をとる確率変数:結合確率と条件付き確率
★★★★ レポート課題9
(オンライン入力)★★★★
出題:11 月
23日
(月),提出期限:11月
28日
(土)配点:小問各
4点
問題
9-1何枚かのカードのはいった袋から,無作為にカードを引く。離散型確率変数
Xと
Yの値を
X =カードの数字,Y
= 0(赤札),1(黒札)とする。赤札がでる確率は
25 ,
黒札がでる確率は
35
である:
Pr(Y = 0) =2
5, Pr(Y = 1) =3
5. (p9.1)
また,赤札がでるという条件のもとで
10の札が出る条件付き確率は
15
,黒札がでるという条件のもとで
10の札 が出る条件付き確率は
115
である:
Pr(X = 10|Y = 0) = 1
5, Pr(X= 10|Y = 1) = 1
15. (p9.2)
このとき,次の確率を求めなさい:
(1)
赤の
10がでる確率,Pr(X
= 10, Y = 0)。(2)
赤でも黒でもいいから
10がでる確率,
Pr(X = 10)。
解
9-1(1) (36.3)
より,
Pr(X = 10, Y = 0) = Pr(X = 10|Y = 0) Pr(Y = 0) = 1 5 ×2
5 = 2
25. (p9.3)
(2)
同様に
(36.3)より,
Pr(X= 10, Y = 1) = Pr(X= 10|Y = 1) Pr(Y = 1) = 1 15×3
5 = 1
25 (p9.4)
なので,
Pr(X = 10) = Pr(X = 10, Y = 0) + Pr(X = 10, Y = 1) = 2 25+ 1
25 = 3
25. (p9.5)
離散的な値をとる確率変数:ベイズの定理
★★★★ レポート課題10
(オンライン入力)★★★★
出題:11 月
30日
(月),提出期限:12月
05日
(土)配点:小問各
4点
問題
10-1 2015年度統計検定
2級 問
9を一部変更
メールの本文に含まれる文字情報から迷惑メールを判別したい。これまでの調査では無作為に選んだメールの
80パーセントが通常のメールで,20 パーセントが迷惑メールであることが分かっている。また,ある語句
Sを通 常のメールが含む確率は
0.1だが,迷惑メールの場合はその確率が
0.7となる。
確率変数
Xと
Yを考え,メールが迷惑メールである
(ない
)場合を
X = 1 (X = 0)とし,語句
Sがメールに 含まれる
(含まれない)場合を
Y = 1 (Y = 0)とする。
(1)
次の確率の値を書きなさい:
(a) Pr(X = 1), (b) Pr(X= 0)。
(2)
次の条件付き確率の値を書きなさい:
(c) Pr(Y = 1|X= 1), (d) Pr(Y = 1|X = 0)。
(3)
無作為に選んだメールがこの語句
Sを含んでいるとき,このメールが迷惑メールである確率,
Pr(X = 1|Y = 1)
を求めなさい。
解
10-1【問
37】と同様。(1)
(a) Pr(X = 1) = 0.2, (b) Pr(X = 0) = 1−0.2 = 0.8. (p10.1) (2)
(c) Pr(Y = 1|X = 1)) = 0.7, (d) Pr(Y = 1|X = 0)) = 0.1. (p10.2)
尚,上記以外の条件付き確率は以下となる:
Pr(Y = 0|X = 1) = 1−Pr(Y = 1|X = 1) = 1−0.7 = 0.3, (p10.3) Pr(Y = 0|X = 0) = 1−Pr(Y = 1|X = 0) = 1−0.1 = 0.9. (p10.4) (3)
Pr(X= 1|Y = 1) = Pr(X = 1, Y = 1)
Pr(Y = 1) = Pr(Y = 1|X = 1) Pr(X = 1) Pr(X = 1, Y = 1) + Pr(X = 0, Y = 1)
= Pr(Y = 1|X = 1) Pr(X= 1)
Pr(Y = 1|X= 1) Pr(X = 1) + Pr(Y = 1|X = 0) Pr(X = 0)
= 0.7×0.2
0.7×0.2 + 0.1×(1−0.2) = 0.7×0.2 0.7×0.2 + 0.1×0.8
= 7×2
7×2 + 1×8 = 14 22= 7
11 ≈0.64 (p10.5)
となる。
連続的な値をとる確率変数:確率密度関数
★★★★ レポート課題11
(オンライン入力)★★★★
出題:12 月
07日
(月),提出期限:12月
12日
(土)配点:小問各
4点
0.5 1.0 1.5 2.0
0.5 1.0
( )
p x
x
図
11-1問題
11-1図
11-1に示す確率密度関数
p(x)に従う連続な値をとる確率変数
Xを考える。
(1) 1.5≤X
となる確率を求めなさい。
(2) 1.0≤X <1.5
となる確率を求めなさい。
0.5 1.0 1.5 2.0 0.5
1.0 ( )
p x
x
A
B
C D E
図
11-2解
11-2【問
39】と同様。(1) 1.5≤X
となる確率は図
11-2の三角形
BCDの面積となる:
Pr(1.5≤X) = 0.5×0.5×1 2 =1
8 (= 0.125). (p11.1)
(2) 1.0≤X <1.5
となる確率は図
11-2の台形
ABDEの面積となる:
Pr(1.0≤X <1.5) = (0.5 + 1.0)×0.5×1 2 =3
8 (= 0.375). (p11.2)
三角形
ACEの面積から三角形
BCDの面積を引いてもよい:
Pr(1.0≤X <1.5) = 1 2 −1
8 =3
8. (p11.3)
正規分布に従う独立な確率変数の和
★★★★ レポート課題12
(オンライン入力)★★★★
出題:12 月
14日
(月),提出期限:12月
19日
(土)配点:小問各
4点
問題
12-1 2011年度統計検定
2級 問
15を一部変更
あるエレベーターの最大許容重量は
600kgである。成人男性の体重が母平均
70kg,母分散64 kg2の正規分布に 従うとした場合,成人男性
9人グループの合計体重が
600kg以上となり全員が同じエレベーターに乗れない確率 を以下の手順で求めよう。
(1)
成人男性
9人グループの合計体重
Sは,グループのそれぞれの体重が独立とすると,母平均
µ,母分散
σ2の正規分布
N(µ , σ2)に従う。µ と
σ2の値を求めなさい。
(2)
全員が同じエレベーターに乗れない確率
Pは以下の積分で表される:
P =
∫ ∞
a
√1
2πe−z2/2dz . (p12.1)
a
の値を求めなさい。
(3) p.41
の数表
41-1などを用いて
Pの値を求めなさい。
解
12-1【問
41-1】【問41-2】を参照。(1) (35.8)
と
(35.10)より
µ= 9×70 = 630 kg, σ2= 9×64 = 576 kg2= 242kg2. (p12.2) (2) (p12.2)
より
Sに対する標準得点は
Z =S−µ
σ = S−630
3×8 (p12.3)
なので,
P = Pr(600≤S) = Pr
(600−630 3×8 ≤Z
)
= Pr (
−5 4 ≤Z
)
= Pr(−1.25≤Z)
=
∫ ∞
−1.25
√1
2πe−z2/2 dz (p12.4)
となる。従って
a=−1.25. (p12.5)
(3)
P =
∫ ∞
−1.25
√1
2πe−z2/2 dz=Q(−1.25)(42.5)= 1−Q(1.25)表41=−11−0.1056 = 0.8944. (p12.6)
尚,Excel に用意された関数,NORM.S.DIST(z
0,TRUE),を用いてPを計算すると
(42.8)より
Q(−1.25) = 1−NORM.S.DIST(−1.25,TRUE) = 0.89435 (p12.7)
となる。
母比率の区間推定
★★★★ レポート課題13
(オンライン入力)★★★★
出題:12 月
21日
(月),提出期限:1月
9日
(土)配点:小問各
4点
問題
13-1あるテレビ番組を視聴したかどうかを
900世帯に対して調査したところ視聴率は
20%であった。標 本数
900が十分に大きいと考えて以下の問いに答えなさい。
(1)
母集団の視聴率
pに対する信頼係数
0.95 = 95%の信頼区間は
A−B×√C(1−C)
D ≤ p ≤ A+B×
√C(1−C)
D (p13.1)
となる。A,B,C,D を求めなさい。
(2)
信頼係数を
0.99 = 99%としたときの,母集団の視聴率
pに対する信頼区間は
E−F×√G(1−G)
H ≤ p ≤ E+F×
√G(1−G)
H (p13.2)
となる。E,F ,G,H を求めなさい。
(3)
信頼係数
95%の信頼区間の幅を,調査世帯が
900の場合の信頼区間の幅の約半分にするために必要な調査世帯 数を答えなさい。ただし,調査世帯数が変化してもこの番組の視聴率の点推定値
(
この番組を見た世帯数 調査世帯数
)
はあまり変わらないとする。
解
13-1 (1) (49.1)で
ˆ
p= 0.2, α= 0.05, z(0,05/2) = 1.96, n= 900 (p13.3)
の場合なので
A= 0.2, B= 1.96, C= 0.2, D= 900 (p13.4)
となる。数値を代入すると
pの信頼係数
95%の信頼区間は近似的に
0.174 ≤ p ≤ 0.226 (p13.5)
となる。
なお,B, C, D は
B√C(1−C)
D
という組み合わせで現れるので,(p13.4) 以外でも
B√C(1−C)
D
が同じ
値になる場合
(例えば
C= 0.8など
)は正解です。
(2) (49.1)
で
ˆ
p= 0.2, α= 0.01, z(0,01/2) = 2.58, n= 900 (p13.6)
の場合なので
E= 0.2, F = 2.58, G= 0.2, H = 900 (p13.7)
となる。数値をを代入すると
pの信頼係数
99%の信頼区間は近似的に
0.166 ≤ p ≤ 0.234 (p13.8)
となる。信頼係数
95%の信頼区間より区間の幅は大きくなる。
なお,F, G, H は
F√G(1−G)
H
という組み合わせで現れるので,(p13.7) 以外でも
F√G(1−G)
H
が同じ
値になる場合は正解です。
(3)(49.1)
より信頼区間の幅は
2z(α/2)
√p(1ˆ −p)ˆ
n (p13.9)
となる。標本数が
900の場合の信頼係数
95%の信頼区間の幅は
2×z(0.05/2)√0.2(1−0.2)
900
,標本数が
nの場合の
pの点推定値を
pˆとすると,信頼区間の幅は
2×z(0.05/2)√p(1ˆ −p)ˆ
n
となるので,
2×z(0.05/2)
√p(1ˆ −p)ˆ
n = 1
2×2×z(0.05/2)
√0.2(1−0.2)
900 (p13.10)
を満たす
nを求めればよい:
n= 4×900× p(1ˆ −p)ˆ
0.2(1−0.2). (p13.11)
ˆ
p
の値が標本数によってあまり変わらないとして,ˆ
p= 0.2とすると,n
= 4×900 = 3600となる。つまり 信頼区間の幅を
1/2にするには,調査世帯数
(標本数
)を
22= 4倍の
3600世帯にする必要がある。
なお,点推定値
pˆの値があまり変わらないと仮定できない場合は,(p13.11) で
p(1ˆ −p)ˆを,そのとり得る 最大値
1/4に置き換えた標本数
n= 4×900×1
4× 1
0.2(1−0.2) = 5625≈5600 (p13.12)
とするのが適当である。
正規母集団の母平均の区間推定
★★★★ レポート課題14
(オンライン入力)★★★★
出題:12 月
23日
(水),提出期限:1月
16日
(土)配点:小問各
4点
問題
14-1配布資料
p.11の【問
11】のデータ,{9,10,10,12,14} (p14.1)
について以下の問いに答えなさい。
(1) (p14.1)
の
5個のデータの不偏標本分散
s2を求めなさい。
(2) (p14.1)
の
5個のデータが正規母集団からの標本であると考えて,母平均
µの 信頼係数
95% の信頼区間を以
下のように表すとき,A と
Bを求めなさい:
11−A×
√s2
B ≤ µ ≤ 11 +A×
√s2
B . (p14.2)
ここで,
s2は
(p14.1)の不偏標本分散を表す。
(3) (p14.1)
の
5個のデータが正規母集団からの標本であると考えて,母平均
µの 信頼係数
99%の信頼区間 を計
算すると,区間の幅は
(2)の信頼係数
95%の信頼区間の幅の
x倍となった。x を求めなさい。(x は分数で
も小数でも,どちらで表しても構いません。)
解
14-1(1)
標本平均は
¯
x=9 + 10 + 10 + 12 + 14
5 = 10 +−1 + 2 + 4
5 = 10 +5
5 = 11 (p14.3)
となる。不偏標本分散は
(53.4)より以下となる:
s2 = (9−11)2+ (10−11)2+ (10−11)2+ (12−11)2+ (14−11)2
5−1 =4 + 1 + 1 + 1 + 9
4 =16
4
= 4. (p14.4)
(2) (53.6)
で
α= 0.05, n= 5 (p14.5)
の場合なので以下となる:
A=t0.05/2(5−1) =t0.025(4) = 2.776, B = 5. (p14.6)
なお,A, B は
A√B
という組み合わせで現れるので,(p14.6) 以外でも
A√B
が同じ値になる場合は正解 です。
(3) (53.6)
より信頼区間の幅は
2tα/2(n−1)
√s2
n (p14.7)
となる。従って信頼係数
95%の信頼区間の幅,∆
95は
n= 5と
s2= 4として
∆95= 2t0.05/2(n−1)
√s2
n (p14.8)
となる。一方,信頼係数
99%の信頼区間の幅は
∆0.01は
∆99= 2t0.01/2(n−1)
√s2
n (p14.9)
となる。従って,
x= ∆99
∆95
= t0.005(4)
t0.025(4) = 4.604
2.776 =4604
2776 = 1151
694 = 1.6585 (p14.10)
となる。
適合度の検定
★★★★ レポート課題15
(オンライン入力)★★★★
出題:1 月
18日
(月),提出期限:1月
23日
(土)配点:小問各
4点
問題
15-1 1等のくじが確率
1/6,2等のくじが確率
1/3,はずれが確率1/2で出るはずの「くじ発券機」を
240回動かしたところ,以下の結果となった:
くじ
1等
2等 はずれ 合計 出た回数
50 60 130 240標本数
240が十分に大きいと考えて,
1等,
2等,はずれが予定した通りの確率で出ているかどうか,を有意水準
αで検定する:
(1)
帰無仮説を,
H0: 1
等,2 等,はずれがそれぞれ確率
1/6,1/3,1/2で出る
(p15.1)として,ピアソンの適合度基準
χ2の値を求めなさい。
(2)
この標本が仮定された確率分布に適合するかどうかを, 有意水準
α= 0.05で,適合度のカイ二乗検定を行っ て判定しなさい。解答は, 「不等式
χ2>〇〇
(あるいはχ2≤〇〇) より,有意水準5%で帰無仮説
H0は棄 却される
(あるいは棄却されない
)。」という形で書いてください。
(3)
この標本が仮定された確率分布に適合するかどうかを, 有意水準
α= 0.01で,適合度のカイ二乗検定を行っ て判定しなさい。解答は, 「不等式
χ2>〇〇
(あるいは
χ2≤〇〇
)より,有意水準1%で帰無仮説
H0は棄
却される
(あるいは棄却されない)。」という形で書いてください。解
15-1仮定された確率分布から予想される理論度数を表に加えると以下のようになる:
くじ
1等
2等 はずれ 合計 出た回数
50 60 130 240理論確率
16 1 3
1
2 1
理論度数
40 80 120 240(1) (54.1)
よりピアソンの適合度基準は以下となる:
χ2=(50−40)2
40 +(60−80)2
80 +(130−120)2 120 = 25
3 ≈8.3. (p15.2)
(2) (54.3)
で
k= 3,α= 0.05の場合なので,表
5-1より
χ20.05(2) = 5.991 < χ2 . (p15.3)
従って, 「不等式
(p15.3)より,有意水準5%で帰無仮説
H0,“1 等,2 等,はずれ,がそれぞれ確率
1/6,1/3,1/2
で出る” は棄却される」。すまわち,このくじ発券機は予定した確率でくじを発券していないと結論で きる。
(3) (54.3)
で
k= 3,α= 0.01の場合なので,表
5-1より
χ2 ≤ χ20.01(2) = 9.210. (p15.4)
従って, 「不等式
(p15.4)より,有意水準1%で帰無仮説
H0,“1 等,2 等,はずれ,がそれぞれ確率
1/6,1/3,1/2