• 検索結果がありません。

コイン投げでの「表の枚数」は変数

N/A
N/A
Protected

Academic year: 2021

シェア "コイン投げでの「表の枚数」は変数"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

rd-13. 正規分布

Rシステムでデータサイエンス演習)

1

金子邦彦

https://www.kkaneko.jp/cc/rd/index.html

(2)

4-4 正規分布

(3)

コイン投げ

コインを投げて,裏か表を出す. コインに仕掛 けなどはない

3

(4)

コイン投げでの「表の枚数」は変数

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

何度も繰り返す

(例)

97, 100, 111, 96, 87, 93, 99, 99, 104, 92, 112, 98, 94, 101, 108, 98, 100, 117, 103, 100, ...

4

(5)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

5

表の枚数 それが

起きた回数

(頻度)

20回投げたときの例

(6)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

6

表の枚数 それが

起きた回数

(頻度)

100回投げたときの例

(7)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

7

表の枚数 それが

起きた回数

(頻度)

1000回投げたときの例

(8)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

8

表の枚数 それが

起きた回数

(頻度)

10000回投げたときの例

(9)

コイン投げゲーム

コインを200枚を一斉に投げる(1回勝負)

表の枚数が110枚以上なら 勝ち

表の枚数が109枚以下なら 負け

この勝負に勝てそうか?

9

(10)

コイン投げゲーム

コインを200枚を一斉に投げる(1回勝負)

表の枚数が110枚以上なら 勝ち

表の枚数が109枚以下なら 負け

10

10000回投げてみたら,

表の枚数が110枚以上 894回

表の枚数が109枚以下 9106回

8.9パーセントくらいの 確率で勝てそう!

(11)

勝率5%のゲーム(100回に5回勝てそうな ゲーム)を作りたいとする

11

10000回投げてみたら,

表の枚数が112枚以上 518回

表の枚数が111枚以下 9482回

5.2パーセントくらいの 確率で勝てそう

コイン200枚を投げて,112枚以上表立ったら勝ちゲーム

それが 起きた回数

(頻度)

(12)

4-5 母平均と母分散の活用例

(13)

今から行うことのイメージ

13

値が変化する何か

<変数>

たくさんの標本

母平均,母分散の推定値

合成データを生成し,

その分布をみる

(14)

R

で,母平均と母分散から,データを合成

• rnorm(10, 100, sqrt(400) )

14

■ 合成データの生成(サイズ:10)

母平均 100,母分散 400のとき

■ 合成データを生成し,

その後,小数点以下を四捨五入(サイズ:10)

round( rnorm(10, 100, sqrt(400) ) )

小数点以下の四捨五入には round を使う

rnorm(<合成したいデータ数>,<母平均値>, sqrt(<母分散値>))

(15)

R

で,母平均と母分散から,データを合成

15

値が変化する何か

<変数>

たくさんの標本

母平均,母分散の推定値 合成データを生成する

母平均 100 母分散 400

元の変数と性質が同じような合成データを生成

(16)

R

で,母平均と母分散から,データを合成

round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) )

16

round( rnorm(20, 100, sqrt(400) ) ) round( rnorm(30, 100, sqrt(400) ) )

(17)

合成データの頻度分布(ヒストグラム)

library(dplyr) library(ggplot2)

d <- round( rnorm(10, 100, sqrt(400) ) ) ggplot(data_frame(d), aes(x = d)) +

geom_histogram(binwidth=1) + theme_bw()

17

ベクトルデータの

頻度分布(ヒストグラム)

(18)

library(dplyr) library(ggplot2)

d <- round( rnorm(100, 100, sqrt(400) ) ) ggplot(data_frame(d), aes(x = d)) +

geom_histogram(binwidth=1) + theme_bw()

合成データの頻度分布(ヒストグラム)

18

ベクトルデータの

頻度分布(ヒストグラム)

今度は 100

(19)

合成データの頻度分布(ヒストグラム)

(1/2)

19

サイズ10の ときの頻度分布

サイズ100の ときの頻度分布

サイズ1000の ときの頻度分布

(20)

合成データの頻度分布(ヒストグラム)

(2/2)

母平均と母分散で,合成された合成データの頻度 分布(ヒストグラム)は,合成データのサイズを 増やすと,正規分布になる

20

サイズ10000の ときの頻度分布

サイズ100000

のときの頻度分布 サイズ1000000 のときの頻度分布

合成データのサイズを増やすほど,

頻度分布(ヒストグラム)のカーブは 滑らかになる

参照

関連したドキュメント

Q3-3 父母と一緒に生活していますが、祖母と養子縁組をしています(祖父は既に死 亡) 。しかし、祖母は認知症のため意思の疎通が困難な状況です。

1着馬の父 2着馬の父 3着馬の父 1着馬の母父 2着馬の母父

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

5日平均 10日平均 14日平均 15日平均 20日平均 30日平均 4/8〜5/12 0.152 0.163 0.089 0.055 0.005 0.096. 

z 平成20年度経営計画では、平成20-22年度の3年 間平均で投資額6,300億円を見込んでおり、これ は、ピーク時 (平成5年度) と比べ、約3分の1の

開発途上国では SRHR

通所の生活介護事業(兵庫)の営業日数は256日で利用契約者数は55人であっ た。年間延べ利用者数は5 ,069人で利用率は99

年平均値から日平均値(日平均値の2%除外値又は日平均値の年間98%値)への変換