• 検索結果がありません。

4-4 正規分布

N/A
N/A
Protected

Academic year: 2021

シェア "4-4 正規分布 "

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

rd-13. 正規分布

R

システムでデータサイエンス演習)

1

金子邦彦

https://www.kkaneko.jp/cc/rd/index.html

(2)

4-4 正規分布

(3)

コイン投げ

コインを投げて,裏か表を出す. コインに仕掛

 

けなどはない

3

(4)

コイン投げでの「表の枚数」は変数

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

    → 

何度も繰り返す

(例)

97, 100, 111, 96, 87, 93, 99, 99, 104, 92, 112, 98, 94, 101, 108, 98, 100, 117, 103, 100, ...

4

(5)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

5

表の枚数 それが 起きた回数

(頻度)

20回投げたときの例

(6)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

6

表の枚数 それが 起きた回数

(頻度)

100回投げたときの例

(7)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

7

表の枚数 それが 起きた回数

(頻度)

1000回投げたときの例

(8)

分布の例

コインが200枚あるとする

200枚を一斉に投げて,表の枚数を数える

8

表の枚数 それが 起きた回数

(頻度)

10000回投げたときの例

(9)

コイン投げゲーム

コインを200枚を一斉に投げる(1回勝負)

表の枚数が110枚以上なら 勝ち

 

表の枚数が109枚以下なら 負け

 

この勝負に勝てそうか?

 

9

(10)

コイン投げゲーム

コインを200枚を一斉に投げる(1回勝負)

表の枚数が110枚以上なら 勝ち

 

表の枚数が109枚以下なら 負け

 

 

10

10000回投げてみたら,

表の枚数が110枚以上   894回

表の枚数が109枚以下  9106回

8.9パーセントくらいの 確率で勝てそう!

(11)

勝率5%のゲーム(100回に5回勝てそうな ゲーム)を作りたいとする

 

11

10000回投げてみたら,

表の枚数が112枚以上   518回

表の枚数が111枚以下  9482回

5.2パーセントくらいの 確率で勝てそう

コイン200枚を投げて,112枚以上表立ったら勝ちゲーム

それが起きた回数

(頻度)

(12)

4-5 母平均と母分散の活用例

(13)

今から行うことのイメージ

13

値が変化する何か

<変数>

たくさんの標本

母平均,母分散の推定値  合成データを生成し,

 その分布をみる

(14)

R

で,母平均と母分散から,データを合成

• rnorm(10, 100, sqrt(400) )

14

■  合成データの生成(サイズ:10)

母平均 100,母分散 400のとき

■  合成データを生成し,

その後,小数点以下を四捨五入(サイズ:10)

round( rnorm(10, 100, sqrt(400) ) )

小数点以下の四捨五入には

round

を使う

rnorm( <合成したいデータ数> , <母平均値> , sqrt( <母分散値> ))

(15)

R

で,母平均と母分散から,データを合成

15

値が変化する何か

<変数>

たくさんの標本

母平均,母分散の推定値  合成データを生成する

母平均 100 母分散 400

元の変数と性質が同じような合成データを生成

(16)

R

で,母平均と母分散から,データを合成

round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) ) round( rnorm(10, 100, sqrt(400) ) )

16

round( rnorm(20, 100, sqrt(400) ) ) round( rnorm(30, 100, sqrt(400) ) )

(17)

合成データの頻度分布(ヒストグラム)

library(dplyr) library(ggplot2)

d <- round( rnorm(10, 100, sqrt(400) ) ) ggplot(data_frame(d), aes(x = d)) + geom_histogram(binwidth=1) + theme_bw()

17

ベクトルデータの

頻度分布(ヒストグラム)

(18)

library(dplyr) library(ggplot2)

d <- round( rnorm(100, 100, sqrt(400) ) ) ggplot(data_frame(d), aes(x = d)) +

geom_histogram(binwidth=1) + theme_bw()

合成データの頻度分布(ヒストグラム)

18

ベクトルデータの

頻度分布(ヒストグラム)

今度は 100

(19)

合成データの頻度分布(ヒストグラム)

 

(1/2)

19

サイズ10の ときの頻度分布

サイズ100の ときの頻度分布

サイズ1000の ときの頻度分布

(20)

合成データの頻度分布(ヒストグラム)

 

(2/2)

母平均と母分散で,合成された合成データの頻度 分布(ヒストグラム)は,合成データのサイズを 増やすと,正規分布になる

20

サイズ10000の ときの頻度分布

サイズ100000

のときの頻度分布 サイズ1000000 のときの頻度分布

合成データのサイズを増やすほど,

頻度分布(ヒストグラム)のカーブは

滑らかになる

参照

関連したドキュメント

ニューラル情報処理第 07

母平均 100 母分散

一次元のデータ 一次元のデータ 堀田 堀田 敬介 敬介

分散分析 (ANOVA) or 分散分析の F 検定 の設計方針... お知らせ 予習問題と同じタイミングで

78 人のアイドル集団の身長データが Excel のデータで与えられました...

κ2分布,渉分布,F分布(1)

定の文字へ着目するのではなく、文字の集合である分布が適している。そこで最初に漢字と仮名の

分布の様子を表したグラフを、ヒストグラム ヒストグラム ヒストグラム ヒストグラムという。... (C)2014 Prisola