• 検索結果がありません。

実習資料 統計ソフトRを使った統計学実習

N/A
N/A
Protected

Academic year: 2018

シェア "実習資料 統計ソフトRを使った統計学実習"

Copied!
22
0
0

読み込み中.... (全文を見る)

全文

(1)

情報・統計処理

     

統計パート 第

4

臨床試験管理センター西山毅(たけし)

(2)

SELECT

試験とは

 男性 3 万 5533 人に,

 ビタミン E or セレニウム or ビタミン

E +セレニウム or プラセボをランダム に投与

 前立腺がんの発生を調査

 結果:ビタミン E 投与群で統計学的に有

(3)
(4)

サンプルデータを要約する方法

 変数の種類によって,データの要約法は異なる

 変数の種類:

大きく量的変数と質的変数に分かれる

 量的変数=数値として測れる変数

身長( cm ) , 体重( kg ),年齢(才),入試得点

 質的変数=数値として測れず,どのカテゴリー

         に属するかを表す変数

(5)

量的変数には

 原点 0 がある量(比がとれる)

身長( cm ),体重( kg ),年齢(才)

 原点 0 がない量(比がとれず,差だけ意味あり)

体温(℃),カレンダーの日付け(日)

の2つに分かれる.前者を比尺度,後者を間隔尺 度と呼びわける人がいるが,統計学上はほとんど 区別する意味がないので,この演習では,すべて

量的変数と呼ぶことにする.

数字で測れる量はすべて量的変数

(6)

質的変数には

 性別:男・女,人種:黒人・白人・黄色人種

 単なるカテゴリへの分類

 便宜的に男 =1, 女 =0 とする場合,この 1/0 に

は数値としての意味はない(男 =1 は女 =0 より

1 大きいという意味はない!).

 学歴:中卒・高卒・大卒

 カテゴリへの分類だが,順序はある(中卒

<高卒<大卒)

 順序変数と呼び,上の名義変数と区別する

(7)

変数の種類まとめ

 数字で測れる→量的変数

 数字で測れない→質的変数

単なる分類→名義変数 順序付き分類→順序変数

身の回りの数値(データ)がどれに分類

(8)

サンプルのデータを要約する方法

 質的変数はカテゴリごとの数(度数)を数え

て表をつくる

 性別:男 10 人,女 6 人など

 量的変数は要約統計量を求める

 身長:平均 162.1cm ,標準偏差 5.0cm など

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

(9)

要約統計量とは

 サンプル全体を一言で言い表す量を要約

統計量とか記述統計量という

 サンプル数が少なければすべてのデータ

を示せば済む

 サンプルデータの中心を表す量(中心傾

(10)

中心

を表す量

 例えば, 10 点満点の小テストデータ

 2 点, 2 点, 3 点, 4 点, 5 点, 8 点

 平均値=( 2+2+3+4+5+8)÷6=4 点  中央値 =3.5 点

       ← 3 番・ 4 番目の成分を足して 2 で 割る

 2 点, 3 点, 4 点の中央値は 3 点

 2 点, 3 点, 4 点, 5 点の中央値は 3.5 点

(11)

平均値は

 もし 8 点の代わりに,100点が入れば,  平均値=( 2+2+3+4+5+100)÷6≒19.3 点

 一方,中央値と最頻値は不変

(12)

最頻値は

 最頻値(モード)はそもそも離散変数でない と存在しない

 身長 171.232cm, 162.311cm,… のような連続変数 では同順位(タイ)がないので,最頻値も存在し ない

 離散変数とは,年齢のようにとびとびの値を とるもの⇔連続変数

 質的変数はすべて離散

(13)

最頻値は

 例えば,身長 168, 170, 172, 178, 180cm

のデータ

 身長 170cm 未満・ 170cm 以上 175cm 未満・ 175c

m 以上にわけて表をつくると

 モード =170cm 以上 175cm 未満

 身長 173cm 未満・ 173cm 以上 178cm 未満・ 178c

m 以上にわけて表を作ると

 モード =173cm 未満

連続変数を離散化した場合,

      モードは一意に決まらない

連続変数を離散化した場合,

(14)

どれが一番

いの

 左右対称な山形の分布では,

 平均値=中央値=最頻値

 最頻値はほとんど使わない

 外れ値があれば平均値は使えない

(15)

バラツキ

を表す量

 例えば, 10 点満点の小テストデータ  2 点, 2 点, 3 点, 4 点, 5 点, 8 点

 中心を表す平均値 =4 点からのズレは,

 -2 点, -2 点, -1 点, 0 点, 1 点, 4 点

 もちろん,足し合わせるとゼロになる

(16)

平均偏差とは

 絶対値を足してデータ数で割る( 2+2+1+

0+1+4 ) /6≒1.67 :平均偏差

 各データの平均値からの平均的なズレ

 絶対値があるので,計算しにくい!

(17)

標準偏差とは

 計算しやすいように,平均偏差の 2 乗を足し合わ

せて 6 で割る

 ( 22+22+12+02+12+42 ) /6≒3.67 :分散

 これだと,単位が点 2 となるので,もとの

単位(点)にそろえるために平方根を付け

(18)

標準偏差も平均値の

いがかかる

 標準偏差も,平均値を使う以上,外れ値の

影響を受けやすいという平均値の欠点を受 け継ぐ

 もっとよい,バラツキの指標はないのか?

 IQR ( InterQuartile Range)

 Quartile 四分位点

 大きさの順に並べて,前から 1/4 番目の

データが第 1 四分位点( Q1 ),前から 2/ 4 番目のデータが第 2 四分位点( Q2 = 中 央値),前から 1/4 番目のデータが第 3 四

(19)

もう1つのバラツキの

標は

 四分位範囲 IQR=Q3-Q1

 四分位範囲は外れ値の影響を受けにくい

0

2

4

6

8

(20)

要約統計量のまとめ

 中心を表す量:平均値,中央値,最頻値  バラツキを表す量:標準偏差,四分位範囲

 外れ値の影響を受けにくいのは,

 中央値と四分位範囲のペア

 外れ値がない場合に使えるのは,

 平均値と標準偏差のペア

 このペアは様々な確率分布を扱うときに便利

(21)

サンプルデータを要約法のまとめ

 質的変数はカテゴリごとの数(度数)を

数えて表をつくる

 性別:男 10 人,女 6 人など

 量的変数は要約統計量を求める

 中央値&四分位範囲

 平均値&標準偏差

質的変数→表を作る

量的変数→要約統計量を求める

質的変数→表を作る

(22)

さあ R でやってみましょう

https://

sites.google.com/site/courseofr

8章「

1変量データの要約

」ペ

の1番

付した

demodata.csv

ファ

イルをダウン

ードして,

R

参照

関連したドキュメント

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

“Cancer statistics,” published to date, contain valuable information, demonstrating changes in Japanese cancer statuses and reaffirming the importance of cancer control

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

 Whereas the Greater London Authority Act 1999 allows only one form of executive governance − a directly elected Mayor − the Local Government Act 2000 permits local authorities

委 員:重症心身障害児の実数は、なかなか統計が取れないという特徴があり ます。理由として、出生後

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

 This study examined the relationship between the swimming velocity Japanese top junior competitive swimmers and their muscle mass according to growth

[r]