情報ヷ統計処理
統計パヸト
第
5
回
臨床試験管理センタヸ西山毅 たけし
前回
質的変数 カ 数&度数' 数え
表 く
性別:男10人*女6人
量的変数 要約統計量 求
中央値%四 位範 ← 場合 OK
変数2
い
?
0 変数 種類 組 合わ 方
異
質的×質的
質的×量的
量的×量的
質的×質的:
0重 割表&2×3 割表*0重 ロ 表*
2×3表' 作
中卒 高卒 大卒 計
男 4 6 10 20
女 3 9 8 20
計 7 15 18 40
変数2
い
?
質的×量的:
質的変数 カ ー 量的変数 要約 統計量 求
例えば*性別&質'×身長&量' *
男性: 均=172.1cm, 標準偏差=5.6cm
女性: 均=164.6cm, 標準偏差=4.6cm
質×量
質的変数
カ
ー
層
呼ぶ,
層別
要約
,
質的変数×量的変数
量的変数×量的変数
方
0 量的変数 関係 相関係数 表
⇒2 量的変数 間 直線性 示 指標
傾 正 直線 周 集 い ば1 近く*
傾 負 直線 周 集 い ば-1 近い
&注'直線 傾 片 関係 い!
-4 -2 0 2 4
-4 -2 0 2 4 x y2 r=1
-4 -2 0 2 4
-4 -2 0 2 4 x y1 r=1
-4 -2 0 2 4
相関係数
直線 近いほ 1&-1' 近 く
2次関数 1&-1' 近く い
-4 -2 0 2 4 r=0.7 -4 -2 0 2 4 r=0.9 -4 -2 0 2 4 r=0.5
r;0.2
0→1 0→+1 直線 近 点 対
称,直線 傾 正 負 違い
直線 近い
-4 -2 0 2 4 y4 0.7 -4 -2 0 2 4 -4 -2 0 2 4 0.5 0.9
-0.7 -0.5
-4 -2 0 2 4
R
うす
?
”demo.csv”ファイ 込 *変数d 代入 d= read.csv(“demo.csv”)
質的変数d$Sex&性別' d$School&学歴'
2×3表 作
table(d$Sex, d$School)
high junior univ
f 392 113 533
m 191 57 354
R
うす
?
男女別 身長 要約
*男 け*女 け ー 作
m = data[data$Sex==“m”, ]
f = data[data$Sex==“f”, ]
均 標準偏差 求
mean(m$Ht), sd(m$Ht)
mean(f$Ht), sd(f$Ht)
R
うす
?
身長 体重 相関係数 求
cor(d$Ht, d$Wt)
[1] 0.6812133
X軸 身長*Y軸 体重 フ 散布
呼ぶ,R 描 方
plot(d$Ht, d$Wt)
量的変数×量的変数
2
変数デヸタ
方
質的変数×質的変数⇒2重 ロ 表 作
質的変数×量的変数
⇒質的変数 カ &層'
要約統計量 求
量的変数×量的変数⇒相関係数 求
何 直線に近づく 相関係数→±1に?
推測統計学
や 記述統計学 ,
や *統計学 イン あ 推測統計
学 ,
1922 Fisher RA” On the mathematical foundations of theoretical statistics” 嚆矢
標本& ンプ ' 母集団 区別 *標本
母集団 い 調 統計理論 ,
推測統計学
コンセプト
母集団;神 世界 知 い *人間界
一部 ンプ 手 入 い,
一部 ンプ 母集団 何 伺い知
いう 推測&inference' ン プ
母集団&population'
標本&sample'
うす
そん
こ
?
母集団 あ 統計 従う 仮定
母集団;神 世界 ン ンプ ン
ンプ 値 *統計 パ ー
推測
母集団&population'
標本&sample'
神
世界
人間界
ン
ンプ ン
統計モデル
身長 測定値;真 身長)測定誤差
&誤差 正規 布'
統計 書く 約束:
X;α + 誤差&ε'
誤差 観測値 い * 文字ε 書く
178.0=178.0 + 0 178.1=178.0 + 0.1 179.9=178.0 + (-0.1)
パ ー 文字&α*β ' 書く
統計モデル
*プ *ファッ ョン * 動
物 全 現実 代用品 あ いう 意味 い
,注目 *統計 現実 完全 同
い あ ,雑多 現実 100$正確 表 *
生 ー 全 列挙 ば良い, *現実& ー
' 手く 明 統計 作 ば*
ー 生 出 カニ 対 洞察 得 ,
う 洞察 得 * 基 い 予測
統計 目的 あ ,
推測
い
い
あ
設定 統計 パ ー 見積
⇒推定
設定 統計 パ ー 仮 満
う 調
⇒検定
設定 統計 *別 ンプ
ういう値 取 予想
⇒予測
推定
コンセプト
パ ー 真 値 神 知 情報 あ *
わ わ 人間 知 ンプ
限 情報 け,
推定 良 基準 外 与え * う
基準 あうパ ー 推定 良い 推定
母集団&population'
標本&sample'
神
世界
人間界
ン
ンプ ン
推定
良さ
基準
例えば*推定 良 基準 *
誤差 2乗 和 最小
尤度 最大 ←一番 ー 基準
色々あ ,
いう統計 *α 推定 得
値 X 均値 ,
• 身長 測定値X = 真 身長α+誤差ε
• 誤差ε 標準正規 布
推定
実際
統計
推定 良 基準
*パ ー 推定量 異
実際 * ういう統計 使う 決
* 統計ソフ R 指定 ば*一番
良 う 推定値 求 く
統計 指定 け *
推定
例
1
統計 R 指定 *
t.test(data$Ht)
• 身長 測定値X = 真 身長α+誤差ε
• 誤差ε 標準正規 布
推定値
例
2
統計 R 指定 *
lm(Ht~Sex,data)
• 身長 測定値X
= 女 身長α+&女:男' 増 β+誤差ε
• 誤差ε 標準正規 布
さあR や しょう
https://sites.google.com/site/courseofr