1変量データの要約統計ソフトRの使い方

(1)

6 ^章 . 1 ^変量 ^ータ ^要約



ータ入手最初ータ全体見渡ータューいい

ータあく把握必要あ．本格的統計解析ータュー後

行い．

ータ性別や齢様々変数あ変数大く量的変数質的変数カ

ゴー変数け．量的変数数値表変数あ例

えば身長や体重や区町村別死亡数．質的変数カゴー変数あ

カゴー属否表け変数あ例えば性別や血液型あ

．

注細く類最初 ₂ 類十．

身長 _178cm _170cm 差_8cm 意味あ学歴大卒高卒差両者

くい離い表大卒高卒差高卒中卒差 ₂倍い．

う量的変数差意味あ変数あ質的変数カゴー変数差意味

い変数言う．

ータ全体像質的変数カゴー変数表く．量的変数

均や散ータ全体像把握便利要約統計量記述統計

量計算．

質的変数 → 表く量的変数 → 要約統計量計算

注例えば被検者数 ₅人測定目 ₃ 程度小ータわわータ

要約全ータ表示ば十．



^ータ ^列 ^タ 1 ^列 ^出

(2)

ータ読込そータ表カタチい．ふう表列タ ₁列

出計算使い．例えば被験者齢均や散調い

ば齢い列出．

ータ齢_age ₁列出通常 _data$age ータ _$変数使い

．

data = read.csv(“demodata.csv”) data$age



^質的変数 ^カ ^ゴ ^ー変数 ^要約

例えばdemodata.csv ^イ ^読 ^込 ^変数data ^使い ^そ ^中 ^変数sex ^い関数_{table( )} 使えば

table(data$sex) f m

1038 602

性別度数人数集計表表示．



^量的変数 ^要約

(3)

要約統計量求．例えば身長要約統計量均中央値散標準偏差最

小値最大値求以下う．

mean(data$ht) [1] 155.49

median(data$ht) [1] 154.8

var(data$ht) # ^散 ^単位 cm² [1] 67.49744

sd(data$ht) # ^標準偏差 ²= ^散 ^．単位 cm [1] 8.215683

min(data$ht) [1] 131.8

max(data$ht) [1] 181.6

要約統計量ータ情報一部表要約統計量使えば

ータうく表考え必要あ．

要約統計量外値影響うけやいけくい．例えば

ータ中心傾向表要約統計量均値中央値あ均値外

値影響うけやく中央値けくい．示以下う．

普通要約統計量ータ中心表ータバキ表 ₂

求ば良いう．要均標準偏差中央値四位範

求う．両方求ば万全．

外値影響けやいけくい

中心均値中央値

バキ標準偏差四位範

第四位点

第3四位点

(4)

要約統計量均標準偏差中央値四位範求



^ータ ^要約 ^一発 ^行 ^う方法

実ータ中質的変数カゴー変数作表量的変数代表的要約統計量直接計算くあい関数_{summary( )} あ．

summary(data)

質的カゴー変数あ性別_sex い表作成そ以外量的変数い最小値第₁ 位点中央値均値第₃ 位点最大値一気求．注₁ 第₁四位数 ₁

st_quartile

中央値第₂四位数₂

nd_quartile

第₃四位数 ₃

rd

quartile ^ータ ^小 ^い ^大 ^い ^小 ^いほう 1/4 ^値

2/4 ^値 3/4 ^値 ^．

ータ要約あえ _{summary( )} 使う

(5)

 ^新 ^い変数 ^く ^方

具体的 BMI (Body Mass Index) ^身長ht ^体重wt ^作

> bmi=(data$wt*10000)/(data$ht*data$ht)

体重 ÷ 身長 ÷ 身長計算け子 ×₁₀₀₀₀ 身長単位 _cm→_m

変え．計算結果新い変数_bmi 収納．変数_bmi 要約

統計量う求．

> summary(bmi)

Min. 1st Qu. Median Mean 3rd Qu. Max. 15.12 19.84 21.60 22.03 23.83 34.95

> sd(bmi) [1] 2.985551

 ^プ ^法

何あ身長う．

> hist(data$ht)

キイ釣鐘型い．感量的ータけば終わ

いうわけい．

→ 関数_{hist( )}

(6)

例えば中性脂肪_tg いう．実関数_{hist( )} 柱数 breaks= ^柱 ^数 ^指定 ^柱 ^数 10^本 20^本 ^増や ^．

> hist(data$tg)

> hist(data$tg,breaks=10)

> hist(data$tg,breaks=20)

Histogram of data$ht

data$ht

Frequency

140 150 160 170 180 190

0100200300400

(7)

あォ右方向裾引く短調減少見え柱数増や

ーあ山型．う区

見え方大く影響ータューけ全面的頼

危い．

ういうイマイ一く外値強いボプ．要約統計量う

外値影響けくい勢揃いく．身長ボプ

> boxplot(data$ht)

フォル

data$tg

Frequency

0 200 400 600 800 1000

04001000

10^本

data$tg

Frequency

0 200 400 600 800 1000

04001000

20^本

data$tg

Frequency

0 200 400 600 800 1000

0400800

(8)

ボックスプロット→関数boxplot( )

1Q 3Q ^外側 IQR=3Q-1Q 1.5^倍以内 ^正常範 ^． ^ボ

プ関係以下う箱中太線ン大体

形わ．

左右対称ン真中く

右左偏ば箱ゲ偏

x

Frequency

0.4 0.5 0.6 0.7 0.8 0.9 1.0

01000200030004000

0.6 0.7 0.8 0.9 1.0

-3 -2 -1 0 1 2

Histogram of x

x

Frequency

-4 -2 0 2

0500100015002000

x

Frequency

0 5 10 15 20

01000200030004000

0 2 4 6 8 10

(9)

課題₁

demodata.csv^のなかの ^{ータの体重}:wt, ^{収縮期血圧}:sbp, ^{拡張期血圧}:dbp, ^空腹時血糖_:fbs, モロンA1c:ha1c,GOT:got, GPT:gpt,^γ-GTP:ggt^の ^ス ^{ラムとボッ}

スロッを描いてください．

課題₂

動脈硬化指数 _AI 以下う定義．指数要約統計量求

ボプい．

動脈硬化指数

1変量データの要約 統計ソフトRの使い方

6 章 . 1 変量 ータ 要約

ータ 列 タ 1 列 出

質的変数 カ ゴ ー変数 要約

量的変数 要約

外 値 影 響 け や い け く い

中心 均値 中央値

バ キ 標準偏差 四 位範

第 四 位点

第3四 位点

ータ 要約 一発 行 う方法

 新 い変数 く 方

 プ 法

1変量データの要約統計ソフトRの使い方

6 ^章 . 1 ^変量 ^ータ ^要約

^ータ ^列 ^タ 1 ^列 ^出

^質的変数 ^カ ^ゴ ^ー変数 ^要約

^量的変数 ^要約

外値影響けやいけくい

中心均値中央値

バキ標準偏差四位範

第四位点

第3四位点

^ータ ^要約 ^一発 ^行 ^う方法

 ^新 ^い変数 ^く ^方

 ^プ ^法