情報統計演習:統計パート(第
2
・
3
回)のまとめ
ウェブテキストURL
https://sites.google.com/site/courseofr
ベクトルデータの型
数値型(数字),文字列型(”a”),因子型,論理値型(TRUE/FALSE)の4種類 ある.
ベクトルデータを代入した変数xがどの型が知りたいときは「class(x)」とする. 数値型ベクトルの四則計算
足す「+」,引く「-」,かける「*」,割る「/」はすべて成分どうしの計算になる.
足す・引くは数学と同じだが,掛け算と割り算は数学と異なる点に注意. ベクトルから成分の取り出し
変数xの2番目の成分の取り出し:x[2]
変数xの2番目と4番目の成分の取り出し:x[c(2,4)]
これをTRUE/FALSEを使ってやると: x[c(F,T,F,T)] (注)T=TRUE, F=FALSE 条件に合う成分の取り出し
2より大きい成分の取り出し:x[x>2]
2以上の成分の取り出し:x[x>=2]
ちょうど2の成分の取り出し:x[x==2] (注)イコールを2つ並べる必要あり
2以外の成分の取り出し:x[x!=2]
2以上,4以下の成分の取り出し:x[(x>=2) & (x<=4)]
x[xの条件式] データフレーム
4種類のベクトルを同時に使って表にしたもの.例えば,数値ベクトルと文字列ベ
クトルを使った表データなど.
1種類のベクトルだけを使って表にしたものが行列(マトリックス)
データフレームの作り方:ベクトルxとベクトルy⇒data.frame(x,y) データフレームから列(縦1列)と行(横1列)の取り出し
データフレームxの2列目(列名=Age)の取り出し:x$Age, x[ ,2], x[ ,“Age”]
データフレームxの3行目(行名=ID3)の取り出し:x[3, ], x[“ID3”, ] 列の取り出し⇒ x$列名,x[ ,列番号],x[ ,”列名”]
行の取り出し⇒ x[行番号, ], x[“行名”, ]
2列目(列名=Age)と3列目(列名=Ht)の取り出し:x[ ,c(2,3)], x[ ,c(“Age”,”Ht”)]
これをTRUE/FALSEを使ってやると:x[c(F,T,T,F), ]
条件にあうデータフレームの取り出し
データフレームxの3列目(列名=Ht)で170以上のデータ:x[x$Ht >= 170, ]
データフレームxの1列目(列名=Sex)で男性Mのデータ:x[x$Sex == “M”, ]
x[xの列の条件式, ]
データの読み込み
カンマ区切りファイル(CSVファイル)の読み込み:read.csv(“ファイル名.csv”)
タブ区切りファイルの読み込み:read.delim(“ファイル名.txt”)
(注)区切り文字delimiterとしてテキストファイルはタブを使う
読み込んだデータxをざっと見たいとき
上6行を見る:head(x)
下6行を見る:tail(x)