RとRcommanderのインストールと
それらによる統計解析
Contents
RとR commanderのインストールと統計解
析
数理・統計解析言語: R
Rのインストール
R commander
R による統計解析
R commanderによる統計解析
関連文献
Rの推奨
RとR commanderのインストールと統計解
析
数理・統計計算とgraphicsの為の言語・環境
多様な統計手法 (公開package)
高度にデザインされた出版物並みのplotを容易に作成できる
Free soft
Rの歴史
数理・統計解析言語: R
Rは完全なプログラム言語
起源はかつてのベル研究所(アメリカ)のChambers等が対話
的な統計解析環境として開発したS言語・システムに遡る
Sはベル研究所のテューキ学派の人々が開発した「データ解
析とグラフィックスの為のプログラミング環境」
統計解析,確率シミュレーション,グラフィックスの為の
プログラム言語
Becker & ChambersによりS言語を発表@ベル研究所
(1984); S言語を独自に実装(1991); オープンソース・
ソフトとして公開(1995)
“R”の由来(2説存在)
i.
Ross Ihaka & Robert Gentlemanのinitial
ii.
「Sの縮小版」i.e.,
r
educed version of S
Rの長所・短所
数理・統計解析言語: R
長所
特筆すべき点は,open source のsoftware でありGPL(GNU
一般公衆利用許諾契約書) に基づく
一般公開されたfree
software
Rのsource code はすべてfree download可能
Rにblack boxはない故,何がどのように計算されているか,
完全に精査可能
Rは多様なOS或いはplatformに対応(Mac OS X, Windows,
UNIX(Linux etc.))
短所
完全なGUIに欠ける
Programming Codeはcompileされず実行時に解釈され,稀に
Rの動作が遅くなるような場合が有り得る
CRAN
数理・統計解析言語: R
CRANとは
Comprehensive R Archive Network
の略
Rのsource codeや異なるOS用のbinary dataを提供するサー
バーのnetwork
中核となるサーバーのaddress
http://CRAN.R-project.org/
•
ここには様々な統計解析手法を実現する為に開発さ
れた数百ものpackage(library)が公開されている
•
さらに各種manual等のdocument類,関連する
software等が搭載されている
Install Step
Rのインストール
Install
参考:RjpWiki→R のインストール
起動
デスクトップのアイコンをダブルクリック
スタート→すべてのプログラム→R
終了
右上の✕ボタン→質問に「いいえ」
Rのインストール
Step 1: http://cran.r-project.org/
Rのインストール
Step 2
「実行」
をクリック
Rのインストール
Step 3
セキュリティに関する警告は無視して
Installを実行
「実行」
をクリック
Rのインストール
Step 4
「OK」
をクリック
Rのインストール
Step 5
「次へ」
をクリック
Rのインストール
Step 6
「次へ」
をクリック
Rのインストール
Step 7
「次へ」
をクリック
Rのインストール
Step 8
「次へ」
をクリック
Rのインストール
Step 9
「次へ」
をクリック
Rのインストール
Step 10
「次へ」
をクリック
Step 11
Rのインストール
「次へ」
をクリック
Step 12
Rのインストール
「次へ」
をクリック
Install完了
R commander
R は簡単な計算機能・数値計算関数・data解析手法から最新の
数理・統計解析手法・program, simulation用のtool, シンプルな
plot作図から複雑なgraphics機能を提供
新しい統計手法や新しいgraphics等の追加機能,
Package
”が公
開され,freeによりこれらのdownloadが可能,更に,userが自
由に機能を拡張可能(その数,数千種類!)
しかしながら,R は一部のuserに対して致命的欠点をもたらす
R の操作には基本的に「command入力」により実行
従って,program経験が少ないuserにとっては敷居の高い
softwareとして認識される
この欠点を補う為に「Excelの如く容易にmenu選択を実行する
ことによりRを操作可能にする」という画期的なpackageがJohn
Fox教授(McMaster大学)により開発される:
Step
R commanderのインストール
メニューのパッケージから“パッケージのインストール”を選
択
CRAN mirrorが表示される
適当な場所を選択
Packagesが表示されるのでR Commander “Rcmdr”を選択
RcmdrのInstall開始,完了後,Rcmdrを起動の為にConsoleに
「library(Rcmdr)」を入力
必要なpackagesのInstallが要求され承諾
Step
R commanderのインストール
Install完了後
“パッケージ”
をclick.
“Rcmdr”
を選択
Install完了
Rの画面&基本command
R による統計解析
Console
Rに命令を送るwindow
直接入力可
Script (Editor)
Rのcommandを保存できるノート
作成したprogramはここから保存
Graphics
Graphics出力用のwindow
Graphicsの保存,copyができる.
help()
on line help!
Input
“a<-b”#
引数
(
argument
)aへbをinput
“#” #comment out
q()
Rのquit(終了)
外部データのinput
R による統計解析
“csv”ファイルを読み込み,簡単な統計解析を行う (詳細は
次ページ参照)
“ファイル”から
“ディレクトリの変更”
(change directory)を選
択し,
データが格納されている
directoryを選択
外部データのinput
R による統計解析
以降外部データとして“csv”ファイル(beer.csv)を読み込み,これの
簡単な統計解析を行う (beer.csv:ある地区の郊外にあるコンビニ店舗
のビール売上データ; 2001年10月1日~2002年6月30日の期間中,毎日
のビール売上金額(単位:円)が記録されている
外部ファイル(CSVファイル)からのデータフレーム作成
「ビール販売額データ.xls」をCSVファイルへ変換
ビール販売額データ.xlsファイルを開く
ファイルメメニューから「名前を付けて保存」としてCSV形式を選
択すればCSVファイルへ変換可能
Input
“a<-b”#
引数
(
argument
)aへbをinput
“#”記号以降はcomment out ,i.e.,無視される
CSVファイルから入力
> setwd(“ ”) #データ(beer.csv)が格納されているdirectoryを
(“ ”)へ指定
外部データのinput完了
計算
R による統計解析
与えられたデータの統計量の計算(引数(argument): a,b)
data内のある変数に絞るcommand • a<-data名$変数名 主要関数(引数) #意味 • sum(a) #総和 • mean(a) #平均 • median(a) #中央値 • var(a) #不偏分散 • sd(a) #標準偏差 • max(a) #最大値 • min(a) #最小値 • cor(a,b) #相関係数,但しNA含まず • cor(a,b,use =“complete.obs”) #相関係数,欠損値を含むケース(行)は予め取り除 かれる • cor(a,b,use = “pairwise.complete.obs”) #相関係数,対応列対から欠損値を含む 行に相当する要素を取り除いて計算する(従って各要素毎に使われる変数の長さが異な る可能性がある) • IQR(a) #四分位偏差 • quantile(a) # quantile • range(a) #範囲計算
R による統計解析
与えられたデータに対する統計量の計算
欠損値(missing value)の処理
該当データの欠如をあらわす
Rでは
NA
(Not Availableの意)によりあらわされる
•実際,実データには何らかの理由によりデータが欠如して
いることが稀ではない
Rの殆どの関数はデータにNAが存在しても問題がなく,
NAがある場合の処理の為に,特別な引数(論理値)
na.rm
がある
計算
R による統計解析
Graphics
R による統計解析
Histogram
与えられたデータに対してヒストグラムを描く
Ex. サントリーの売り上げに対してヒストグラムを描く
>hist(sale) #output of histogram
外部データ(beer.csv)のinput
R commanderによる統計解析
「データ」
「データのインポート」
「テキストファイル・・・」
データセット名を入力: beer
ファイル内に変数名あり: ☑
欠損値の記号: 空欄(default:“NA”)
データファイルの場所: ローカルファイルシステム
(default)
フィールドの区切り記号: カンマ(csvファイル)
小数点の記号: ピリオド
外部データ(beer.csv)のinput
R commanderによる統計解析
外部データ(beer.csv)のinput完了
R commanderによる統計解析
データ解析(相関)
R commanderによる統計解析
“beer.csv”内の“キリン”の売り上げと“平均気温”の相関
を調べる
はじめにこれらデータの散布図(点配置)を図示する
グラフ
散布図
データ解析(相関)
データ解析(相関)
R commanderによる統計解析
統計量
要約
データ解析(相関)
R commanderによる統計解析
データの編集
R commanderによる統計解析
データ
アクティブデータセット内の変数管理
変数名をつけ直す
Ex. キリン,平均湿度,平均気温のデータ名を以下のよう
に編集する:
•
キリン
→KIRIN
•
平均湿度
→MeanHumidity
•
平均気温
→MeanTemperature
データ解析(偏相関)
R commanderによる統計解析
Ex. KIRIN,
MeanHumidity, MeanTemperature間の偏相関を
調べる
データ解析(偏相関)
R commanderによる統計解析
Ex. KIRIN,
MeanHumidity, MeanTemperature間の偏相関行
列
R に関する参考文献
関連文献
間瀬茂
数学を発展させるコンピュータソフト: 統計解析言語・環境R,
数学セミナー (2010)
渋谷政昭 + 柴田里程 訳
S言語
データ解析とグラフィックスのためのプログラミング環境 I, II
A.Zuur/E.Ieno/E.Meesters 著
石田基広/石田和枝 訳
R初心者のためのABC,
Springer
U.Ligges 著
石田基広 訳 Rの基礎とプログラミング技法,
Springer
W.N.Venables/B.D.Ripley 著
伊藤幹夫/戸瀬信之 訳他 S-PLUSによる統計解析
第2版, Springer
舟尾暢男 著
R commanderに関する参考文献
関連文献
舟尾暢男 著
R Commander ハンドブック
荒木孝治
R と R コマンダーではじめる多変量解析
大森崇・阪田真己子・宿久洋
R commanderによるデータ解析
R にまつわる主要URL
関連文献
CRAN(Complete R Archive Network)