• 検索結果がありません。

統計分析ソフトによる統計分析 R 初歩の初歩(1)

N/A
N/A
Protected

Academic year: 2021

シェア "統計分析ソフトによる統計分析 R 初歩の初歩(1)"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)

RとRcommanderのインストールと

それらによる統計解析

(2)

Contents

RとR commanderのインストールと統計解

数理・統計解析言語: R

Rのインストール

R commander

R による統計解析

R commanderによる統計解析

関連文献

(3)

Rの推奨

RとR commanderのインストールと統計解

数理・統計計算とgraphicsの為の言語・環境

多様な統計手法 (公開package)

高度にデザインされた出版物並みのplotを容易に作成できる

Free soft

(4)
(5)

Rの歴史

数理・統計解析言語: R

Rは完全なプログラム言語

起源はかつてのベル研究所(アメリカ)のChambers等が対話

的な統計解析環境として開発したS言語・システムに遡る

Sはベル研究所のテューキ学派の人々が開発した「データ解

析とグラフィックスの為のプログラミング環境」

統計解析,確率シミュレーション,グラフィックスの為の

プログラム言語

Becker & ChambersによりS言語を発表@ベル研究所

(1984); S言語を独自に実装(1991); オープンソース・

ソフトとして公開(1995)

“R”の由来(2説存在)

i.

Ross Ihaka & Robert Gentlemanのinitial

ii.

「Sの縮小版」i.e.,

r

educed version of S

(6)

Rの長所・短所

数理・統計解析言語: R

長所

特筆すべき点は,open source のsoftware でありGPL(GNU

一般公衆利用許諾契約書) に基づく

一般公開されたfree

software

Rのsource code はすべてfree download可能

Rにblack boxはない故,何がどのように計算されているか,

完全に精査可能

Rは多様なOS或いはplatformに対応(Mac OS X, Windows,

UNIX(Linux etc.))

短所

完全なGUIに欠ける

Programming Codeはcompileされず実行時に解釈され,稀に

Rの動作が遅くなるような場合が有り得る

(7)

CRAN

数理・統計解析言語: R

CRANとは

Comprehensive R Archive Network

の略

Rのsource codeや異なるOS用のbinary dataを提供するサー

バーのnetwork

中核となるサーバーのaddress

http://CRAN.R-project.org/

ここには様々な統計解析手法を実現する為に開発さ

れた数百ものpackage(library)が公開されている

さらに各種manual等のdocument類,関連する

software等が搭載されている

(8)
(9)

Install Step

Rのインストール

Install

参考:RjpWiki→R のインストール

起動

デスクトップのアイコンをダブルクリック

スタート→すべてのプログラム→R

終了

右上の✕ボタン→質問に「いいえ」

(10)

Rのインストール

Step 1: http://cran.r-project.org/

(11)

Rのインストール

Step 2

「実行」

をクリック

(12)

Rのインストール

Step 3

セキュリティに関する警告は無視して

Installを実行

「実行」

をクリック

(13)

Rのインストール

Step 4

「OK」

をクリック

(14)

Rのインストール

Step 5

「次へ」

をクリック

(15)

Rのインストール

Step 6

「次へ」

をクリック

(16)

Rのインストール

Step 7

「次へ」

をクリック

(17)

Rのインストール

Step 8

「次へ」

をクリック

(18)

Rのインストール

Step 9

「次へ」

をクリック

(19)

Rのインストール

Step 10

「次へ」

をクリック

(20)

Step 11

Rのインストール

「次へ」

をクリック

(21)

Step 12

Rのインストール

「次へ」

をクリック

(22)

Install完了

(23)
(24)

R commander

R は簡単な計算機能・数値計算関数・data解析手法から最新の

数理・統計解析手法・program, simulation用のtool, シンプルな

plot作図から複雑なgraphics機能を提供

新しい統計手法や新しいgraphics等の追加機能,

Package

”が公

開され,freeによりこれらのdownloadが可能,更に,userが自

由に機能を拡張可能(その数,数千種類!)

しかしながら,R は一部のuserに対して致命的欠点をもたらす

R の操作には基本的に「command入力」により実行

従って,program経験が少ないuserにとっては敷居の高い

softwareとして認識される

この欠点を補う為に「Excelの如く容易にmenu選択を実行する

ことによりRを操作可能にする」という画期的なpackageがJohn

Fox教授(McMaster大学)により開発される:

(25)

Step

R commanderのインストール

メニューのパッケージから“パッケージのインストール”を選

CRAN mirrorが表示される

適当な場所を選択

Packagesが表示されるのでR Commander “Rcmdr”を選択

RcmdrのInstall開始,完了後,Rcmdrを起動の為にConsoleに

「library(Rcmdr)」を入力

必要なpackagesのInstallが要求され承諾

(26)

Step

R commanderのインストール

Install完了後

“パッケージ”

をclick.

“Rcmdr”

を選択

(27)

Install完了

(28)
(29)

Rの画面&基本command

R による統計解析

Console

Rに命令を送るwindow

直接入力可

Script (Editor)

Rのcommandを保存できるノート

作成したprogramはここから保存

Graphics

Graphics出力用のwindow

Graphicsの保存,copyができる.

help()

on line help!

 Input

“a<-b”#

引数

(

argument

)aへbをinput

“#” #comment out

q()

Rのquit(終了)

(30)

外部データのinput

R による統計解析

“csv”ファイルを読み込み,簡単な統計解析を行う (詳細は

次ページ参照)

“ファイル”から

“ディレクトリの変更”

(change directory)を選

択し,

データが格納されている

directoryを選択

(31)

外部データのinput

R による統計解析

以降外部データとして“csv”ファイル(beer.csv)を読み込み,これの

簡単な統計解析を行う (beer.csv:ある地区の郊外にあるコンビニ店舗

のビール売上データ; 2001年10月1日~2002年6月30日の期間中,毎日

のビール売上金額(単位:円)が記録されている

外部ファイル(CSVファイル)からのデータフレーム作成

 「ビール販売額データ.xls」をCSVファイルへ変換

 ビール販売額データ.xlsファイルを開く

 ファイルメメニューから「名前を付けて保存」としてCSV形式を選

択すればCSVファイルへ変換可能

 Input

“a<-b”#

引数

(

argument

)aへbをinput

“#”記号以降はcomment out ,i.e.,無視される

 CSVファイルから入力

> setwd(“ ”) #データ(beer.csv)が格納されているdirectoryを

(“ ”)へ指定

(32)

外部データのinput完了

(33)

計算

R による統計解析

与えられたデータの統計量の計算(引数(argument): a,b)

 data内のある変数に絞るcommand • a<-data名$変数名  主要関数(引数) #意味 • sum(a) #総和 • mean(a) #平均 • median(a) #中央値 • var(a) #不偏分散 • sd(a) #標準偏差 • max(a) #最大値 • min(a) #最小値 • cor(a,b) #相関係数,但しNA含まず • cor(a,b,use =“complete.obs”) #相関係数,欠損値を含むケース(行)は予め取り除 かれる • cor(a,b,use = “pairwise.complete.obs”) #相関係数,対応列対から欠損値を含む 行に相当する要素を取り除いて計算する(従って各要素毎に使われる変数の長さが異な る可能性がある) • IQR(a) #四分位偏差 • quantile(a) # quantile • range(a) #範囲

(34)

計算

R による統計解析

与えられたデータに対する統計量の計算

欠損値(missing value)の処理

該当データの欠如をあらわす

Rでは

NA

(Not Availableの意)によりあらわされる

実際,実データには何らかの理由によりデータが欠如して

いることが稀ではない

Rの殆どの関数はデータにNAが存在しても問題がなく,

NAがある場合の処理の為に,特別な引数(論理値)

na.rm

がある

(35)

計算

R による統計解析

(36)

Graphics

R による統計解析

Histogram

与えられたデータに対してヒストグラムを描く

Ex. サントリーの売り上げに対してヒストグラムを描く

>hist(sale) #output of histogram

(37)
(38)

外部データ(beer.csv)のinput

R commanderによる統計解析

「データ」

「データのインポート」

「テキストファイル・・・」

データセット名を入力: beer

ファイル内に変数名あり: ☑

欠損値の記号: 空欄(default:“NA”)

データファイルの場所: ローカルファイルシステム

(default)

フィールドの区切り記号: カンマ(csvファイル)

小数点の記号: ピリオド

(39)

外部データ(beer.csv)のinput

R commanderによる統計解析

(40)

外部データ(beer.csv)のinput完了

R commanderによる統計解析

(41)

データ解析(相関)

R commanderによる統計解析

“beer.csv”内の“キリン”の売り上げと“平均気温”の相関

を調べる

はじめにこれらデータの散布図(点配置)を図示する

グラフ

散布図

(42)

データ解析(相関)

(43)

データ解析(相関)

R commanderによる統計解析

統計量

要約

(44)

データ解析(相関)

R commanderによる統計解析

(45)

データの編集

R commanderによる統計解析

データ

アクティブデータセット内の変数管理

変数名をつけ直す

Ex. キリン,平均湿度,平均気温のデータ名を以下のよう

に編集する:

キリン

→KIRIN

平均湿度

→MeanHumidity

平均気温

→MeanTemperature

(46)

データ解析(偏相関)

R commanderによる統計解析

Ex. KIRIN,

MeanHumidity, MeanTemperature間の偏相関を

調べる

(47)

データ解析(偏相関)

R commanderによる統計解析

Ex. KIRIN,

MeanHumidity, MeanTemperature間の偏相関行

(48)

R に関する参考文献

関連文献

間瀬茂

数学を発展させるコンピュータソフト: 統計解析言語・環境R,

数学セミナー (2010)

渋谷政昭 + 柴田里程 訳

S言語

データ解析とグラフィックスのためのプログラミング環境 I, II

A.Zuur/E.Ieno/E.Meesters 著

石田基広/石田和枝 訳

R初心者のためのABC,

Springer

U.Ligges 著

石田基広 訳 

Rの基礎とプログラミング技法,

Springer

W.N.Venables/B.D.Ripley 著

伊藤幹夫/戸瀬信之 訳他 

S-PLUSによる統計解析

第2版, Springer

舟尾暢男 著

(49)

R commanderに関する参考文献

関連文献

舟尾暢男 著

R Commander ハンドブック

荒木孝治

R と R コマンダーではじめる多変量解析

大森崇・阪田真己子・宿久洋

R commanderによるデータ解析

(50)

R にまつわる主要URL

関連文献

CRAN(Complete R Archive Network)

R の本拠サイト

http://cran.r-project.org/

R の公式Wiki.

様々な情報が得られる

http://wiki.r-project.org/rwiki/

RjpWiki

日本の R userがボランティアで運営している情報サイト

http://www.okada.jp.org/RWiki/index.php?RjpWiki

参照

関連したドキュメント

振動流中および一様 流中に没水 した小口径の直立 円柱周辺の3次 元流体場 に関する数値解析 を行った.円 柱高 さの違いに よる流況および底面せん断力

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

These two kinds of oil behave similar characteristics, but it can be shown that the difference of the pressure increasing rate or P-T curves are come from the difference of

の応力分布状況は異なり、K30 値が小さいほど応力の分 散がはかられることがわかる。また、解析モデルの条件の場合、 現行設計での路盤圧力は約

重回帰分析,相関分析の結果を参考に,初期モデル