東大/情報生命/M
松本拡高
概略
• イン
– ー 取得自動化 R 関係
• イ ア イ ー
– GEO ー ウン ー
• NGS ー
– SRA ー ウン ー
2
ー 取得自動化
• い い 選択 操作
手軽 ー ウン ー う
– カ ャ カ … → ーン!
自動化
• ボ ー 個 ウン ー
し い
• 自動化 知 頃 A君↓
4
R 使う
• Bioconductor 存在
– ノ 関連 ー 主 扱う解析手法集
– 有名 ー ー 便利 ー 作
手軽 扱え
• い い も R 便利 うい訳 い
– 使え け使う 便利 男 し 扱い し う
http://www.bioconductor.org
6
GEO ー 取得
• GEO
– Gene Expression Omnibus (遺伝子発現バン ) 略
• ア イ ー 含 最大 ー ー
– べ ー 登録 い 訳 い
http://www.ncbi.nlm.nih.gov/geo/
手動 手順
8
GDS:ひとまとま の ータセッ のID
手動 手順
GPL:マイク ア イのプラッ フォーム
GSE:一連の実験 ータを指すID
手動 手順
10
GSM:サンプ 1つ1つに対す
実験 ータ
全GSMまとめた ータ
download
ばらtグs 自動化
• GEOquery
※GEOquery 入手 も 加工済 も
下 し え
• 」ろbraryが“XMば”き
• 」ろbraryが“RCurl”き
• 」ろbraryが“Biobase”き
• 」ろbraryが“BiocGeerics”)
• 」ろbraryが“GEOquery”き
12
ウン ー 手順
• あ GSE ID GSE2361 ー
ウン ー
– data <- getGEOが“にSど23ずさ”)
• け
– GEOquery 手軽 驚くA君 後任 B ↓
A君 腱鞘炎 休学中
試し ー 発現量 見
• exprs(data[[1]])
14
SRA ー 取得
• SRA
– Sequence Read Archive
– 次世代 ー エンサー 生 ー 保持し い
– 詳しく内容
(http://togotv.dbcls.jp/20110722.html) 見 いい も
16 http://www.ncbi.nlm.nih.gov/sra/
手動 手順
download
SRR: NGSを1回分のID
SRX: 実験1回分のID
自動化
• SRAdb
• う くい いう 報告もあ
18
下 し え
• libraryが“RSQLite”)
• 」ろbraryが“るrapれ”)
• 」ろbraryが“SRAdb”き
ウン ー 手順1
• ー ウン ー 利用
ピ 良い
– sqlfile <- getSRAdbFile()
– sra_con <- dbConnect(SQLite(), sqlfile)
• あ SRX 含 SRR URL 得
– rs <- rs <- listSRAfile(in_acc="SRX016367", sra_con=sra_con)
20
ウン ー 手順
• rs 中身 見
– rs
• SRR け け
– rs$run
• ftp け
– rs$ftp
ウン ー 手順
• fastq ウン ー
– getFastq(in_acc=rs$run, sra_con=sra_con, destdir=getwd())
– う くいく け バー ョン違い
getFastq()自体 動 間違 も
22
ウン ー 手順
• sra ウン ー
– download.file(sub(".lite.sra", ".sra", rs$ftp), destfile=paste(rs$run, ".sra", sep=""))
• subが“.lite.sra”, “.sra”, rs$ftp) 理由
– rs ー (url) *.lite.sra い
ー ー 上 *.sra い
– 自分 ー 登録者 プ
上 仕様 不明
楽 楽 べし
• 一連 流 見 い A君
24