〔ミ ニ レ ビ ュ ー 〕
ブ タゲ ノ ム解 析 研 究 の た め の デ ー タベ ー ス
上西博英
独立行政法人農業生物資源研 究所 ・動物科学研究領域
Databases
for research
on genome
analysis
for pigs
Hirohide
UENISHI
Division of Animal Sciences, National Institute of Agrobiological Sciences
1.は じめ に
2001年 の 国 際 ヒ トゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ
ア ム に よ る ヒ トゲ ノ ム 概 要 塩 基 配 列 の 公 開(Landerら
2001)に 引 き続 き 、 様 々 な 生 物 種 の ゲ ノ ム 塩 基 配 列 の
解 読 が 行 わ れ て い る。 多 くの 生 物 種 に お い て ゲ ノ ム 塩
基 配 列 解 読 プ ロ ジ ェ ク トが 存 在 し、 ゲ ノ ム 概 要 塩 基 配
列 が 既 に 公 開 さ れ て い る 。 家 畜 ・家 禽 に お い て も、 既
に ウ シ(http://www.genome.gov/12512874)、
ニ ワ トリ
(lnternational Chicken Genome
Sequencing Consortium
2004)で
は概 要 塩 基 配 列 の 解 読 が 完 了 して お り、 ブ タ
に お い て も現 在 国 際 コ ン ソ ー シ ア ム に よ る 解 読 が 進 行
し て い る(Schookら2005)。
こ れ ら ゲ ノ ム 塩,基配 列 の
情 報 だ け で は な く、 発 現 遺 伝 子 の 配 列 情 報 、 さ ら に 翻
訳 後 の タ ンパ ク 質 の 情 報 な どの 急 速 な 蓄 積 の 進 展 が み
られ 、 家 畜 ・
家 禽 の 分 野 に お い て も例 外 で は な い。
こ れ ら の 「
分 子 生 物 学 」的 な 情 報 は 、 そ の 情 報 量 の
膨 大 さか ら、 的確 に 整 理 さ れ 、 か つ ア ク セ ス の しや す
い イ ン タ フ ェ ー ス を備 え た デ ー タベ ー ス が 構 築 され る
こ とが 、 広 く利 用 さ れ る た め に 必 須 で あ る と言 え る 。
本 稿 に お い て は 、 ゲ ノ ム情 報 を活 用 した 研 究 の た め に
有 用 な デ ー タベ ー ス の 中 で 、 特 に家 畜 ・
家 禽 に お い て
有 用 な も の に つ い て 、 筆 者 も関 係 して い る ブ タ ゲ ノ ム
解 析 に 関 わ る デ ー タ ベ ー ス を 中 心 に 、 一 部 ウ シ、 ニ ワ
トリ等 他 の 家 畜 ・
家 禽 に つ い て 概 説 す る 。
2.デ ー タ ベ ー ス の 歴 史
核 酸 、 タ ンパ ク 質 の 配 列 は 、 基 本 的 に は そ れ ぞ れ4
種 類 の 塩 基 あ る い は20種 類 の ア ミ ノ 酸 残 基 の 組 み 合
わせ に よ っ て 構 成 さ れ て い る もの で 、 単 純 な 文 字 列 と
同 様 の 扱 い が 可 能 で あ る こ とが 多 く、 相 互 比 較 な どの
コ ン ピ ュ ー タ に よ る情 報 処 理 、 ま た デ ー タベ ー ス と し
て の情 報 提 供 に 対 して 親 和 性 が 高 い 。
1953年 のWatsonとCrickに
よ るDNAの
構 造 の 提 唱
(WatsonとCrick l953)、 ま た1951年 のSangerに よ る イ ン ス リ ン の 部 分 的 な 配 列 決 定(SangerとTuppy 19 51a;SangerとTuppy 1951b)な ど 以 来 、DNA及 び タ ンパ ク 質 の 配 列 の 報 告 が 相 次 ぐ 一 方 、1960年 代 前 半 か らDayhoffら に よ っ て 構 想 が 行 わ れ て き た タ ン パ ク 質 の 構 造 の 解 析 及 び デ ー タ 提 供 に コ ン ピ ュ ー タ を 利 用 す る 試 み か ら 、1965年 に65個 の タ ン パ ク 質 の 情 報 を 含 む 「Atlas of protein sequence and structure」(http://www. dayhoff.cc/MODAtlasSummary.htm1)が 作 り 出 さ れ た 。こ れ は 最 初 の 本 格 的 な 分 子 生 物 学 の デ ー タ ベ ー ス と 呼 ん で も 良 い も の で あ り 、 そ の 後National Biomedical Research FoundationのProtein Information Resource(PIR;
http://pir.georgetown.edu/)へ と 発 展 を 遂 げ た 。 ま た 、 タ ン パ ク 質 の3次 元 構 造 に つ い て は 、Brookhaven Protein Data Bank(PDB)が1971年 に 開 設 さ れ 、 現 在 で は RCSB PDB(http://www.rcsb.org/)と し て 公 開 さ れ て い る 。 一 方 、1977年 にDNA塩 基 配 列 の 効 率 的 な 決 定 方 法 が 相 次 い で 発 表 さ れ(MaxamとGilbert l977;Sanger ら1977)、 核 酸 の 配 列 に つ い て も 急 速 に 情 報 が 蓄 積 す る こ と と な っ た 。 こ れ ら の 情 報 の 蓄 積 を 受 け て 、 分 子 生 物 学 に 関 わ る 情 報 を 提 供 す る セ ン タ ー と し て 、 米 国 で はNational Center of Biotechnology Information(NCBI)が 開 設 さ れ 、
ヨ ー ロ ッ パ で もEuropean Bioinformatics Institute(EBI) がEuropean Molecular Biology Laboratory(EMBL)の 一 部 門 と し て 設 立 さ れ た 。
こ の よ う に 蓄 積 さ れ た デ ー タ を 広 く公 開 し 共 有 す る
連 絡 先:上 西 博 英 、 独 立 行 政 法 人 農 業 生 物 資 源 研 究 所 ・動 物 科 学 研 究 領 域 〒305-8602茨 城 県 つ く ば 市 観 音 台2-1-2
上西
た め の し くみ と して 、 低 コ ス トで 大 量 の デ ー タ を通 信
す る シス テ ム が 必 要 と な る 。 こ の 方 面 で は、1970年
代
半 ば よ りフ ァ イ ル 転 送 の た め の 手 続 き(protocol)の 策
定 が 進 み 、 ま た コ ン ピ ュ ー タの 専 門家 で な くて も容 易
に フ ァ イ ル の 受 け 渡 し を可 能 と す る イ ン タ フ ェ ー ス が
次 々 と 開発 さ れ た 。初 期(1990年
代 前 半)に は 「Gopher」
と呼 ば れ る イ ン タ フ ェ ー ス が 普 及 し、1990年 代 半 ば か
ら は 、Gopherよ
り も早 くか ら概 念 的 に は 提 唱 さ れ て い
た 「World Wide Web(WWW)」
が 取 っ て 代 わ り、 塩 基
配 列 や タ ンパ ク 質 に つ い て の デ ー タベ ー ス にWWW
を通 じて ア ク セ ス で き る現 在 の よ う な シ ス テ ム が 成 立
した 。
核 酸 や ア ミ ノ酸 の 配 列 を 検 索 す る 方 法 と して 、 配 列
の 属 性 と し て の 遺 伝 子 名 な ど の 情 報 の 他 に 、 配 列 の 相
同性 を基 準 と して 必 要 な配 列 を 抽 出 す る 方 法 も存 在 す
る。 そ の た め の ツ ー ル と して 開 発 さ れ 、 広 く使 わ れ る
こ と に な っ た もの と し て 、1981年
に 発 表 され
たSmith-Watermanア
ル ゴ リズ ム(SmithとWatermanlg81)が
あ
る 。 そ の 後 、FASTAと
呼 ば れ る 方 法(Pearsonと
Lipman 1988)も
発 表 さ れ た もの の 、 高 速 性 と十 分 な 検
出 力 を兼 ね 備 え た 方 法 と して 、1990年
に 発 表 さ れ た
BLASTプ
ロ グ ラ ム(Altschulら1990)が
急 速 に 普 及 す
る こ と と な っ た 。 そ の 後 、 ギ ャ ッ プ の あ る配 列 の 比 較
も可 能 とす る 改 良 も な さ れ(Altschulら1997)、
事 実 上 、
BLASTは
相 同性 検 索 の 標 準 的 な 方 法 と し て の 地 位 を
確 立 して い る 。
これ らの 解 析 方 法 の 進 歩 、情 報 基 盤 の 充 実 を受 け て 、
核 酸 の 情 報 の 収 集 に つ い て も、 ゲ ノ ム塩 基 配 列 の 多 く
の 生 物 種 に お け る公 開 と平 行 し て 、 多 数 の 発 現 遺 伝 子
を 網 羅 的 に 収 集 す る 、expressed sequence tag(EST)
(Adamsら1991)の
よ う に 、 デ ー タ ベ ー ス に登 録 さ れ 、
遺 伝 子 の 機 能 等 の 情 報 と も有 機 的 に 関 連 づ け られ る こ
と に よ りそ の 価 値 を 発 揮 す る よ う な デ ー タ の 蓄 積 手 法
が 普 及 す る こ と と な っ た 。 家 畜 ・
家 禽 動 物 に お い て も 、
前 述 の よ う に ゲ ノ ム 塩 基 配 列 の 解 読 が 行 わ れ る と 同 時
に 、 発 現 遺 伝 子 情 報 の 蓄 積 も進 展 し て お り、 大 量 の デ
ー タ が 有 機 的 に 連 携 づ け られ た デ ー タベ ー ス の 有 用 性
が さ ら に大 き くな っ て い る と言 っ て よ い だ ろ う。
3.生 物 種 共 通 の デ ー タ ベ ー ス
様 々 な 生 物 種 を 網 羅 し た 分 子 生 物 学 的 な デ ー タベ ー
ス の 中 で 、 最 も規 模 が 大 き く、 か つ よ く利 用 され て い
る も の と い え ばNCBIの
提 供 す る デ ー タ ベ ー ス 群
(Wheelerら2007)で
あ る こ と は 異 論 の な い と こ ろ で あ
ろ う。NCBIの
デ ー タ ベ ー ス 群 は 多 岐 に わ た りそ れ ら
を 詳 述 す る に は 紙 幅 が 足 り な い た め 、 こ こ で は 代 表 的 な も の に つ い て 説 明 す る に と ど め る 。 NCBIの 中 で も 中 心 と な る デ ー タ ベ ー ス と い え る GenBank(http://www.ncbi.nlm.nih.gov/Genbank/) (Bensonら2007)は 、1980年 代 初 頭 に 、 ワ シ ン ト ン DC近 郊 ベ セ ス ダ のNational Institutes of Health(NIH)内に 設 立 さ れ た 。 現 在 で は1,000億 塩 基 以 上 のDNAな い しRNAの 配 列 を 蓄 積 し 公 開 し て い る 。GenBankは 前 述 のEMBL、 及 び 日 本 の 遺 伝 学 研 究 所 で1980年 代
よ り 運 営 さ れ て い るDNA Data Bank of Japan(DDBJ)と 国 際 塩 基 配 列 デ ー タ ベ ー ス を 共 同 構 築 し 、 ど の デ ー タ ベ ー ス に 登 録 さ れ て も 公 開 と 同 時 に 他 の デ ー タ ベ ー ス に 転 送 さ れ 、 共 通 に 閲 覧 で き る よ う な シ ス テ ム を 構 成 し て い る 。GenBankに=登 録 さ れ て い る 配 列 は 、 キ ー ワ ー ドで 検 索 す るEntrezBrowser(http://www .ncbi.nlm.nih. gov/Entrez/)、BLASTプ ロ グ ラ ム に 基 づ く 相 同 性 検 索 に よ り 、 全 登 録 配 列 に 対 し て 、 あ る い はEST、STS (sequence tagged site;短 い 塩 基 配 列 断 片 で 、 通 常 は 染 色 体 上 の 位 置 が わ か っ て い る も の を 指 す)、GSS
(Genome Survey Sequence;ゲ ノ ム 塩 基 配 列 の 断 片)そ れ ぞ れ の デ ー タ セ ッ ト に 限 定 し た(あ る い は そ れ ら を 除 い た)検 索 を 行 う こ と が で き る 。 ま た 、GenBankの 内 容 は 、 そ の 他 の デ ー タ ベ ー ス 、 例 え ば 文 献 情 報 デ ー タ ベ ー ス で あ るPubMed(http://www.ncbi.nlm.nih.gov/ entrez/query.fcgi?db=PubMed)や 、 後 述 のGeneな ど か ら 塩 基 配 列 デ ー タ を 参 照 す る 際 に 利 用 さ れ て い る 。 さ ら に 、 塩 基 配 列 と 同 様 に 、 タ ン パ ク 質 の 配 列 に つ い て も 、 前 述 のPIRやPDBの 他 、SwissProtやPRFと い っ た デ ー タ ベ ー ス に 含 ま れ る 情 報 、 さ ら にGenBank、 及 び 遺 伝 子 や ゲ ノ ム の 情 報 か ら 重 複 を 除 い た セ ッ トで あ るRefSeq(後 述)中 の コ ー デ ィ ン グ 情 報 か ら 生 成 さ れ た タ ン パ ク 質 の 配 列 を 含 め て キ ー ワ ー ド検 索 が 可 能 な シ ス テ ム(EntrezProtein;http://www.ncbi.nlm.nih.gov/ entrez/query.fcgi?db=Protein)が 用 意 さ れ て い る 。 GenBankは 世 界 中 の 研 究 者 が 、 一 定 の 書 式 に 従 え ば 自 由 に 登 録 で き る シ ス テ ム で あ り、 配 列 の 重 複 に つ い て は 整 理 さ れ て い な い た め 、 検 索 に よ っ て 得 ら れ た デ ー タ に 冗 長 な 部 分 が 多 くそ の ま ま で は 利 用 に 耐 え な い 場 合 も 多 い 。NCBIで は 、 ゲ ノ ムDNAと そ のRNA転 写 産 物 及 び 翻 訳 に よ っ て 生 じ る と 見 ら れ る タ ン パ ク 質 に つ い て 、 代 表 的 な 生 物 種 に つ い て 「人 の 目 を 介 し て 」 取 捨 選 択 さ れ た 情 報 の 提 供 を 行 っ て お り、 “RefSeq” と 呼 称 さ れ て い る(http://www.ncbi.nlm.nih.gov/RefSeq/) (Pruittら2007)。2007年7月24日 に 公 開 さ れ た RefSeq(リ リ ー ス24)に お い て は 、4,511の 生 物 種(ウ
ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タベ ー ス
イ ル ス を 含 む)に 由 来 す る3,866,210個 の タ ン パ ク 質 に 相 当 す る 配 列 が 登 録 さ れ て い る 。 こ の 中 に は 、 ウ シ 、 イ ヌ 、 ニ ワ ト リ に つ い て の ゲ ノ ム 概 要 塩 基 配 列 の 情 報 と 、 存 在 が 予 想 さ れ る 遺 伝 子 及 び タ ン パ ク 質 の 情 報 も 登 録 さ れ て い る 。 ブ タ に つ い て は ま だ 概 要 配 列 が 公 開 さ れ る 段 階 で は な い た め 情 報 は 不 完 全 で あ る が 、 1,000個 以 上 の タ ン パ ク 質 の 情 報 がRefSeq中 に 納 め ら れ て い る 。RefSeq中 に 登 録 さ れ て い る 遺 伝 子 、 タ ン パ ク 質 の 情 報 に つ い て は 、 キ ー ワ ー ド 検 索 が 可 能 な ”EntrezGenes”(http://www .ncbi.nlm.nih.gov/entrez/query. fcgi?db=gene)(Maglottら2007)か ら 閲 覧 す る こ と が で き る 。 遺 伝 子 の 染 色 体 上 の 位 置 、 ゲ ノ ム 塩,基 配 列 の 情 報 に つ い て は 、Genomic Biologyデ ー タ ベ ー ス(http://www . ncbi.nlm.nih.gov/Genomes/)に ま と め ら れ て い る 。 多 型 マ ー カ ー や 遺 伝 子 の 染 色 体 上 の 位 置 に つ い て 詳 細 な 情 報 が 得 ら れ る 。2007年10月 現 在 で 、 ウ シ 、 ウ マ 、 ニ ワ ト リ 、 イ ヌ 、 ミ ツ バ チ に つ い て ゲ ノ ム 塩 基 配 列 を 含 め た 詳 細 な 情 報 が 提 供 さ れ て お り 、 ブ タ 、 ヒ ツ ジ に お い て は 各 種DNAマ ー カ ー が 染 色 体 上 に マ ッ プ さ れ た 地 図 の 情 報 を 得 る こ と が で き る 。 こ れ ら の 動 物 種 に お い て は 、NCBIで 提 供 し て い る 情 報 と 、 外 部 の リ ン ク が と も に 種 毎 に ま と め ら れ て 提 供 さ れ て い る 。 近 年 、 ゲ ノ ム ワ イ ド な 相 関 解 析 や 品 種 ・個 体 識 別 に お け る 有 用 性 が 注 目 さ れ るSNPに つ い て も 、dbSNP デ ー タ ベ ー ス(http://www.ncbi.nlm.nih.gov/SNP/)が 用 意 さ れ て い る 。 ウ シ で は230万 個 以 上 、 ニ ワ ト リ で は 330万 個 以 上 のSNPがdbSNPに=登 録 さ れ て お り、 ヒ ト で 行 わ れ る の と 同 様 の 相 関 解 析 に 利 用 可 能 なSNPが 用 意 さ れ て い る 。 ブ タ で は 、 ま だUSDAに よ っ て 開 発 さ れ たSNP(Fahrenkrugら2002)を 中 心 に7,000個 弱 の 登 録 に と ど ま っ て い る が 、 フ ラ ン ス 、 デ ン マ ー ク 、 オ ラ ン ダ な ど が 精 力 的 にSNPの 開 発 を 行 っ て お り 、 ま た 筆 者 の グ ル ー プ も 後 述 の デ ー タ ベ ー ス で は 公 開 し て い る も の のdbSNPで は 未 公 開 の も の も 含 め 多 数 の SNPを 未 登 録 で あ り、 ブ タ に つ い て も 今 後 急 速 に デ ー タ が 蓄 積 す る こ と が 期 待 さ れ る 。 分 子 生 物 学 に 関 す る も う1つ の 統 合 デ ー タ ベ ー ス を 運 営 し て い る 機 関 と し て 、EBI/EMBL(Kulikovaら 2007)が あ る 。EBI/EMBLはNCBIと 比 較 す る と そ の 規 模 で は 一 歩 譲 る も の の 、 多 く の 特 徴 の あ る デ ー タ ベ ー ス を 備 え て お り、 利 用 価 値 は 大 き い 。 EBI/EMBLに お い て 、 特 に ゲ ノ ム 解 析 に 関 連 し て 重 要 な デ ー タ ベ ー ス と し て は 、 「Ensembl Genome Browser」 及 び 「Pre-Ensembl」 が あ る(Hubbardら2007)。Ensemblに お い て は 、 ウ シ 、 ニ ワ ト リ 、 イ ヌ 、 ネ コ を 含 む35種 の ゲ ノ ム 塩 基 配 列 に つ い て の 詳 細 な 解 析 結 果 を 含 め た デ ー タ を 閲 覧 す る こ と が で き る 。 ま た 、 ま だ ゲ ノ ム 塩 基 配 列 情 報 が 完 全 で は な い か 、 ア ノ テ ー シ ョ ン が 十 分 に 行 わ れ て い な い 動 物 種 に つ い て もPre-Ensemblデ ー タ ベ ー ス が 用 意 さ れ て お り 、 ブ タ 、 ウ マ 、 及 び 最 も 原 始 的 な 脊 椎 動 物 の 一 種 で あ る ヤ ツ メ ウ ナ ギ な ど の 情 報 が 提 供 さ れ て い る 。 ブ タ に つ い て は 、 EBI/EMBLの 中 心 メ ン バ ー で あ るWellcome Trust Sanger Institute(WTSI)は 、 国 際 ブ タ ゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ ア ム に よ る ゲ ノ ム 塩 基 配 列 の 解 読 に お い て 、 制 限 酵 素 分 解 し たBACク ロ ー ン を 用 い た ゲ ノ ム 地 図 で あ るFingerprint mapの 作 製 、 さ ら に 配 列 解 読 の た め のBACク ロ ー ン 及 び ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン 用 の プ ラ ス ミ ド ク ロ ー ン の 配 布 を 行 う と と も に 、 ゲ ノ ム 塩 基 配 列 解 読 の た め の ア セ ン ブ ル 作 業 等 を 行 う な ど 解 析 セ ン タ ー と し て 位 置 づ け ら れ て い る こ と も あ り、 ブ タ ゲ ノ ム 塩 基 配 列 情 報 の 発 信 に お い て も 積 極 的 で あ る 。 即 ち 、 ブ タ ゲ ノ ム 全 体 のBACク ロ ー ン に よ る 地 図 で あ るSus scrofa map(http://pre.ensembl.org/ Sus _scrofa_map/index.html)を 公 開 し 、 そ の 中 で 各BAC ク ロ ー ン の 位 置 情 報 と 解 読 担 当 機 関 、 既 に 解 読 の 完 了 し て い る ク ロ ー ン に つ い て は 塩 基 配 列 を 閲 覧 す る こ と も 可 能 に し て い る 。 さ ら に 塩 基 配 列 解 読 が 比 較 的 順 調 に 進 展 し て い る 第1、4、7、11、14、17染 色 体 に つ い て は 、 解 読 部 分 に つ い て の 配 列 の 、 ヒ トの 転 写 産 物 と の 比 較 な ど の 詳 細 な 情 報 を 、 他 の 染 色 体 に 先 行 し て 公 開 し て い る 。 ゲ ノ ム 上 に コ ー ド さ れ る 遺 伝 子 の 詳 細 に つ い て は 、 ゲ ノ ム 塩 基 配 列 と 発 現 遺 伝 子 情 報 を 単 に 比 較 し た だ け で は 確 定 で き な い 部 分 が あ り 、 「人 の 目 を 介 し た 」 よ り 詳 細 な ア ノ テ ー シ ョ ン の 作 業 が 必 要 で あ る 。 こ れ ら よ り 詳 細 な ア ノ テ ー シ ョ ン 情 報 を 提 供 す る も の と し て 、WTSIで は 「Vega」 と 呼 ば れ る デ ー タ ベ ー ス を 公 開 し て い る(http://vega.sanger.ac.uk/)(Ashurstら2005)。 Vegaで は 、 ヒ ト と 、 限 定 的 で は あ る も の の マ ウ ス 、 ゼ ブ ラ フ イ ッ シ ュ 、 イ ヌ 、 ブ タ の 合 計5種 に つ い て 、 既 知 の タ ンパ ク 質 の コ ー デ ィ ン グ 領 域 と 、確 認 さ れ た 、 あ る い は 想 定 さ れ る 転 写 産 物 、 偽 遺 伝 子 と見 ら れ る 領 域 の そ れ ぞ れ に つ い て 詳 細 な 情 報 を 提 供 し て い る 。 Vegaに お い て 最 も 情 報 の 充 実 し て い る ヒ ト に つ い て は 、7つ の 異 な る 研 究 グ ル ー プ が そ れ ぞ れ 染 色 体 を 分 担 し て ア ノ テ ー シ ョ ン を 行 っ て い る 。現 在 の と こ ろ 、 第2、4、5及 び11染 色 体 を 除 く19対 の 染 色 体 に つ い て 、染 色 体 全 体 の ア ノ テ ー シ ョ ン を ほ ぼ 完 了 し て い る 。
上 西
ブ タ に つ い て は 、 前 述 の よ う に ゲ ノ ム 塩 ・基 配 列 の 解 読 をWTSIが 主 導 し て 行 っ て い る こ と も あ り、 ま だ ゲ ノ ム 塩 基 配 列 全 体 が 公 開 さ れ て い な い 段 階 に も か か わ ら ず 、 ア イ オ ワ 州 立 大 の 要 請 で 解 読 を 行 っ た 第17染 色 体 の 一 部 に つ い て 詳 細 な 解 析 状 況 を 公 開 し て い る 。 さ ら に 、NCBI及 びWTSIに よ っ て 提 供 さ れ て い る サ ー ビ ス で 、 見 落 と し て は な ら な い も の はTrace Archive(NCBI)/Trace Server(EBI/EMBL)が あ る 。 こ れ ら は 塩 基 配 列 解 読 に お い てDNAシ ー ケ ン サ ー に よ っ て 生 成 さ れ た 「生 デ ー タ 」そ の も の で あ り 、 単 な る A/T/G/Cの 塩 基 配 列 の デ ー タ と 比 較 し て 、 品 質 に 関 す る 情 報 を 含 む と い う 点 で 非 常 に 情 報 量 の 豊 富 な も の で あ る 。 こ れ ま で(平 成19年10月8日 現 在)に977種 (亜 種 や 系 統 を 含 む)に つ い て の デ ー タ が 登 録 ・公 開 さ れ て い る 。 特 に 、ESTや ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン の 生 デ ー タ は 、 利 用 す る に 当 た っ て そ の 解 析 デ ー タ の 品 質 が 重 要 な 要 素 で あ る こ と か ら 、GenBank、EMBLあ る い はDDBJの 様 な 一 般 的 な 塩 基 配 列 デ ー タ ベ ー ス に は 登 録 さ れ ず 、 直 接Trace Archiveに の み 登 録 さ れ て い る こ と が あ る 。 例 え ば デ ン マ ー ク と 中 国 の 共 同 研 究 (Sino-Danish Joint Venture Project;SDJVP、 後 述)に よ る ブ タ ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン 及 びEST解 析 の デ ー タ は 、GenBankな い しEMBLデ ー タ ベ ー ス で は 閲 覧 で き ず 、TraceArchive(あ る い はTrace Server)で の み 確 認 す る こ と が で き る 。 日 本 に お け る 塩 基 配 列 情 報 の デ ー タ ベ ー ス で あ り 、GenBank、EMBL Nucleotide Sequence Databaseと 国 際 塩 基 配 列 デ ー タ ベ ー ス を 共 同 構 築 し て い るDDBJに は 、 残 念 な が ら ま だTrace Archiveに 相 当 す る も の は な く 、 日 本 か ら の シ ー ケ ン ス デ ー タ の 円 滑 な 情 報 発 信 の た め に も 開 設 が 待 た れ る と こ ろ で あ る 。 NCBIのTrace Archive(http://www.ncbi.nlm.nih.gov/ Traces/)に お い て は 、 こ れ ら の 配 列 デ ー タ に 対 す る 相 同 性 検 索 や 、 生 デ ー タ そ の も の の 取 得 を 行 う こ と が で き る 。 生 デ ー タ の 取 得 に 当 た っ て は 、 ネ ッ ト ワ ー ク や サ ー バ の 能 力 上 の 問 題 か ら 、 一 度 に 取 得 で き る 配 列 数 に 上 限(40,000個)が 設 け ら れ て い る た め 、 例 え ば 上 記 SDJVPに よ る ブ タEST解 析 の デ ー タ 全 て を 取 得 す る た め に は 少 々 の コ ン ピ ュ ー タ 言 語(Perl)の 知 識 が 必 要 と な る が 、 あ ま り 困 難 な も の で は な い 。http://www. ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=show&f=doc&m=obtain&s=stipsに 、NCBIが 提 供 す るquery_tracedbと 名 付 け ら れ たPerlス ク リ プ ト を 川 い て 大 量 の デ ー タ を ダ ウ ン ロ ー ドす る 方 法 に つ い て 解 説 さ れ て い る 。 こ れ ま で に 解 説 し たNCBIやEBIの 多 く の デ ー タ ベ ー ス は、 も と の フ ァ イ ル そ の も の の 配 布 の た め のFTP サ イ ト を 用 意 し て い る こ と が 多 く 、 研 究 者 自 身 が ダ ウ ン ロ ー ド し て 自 身 の コ ン ピ ュ ー タ でBLAST相 同 性 解 析 を 行 う こ と も で き る 。 例 え ば 、NCBIのRefSeqは ftp://ftp.ncbi.nih.gov/refseq/release/か ら 全 て の デ ー タ を ダ ウ ン ロ ー ドす る こ と が 可 能 で あ る 。 そ の 他 、発 現 遺 伝 子 に 関 す る デ ー タ ベ ー ス と し て は 、 The Institute for Genome Research(TIGR)(現 在 はThe Center for the Advancement of Genomics(TCAG)と 統 合
さ れ てJ.Craig Venter Institute(JCVI)に 改 称)に よ る Gene Indicesが あ る(Leeら2005)。ESTやcDNAの 全 長 解 読 の 結 果 を ま と め て(ア セ ン ブ ル)、Tentative Consensus(TC)と 呼 ば れ る 仮 想 的 な 転 写 産 物 の 配 列 を
生 成 し 公 開 し て い る(http://www.tigr.org/の 「Database」 の 中 の 「Gene Indices」 か ら ア ク セ ス 可 能 。 現 在 ハ ー バ ー ド大 学 内Dana Farber Cancer Instituteの サ ー バ に 移 管 中 で あ る)。 こ れ ら の よ う に 、 こ れ ま で ヒ トや マ ウ ス に つ い て の 情 報 が 中 心 と 思 わ れ て い た 公 的 な ゲ ノ ム 情 報 に 関 す る デ ー タ ベ ー ス に つ い て も 、 家 畜 動 物 に 関 す る 情 報 の 蓄 積 が 急 速 に 進 展 し て お り 、 畜 産 に 関 わ る 研 究 者 に と っ て も こ れ ら 全 生 物 種 を 取 り扱 う デ ー タ ベ ー ス の 直 接 的 な 重 要 性 が よ り増 し て い る と 考 え て 良 い 。 4.家 畜 に 特 化 し た デ ー タ ベ ー ス 前 章 で は 、 生 物 種 一 般 を 対 象 と し た デ ー タ ベ ー ス に つ い て 、 家 畜 ・家 禽 動 物 で の デ ー タ の 提 供 状 況 を 中 心 に 解 説 を 行 っ た が 、 家 畜 ・家 禽 を ゲ ノ ム 解 析 の 対 象 と し て い る 各 研 究 機 関 に お い て も 独 自 の デ ー タ ベ ー ス の 構 築 と 公 開 を 行 っ て い る こ と が 多 い 。本 章 に お い て は 、 特 に 筆 者 の 専 門 で あ る ブ タ に つ い て 詳 述 し、 ウ シ 、 ニ ワ ト リ 等 他 の 家 畜 ・家 禽 に つ い て も 簡 単 に 触 れ る こ と と す る 。 家 畜 に 関 し て 、 以 前 よ りDNAマ ー カ ー や 地 図 の デ ー タ に つ い て 公 開 し て き た 、Roslininstituteが 運 営 し て い る “ArkDB”(http://www.thearkdb.org/)(Huら2001) は 、 ア ヒ ル 、 ウ ズ ラ 、 ウ シ 、 ウ マ 、 サ ケ 、 シ カ 、 シ チ メ ン チ ョ ウ 、 ス ズ キ 、 ブ タ 、 ニ ワ ト リ 、 ネ コ 、 ヒ ツ ジ の12種 の 家 畜 ・家 禽 ・魚 類 に つ い て のDNAマ ー カ ー 及 び 地 図 情 報 を 提 供 し て い る 。 例 え ば ブ タ に お い て は 、 80個 以 上 の 異 な る 報 告 に 基 づ く 連 鎖 地 図 に つ い て 、 Javaに 基 づ く シ ス テ ム に よ りマ ー カ ー の 情 報 と と も に 閲 覧 す る こ と が で き る 。 現 在 は シ ス テ ム の リ ニ ュ ー ア ル 中 で あ り、 マ ー カ ー 名 か ら 地 図 情 報 を 検 索 す る こ と は 困 難 で あ る が 、 近 い 将 来 に イ ン タ フ ェ ー ス が 改 善 さ
ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タ ベ ー ス
れ る も の と 考 え ら れ る 。 家 畜 ゲ ノ ム 解 析 に お い て は 、 形 質 を 支 配 す る ゲ ノ ム 領 域 を 同 定 し 育 種 に 役 立 て る こ と が 最 も 直 接 的 か つ 主 要 な 目 的 と 考 え ら れ て い る が 、 形 質 と ゲ ノ ム 領 域 の 関 連 に つ い て の 解 析 に 従 事 す る 研 究 者 に と っ て 、 こ れ ま で に 、 ど の よ う な ゲ ノ ム 領 域 で 、 ど の よ う な 形 質 と の 関 連 が 指 摘 さ れ て い る か と い う こ と に つ い て 知 る こ と は 、 研 究 の 進 捗 に お い て 極 め て 有 用 で あ る こ と は 論 を 待 た な い 。 し か し な が ら 、PubMed等 の 文 献 検 索 に よ っ て こ れ ら 家 畜 ・家 禽 の ゲ ノ ム 領 域 と 形 質 と の 関 連 に つ い て の 情 報 を 収 集 す る こ と は 、 極 め て 多 く の 労 力 を 必 要 と す る 。 こ の よ う な 際 に 非 常 に 有 用 な デ ー タ ベ ー ス と し て 、Animal QTL Database(AnimalQTLdb)が 挙 げ ら れ る(http://www.animalgenome.org/QTLdb/)。2004 年 の 開 発 当 初 は 、NCBIのMap Viewerの 一 部 分 と し て の 実 装 で あ り 、 ブ タ の466個 の 量 的 形 質 座 位 (Quantitative Trait Loci;QTL)を 取 り扱 う の み で あ っ た が(2004年 中 に 取 り 扱 うQTL数 は791個 に 増 強) (Huら2005)、 国 際 ブ タ ゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ ア ム に お け るFingerprint地 図、 放 射 線 雑 種 細 胞 (radiation hybrid;RH)パ ネ ル に よ る 物 理 地 図(RH地 図)、 SNP情 報 、 ヒ ト ゲ ノ ム と の 比 較 地 図 の 組 み 込 み 、 さ ら に ウ シ や ニ ワ ト リ に つ い て の デ ー タ の 追 加 を 行 っ て 、 ア イ オ ワ 州 立 大 の サ ー バ か ら公 開 が 行 わ れ て い る(Hu ら2007)。 AnimalQTLdbは 、 ブ タ で はllo個 の 文 献 か ら1,675 個 、 ウ シ で は55個 の 文 献 か ら846個 、 ニ ワ ト リ で は 45個 の 文 献 か ら657個 のQTLの 情 報 を 公 開 し て い る (2007年10月 現 在)。QTLの 情 報 は 、 染 色 体 上 の 位 置 か ら だ け で は な く 、 形 質 の 種 類(肉 質 、 繁 殖 性 や 抗 病 性)か ら も 検 索 す る こ と が で き る 。 特 に ブ タ に 関 し て は 、 米 国 農 務 省(USDA)を 中 心 と し て 開 発 さ れ た マ イ ク ロ サ テ ラ イ ト マ ー カ ー に よ る 連 鎖 地 図 やRH地 図 、 USDAに よ るSNPの マ ッ ピ ン グ 情 報 、 ヒ ト と の 染 色 体 の 対 応 関 係 な ど が 簡 潔 に 表 示 さ れ る な ど 、 地 図 の 情 報 に つ い て も 非 常 に 充 実 し た も の と な っ て い る 。 ウ シ 及 び ニ ワ ト リ に つ い て も 、QTL情 報 だ け で は な く 、 ブ タ ほ ど 充 実 し た も の で は な い が 、SNPの マ ッ ピ ン グ 情 報 な ど の 公 開 を 行 っ て い る 。 ウ シ のQTL・EST・ ゲ ノ ム 配 列 の デ ー タ ベ ー ス と し て は 、 他 にTexas A&M Universityで 運 営 さ れ て い るBovine Genome Database(http://racerxOO.tamu.edu/bovine/)が 代 表 的 な も の と し て 挙 げ ら れ る 。 上 述 のRHパ ネ ル の 構 築 、 あ る い はEST解 析 な ど の 発 現 遺 伝 子 解 析 を 行 っ て い る 各 研 究 グ ル ー プ に お い て も 、 そ れ ぞ れ の 研 究 成 果 の1次 発 信 元 と し て デ ー タ ベ ー ス を 構 築 し て い る こ と も 多 い。例 え ば ブ タ に お い て 、 ミ ネ ソ タ 大 学 の グ ル ー プ と と も にRHパ ネ ル を 開 発 し た フ ラ ン ス 農 業 研 究 所(INRA)で は 、RHパ ネ ル を 用 い て 作 製 し た 地 図 を 、Webペ ー ジ を 通 じ て 公 開 す る と と も に 、INRAよ り 配 布 を 受 け たRHパ ネ ル を 用 い た タ イ ピ ン グ の 際 に 、 染 色 体 上 の 位 置 を 簡 便 に 知 る 為 の マ ッ ピ ン グ ツ ー ル の 公 開 を 行 っ て い る(http:〃imprh . toulouse.inra.fr/)(Milanら2000)。 ま た 、 デ ン マ ー ク と 中 国 の 共 同 プ ロ ジ ェ ク ト(SDJVP)と し て 行 わ れ た 約 100万 個 のEST解 析 結 果 は 、 「PigESTServer」 (http://pigest.ku.dk/server/index.html)と し て 、ESTの 配 列 そ の も の と 、 同 種 の 配 列 を ま と め た も の(Cluster)、 が キ ー ワ ー ド検 索 可 能 な デ ー タ ベ ー ス と し て 公 開 さ れ て い る(Gorodkinら2007)。 ま た 、EST解 析 に 先 立 っ て 行 わ れ た0.66倍 量 の ホ ー ル ゲ ノ ム シ ョ ッ トガ ン 、 さ ら にGenBankに 登 録 さ れ て い る 、 そ の 他 の ゲ ノ ム 塩 基 配 列 及 びmRNAの デ ー タ も 併 せ て 、 さ ら に 解 析 の 過 程 で 検 出 さ れ たSNPの 情 報 も 含 め て 「Pig Genomic Information System(PigGIS)」(http://www.piggis.org/) (Ruanら2007)を 構 築 し公 開 し て い る 。 こ れ ま で 、 日 本 に お い て も 、 ブ タ ゲ ノ ム 解 析 の 分 野 に お い て 、 発 現 遺 伝 子 解 析 、 特 定 領 域 の ゲ ノ ム 塩 基 配 列 解 読 、 染 色 体 地 図 の 作 成 な ど を 行 っ て き た 。 特 に 、 発 現 遺 伝 子 解 析 に お い て は 、 発 現 遺 伝 子 全 長 が 多 く含 ま れ て い る こ と が 期 待 さ れ る 「完 全 長cDNAラ イ ブ ラ リ ー 」 を 用 い たEST解 析 を 中 心 に 行 っ て き た 。 そ の 筆 者 ら のEST解 析 の 結 果 を 公 開 す る た め に 、 「Pig EST Data Explorer」(pEDE)と 呼 ぶ デ ー タ ベ ー ス を 構 築 し 、 7万 個 弱 のESTを ま と め た3万 以 上 の 異 な る 種 類 の 転 写 産 物 の 配 列 を 、 キ ー ワ ー ド検 索 に よ り 表 示 す る シ ス テ ム を 用 意 し た(Uenishiら2004)。 筆 者 ら のESTの 数 は 平 成18年 度 中 に19万 に ま で 増 加 し 、7万 種 類 近 い 転 写 産 物 の 配 列 を 公 開 す る と と も に 、1万 個 強 の cDNA全 長 を 解 読 し た 結 果 に つ い て も統 合 し 、 名 前 も 「Pig Expression Data Explorer」(略 称 はPEDEで 同 じ)と し て 公 開 し て い る(http://pede.dna.affrc.gojp/)(Uenishi ら2007)。 こ の デ ー タ ベ ー ス に は 、15種 類 の 組 織 ・細 胞 に 由 来 す るcDNAラ イ ブ ラ リ ー(内13種 類 の 組 織 ・ 細 胞 は 完 全 長cDNAラ イ ブ ラ リ ー)を 用 い たEST解 析 の 結 果 得 ら れ た 、 ブ タ の ゲ ノ ム 上 に 存 在 す る 遺 伝 子 (20,000∼25,000程 度)の 半 数 近 く(約10,000個 以 上) に 相 当 す る と 考 え ら れ る 発 現 遺 伝 子 の 配 列 を 格 納 し て い る 。 さ ら に 、 こ れ ら のESTの 中 で 同 一 の 配 列 を ま と め た 中 の 代 表 ク ロ ー ン10,147個 の 完 全 長cDNA配 列
上西
(お よ そ7,400個
の 異 な る ゲ ノム 上 の 位 置 に 由 来 す る転
写 産 物 と 考 え られ る)を 、 ヒ ト、 マ ウ ス 、 ウ シ 、 イ ヌ
と い っ た 全 ゲ ノ ム 解 読 が 行 わ れ た 代 表 的 な哺 乳 動 物 の
遺 伝 子 との 相 同性 につ い て 比 較 し た 情 報 を付 加 して い
る 。 デ ー タ ベ ー ス の 内 容 に 対 して 、 遺 伝 子 名 、 キ ー ワ
ー ドに よ る 検 索 、 またGene Ontologyの 分 類 に基 づ い
た 表 示 の イ ン タ フ ェ ー ス 等 を備 え て お り、 ブ タ完 全 長
cDNAの
デ ー タベ ー ス と し て は 現 在 世 界 で 唯 一 の も の
で あ る。
こ こ で 取 り上 げ た 以 外 に も、 多 く の 家 畜 ・
家 禽 の ゲ
ノ ム 解 析 の 結 果 を提 供 す る デ ー タ ベ ー ス が 構 築 さ れ
て い る 。 代 表 的 な も の が 、NCBIの
ウ シ 、 ブ タ、 ニ
ワ ト リそ れ ぞ れ の ゲ ノ ム 解 析 に 関 す る ポ ー タ ル ペ ー
ジ(表1)か
ら リ ン ク さ れ て い る の で 、 参 考 に す る と
良 い 。
表1.デ ー タ ベ ー ス の 一 覧 1.様 々 な生 物 種 に対 応 した デ ー タベ ース の 例ブ タ ゲ ノ ム 解 析 研 究 の た め の デ ー タベ ー ス
5.デ ー タ ベ ー ス構 築 に つ い て
ゲ ノ ム解 析 の 結 果 は 、 他 の 研 究 者 に 利 用 さ れ る こ と
に よ っ て そ の 価 値 は 飛 躍 的 に 高 ま る。 あ る い は 、 他 の
研 究 者 に利 用 され る こ とが ゲ ノ ム 解 析 研 究 の 存 在 意 義
と も言 え る 。 そ の た め に も、 解 析 結 果 を デ ー タベ ー ス
化 し、WWWな
ど を通 じ て公 開 す る こ と は重 要 で あ る。
しか し なが ら、 解 析 デ ー タ を デ ー タベ ー ス に適 し た形
に 整 理 し、 実 際 に デ ー タベ ー ス を構 築 し、 さ らに 公 開
す る た め の イ ン タ フ ェ ー ス を用 意 す る と い う こ と に 関
して は 、 敷 居 が 高 い と考 え て い る 向 き も多 い の で は な
い か と思 わ れ る 。 ま た 、 デ ー タベ ー ス の 作 製 を専 門 業
者 な どに 外 注 して も 、 費 用 が か さ む だ け で は な く、 必
ず し も研 究 者 の 意 図 の と お りの も の が で き あ が る と も
限 ら な い 。 そ こ で 、 本 章 で は ゲ ノ ム 解 析 に 関 わ る研 究
者 が デ ー タベ ー ス を作 製 す る際 の 、 簡 単 な 手 引 き と注
意 点 を示 す こ と とす る 。
デ ー タ ベ ー ス の 形 式 と して 一・
番 簡 単 な の は、 あ た か
も情 報 が 記 載 さ れ た カ ー ドを積 み 重 ね る よ う な デ ー タ
ベ ー ス で あ る 。 か つ て は 、 個 人 的 な研 究 結 果 、 あ る い
は 試 薬 の 調 製 方 法 な ど をMacintoshのHyperCardや
FileMakerな
ど を使 っ て 作 製 し て い た 研 究 者 も多 い よ
う に、 デ ー タベ ー ス と して は 最 も敷 居 の 低 い 方 法 で あ
り、 デ ー タ ベ ー ス の 設 計 に お い て も必 要 な項 目 を考 え
る だ け で す む の で 簡 単 で あ る 。 ま た 、 デ ー タ数 が 少 な
い 内 は 非 常 に 動 作 も軽 い 。 しか しな が ら、 デ ー タの 重
複 が 発 生 しや す い 、 複 数 の カ ー ドに ま た が る 変 更 が 生
じた 際 に デ ー タ の 訂 正 が 煩 雑 に な る 、 複 数 の 異 な る カ
ー ドを また が っ て 検 索 を行 う こ とが 難 しい な ど
、 ゲ ノ
ム解 析 情 報 の よ う に1つ1つ
の 項 目 は(塩 基 配 列 、 対
応 す る 遺 伝 子 な ど)比 較 的 単 純 で あ る に も か か わ らず
項 目数 が 多 く、 しか もデ ー タベ ー ス の 拡 張 に した が っ
て 項 目数 が 増 加 す る宿 命 に あ り、 か つ そ れ らの 項 目が
複 雑 に 関 連 し合 っ て い る デ ー タ の 取 り扱 い に は 不 向 き
で あ る 。
ゲ ノ ム解 析 の 結 果 を デ ー タベ ー ス 化 す る 際 に と ど ま
らず 、 デ ー タベ ー ス を作 製 す る際 に ま ず 考 慮 す べ き事
柄 は、 「あ ら ゆ る デ ー タ はn項 の 関係 で 表 さ れ る 」 とい
う こ と で あ る 。 あ る い は 、 「
全 て の デ ー タ は2次
元 の
表 、 な い し2次 元 の 表 の 組 み 合 わ せ で 表 現 さ れ 得 る 」
と言 い換 え て も よい 。 こ の 概 念 の 最 初 の 理 念 的 根 拠 は
1970年 にEdgar Frank Coddに
よ って 提 示 さ れ 、 リ レ ー
シ ョナ ル(関 係)デ ー タ モ デ ル と称 さ れ て い る(Codd
l970)。
リ レー シ ョナ ル デ ー タモ デ ル に 従 う こ と に よ
り、 デ ー タ の対 応 関 係 が 明 確 化 し、 項 目数 の 増 加 な ど
に柔 軟 に対 応 で き る拡 張 性 の 高 い デ ー タ ベ ー ス の 構 築
が 可 能 と な る 。 本 モ デ ル を 利 用 し た デ ー タ ベ ー ス 管 理 シ ス テ ム は 、Oracle(http://www.oracle.com/)、MySQL (http://www.mysql.com/)な ど 、 商 品 、 あ る い は 対 価 を 要 求 し な い も の も含 め て 数 多 く存 在 し て い る 。 筆 者 が 構 築 し たPEDEデ ー タ ベ ー ス に お い て は 、 利 用 に 際 し て 対 価 を 要 求 せ ず 、 商 用 利 用 に つ い て も 制 限 の な い PostgreSQLを 使 用 し て い る(http://www.postgresql.org/)。 例 と し て 、 筆 者 ら が 構 築 し た デ ー タ ベ ー ス に お け る テ ー ブ ル 構 築 の 考 え 方 を 述 べ る(図1) 。 例 え ば 、 ブ タEST解 析 の 結 果 を 、 同 じ配 列 を ひ と ま と め に す る 操 作(ア セ ン ブ ル)を 行 い 、 ヒ トの 遺 伝 子 の セ ッ ト(RefSeq)に 対 し てBLASTに よ る 相 同 性 解 析 を 行 っ た 上 で 、 検 索 結 果 を 対 応 が 予 想 さ れ る 遺 伝 子 名 も 併 せ て デ ー タ ベ ー ス 化 す る 、 と い う 操 作 に つ い て 考 えて み る 。PEDEに お い て はTGICLと 呼 ば れ るTIGRが 開 発 し たESTの ア セ ン ブ ル の た め の ツ ー ル(Perteaら 2003)を 用 い て い る が 、 そ の 結 果 と し て 、 ア セ ン ブ リ (い く つ か の 配 列 が ま と ま っ た も の)と そ の 配 列 、 ア セ ン ブ リ と そ れ に 所 属 す るEST、 と い っ た2つ の 関 係 (リ レ ー シ ョ ン)が 発 生 す る 。 さ ら に 、 こ の よ う に し て 得 ら れ た ア セ ン ブ リ の 配 列 を ヒ トRefSeq mRNAの セ ッ ト に 対 し てBLAST相 同 性 検 索 を 行 う と 、 ア セ ン ブ リ と 、RefSeqに 含 ま れ る 遺 伝 子 名 と 相 同 性 の 程 度 (BLAST score)な ど の 情 報 が 対 応 づ け ら れ る 。BLAST の 検 索 結 果 な ど の デ ー タ は 基 本 的 に は 文 字 情 報(テ キ ス ト)あ る い は 数 値 で あ り 、 こ れ ら を 図IC・Dの よ う に 別 々 の テ ー ブ ル と し て 表 現 し 、 デ ー タ ベ ー ス 中 に 格 納 す る 。 そ れ ぞ れ の テ ー ブ ル は 何 ら か の 共 通 な 項 目 (キ ー)に よ っ て 連 結 さ れ て い る 。 こ こ で 、 例 え ば 遺 伝 子 名 に よ っ て 検 索 リ ク エ ス トが 行 わ れ た 際 に 、 そ の 遺 伝 子 に つ い て 規 定 以 上 の(例 え ばBLAST scoreが100 以 上)の 値 を 示 し たBLAST検 索 の 結 果 を リ ス ト ア ッ プ し 、 対 応 す る ア セ ン ブ リ のID、 さ ら に そ の ア セ ン ブ リ に 所 属 す るESTを 抽 出 す る 、 と い う 操 作 が 自 動 的 に 行 わ れ る シ ス テ ム を 作 製 す る こ と に な る 。 例 え ば 、 表 の よ う な テ ー ブ ル に 対 し て 、 遺 伝 子 名 「CDIB」 に 対 応 す るBLAST scoreが100以 上 で ヒ ッ トす るBLAST検 索 の 結 果 を テ ー ブ ル か ら 抽 出 す る の で あ れ ば 、 そ の た め の 構 文(問 い 合 わ せ 文)は 次 の よ う に な る 。 select*fromrefseq _blastwheresymbol=’CDIB’and score>=100; さ ら に 問 い 合 わ せ 内 容 が 複 雑 に な っ た と し て も 、 条 件 を 変 更 す る か 、 複 数 の 文 を 組 み 合 わ せ る か に よ っ て 対 応 す る こ と が 可 能 で あ る 。 さ ら に 、 こ の よ う に し て 構 築 し た デ ー タ ベ ー ス を
上西
図1.Pig Expression Data Explorer(http://pede.dna.affrc.gojp/)に お け る デ ー タベ ー ス 構 成 の 例 。 キ ー ワ ー ド検 索 画 面(http;//pede.dna.affrc.go.jp/seq_searchlseq_viewer.php) (A)で 遺 伝 子 名(図 で はCDIB)とBLASTscore(図 で は100以 上)を 指 定 し て 検 索 を 行 っ と 、 条 件 に 一 致 す る 結 果 が 表 示 さ れ る(B)。 こ こ で は 、BLAST検 索 の 結 果 を テ ー ブ ル 化 し た 中 か ら 条 件 に 合 う 行 を 抽 出(C)し て 表 示 し て い る 。 さ ら に 一 致 し た ア セ ン ブ リ を 構 成 す るESTや そ の 配 列 は 別 の 表 か ら抽 出 さ れ(D)、 表 示 さ れ る(E)。 一 般 に 公 開 す る た め に は 、WWWで ア ク セ ス 可 能 な シ ス テ ム に つ い て も 設 計 す る 必 要 が あ る 。 一 般 に WWWサ ー バ はApache(http://www.apache.org/)と 呼 ば れ る ソ フ ト ウ ェ ア を 用 い て 構 築 す る こ と が 多 い が 、 PostgreSQLで 構 築 さ れ た デ ー タベ ー ス に 対 し てwww を 通 じ て ア ク セ ス す る 際 に は 、PHPと 呼 ば れ る ス ク リ プ ト言 語 を 用 い る 方 法 が 簡 便 で あ る 。 基 本 的 な 事 項 に つ い て は 既 存 の 日 本 語 で も 良 書 が 数 多 く 出 て い る の で (例 え ば 石 井2006;堀 田 と 桑 村2004)、 参 考 に す る と 良 い だ ろ う 。 サ ー バ と し て 使 用 す る コ ン ピ ュ ー タ も 、 一 般 的 な パ ー ソ ナ ル コ ン ピ ュ ー タ を 用 い てUNIX(あ る い はLinux)の サ ー バ と し て 用 い る と 非 常 に 安 価 で あ る 。 サ ー バ のOSも 無 料 で 入 手 可 能 で 、 か つ 安 定 し て 動 作 す る も の が 多 数 存 在 す る(http://fedoraprojectorg/、
ブ タ ゲ ノ ム 解 析 研 究 の た め の デ ー タベ ー ス
http://www.vinelinux.org/な ど)。
公 開 デ ー タベ ー ス を 作 製 す る 際 の 注 意 点 と し て 、 不
特 定 多 数 か らの ア ク セ ス を 受 け る存 在 に な る 、 と い う
こ とが 挙 げ られ る 。 研 究 者 か らの ア ク セ ス の み で あ れ
ば ほ と ん ど 問 題 に な らな い が 、 有 用 な デ ー タ ベ ー ス と
し て 広 く ア ク セ ス さ れ る よ う に な る と 、 実 際 に は 、
WWWサ
ー バ に対 す る 攻 撃 と考 え ら れ る ア ク セ ス が 急
増 す る 。OS及
び サ ー バ の ソ フ トウ ェ ア に つ い て 常 に
最 新 版 あ る い は脆 弱 性 を カバ ー す る 修 正(パ ッチ)を 導
入 して お く と と も に 、 デ ー タベ ー ス の 検 索 時 に不 正 な
文 字 列 を入 力 され る こ と に よ っ て デ ー タベ ー ス が 勝 手
に 書 き換 え ら れ る よ う な こ と を 防 ぐ し くみ を実 装 して
お くこ とが 必 要 で あ る。
6.お わ り に
家 畜 ・
家 禽 の 研 究 に と ど ま ら ず 、 分 子 生 物 学 を 利 用 し
た研 究 を行 う に 当 た っ て 、 こ れ ま で の 研 究 蓄 積 を い か
に 効 率 的 に 利 用 す る か 、 とい う点 が ま す ます 重 要 に な
っ て きて い る 。 特 に、 公 的 な デ ー タベ ー ス に登 録 さ れ
て い る 内 容 は 、 誰 に で も ア ク セ ス 可 能 な も の で あ り、
そ れ らの 利 用 法 に つ い て 習 熟 す る こ と は 競 争 力 の あ る
研 究 を行 う に 当 た っ て 非 常 に重 要 で あ る 。 ま た 、 そ の
結 果 と して 得 ら れ る デ ー タ につ い て も、 他 の研 究 者 に
ど れ だ け 用 い ら れ る か 、 とい う点 で価 値 が 大 き く変 わ
っ て くる 。 デ ー タベ ー ス の 利 用 、 さ ら に デ ー タベ ー ス
を通 じた デ ー タ の 発 信 に つ い て 、 今 後 、 研 究 者 は さ ら
に意 識 す る 必 要 が あ る だ ろ う。
謝 辞
こ こ で デ ー タ ベ ー ス の 構 築 の 例 と し て 取 り上 げ た
PEDEデ
ー タ ベ ー ス は 、 コ ン ピ ュ ー タの メ ン テ ナ ンス
に つ い て 三 菱 ス ペ ー ス ソ フ トウ ェ ア(株)の
シ ス テ ム エ
ン ジ ニ ア各 位 の ご協 力 を 受 け て 運 営 を 行 っ て い る 。 ま
た 、 デ ー タベ ー ス に格 納 さ れ て い る デ ー タ は、(独)農
業 生 物 資 源 研 究 所 、 及 び(社)農 林 水 産 先 端 技 術 産 業 振
興 セ ン タ ー ・
農 林 水 産 先 端 技 術 研 究 所 の 共 同 研 究 体 制
で あ る 「家 畜 ゲ ノ ム 解 析 研 究 プ ロ グ ラ ム(Animal
Genome
Research Program ;AGP,http://animal.dna.
affrc.gojp/)の メ ンバ ー の 努 力 に よ っ て得 られ 、 農 林 水
産 省 の 各 種 委 託 研 究 資 金 、 日本 中央 競 馬 会 の 特 別 振 興
事 業 に よ っ て 助 成 が 行 わ れ た もの で あ る 。 特 に こ こ に
記 して 謝 意 を表 し た い 。
参考文献
Adams MD, Kelley JM, Gocayne JD, Dubnick M,
Polymeropoulos MH, Xiao H, Merril CR, Wu A, Olde
B, Moreno RF, et al. 1991. Complementary DNA
sequencing:
expressed
sequence tags and human
genome project. Science, 252: 1651-1656.
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ.
1990. Basic local alignment search tool. Journal of
Molecular Biology, 215: 403-410.
Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z,
Miller W, Lipman DJ. 1997. Gapped BLAST and
PSI-BLAST: a new generation of protein database
search programs.
Nucleic Acids Research,
25:
3389-3402.
Ashurst JL, Chen CK, Gilbert JG, Jekosch K, Keenan S,
Meidl P, Searle SM, Stalker J, Storey R, Trevanion S,
Wilming L, Hubbard T. 2005.
The Vertebrate
Genome Annotation (Vega) database. Nucleic Acids
Research, 33: D459-465.
Benson DA, Karsch-Mizrachi
I, Lipman DJ, Ostell J,
Wheeler
DL.
2007.
GenBank.
Nucleic Acids
Research, 35: D21-25.
Codd EF. 1970. A Relational Model of Data for Large
Shared
Data Banks.
Communications
of the
Association for Computing Machinery, 13: 377-387.
Fahrenkrug SC, Freking BA, Smith TP, Rohrer GA, Keele
JW. 2002. Single nucleotide polymorphism (SNP)
discovery
in porcine
expressed
genes.
Animal
Genetics, 33: 186-195.
Gorodkin J, Cirera S, Hedegaard J, Gilchrist MJ, Panitz F,
Jorgensen C, Scheibye-Knudsen K, Arvin T, Lumholdt
S, Sawera M, Green T, Nielsen BJ, Havgaard JH,
Rosenkilde C, Wang J, Li H, Li R, Liu B, Hu S, Dong
W, Li W, Yu J, Wang J, Staerfeldt HH, Wernersson R,
Madden LB, Thomsen B, Hornshoj H, Bujie Z, Wang
X, Wang X, Bolund L, Brunak S, Yang H, Bendixen C,
Fredholm M. 2007. Porcine transcriptome analysis
based on 97 non-normalized
cDNA libraries and
assembly of 1,021,891 expressed
sequence tags.
Genome Biology, 8: R45.
Hu J, Mungall C, Law A, Papworth R, Nelson JP, Brown A,
Simpson I, Leckie S, Burt DW, Hillyard AL, Archibald
AL. 2001. The ARKdb: genome databases for farmed
and other animals.
Nucleic Acids Research, 29:
106-110.
Hu ZL, Dracheva S, Jang W, Maglott D, Bastiaansen J,
Rothschild MF, Reecy JM. 2005. A QTL resource and
上西
comparison tool for pigs: PigQTLDB.
Mammalian
Genome, 16: 792-800.
Hu ZL, Fritz ER, Reecy JM. 2007. AnimalQTLdb:
a
livestock QTL database tool set for positional QTL
information
mining and beyond.
Nucleic Acids
Research, 35: D604-609.
Hubbard TJ, Aken BL, Beal K, Ballester B, Caccamo M,
Chen Y, Clarke L, Coates G, Cunningham F, Cutts T,
Down T, Dyer SC, Fitzgerald S, Fernandez-Banet J,
Graf S, Haider S, Hammond M, Herrero J, Holland R,
Howe K, Howe K, Johnson N, Kahari A, Keefe D,
Kokocinski
F, Kulesha E, Lawson D, Longden I,
Melsopp C, Megy K, Meidl P, Ouverdin B, Parker A,
Prlic A, Rice S, Rios D, Schuster M, Sealy I, Severin J,
Slater G, Smedley D, Spudich G, Trevanion S, Vilella
A, Vogel J, White S, Wood M, Cox T, Curwen V,
Durbin R, Fernandez-Suarez XM, Flicek P, Kasprzyk
A, Proctor G, Searle S, Smith J, Ureta-Vidal A, Birney
E. 2007. Ensemb12007. Nucleic Acids Research, 35:
D610-617.
Kulikova T, Akhtar R, Aldebert P, Althorpe N, Andersson
M, Baldwin A, Bates K, Bhattacharyya S, Bower L,
Browne P, Castro M, Cochrane
G, Duggan K,
Eberhardt R, Faruque N, Hoad G, Kanz C, Lee C,
Leinonen R, Lin Q, Lombard V, Lopez R, Lorenc D,
McWilliam H, Mukherjee G, Nardone F, Pastor MP,
Plaister S, Sobhany S, Stoehr P, Vaughan R, Wu D,
Zhu W, Apweiler
R. 2007.
EMBL Nucleotide
Sequence Database in 2006. Nucleic Acids Research,
35: D16-20.
International Chicken Genome Sequencing Consortium.
2004.
Sequence and comparative
analysis of the
chicken genome provide unique perspectives
on
vertebrate evolution. Nature, 432: 695-716.
Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC,
Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W,
Funke R, Gage D, Harris K, Heaford A, Howland J,
Kann L, Lehoczky J, LeVine R, McEwan P, McKernan
K, Meldrim J, Mesirov JP, Miranda C, Morris W,
Naylor J, Raymond C, Rosetti M, Santos R, Sheridan
A, Sougnez C, Stange-Thomann
N, Stojanovic N,
Subramanian
A, Wyman D, Rogers J, Sulston J,
Ainscough R, Beck S, Bentley D, Burton J, Clee C,
Carter N, Coulson A, Deadman R, Deloukas
P,
Dunham A, Dunham I, Durbin R, French L, Grafham
D, Gregory S, Hubbard T, Humphray S, Hunt A, Jones
M, Lloyd C, McMurray A, Matthews L, Mercer S,
Mime S, Mullikin JC, Mungall A, Plumb R, Ross M,
Shownkeen R, Sims S, Waterston RH, Wilson RK,
Hillier LW, McPherson JD, Marra MA, Mardis ER,
Fulton LA, Chinwalla AT, Pepin KH, Gish WR,
Chissoe SL, Wendl MC, Delehaunty KD, Miner TL,
Delehaunty
A, Kramer JB, Cook LL, Fulton RS,
Johnson
DL, Minx PJ, Clifton SW, Hawkins T,
Branscomb E, Predki P, Richardson P, Wenning S,
Slezak T, Doggett N, Cheng JF, Olsen A, Lucas S,
Elkin C, Uberbacher E, Frazier M, et al. 2001. Initial
sequencing and analysis of the human genome. Nature,
409: 860-921.
Lee Y, Tsai J, Sunkara S, Karamycheva
S, Pertea G,
Sultana
R, Antonescu
V, Chan A, Cheung
F,
Quackenbush
J. 2005.
The TIGR Gene Indices:
clustering and assembling EST and known genes and
integration with eukaryotic genomes. Nucleic Acids
Research, 33: D71-74.
Maglott D, Ostell J, Pruitt KD, Tatusova T. 2007. Entrez
Gene: gene-centered information at NCBI. Nucleic
Acids Research, 35: D26-31.
Maxam AM, Gilbert W. 1977.
A new method for
sequencing DNA. Proceedings of National Academy
of Science, U.S.A., 74: 560-564.
Milan D, Hawken R, Cabau C, Leroux S, Genet C, Lahbib
Y, Tosser G, Robic A, Hatey F, Alexander L, Beattie
C, Schook L, Yerle M, Gellin J. 2000. IMpRH server:
an RH mapping
server available
on the Web.
Bioinformatics, 16: 558-559.
Pearson WR, Lipman DJ.
1988. Improved tools for
biological
sequence comparison.
Proceedings
of
National Academy of Science, U.S.A., 85: 2444-2448.
Pertea G, Huang X, Liang F, Antonescu V, Sultana R,
Karamycheva S, Lee Y, White J, Cheung F, Parvizi B,
Tsai J, Quackenbush J. 2003. TIGR Gene Indices
clustering tools (TGICL): a software system for fast
clustering of large EST datasets. Bioinformatics, 19:
651-652.
Pruitt KD, Tatusova T, Maglott DR. 2007. NCBI reference
sequences (RefSeq): a curated non-redundant sequence
database of genomes, transcripts and proteins. Nucleic
Acids Research, 35: D61-65.
ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タ ベ ー ス
K, Bolund L, Wang J. 2007. PigGIS: Pig Genomic
Informatics System.
Nucleic Acids Research, 35:
D654-657.
Sanger F, Nicklen S, Coulson AR. 1977. DNA sequencing
with chain-terminating
inhibitors.
Proceedings of
National Academy of Science, U.S.A., 74: 5463-5467.
Sanger F, Tuppy H. 1951a. The amino-acid sequence in
the phenylalanyl chain of insulin. 1. The identification
of lower
peptides
from
partial
hydrolysates.
Biochemical Journal, 49: 463-481.
Sanger F, Tuppy H. 1951b. The amino-acid sequence in
the phenylalanyl chain of insulin. 2. The investigation
of peptides from enzymic hydrolysates. Biochemical
Journal, 49: 481-490.
Schook LB, Beever JE, Rogers J, Humphray S, Archibald
A, Chardon P, Milan D, Rohrer G, Eversole K. 2005.
Swine Genome Sequencing Consortium (SGSC): a
strategic roadmap for sequencing the pig genome.
Comparative and Functional Genomics, 6: 251-255.
Smith TF, Waterman MS. 1981. Identification of common
molecular
subsequences.
Journal
of Molecular
Biology, 147: 195-197.
Uenishi H, Eguchi-Ogawa
T, Shinkai H, Okumura N,
Suzuki K, Toki D, Hamasima N, Awata T. 2007.
PEDE (Pig EST Data Explorer) has been expanded into
Pig Expression
Data Explorer,
including
10 147
porcine full-length cDNA sequences. Nucleic Acids
Research, 35: D650-653.
Uenishi H, Eguchi T, Suzuki K, Sawazaki T, Toki D,
Shinkai H, Okumura N, Hamasima N, Awata T. 2004.
PEDE (Pig EST Data Explorer): construction
of a
database for ESTs derived from porcine full-length
cDNA libraries.
Nucleic
Acids Research,
32:
D484-488.
Watson JD, Crick FH. 1953. Molecular structure of
nucleic acids; a structure for deoxyribose nucleic acid.
Nature, 171: 737-738.
Wheeler DL, Barrett T, Benson DA, Bryant SH, Canese K,
Chetvernin V, Church DM, DiCuccio M, Edgar R,
Federhen S, Geer LY, Kapustin Y, Khovayko 0,
Landsman D, Lipman DJ, Madden TL, Maglott DR,
Ostell J, Miller V, Pruitt KD, Schuler GD, Sequeira E,
Sherry ST, Sirotkin K, Souvorov A, Starchenko G,
Tatusov RL, Tatusova TA, Wagner L, Yaschenko E.
2007. Database resources of the National Center for
Biotechnology Information. Nucleic Acids Research, 35: D5-12.
石 井 達 夫.2006. PC UNIXユ ー ザ の た め のPostgreSQL 完 全 攻 略 ガ イ ド.技 術 評 論 社.
堀 田 倫 英,桑 村 潤.2004. PHP5徹 底 攻 略 ソ フ トバ ン ク ク リ エ イ テ イ ブ.