• 検索結果がありません。

Databases for research on genome analysis for pigs Hirohide UENISHI Division of Animal Sciences, National Institute of Agrobiological Sciences

N/A
N/A
Protected

Academic year: 2021

シェア "Databases for research on genome analysis for pigs Hirohide UENISHI Division of Animal Sciences, National Institute of Agrobiological Sciences"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

〔ミ ニ レ ビ ュ ー 〕

ブ タゲ ノ ム解 析 研 究 の た め の デ ー タベ ー ス

上西博英

独立行政法人農業生物資源研 究所 ・動物科学研究領域

Databases

for research

on genome

analysis

for pigs

Hirohide

UENISHI

Division of Animal Sciences, National Institute of Agrobiological Sciences

1.は じめ に

2001年 の 国 際 ヒ トゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ

ア ム に よ る ヒ トゲ ノ ム 概 要 塩 基 配 列 の 公 開(Landerら

2001)に 引 き続 き 、 様 々 な 生 物 種 の ゲ ノ ム 塩 基 配 列 の

解 読 が 行 わ れ て い る。 多 くの 生 物 種 に お い て ゲ ノ ム 塩

基 配 列 解 読 プ ロ ジ ェ ク トが 存 在 し、 ゲ ノ ム 概 要 塩 基 配

列 が 既 に 公 開 さ れ て い る 。 家 畜 ・家 禽 に お い て も、 既

に ウ シ(http://www.genome.gov/12512874)、

ニ ワ トリ

(lnternational Chicken Genome

Sequencing Consortium

2004)で

は概 要 塩 基 配 列 の 解 読 が 完 了 して お り、 ブ タ

に お い て も現 在 国 際 コ ン ソ ー シ ア ム に よ る 解 読 が 進 行

し て い る(Schookら2005)。

こ れ ら ゲ ノ ム 塩,基配 列 の

情 報 だ け で は な く、 発 現 遺 伝 子 の 配 列 情 報 、 さ ら に 翻

訳 後 の タ ンパ ク 質 の 情 報 な どの 急 速 な 蓄 積 の 進 展 が み

られ 、 家 畜 ・

家 禽 の 分 野 に お い て も例 外 で は な い。

こ れ ら の 「

分 子 生 物 学 」的 な 情 報 は 、 そ の 情 報 量 の

膨 大 さか ら、 的確 に 整 理 さ れ 、 か つ ア ク セ ス の しや す

い イ ン タ フ ェ ー ス を備 え た デ ー タベ ー ス が 構 築 され る

こ とが 、 広 く利 用 さ れ る た め に 必 須 で あ る と言 え る 。

本 稿 に お い て は 、 ゲ ノ ム情 報 を活 用 した 研 究 の た め に

有 用 な デ ー タベ ー ス の 中 で 、 特 に家 畜 ・

家 禽 に お い て

有 用 な も の に つ い て 、 筆 者 も関 係 して い る ブ タ ゲ ノ ム

解 析 に 関 わ る デ ー タ ベ ー ス を 中 心 に 、 一 部 ウ シ、 ニ ワ

トリ等 他 の 家 畜 ・

家 禽 に つ い て 概 説 す る 。

2.デ ー タ ベ ー ス の 歴 史

核 酸 、 タ ンパ ク 質 の 配 列 は 、 基 本 的 に は そ れ ぞ れ4

種 類 の 塩 基 あ る い は20種 類 の ア ミ ノ 酸 残 基 の 組 み 合

わせ に よ っ て 構 成 さ れ て い る もの で 、 単 純 な 文 字 列 と

同 様 の 扱 い が 可 能 で あ る こ とが 多 く、 相 互 比 較 な どの

コ ン ピ ュ ー タ に よ る情 報 処 理 、 ま た デ ー タベ ー ス と し

て の情 報 提 供 に 対 して 親 和 性 が 高 い 。

1953年 のWatsonとCrickに

よ るDNAの

構 造 の 提 唱

(WatsonとCrick l953)、 ま た1951年 のSangerに よ る イ ン ス リ ン の 部 分 的 な 配 列 決 定(SangerとTuppy 19 51a;SangerとTuppy 1951b)な ど 以 来 、DNA及 び タ ンパ ク 質 の 配 列 の 報 告 が 相 次 ぐ 一 方 、1960年 代 前 半 か らDayhoffら に よ っ て 構 想 が 行 わ れ て き た タ ン パ ク 質 の 構 造 の 解 析 及 び デ ー タ 提 供 に コ ン ピ ュ ー タ を 利 用 す る 試 み か ら 、1965年 に65個 の タ ン パ ク 質 の 情 報 を 含 む 「Atlas of protein sequence and structure」(http://www. dayhoff.cc/MODAtlasSummary.htm1)が 作 り 出 さ れ た 。

こ れ は 最 初 の 本 格 的 な 分 子 生 物 学 の デ ー タ ベ ー ス と 呼 ん で も 良 い も の で あ り 、 そ の 後National Biomedical Research FoundationのProtein Information Resource(PIR;

http://pir.georgetown.edu/)へ と 発 展 を 遂 げ た 。 ま た 、 タ ン パ ク 質 の3次 元 構 造 に つ い て は 、Brookhaven Protein Data Bank(PDB)が1971年 に 開 設 さ れ 、 現 在 で は RCSB PDB(http://www.rcsb.org/)と し て 公 開 さ れ て い る 。 一 方 、1977年 にDNA塩 基 配 列 の 効 率 的 な 決 定 方 法 が 相 次 い で 発 表 さ れ(MaxamとGilbert l977;Sanger ら1977)、 核 酸 の 配 列 に つ い て も 急 速 に 情 報 が 蓄 積 す る こ と と な っ た 。 こ れ ら の 情 報 の 蓄 積 を 受 け て 、 分 子 生 物 学 に 関 わ る 情 報 を 提 供 す る セ ン タ ー と し て 、 米 国 で はNational Center of Biotechnology Information(NCBI)が 開 設 さ れ 、

ヨ ー ロ ッ パ で もEuropean Bioinformatics Institute(EBI) がEuropean Molecular Biology Laboratory(EMBL)の 一 部 門 と し て 設 立 さ れ た 。

こ の よ う に 蓄 積 さ れ た デ ー タ を 広 く公 開 し 共 有 す る

連 絡 先:上 西 博 英 、 独 立 行 政 法 人 農 業 生 物 資 源 研 究 所 ・動 物 科 学 研 究 領 域 〒305-8602茨 城 県 つ く ば 市 観 音 台2-1-2

(2)

上西

た め の し くみ と して 、 低 コ ス トで 大 量 の デ ー タ を通 信

す る シス テ ム が 必 要 と な る 。 こ の 方 面 で は、1970年

半 ば よ りフ ァ イ ル 転 送 の た め の 手 続 き(protocol)の 策

定 が 進 み 、 ま た コ ン ピ ュ ー タの 専 門家 で な くて も容 易

に フ ァ イ ル の 受 け 渡 し を可 能 と す る イ ン タ フ ェ ー ス が

次 々 と 開発 さ れ た 。初 期(1990年

代 前 半)に は 「Gopher」

と呼 ば れ る イ ン タ フ ェ ー ス が 普 及 し、1990年 代 半 ば か

ら は 、Gopherよ

り も早 くか ら概 念 的 に は 提 唱 さ れ て い

た 「World Wide Web(WWW)」

が 取 っ て 代 わ り、 塩 基

配 列 や タ ンパ ク 質 に つ い て の デ ー タベ ー ス にWWW

を通 じて ア ク セ ス で き る現 在 の よ う な シ ス テ ム が 成 立

した 。

核 酸 や ア ミ ノ酸 の 配 列 を 検 索 す る 方 法 と して 、 配 列

の 属 性 と し て の 遺 伝 子 名 な ど の 情 報 の 他 に 、 配 列 の 相

同性 を基 準 と して 必 要 な配 列 を 抽 出 す る 方 法 も存 在 す

る。 そ の た め の ツ ー ル と して 開 発 さ れ 、 広 く使 わ れ る

こ と に な っ た もの と し て 、1981年

に 発 表 され

たSmith-Watermanア

ル ゴ リズ ム(SmithとWatermanlg81)が

る 。 そ の 後 、FASTAと

呼 ば れ る 方 法(Pearsonと

Lipman 1988)も

発 表 さ れ た もの の 、 高 速 性 と十 分 な 検

出 力 を兼 ね 備 え た 方 法 と して 、1990年

に 発 表 さ れ た

BLASTプ

ロ グ ラ ム(Altschulら1990)が

急 速 に 普 及 す

る こ と と な っ た 。 そ の 後 、 ギ ャ ッ プ の あ る配 列 の 比 較

も可 能 とす る 改 良 も な さ れ(Altschulら1997)、

事 実 上 、

BLASTは

相 同性 検 索 の 標 準 的 な 方 法 と し て の 地 位 を

確 立 して い る 。

これ らの 解 析 方 法 の 進 歩 、情 報 基 盤 の 充 実 を受 け て 、

核 酸 の 情 報 の 収 集 に つ い て も、 ゲ ノ ム塩 基 配 列 の 多 く

の 生 物 種 に お け る公 開 と平 行 し て 、 多 数 の 発 現 遺 伝 子

を 網 羅 的 に 収 集 す る 、expressed sequence tag(EST)

(Adamsら1991)の

よ う に 、 デ ー タ ベ ー ス に登 録 さ れ 、

遺 伝 子 の 機 能 等 の 情 報 と も有 機 的 に 関 連 づ け られ る こ

と に よ りそ の 価 値 を 発 揮 す る よ う な デ ー タ の 蓄 積 手 法

が 普 及 す る こ と と な っ た 。 家 畜 ・

家 禽 動 物 に お い て も 、

前 述 の よ う に ゲ ノ ム 塩 基 配 列 の 解 読 が 行 わ れ る と 同 時

に 、 発 現 遺 伝 子 情 報 の 蓄 積 も進 展 し て お り、 大 量 の デ

ー タ が 有 機 的 に 連 携 づ け られ た デ ー タベ ー ス の 有 用 性

が さ ら に大 き くな っ て い る と言 っ て よ い だ ろ う。

3.生 物 種 共 通 の デ ー タ ベ ー ス

様 々 な 生 物 種 を 網 羅 し た 分 子 生 物 学 的 な デ ー タベ ー

ス の 中 で 、 最 も規 模 が 大 き く、 か つ よ く利 用 され て い

る も の と い え ばNCBIの

提 供 す る デ ー タ ベ ー ス 群

(Wheelerら2007)で

あ る こ と は 異 論 の な い と こ ろ で あ

ろ う。NCBIの

デ ー タ ベ ー ス 群 は 多 岐 に わ た りそ れ ら

を 詳 述 す る に は 紙 幅 が 足 り な い た め 、 こ こ で は 代 表 的 な も の に つ い て 説 明 す る に と ど め る 。 NCBIの 中 で も 中 心 と な る デ ー タ ベ ー ス と い え る GenBank(http://www.ncbi.nlm.nih.gov/Genbank/) (Bensonら2007)は 、1980年 代 初 頭 に 、 ワ シ ン ト ン DC近 郊 ベ セ ス ダ のNational Institutes of Health(NIH)内

に 設 立 さ れ た 。 現 在 で は1,000億 塩 基 以 上 のDNAな い しRNAの 配 列 を 蓄 積 し 公 開 し て い る 。GenBankは 前 述 のEMBL、 及 び 日 本 の 遺 伝 学 研 究 所 で1980年 代

よ り 運 営 さ れ て い るDNA Data Bank of Japan(DDBJ)と 国 際 塩 基 配 列 デ ー タ ベ ー ス を 共 同 構 築 し 、 ど の デ ー タ ベ ー ス に 登 録 さ れ て も 公 開 と 同 時 に 他 の デ ー タ ベ ー ス に 転 送 さ れ 、 共 通 に 閲 覧 で き る よ う な シ ス テ ム を 構 成 し て い る 。GenBankに=登 録 さ れ て い る 配 列 は 、 キ ー ワ ー ドで 検 索 す るEntrezBrowser(http://www .ncbi.nlm.nih. gov/Entrez/)、BLASTプ ロ グ ラ ム に 基 づ く 相 同 性 検 索 に よ り 、 全 登 録 配 列 に 対 し て 、 あ る い はEST、STS (sequence tagged site;短 い 塩 基 配 列 断 片 で 、 通 常 は 染 色 体 上 の 位 置 が わ か っ て い る も の を 指 す)、GSS

(Genome Survey Sequence;ゲ ノ ム 塩 基 配 列 の 断 片)そ れ ぞ れ の デ ー タ セ ッ ト に 限 定 し た(あ る い は そ れ ら を 除 い た)検 索 を 行 う こ と が で き る 。 ま た 、GenBankの 内 容 は 、 そ の 他 の デ ー タ ベ ー ス 、 例 え ば 文 献 情 報 デ ー タ ベ ー ス で あ るPubMed(http://www.ncbi.nlm.nih.gov/ entrez/query.fcgi?db=PubMed)や 、 後 述 のGeneな ど か ら 塩 基 配 列 デ ー タ を 参 照 す る 際 に 利 用 さ れ て い る 。 さ ら に 、 塩 基 配 列 と 同 様 に 、 タ ン パ ク 質 の 配 列 に つ い て も 、 前 述 のPIRやPDBの 他 、SwissProtやPRFと い っ た デ ー タ ベ ー ス に 含 ま れ る 情 報 、 さ ら にGenBank、 及 び 遺 伝 子 や ゲ ノ ム の 情 報 か ら 重 複 を 除 い た セ ッ トで あ るRefSeq(後 述)中 の コ ー デ ィ ン グ 情 報 か ら 生 成 さ れ た タ ン パ ク 質 の 配 列 を 含 め て キ ー ワ ー ド検 索 が 可 能 な シ ス テ ム(EntrezProtein;http://www.ncbi.nlm.nih.gov/ entrez/query.fcgi?db=Protein)が 用 意 さ れ て い る 。 GenBankは 世 界 中 の 研 究 者 が 、 一 定 の 書 式 に 従 え ば 自 由 に 登 録 で き る シ ス テ ム で あ り、 配 列 の 重 複 に つ い て は 整 理 さ れ て い な い た め 、 検 索 に よ っ て 得 ら れ た デ ー タ に 冗 長 な 部 分 が 多 くそ の ま ま で は 利 用 に 耐 え な い 場 合 も 多 い 。NCBIで は 、 ゲ ノ ムDNAと そ のRNA転 写 産 物 及 び 翻 訳 に よ っ て 生 じ る と 見 ら れ る タ ン パ ク 質 に つ い て 、 代 表 的 な 生 物 種 に つ い て 「人 の 目 を 介 し て 」 取 捨 選 択 さ れ た 情 報 の 提 供 を 行 っ て お り、 “RefSeq” と 呼 称 さ れ て い る(http://www.ncbi.nlm.nih.gov/RefSeq/) (Pruittら2007)。2007年7月24日 に 公 開 さ れ た RefSeq(リ リ ー ス24)に お い て は 、4,511の 生 物 種(ウ

(3)

ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タベ ー ス

イ ル ス を 含 む)に 由 来 す る3,866,210個 の タ ン パ ク 質 に 相 当 す る 配 列 が 登 録 さ れ て い る 。 こ の 中 に は 、 ウ シ 、 イ ヌ 、 ニ ワ ト リ に つ い て の ゲ ノ ム 概 要 塩 基 配 列 の 情 報 と 、 存 在 が 予 想 さ れ る 遺 伝 子 及 び タ ン パ ク 質 の 情 報 も 登 録 さ れ て い る 。 ブ タ に つ い て は ま だ 概 要 配 列 が 公 開 さ れ る 段 階 で は な い た め 情 報 は 不 完 全 で あ る が 、 1,000個 以 上 の タ ン パ ク 質 の 情 報 がRefSeq中 に 納 め ら れ て い る 。RefSeq中 に 登 録 さ れ て い る 遺 伝 子 、 タ ン パ ク 質 の 情 報 に つ い て は 、 キ ー ワ ー ド 検 索 が 可 能 な ”EntrezGenes”(http://www .ncbi.nlm.nih.gov/entrez/query. fcgi?db=gene)(Maglottら2007)か ら 閲 覧 す る こ と が で き る 。 遺 伝 子 の 染 色 体 上 の 位 置 、 ゲ ノ ム 塩,基 配 列 の 情 報 に つ い て は 、Genomic Biologyデ ー タ ベ ー ス(http://www . ncbi.nlm.nih.gov/Genomes/)に ま と め ら れ て い る 。 多 型 マ ー カ ー や 遺 伝 子 の 染 色 体 上 の 位 置 に つ い て 詳 細 な 情 報 が 得 ら れ る 。2007年10月 現 在 で 、 ウ シ 、 ウ マ 、 ニ ワ ト リ 、 イ ヌ 、 ミ ツ バ チ に つ い て ゲ ノ ム 塩 基 配 列 を 含 め た 詳 細 な 情 報 が 提 供 さ れ て お り 、 ブ タ 、 ヒ ツ ジ に お い て は 各 種DNAマ ー カ ー が 染 色 体 上 に マ ッ プ さ れ た 地 図 の 情 報 を 得 る こ と が で き る 。 こ れ ら の 動 物 種 に お い て は 、NCBIで 提 供 し て い る 情 報 と 、 外 部 の リ ン ク が と も に 種 毎 に ま と め ら れ て 提 供 さ れ て い る 。 近 年 、 ゲ ノ ム ワ イ ド な 相 関 解 析 や 品 種 ・個 体 識 別 に お け る 有 用 性 が 注 目 さ れ るSNPに つ い て も 、dbSNP デ ー タ ベ ー ス(http://www.ncbi.nlm.nih.gov/SNP/)が 用 意 さ れ て い る 。 ウ シ で は230万 個 以 上 、 ニ ワ ト リ で は 330万 個 以 上 のSNPがdbSNPに=登 録 さ れ て お り、 ヒ ト で 行 わ れ る の と 同 様 の 相 関 解 析 に 利 用 可 能 なSNPが 用 意 さ れ て い る 。 ブ タ で は 、 ま だUSDAに よ っ て 開 発 さ れ たSNP(Fahrenkrugら2002)を 中 心 に7,000個 弱 の 登 録 に と ど ま っ て い る が 、 フ ラ ン ス 、 デ ン マ ー ク 、 オ ラ ン ダ な ど が 精 力 的 にSNPの 開 発 を 行 っ て お り 、 ま た 筆 者 の グ ル ー プ も 後 述 の デ ー タ ベ ー ス で は 公 開 し て い る も の のdbSNPで は 未 公 開 の も の も 含 め 多 数 の SNPを 未 登 録 で あ り、 ブ タ に つ い て も 今 後 急 速 に デ ー タ が 蓄 積 す る こ と が 期 待 さ れ る 。 分 子 生 物 学 に 関 す る も う1つ の 統 合 デ ー タ ベ ー ス を 運 営 し て い る 機 関 と し て 、EBI/EMBL(Kulikovaら 2007)が あ る 。EBI/EMBLはNCBIと 比 較 す る と そ の 規 模 で は 一 歩 譲 る も の の 、 多 く の 特 徴 の あ る デ ー タ ベ ー ス を 備 え て お り、 利 用 価 値 は 大 き い 。 EBI/EMBLに お い て 、 特 に ゲ ノ ム 解 析 に 関 連 し て 重 要 な デ ー タ ベ ー ス と し て は 、 「Ensembl Genome Browser」 及 び 「Pre-Ensembl」 が あ る(Hubbardら2007)。

Ensemblに お い て は 、 ウ シ 、 ニ ワ ト リ 、 イ ヌ 、 ネ コ を 含 む35種 の ゲ ノ ム 塩 基 配 列 に つ い て の 詳 細 な 解 析 結 果 を 含 め た デ ー タ を 閲 覧 す る こ と が で き る 。 ま た 、 ま だ ゲ ノ ム 塩 基 配 列 情 報 が 完 全 で は な い か 、 ア ノ テ ー シ ョ ン が 十 分 に 行 わ れ て い な い 動 物 種 に つ い て もPre-Ensemblデ ー タ ベ ー ス が 用 意 さ れ て お り 、 ブ タ 、 ウ マ 、 及 び 最 も 原 始 的 な 脊 椎 動 物 の 一 種 で あ る ヤ ツ メ ウ ナ ギ な ど の 情 報 が 提 供 さ れ て い る 。 ブ タ に つ い て は 、 EBI/EMBLの 中 心 メ ン バ ー で あ るWellcome Trust Sanger Institute(WTSI)は 、 国 際 ブ タ ゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ ア ム に よ る ゲ ノ ム 塩 基 配 列 の 解 読 に お い て 、 制 限 酵 素 分 解 し たBACク ロ ー ン を 用 い た ゲ ノ ム 地 図 で あ るFingerprint mapの 作 製 、 さ ら に 配 列 解 読 の た め のBACク ロ ー ン 及 び ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン 用 の プ ラ ス ミ ド ク ロ ー ン の 配 布 を 行 う と と も に 、 ゲ ノ ム 塩 基 配 列 解 読 の た め の ア セ ン ブ ル 作 業 等 を 行 う な ど 解 析 セ ン タ ー と し て 位 置 づ け ら れ て い る こ と も あ り、 ブ タ ゲ ノ ム 塩 基 配 列 情 報 の 発 信 に お い て も 積 極 的 で あ る 。 即 ち 、 ブ タ ゲ ノ ム 全 体 のBACク ロ ー ン に よ る 地 図 で あ るSus scrofa map(http://pre.ensembl.org/ Sus _scrofa_map/index.html)を 公 開 し 、 そ の 中 で 各BAC ク ロ ー ン の 位 置 情 報 と 解 読 担 当 機 関 、 既 に 解 読 の 完 了 し て い る ク ロ ー ン に つ い て は 塩 基 配 列 を 閲 覧 す る こ と も 可 能 に し て い る 。 さ ら に 塩 基 配 列 解 読 が 比 較 的 順 調 に 進 展 し て い る 第1、4、7、11、14、17染 色 体 に つ い て は 、 解 読 部 分 に つ い て の 配 列 の 、 ヒ トの 転 写 産 物 と の 比 較 な ど の 詳 細 な 情 報 を 、 他 の 染 色 体 に 先 行 し て 公 開 し て い る 。 ゲ ノ ム 上 に コ ー ド さ れ る 遺 伝 子 の 詳 細 に つ い て は 、 ゲ ノ ム 塩 基 配 列 と 発 現 遺 伝 子 情 報 を 単 に 比 較 し た だ け で は 確 定 で き な い 部 分 が あ り 、 「人 の 目 を 介 し た 」 よ り 詳 細 な ア ノ テ ー シ ョ ン の 作 業 が 必 要 で あ る 。 こ れ ら よ り 詳 細 な ア ノ テ ー シ ョ ン 情 報 を 提 供 す る も の と し て 、WTSIで は 「Vega」 と 呼 ば れ る デ ー タ ベ ー ス を 公 開 し て い る(http://vega.sanger.ac.uk/)(Ashurstら2005)。 Vegaで は 、 ヒ ト と 、 限 定 的 で は あ る も の の マ ウ ス 、 ゼ ブ ラ フ イ ッ シ ュ 、 イ ヌ 、 ブ タ の 合 計5種 に つ い て 、 既 知 の タ ンパ ク 質 の コ ー デ ィ ン グ 領 域 と 、確 認 さ れ た 、 あ る い は 想 定 さ れ る 転 写 産 物 、 偽 遺 伝 子 と見 ら れ る 領 域 の そ れ ぞ れ に つ い て 詳 細 な 情 報 を 提 供 し て い る 。 Vegaに お い て 最 も 情 報 の 充 実 し て い る ヒ ト に つ い て は 、7つ の 異 な る 研 究 グ ル ー プ が そ れ ぞ れ 染 色 体 を 分 担 し て ア ノ テ ー シ ョ ン を 行 っ て い る 。現 在 の と こ ろ 、 第2、4、5及 び11染 色 体 を 除 く19対 の 染 色 体 に つ い て 、染 色 体 全 体 の ア ノ テ ー シ ョ ン を ほ ぼ 完 了 し て い る 。

(4)

上 西

ブ タ に つ い て は 、 前 述 の よ う に ゲ ノ ム 塩 ・基 配 列 の 解 読 をWTSIが 主 導 し て 行 っ て い る こ と も あ り、 ま だ ゲ ノ ム 塩 基 配 列 全 体 が 公 開 さ れ て い な い 段 階 に も か か わ ら ず 、 ア イ オ ワ 州 立 大 の 要 請 で 解 読 を 行 っ た 第17染 色 体 の 一 部 に つ い て 詳 細 な 解 析 状 況 を 公 開 し て い る 。 さ ら に 、NCBI及 びWTSIに よ っ て 提 供 さ れ て い る サ ー ビ ス で 、 見 落 と し て は な ら な い も の はTrace Archive(NCBI)/Trace Server(EBI/EMBL)が あ る 。 こ れ ら は 塩 基 配 列 解 読 に お い てDNAシ ー ケ ン サ ー に よ っ て 生 成 さ れ た 「生 デ ー タ 」そ の も の で あ り 、 単 な る A/T/G/Cの 塩 基 配 列 の デ ー タ と 比 較 し て 、 品 質 に 関 す る 情 報 を 含 む と い う 点 で 非 常 に 情 報 量 の 豊 富 な も の で あ る 。 こ れ ま で(平 成19年10月8日 現 在)に977種 (亜 種 や 系 統 を 含 む)に つ い て の デ ー タ が 登 録 ・公 開 さ れ て い る 。 特 に 、ESTや ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン の 生 デ ー タ は 、 利 用 す る に 当 た っ て そ の 解 析 デ ー タ の 品 質 が 重 要 な 要 素 で あ る こ と か ら 、GenBank、EMBLあ る い はDDBJの 様 な 一 般 的 な 塩 基 配 列 デ ー タ ベ ー ス に は 登 録 さ れ ず 、 直 接Trace Archiveに の み 登 録 さ れ て い る こ と が あ る 。 例 え ば デ ン マ ー ク と 中 国 の 共 同 研 究 (Sino-Danish Joint Venture Project;SDJVP、 後 述)に よ る ブ タ ホ ー ル ゲ ノ ム シ ョ ッ ト ガ ン 及 びEST解 析 の デ ー タ は 、GenBankな い しEMBLデ ー タ ベ ー ス で は 閲 覧 で き ず 、TraceArchive(あ る い はTrace Server)で の み 確 認 す る こ と が で き る 。 日 本 に お け る 塩 基 配 列 情 報 の デ ー タ ベ ー ス で あ り 、GenBank、EMBL Nucleotide Sequence Databaseと 国 際 塩 基 配 列 デ ー タ ベ ー ス を 共 同 構 築 し て い るDDBJに は 、 残 念 な が ら ま だTrace Archiveに 相 当 す る も の は な く 、 日 本 か ら の シ ー ケ ン ス デ ー タ の 円 滑 な 情 報 発 信 の た め に も 開 設 が 待 た れ る と こ ろ で あ る 。 NCBIのTrace Archive(http://www.ncbi.nlm.nih.gov/ Traces/)に お い て は 、 こ れ ら の 配 列 デ ー タ に 対 す る 相 同 性 検 索 や 、 生 デ ー タ そ の も の の 取 得 を 行 う こ と が で き る 。 生 デ ー タ の 取 得 に 当 た っ て は 、 ネ ッ ト ワ ー ク や サ ー バ の 能 力 上 の 問 題 か ら 、 一 度 に 取 得 で き る 配 列 数 に 上 限(40,000個)が 設 け ら れ て い る た め 、 例 え ば 上 記 SDJVPに よ る ブ タEST解 析 の デ ー タ 全 て を 取 得 す る た め に は 少 々 の コ ン ピ ュ ー タ 言 語(Perl)の 知 識 が 必 要 と な る が 、 あ ま り 困 難 な も の で は な い 。http://www. ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=show&f=doc&m=

obtain&s=stipsに 、NCBIが 提 供 す るquery_tracedbと 名 付 け ら れ たPerlス ク リ プ ト を 川 い て 大 量 の デ ー タ を ダ ウ ン ロ ー ドす る 方 法 に つ い て 解 説 さ れ て い る 。 こ れ ま で に 解 説 し たNCBIやEBIの 多 く の デ ー タ ベ ー ス は、 も と の フ ァ イ ル そ の も の の 配 布 の た め のFTP サ イ ト を 用 意 し て い る こ と が 多 く 、 研 究 者 自 身 が ダ ウ ン ロ ー ド し て 自 身 の コ ン ピ ュ ー タ でBLAST相 同 性 解 析 を 行 う こ と も で き る 。 例 え ば 、NCBIのRefSeqは ftp://ftp.ncbi.nih.gov/refseq/release/か ら 全 て の デ ー タ を ダ ウ ン ロ ー ドす る こ と が 可 能 で あ る 。 そ の 他 、発 現 遺 伝 子 に 関 す る デ ー タ ベ ー ス と し て は 、 The Institute for Genome Research(TIGR)(現 在 はThe Center for the Advancement of Genomics(TCAG)と 統 合

さ れ てJ.Craig Venter Institute(JCVI)に 改 称)に よ る Gene Indicesが あ る(Leeら2005)。ESTやcDNAの 全 長 解 読 の 結 果 を ま と め て(ア セ ン ブ ル)、Tentative Consensus(TC)と 呼 ば れ る 仮 想 的 な 転 写 産 物 の 配 列 を

生 成 し 公 開 し て い る(http://www.tigr.org/の 「Database」 の 中 の 「Gene Indices」 か ら ア ク セ ス 可 能 。 現 在 ハ ー バ ー ド大 学 内Dana Farber Cancer Instituteの サ ー バ に 移 管 中 で あ る)。 こ れ ら の よ う に 、 こ れ ま で ヒ トや マ ウ ス に つ い て の 情 報 が 中 心 と 思 わ れ て い た 公 的 な ゲ ノ ム 情 報 に 関 す る デ ー タ ベ ー ス に つ い て も 、 家 畜 動 物 に 関 す る 情 報 の 蓄 積 が 急 速 に 進 展 し て お り 、 畜 産 に 関 わ る 研 究 者 に と っ て も こ れ ら 全 生 物 種 を 取 り扱 う デ ー タ ベ ー ス の 直 接 的 な 重 要 性 が よ り増 し て い る と 考 え て 良 い 。 4.家 畜 に 特 化 し た デ ー タ ベ ー ス 前 章 で は 、 生 物 種 一 般 を 対 象 と し た デ ー タ ベ ー ス に つ い て 、 家 畜 ・家 禽 動 物 で の デ ー タ の 提 供 状 況 を 中 心 に 解 説 を 行 っ た が 、 家 畜 ・家 禽 を ゲ ノ ム 解 析 の 対 象 と し て い る 各 研 究 機 関 に お い て も 独 自 の デ ー タ ベ ー ス の 構 築 と 公 開 を 行 っ て い る こ と が 多 い 。本 章 に お い て は 、 特 に 筆 者 の 専 門 で あ る ブ タ に つ い て 詳 述 し、 ウ シ 、 ニ ワ ト リ 等 他 の 家 畜 ・家 禽 に つ い て も 簡 単 に 触 れ る こ と と す る 。 家 畜 に 関 し て 、 以 前 よ りDNAマ ー カ ー や 地 図 の デ ー タ に つ い て 公 開 し て き た 、Roslininstituteが 運 営 し て い る “ArkDB”(http://www.thearkdb.org/)(Huら2001) は 、 ア ヒ ル 、 ウ ズ ラ 、 ウ シ 、 ウ マ 、 サ ケ 、 シ カ 、 シ チ メ ン チ ョ ウ 、 ス ズ キ 、 ブ タ 、 ニ ワ ト リ 、 ネ コ 、 ヒ ツ ジ の12種 の 家 畜 ・家 禽 ・魚 類 に つ い て のDNAマ ー カ ー 及 び 地 図 情 報 を 提 供 し て い る 。 例 え ば ブ タ に お い て は 、 80個 以 上 の 異 な る 報 告 に 基 づ く 連 鎖 地 図 に つ い て 、 Javaに 基 づ く シ ス テ ム に よ りマ ー カ ー の 情 報 と と も に 閲 覧 す る こ と が で き る 。 現 在 は シ ス テ ム の リ ニ ュ ー ア ル 中 で あ り、 マ ー カ ー 名 か ら 地 図 情 報 を 検 索 す る こ と は 困 難 で あ る が 、 近 い 将 来 に イ ン タ フ ェ ー ス が 改 善 さ

(5)

ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タ ベ ー ス

れ る も の と 考 え ら れ る 。 家 畜 ゲ ノ ム 解 析 に お い て は 、 形 質 を 支 配 す る ゲ ノ ム 領 域 を 同 定 し 育 種 に 役 立 て る こ と が 最 も 直 接 的 か つ 主 要 な 目 的 と 考 え ら れ て い る が 、 形 質 と ゲ ノ ム 領 域 の 関 連 に つ い て の 解 析 に 従 事 す る 研 究 者 に と っ て 、 こ れ ま で に 、 ど の よ う な ゲ ノ ム 領 域 で 、 ど の よ う な 形 質 と の 関 連 が 指 摘 さ れ て い る か と い う こ と に つ い て 知 る こ と は 、 研 究 の 進 捗 に お い て 極 め て 有 用 で あ る こ と は 論 を 待 た な い 。 し か し な が ら 、PubMed等 の 文 献 検 索 に よ っ て こ れ ら 家 畜 ・家 禽 の ゲ ノ ム 領 域 と 形 質 と の 関 連 に つ い て の 情 報 を 収 集 す る こ と は 、 極 め て 多 く の 労 力 を 必 要 と す る 。 こ の よ う な 際 に 非 常 に 有 用 な デ ー タ ベ ー ス と し て 、Animal QTL Database(AnimalQTLdb)が 挙 げ ら れ る(http://www.animalgenome.org/QTLdb/)。2004 年 の 開 発 当 初 は 、NCBIのMap Viewerの 一 部 分 と し て の 実 装 で あ り 、 ブ タ の466個 の 量 的 形 質 座 位 (Quantitative Trait Loci;QTL)を 取 り扱 う の み で あ っ た が(2004年 中 に 取 り 扱 うQTL数 は791個 に 増 強) (Huら2005)、 国 際 ブ タ ゲ ノ ム シ ー ケ ン シ ン グ コ ン ソ ー シ ア ム に お け るFingerprint地 図、 放 射 線 雑 種 細 胞 (radiation hybrid;RH)パ ネ ル に よ る 物 理 地 図(RH地 図)、 SNP情 報 、 ヒ ト ゲ ノ ム と の 比 較 地 図 の 組 み 込 み 、 さ ら に ウ シ や ニ ワ ト リ に つ い て の デ ー タ の 追 加 を 行 っ て 、 ア イ オ ワ 州 立 大 の サ ー バ か ら公 開 が 行 わ れ て い る(Hu ら2007)。 AnimalQTLdbは 、 ブ タ で はllo個 の 文 献 か ら1,675 個 、 ウ シ で は55個 の 文 献 か ら846個 、 ニ ワ ト リ で は 45個 の 文 献 か ら657個 のQTLの 情 報 を 公 開 し て い る (2007年10月 現 在)。QTLの 情 報 は 、 染 色 体 上 の 位 置 か ら だ け で は な く 、 形 質 の 種 類(肉 質 、 繁 殖 性 や 抗 病 性)か ら も 検 索 す る こ と が で き る 。 特 に ブ タ に 関 し て は 、 米 国 農 務 省(USDA)を 中 心 と し て 開 発 さ れ た マ イ ク ロ サ テ ラ イ ト マ ー カ ー に よ る 連 鎖 地 図 やRH地 図 、 USDAに よ るSNPの マ ッ ピ ン グ 情 報 、 ヒ ト と の 染 色 体 の 対 応 関 係 な ど が 簡 潔 に 表 示 さ れ る な ど 、 地 図 の 情 報 に つ い て も 非 常 に 充 実 し た も の と な っ て い る 。 ウ シ 及 び ニ ワ ト リ に つ い て も 、QTL情 報 だ け で は な く 、 ブ タ ほ ど 充 実 し た も の で は な い が 、SNPの マ ッ ピ ン グ 情 報 な ど の 公 開 を 行 っ て い る 。 ウ シ のQTL・EST・ ゲ ノ ム 配 列 の デ ー タ ベ ー ス と し て は 、 他 にTexas A&M Universityで 運 営 さ れ て い るBovine Genome Database

(http://racerxOO.tamu.edu/bovine/)が 代 表 的 な も の と し て 挙 げ ら れ る 。 上 述 のRHパ ネ ル の 構 築 、 あ る い はEST解 析 な ど の 発 現 遺 伝 子 解 析 を 行 っ て い る 各 研 究 グ ル ー プ に お い て も 、 そ れ ぞ れ の 研 究 成 果 の1次 発 信 元 と し て デ ー タ ベ ー ス を 構 築 し て い る こ と も 多 い。例 え ば ブ タ に お い て 、 ミ ネ ソ タ 大 学 の グ ル ー プ と と も にRHパ ネ ル を 開 発 し た フ ラ ン ス 農 業 研 究 所(INRA)で は 、RHパ ネ ル を 用 い て 作 製 し た 地 図 を 、Webペ ー ジ を 通 じ て 公 開 す る と と も に 、INRAよ り 配 布 を 受 け たRHパ ネ ル を 用 い た タ イ ピ ン グ の 際 に 、 染 色 体 上 の 位 置 を 簡 便 に 知 る 為 の マ ッ ピ ン グ ツ ー ル の 公 開 を 行 っ て い る(http:〃imprh . toulouse.inra.fr/)(Milanら2000)。 ま た 、 デ ン マ ー ク と 中 国 の 共 同 プ ロ ジ ェ ク ト(SDJVP)と し て 行 わ れ た 約 100万 個 のEST解 析 結 果 は 、 「PigESTServer」 (http://pigest.ku.dk/server/index.html)と し て 、ESTの 配 列 そ の も の と 、 同 種 の 配 列 を ま と め た も の(Cluster)、 が キ ー ワ ー ド検 索 可 能 な デ ー タ ベ ー ス と し て 公 開 さ れ て い る(Gorodkinら2007)。 ま た 、EST解 析 に 先 立 っ て 行 わ れ た0.66倍 量 の ホ ー ル ゲ ノ ム シ ョ ッ トガ ン 、 さ ら にGenBankに 登 録 さ れ て い る 、 そ の 他 の ゲ ノ ム 塩 基 配 列 及 びmRNAの デ ー タ も 併 せ て 、 さ ら に 解 析 の 過 程 で 検 出 さ れ たSNPの 情 報 も 含 め て 「Pig Genomic Information System(PigGIS)」(http://www.piggis.org/) (Ruanら2007)を 構 築 し公 開 し て い る 。 こ れ ま で 、 日 本 に お い て も 、 ブ タ ゲ ノ ム 解 析 の 分 野 に お い て 、 発 現 遺 伝 子 解 析 、 特 定 領 域 の ゲ ノ ム 塩 基 配 列 解 読 、 染 色 体 地 図 の 作 成 な ど を 行 っ て き た 。 特 に 、 発 現 遺 伝 子 解 析 に お い て は 、 発 現 遺 伝 子 全 長 が 多 く含 ま れ て い る こ と が 期 待 さ れ る 「完 全 長cDNAラ イ ブ ラ リ ー 」 を 用 い たEST解 析 を 中 心 に 行 っ て き た 。 そ の 筆 者 ら のEST解 析 の 結 果 を 公 開 す る た め に 、 「Pig EST Data Explorer」(pEDE)と 呼 ぶ デ ー タ ベ ー ス を 構 築 し 、 7万 個 弱 のESTを ま と め た3万 以 上 の 異 な る 種 類 の 転 写 産 物 の 配 列 を 、 キ ー ワ ー ド検 索 に よ り 表 示 す る シ ス テ ム を 用 意 し た(Uenishiら2004)。 筆 者 ら のESTの 数 は 平 成18年 度 中 に19万 に ま で 増 加 し 、7万 種 類 近 い 転 写 産 物 の 配 列 を 公 開 す る と と も に 、1万 個 強 の cDNA全 長 を 解 読 し た 結 果 に つ い て も統 合 し 、 名 前 も 「Pig Expression Data Explorer」(略 称 はPEDEで 同 じ)と し て 公 開 し て い る(http://pede.dna.affrc.gojp/)(Uenishi ら2007)。 こ の デ ー タ ベ ー ス に は 、15種 類 の 組 織 ・細 胞 に 由 来 す るcDNAラ イ ブ ラ リ ー(内13種 類 の 組 織 ・ 細 胞 は 完 全 長cDNAラ イ ブ ラ リ ー)を 用 い たEST解 析 の 結 果 得 ら れ た 、 ブ タ の ゲ ノ ム 上 に 存 在 す る 遺 伝 子 (20,000∼25,000程 度)の 半 数 近 く(約10,000個 以 上) に 相 当 す る と 考 え ら れ る 発 現 遺 伝 子 の 配 列 を 格 納 し て い る 。 さ ら に 、 こ れ ら のESTの 中 で 同 一 の 配 列 を ま と め た 中 の 代 表 ク ロ ー ン10,147個 の 完 全 長cDNA配 列

(6)

上西

(お よ そ7,400個

の 異 な る ゲ ノム 上 の 位 置 に 由 来 す る転

写 産 物 と 考 え られ る)を 、 ヒ ト、 マ ウ ス 、 ウ シ 、 イ ヌ

と い っ た 全 ゲ ノ ム 解 読 が 行 わ れ た 代 表 的 な哺 乳 動 物 の

遺 伝 子 との 相 同性 につ い て 比 較 し た 情 報 を付 加 して い

る 。 デ ー タ ベ ー ス の 内 容 に 対 して 、 遺 伝 子 名 、 キ ー ワ

ー ドに よ る 検 索 、 またGene Ontologyの 分 類 に基 づ い

た 表 示 の イ ン タ フ ェ ー ス 等 を備 え て お り、 ブ タ完 全 長

cDNAの

デ ー タベ ー ス と し て は 現 在 世 界 で 唯 一 の も の

で あ る。

こ こ で 取 り上 げ た 以 外 に も、 多 く の 家 畜 ・

家 禽 の ゲ

ノ ム 解 析 の 結 果 を提 供 す る デ ー タ ベ ー ス が 構 築 さ れ

て い る 。 代 表 的 な も の が 、NCBIの

ウ シ 、 ブ タ、 ニ

ワ ト リそ れ ぞ れ の ゲ ノ ム 解 析 に 関 す る ポ ー タ ル ペ ー

ジ(表1)か

ら リ ン ク さ れ て い る の で 、 参 考 に す る と

良 い 。

表1.デ ー タ ベ ー ス の 一 覧 1.様 々 な生 物 種 に対 応 した デ ー タベ ース の 例

(7)

ブ タ ゲ ノ ム 解 析 研 究 の た め の デ ー タベ ー ス

5.デ ー タ ベ ー ス構 築 に つ い て

ゲ ノ ム解 析 の 結 果 は 、 他 の 研 究 者 に 利 用 さ れ る こ と

に よ っ て そ の 価 値 は 飛 躍 的 に 高 ま る。 あ る い は 、 他 の

研 究 者 に利 用 され る こ とが ゲ ノ ム 解 析 研 究 の 存 在 意 義

と も言 え る 。 そ の た め に も、 解 析 結 果 を デ ー タベ ー ス

化 し、WWWな

ど を通 じ て公 開 す る こ と は重 要 で あ る。

しか し なが ら、 解 析 デ ー タ を デ ー タベ ー ス に適 し た形

に 整 理 し、 実 際 に デ ー タベ ー ス を構 築 し、 さ らに 公 開

す る た め の イ ン タ フ ェ ー ス を用 意 す る と い う こ と に 関

して は 、 敷 居 が 高 い と考 え て い る 向 き も多 い の で は な

い か と思 わ れ る 。 ま た 、 デ ー タベ ー ス の 作 製 を専 門 業

者 な どに 外 注 して も 、 費 用 が か さ む だ け で は な く、 必

ず し も研 究 者 の 意 図 の と お りの も の が で き あ が る と も

限 ら な い 。 そ こ で 、 本 章 で は ゲ ノ ム 解 析 に 関 わ る研 究

者 が デ ー タベ ー ス を作 製 す る際 の 、 簡 単 な 手 引 き と注

意 点 を示 す こ と とす る 。

デ ー タ ベ ー ス の 形 式 と して 一・

番 簡 単 な の は、 あ た か

も情 報 が 記 載 さ れ た カ ー ドを積 み 重 ね る よ う な デ ー タ

ベ ー ス で あ る 。 か つ て は 、 個 人 的 な研 究 結 果 、 あ る い

は 試 薬 の 調 製 方 法 な ど をMacintoshのHyperCardや

FileMakerな

ど を使 っ て 作 製 し て い た 研 究 者 も多 い よ

う に、 デ ー タベ ー ス と して は 最 も敷 居 の 低 い 方 法 で あ

り、 デ ー タ ベ ー ス の 設 計 に お い て も必 要 な項 目 を考 え

る だ け で す む の で 簡 単 で あ る 。 ま た 、 デ ー タ数 が 少 な

い 内 は 非 常 に 動 作 も軽 い 。 しか しな が ら、 デ ー タの 重

複 が 発 生 しや す い 、 複 数 の カ ー ドに ま た が る 変 更 が 生

じた 際 に デ ー タ の 訂 正 が 煩 雑 に な る 、 複 数 の 異 な る カ

ー ドを また が っ て 検 索 を行 う こ とが 難 しい な ど

、 ゲ ノ

ム解 析 情 報 の よ う に1つ1つ

の 項 目 は(塩 基 配 列 、 対

応 す る 遺 伝 子 な ど)比 較 的 単 純 で あ る に も か か わ らず

項 目数 が 多 く、 しか もデ ー タベ ー ス の 拡 張 に した が っ

て 項 目数 が 増 加 す る宿 命 に あ り、 か つ そ れ らの 項 目が

複 雑 に 関 連 し合 っ て い る デ ー タ の 取 り扱 い に は 不 向 き

で あ る 。

ゲ ノ ム解 析 の 結 果 を デ ー タベ ー ス 化 す る 際 に と ど ま

らず 、 デ ー タベ ー ス を作 製 す る際 に ま ず 考 慮 す べ き事

柄 は、 「あ ら ゆ る デ ー タ はn項 の 関係 で 表 さ れ る 」 とい

う こ と で あ る 。 あ る い は 、 「

全 て の デ ー タ は2次

元 の

表 、 な い し2次 元 の 表 の 組 み 合 わ せ で 表 現 さ れ 得 る 」

と言 い換 え て も よい 。 こ の 概 念 の 最 初 の 理 念 的 根 拠 は

1970年 にEdgar Frank Coddに

よ って 提 示 さ れ 、 リ レ ー

シ ョナ ル(関 係)デ ー タ モ デ ル と称 さ れ て い る(Codd

l970)。

リ レー シ ョナ ル デ ー タモ デ ル に 従 う こ と に よ

り、 デ ー タ の対 応 関 係 が 明 確 化 し、 項 目数 の 増 加 な ど

に柔 軟 に対 応 で き る拡 張 性 の 高 い デ ー タ ベ ー ス の 構 築

が 可 能 と な る 。 本 モ デ ル を 利 用 し た デ ー タ ベ ー ス 管 理 シ ス テ ム は 、Oracle(http://www.oracle.com/)、MySQL (http://www.mysql.com/)な ど 、 商 品 、 あ る い は 対 価 を 要 求 し な い も の も含 め て 数 多 く存 在 し て い る 。 筆 者 が 構 築 し たPEDEデ ー タ ベ ー ス に お い て は 、 利 用 に 際 し て 対 価 を 要 求 せ ず 、 商 用 利 用 に つ い て も 制 限 の な い PostgreSQLを 使 用 し て い る(http://www.postgresql.org/)。 例 と し て 、 筆 者 ら が 構 築 し た デ ー タ ベ ー ス に お け る テ ー ブ ル 構 築 の 考 え 方 を 述 べ る(図1) 例 え ば 、 ブ タEST解 析 の 結 果 を 、 同 じ配 列 を ひ と ま と め に す る 操 作(ア セ ン ブ ル)を 行 い 、 ヒ トの 遺 伝 子 の セ ッ ト(RefSeq)に 対 し てBLASTに よ る 相 同 性 解 析 を 行 っ た 上 で 、 検 索 結 果 を 対 応 が 予 想 さ れ る 遺 伝 子 名 も 併 せ て デ ー タ ベ ー ス 化 す る 、 と い う 操 作 に つ い て 考 え

て み る 。PEDEに お い て はTGICLと 呼 ば れ るTIGRが 開 発 し たESTの ア セ ン ブ ル の た め の ツ ー ル(Perteaら 2003)を 用 い て い る が 、 そ の 結 果 と し て 、 ア セ ン ブ リ (い く つ か の 配 列 が ま と ま っ た も の)と そ の 配 列 、 ア セ ン ブ リ と そ れ に 所 属 す るEST、 と い っ た2つ の 関 係 (リ レ ー シ ョ ン)が 発 生 す る 。 さ ら に 、 こ の よ う に し て 得 ら れ た ア セ ン ブ リ の 配 列 を ヒ トRefSeq mRNAの セ ッ ト に 対 し てBLAST相 同 性 検 索 を 行 う と 、 ア セ ン ブ リ と 、RefSeqに 含 ま れ る 遺 伝 子 名 と 相 同 性 の 程 度 (BLAST score)な ど の 情 報 が 対 応 づ け ら れ る 。BLAST の 検 索 結 果 な ど の デ ー タ は 基 本 的 に は 文 字 情 報(テ キ ス ト)あ る い は 数 値 で あ り 、 こ れ ら を 図IC・Dの よ う に 別 々 の テ ー ブ ル と し て 表 現 し 、 デ ー タ ベ ー ス 中 に 格 納 す る 。 そ れ ぞ れ の テ ー ブ ル は 何 ら か の 共 通 な 項 目 (キ ー)に よ っ て 連 結 さ れ て い る 。 こ こ で 、 例 え ば 遺 伝 子 名 に よ っ て 検 索 リ ク エ ス トが 行 わ れ た 際 に 、 そ の 遺 伝 子 に つ い て 規 定 以 上 の(例 え ばBLAST scoreが100 以 上)の 値 を 示 し たBLAST検 索 の 結 果 を リ ス ト ア ッ プ し 、 対 応 す る ア セ ン ブ リ のID、 さ ら に そ の ア セ ン ブ リ に 所 属 す るESTを 抽 出 す る 、 と い う 操 作 が 自 動 的 に 行 わ れ る シ ス テ ム を 作 製 す る こ と に な る 。 例 え ば 、 表 の よ う な テ ー ブ ル に 対 し て 、 遺 伝 子 名 「CDIB」 に 対 応 す るBLAST scoreが100以 上 で ヒ ッ トす るBLAST検 索 の 結 果 を テ ー ブ ル か ら 抽 出 す る の で あ れ ば 、 そ の た め の 構 文(問 い 合 わ せ 文)は 次 の よ う に な る 。 select*fromrefseq _blastwheresymbol=’CDIB’and score>=100; さ ら に 問 い 合 わ せ 内 容 が 複 雑 に な っ た と し て も 、 条 件 を 変 更 す る か 、 複 数 の 文 を 組 み 合 わ せ る か に よ っ て 対 応 す る こ と が 可 能 で あ る 。 さ ら に 、 こ の よ う に し て 構 築 し た デ ー タ ベ ー ス を

(8)

上西

図1.Pig Expression Data Explorer(http://pede.dna.affrc.gojp/)に お け る デ ー タベ ー ス 構 成 の 例 。 キ ー ワ ー ド検 索 画 面(http;//pede.dna.affrc.go.jp/seq_searchlseq_viewer.php) (A)で 遺 伝 子 名(図 で はCDIB)とBLASTscore(図 で は100以 上)を 指 定 し て 検 索 を 行 っ と 、 条 件 に 一 致 す る 結 果 が 表 示 さ れ る(B)。 こ こ で は 、BLAST検 索 の 結 果 を テ ー ブ ル 化 し た 中 か ら 条 件 に 合 う 行 を 抽 出(C)し て 表 示 し て い る 。 さ ら に 一 致 し た ア セ ン ブ リ を 構 成 す るESTや そ の 配 列 は 別 の 表 か ら抽 出 さ れ(D)、 表 示 さ れ る(E)。 一 般 に 公 開 す る た め に は 、WWWで ア ク セ ス 可 能 な シ ス テ ム に つ い て も 設 計 す る 必 要 が あ る 。 一 般 に WWWサ ー バ はApache(http://www.apache.org/)と 呼 ば れ る ソ フ ト ウ ェ ア を 用 い て 構 築 す る こ と が 多 い が 、 PostgreSQLで 構 築 さ れ た デ ー タベ ー ス に 対 し てwww を 通 じ て ア ク セ ス す る 際 に は 、PHPと 呼 ば れ る ス ク リ プ ト言 語 を 用 い る 方 法 が 簡 便 で あ る 。 基 本 的 な 事 項 に つ い て は 既 存 の 日 本 語 で も 良 書 が 数 多 く 出 て い る の で (例 え ば 石 井2006;堀 田 と 桑 村2004)、 参 考 に す る と 良 い だ ろ う 。 サ ー バ と し て 使 用 す る コ ン ピ ュ ー タ も 、 一 般 的 な パ ー ソ ナ ル コ ン ピ ュ ー タ を 用 い てUNIX(あ る い はLinux)の サ ー バ と し て 用 い る と 非 常 に 安 価 で あ る 。 サ ー バ のOSも 無 料 で 入 手 可 能 で 、 か つ 安 定 し て 動 作 す る も の が 多 数 存 在 す る(http://fedoraprojectorg/、

(9)

ブ タ ゲ ノ ム 解 析 研 究 の た め の デ ー タベ ー ス

http://www.vinelinux.org/な ど)。

公 開 デ ー タベ ー ス を 作 製 す る 際 の 注 意 点 と し て 、 不

特 定 多 数 か らの ア ク セ ス を 受 け る存 在 に な る 、 と い う

こ とが 挙 げ られ る 。 研 究 者 か らの ア ク セ ス の み で あ れ

ば ほ と ん ど 問 題 に な らな い が 、 有 用 な デ ー タ ベ ー ス と

し て 広 く ア ク セ ス さ れ る よ う に な る と 、 実 際 に は 、

WWWサ

ー バ に対 す る 攻 撃 と考 え ら れ る ア ク セ ス が 急

増 す る 。OS及

び サ ー バ の ソ フ トウ ェ ア に つ い て 常 に

最 新 版 あ る い は脆 弱 性 を カバ ー す る 修 正(パ ッチ)を 導

入 して お く と と も に 、 デ ー タベ ー ス の 検 索 時 に不 正 な

文 字 列 を入 力 され る こ と に よ っ て デ ー タベ ー ス が 勝 手

に 書 き換 え ら れ る よ う な こ と を 防 ぐ し くみ を実 装 して

お くこ とが 必 要 で あ る。

6.お わ り に

家 畜 ・

家 禽 の 研 究 に と ど ま ら ず 、 分 子 生 物 学 を 利 用 し

た研 究 を行 う に 当 た っ て 、 こ れ ま で の 研 究 蓄 積 を い か

に 効 率 的 に 利 用 す る か 、 とい う点 が ま す ます 重 要 に な

っ て きて い る 。 特 に、 公 的 な デ ー タベ ー ス に登 録 さ れ

て い る 内 容 は 、 誰 に で も ア ク セ ス 可 能 な も の で あ り、

そ れ らの 利 用 法 に つ い て 習 熟 す る こ と は 競 争 力 の あ る

研 究 を行 う に 当 た っ て 非 常 に重 要 で あ る 。 ま た 、 そ の

結 果 と して 得 ら れ る デ ー タ につ い て も、 他 の研 究 者 に

ど れ だ け 用 い ら れ る か 、 とい う点 で価 値 が 大 き く変 わ

っ て くる 。 デ ー タベ ー ス の 利 用 、 さ ら に デ ー タベ ー ス

を通 じた デ ー タ の 発 信 に つ い て 、 今 後 、 研 究 者 は さ ら

に意 識 す る 必 要 が あ る だ ろ う。

謝 辞

こ こ で デ ー タ ベ ー ス の 構 築 の 例 と し て 取 り上 げ た

PEDEデ

ー タ ベ ー ス は 、 コ ン ピ ュ ー タの メ ン テ ナ ンス

に つ い て 三 菱 ス ペ ー ス ソ フ トウ ェ ア(株)の

シ ス テ ム エ

ン ジ ニ ア各 位 の ご協 力 を 受 け て 運 営 を 行 っ て い る 。 ま

た 、 デ ー タベ ー ス に格 納 さ れ て い る デ ー タ は、(独)農

業 生 物 資 源 研 究 所 、 及 び(社)農 林 水 産 先 端 技 術 産 業 振

興 セ ン タ ー ・

農 林 水 産 先 端 技 術 研 究 所 の 共 同 研 究 体 制

で あ る 「家 畜 ゲ ノ ム 解 析 研 究 プ ロ グ ラ ム(Animal

Genome

Research Program ;AGP,http://animal.dna.

affrc.gojp/)の メ ンバ ー の 努 力 に よ っ て得 られ 、 農 林 水

産 省 の 各 種 委 託 研 究 資 金 、 日本 中央 競 馬 会 の 特 別 振 興

事 業 に よ っ て 助 成 が 行 わ れ た もの で あ る 。 特 に こ こ に

記 して 謝 意 を表 し た い 。

参考文献

Adams MD, Kelley JM, Gocayne JD, Dubnick M,

Polymeropoulos MH, Xiao H, Merril CR, Wu A, Olde

B, Moreno RF, et al. 1991. Complementary DNA

sequencing:

expressed

sequence tags and human

genome project. Science, 252: 1651-1656.

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ.

1990. Basic local alignment search tool. Journal of

Molecular Biology, 215: 403-410.

Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z,

Miller W, Lipman DJ. 1997. Gapped BLAST and

PSI-BLAST: a new generation of protein database

search programs.

Nucleic Acids Research,

25:

3389-3402.

Ashurst JL, Chen CK, Gilbert JG, Jekosch K, Keenan S,

Meidl P, Searle SM, Stalker J, Storey R, Trevanion S,

Wilming L, Hubbard T. 2005.

The Vertebrate

Genome Annotation (Vega) database. Nucleic Acids

Research, 33: D459-465.

Benson DA, Karsch-Mizrachi

I, Lipman DJ, Ostell J,

Wheeler

DL.

2007.

GenBank.

Nucleic Acids

Research, 35: D21-25.

Codd EF. 1970. A Relational Model of Data for Large

Shared

Data Banks.

Communications

of the

Association for Computing Machinery, 13: 377-387.

Fahrenkrug SC, Freking BA, Smith TP, Rohrer GA, Keele

JW. 2002. Single nucleotide polymorphism (SNP)

discovery

in porcine

expressed

genes.

Animal

Genetics, 33: 186-195.

Gorodkin J, Cirera S, Hedegaard J, Gilchrist MJ, Panitz F,

Jorgensen C, Scheibye-Knudsen K, Arvin T, Lumholdt

S, Sawera M, Green T, Nielsen BJ, Havgaard JH,

Rosenkilde C, Wang J, Li H, Li R, Liu B, Hu S, Dong

W, Li W, Yu J, Wang J, Staerfeldt HH, Wernersson R,

Madden LB, Thomsen B, Hornshoj H, Bujie Z, Wang

X, Wang X, Bolund L, Brunak S, Yang H, Bendixen C,

Fredholm M. 2007. Porcine transcriptome analysis

based on 97 non-normalized

cDNA libraries and

assembly of 1,021,891 expressed

sequence tags.

Genome Biology, 8: R45.

Hu J, Mungall C, Law A, Papworth R, Nelson JP, Brown A,

Simpson I, Leckie S, Burt DW, Hillyard AL, Archibald

AL. 2001. The ARKdb: genome databases for farmed

and other animals.

Nucleic Acids Research, 29:

106-110.

Hu ZL, Dracheva S, Jang W, Maglott D, Bastiaansen J,

Rothschild MF, Reecy JM. 2005. A QTL resource and

(10)

上西

comparison tool for pigs: PigQTLDB.

Mammalian

Genome, 16: 792-800.

Hu ZL, Fritz ER, Reecy JM. 2007. AnimalQTLdb:

a

livestock QTL database tool set for positional QTL

information

mining and beyond.

Nucleic Acids

Research, 35: D604-609.

Hubbard TJ, Aken BL, Beal K, Ballester B, Caccamo M,

Chen Y, Clarke L, Coates G, Cunningham F, Cutts T,

Down T, Dyer SC, Fitzgerald S, Fernandez-Banet J,

Graf S, Haider S, Hammond M, Herrero J, Holland R,

Howe K, Howe K, Johnson N, Kahari A, Keefe D,

Kokocinski

F, Kulesha E, Lawson D, Longden I,

Melsopp C, Megy K, Meidl P, Ouverdin B, Parker A,

Prlic A, Rice S, Rios D, Schuster M, Sealy I, Severin J,

Slater G, Smedley D, Spudich G, Trevanion S, Vilella

A, Vogel J, White S, Wood M, Cox T, Curwen V,

Durbin R, Fernandez-Suarez XM, Flicek P, Kasprzyk

A, Proctor G, Searle S, Smith J, Ureta-Vidal A, Birney

E. 2007. Ensemb12007. Nucleic Acids Research, 35:

D610-617.

Kulikova T, Akhtar R, Aldebert P, Althorpe N, Andersson

M, Baldwin A, Bates K, Bhattacharyya S, Bower L,

Browne P, Castro M, Cochrane

G, Duggan K,

Eberhardt R, Faruque N, Hoad G, Kanz C, Lee C,

Leinonen R, Lin Q, Lombard V, Lopez R, Lorenc D,

McWilliam H, Mukherjee G, Nardone F, Pastor MP,

Plaister S, Sobhany S, Stoehr P, Vaughan R, Wu D,

Zhu W, Apweiler

R. 2007.

EMBL Nucleotide

Sequence Database in 2006. Nucleic Acids Research,

35: D16-20.

International Chicken Genome Sequencing Consortium.

2004.

Sequence and comparative

analysis of the

chicken genome provide unique perspectives

on

vertebrate evolution. Nature, 432: 695-716.

Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC,

Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W,

Funke R, Gage D, Harris K, Heaford A, Howland J,

Kann L, Lehoczky J, LeVine R, McEwan P, McKernan

K, Meldrim J, Mesirov JP, Miranda C, Morris W,

Naylor J, Raymond C, Rosetti M, Santos R, Sheridan

A, Sougnez C, Stange-Thomann

N, Stojanovic N,

Subramanian

A, Wyman D, Rogers J, Sulston J,

Ainscough R, Beck S, Bentley D, Burton J, Clee C,

Carter N, Coulson A, Deadman R, Deloukas

P,

Dunham A, Dunham I, Durbin R, French L, Grafham

D, Gregory S, Hubbard T, Humphray S, Hunt A, Jones

M, Lloyd C, McMurray A, Matthews L, Mercer S,

Mime S, Mullikin JC, Mungall A, Plumb R, Ross M,

Shownkeen R, Sims S, Waterston RH, Wilson RK,

Hillier LW, McPherson JD, Marra MA, Mardis ER,

Fulton LA, Chinwalla AT, Pepin KH, Gish WR,

Chissoe SL, Wendl MC, Delehaunty KD, Miner TL,

Delehaunty

A, Kramer JB, Cook LL, Fulton RS,

Johnson

DL, Minx PJ, Clifton SW, Hawkins T,

Branscomb E, Predki P, Richardson P, Wenning S,

Slezak T, Doggett N, Cheng JF, Olsen A, Lucas S,

Elkin C, Uberbacher E, Frazier M, et al. 2001. Initial

sequencing and analysis of the human genome. Nature,

409: 860-921.

Lee Y, Tsai J, Sunkara S, Karamycheva

S, Pertea G,

Sultana

R, Antonescu

V, Chan A, Cheung

F,

Quackenbush

J. 2005.

The TIGR Gene Indices:

clustering and assembling EST and known genes and

integration with eukaryotic genomes. Nucleic Acids

Research, 33: D71-74.

Maglott D, Ostell J, Pruitt KD, Tatusova T. 2007. Entrez

Gene: gene-centered information at NCBI. Nucleic

Acids Research, 35: D26-31.

Maxam AM, Gilbert W. 1977.

A new method for

sequencing DNA. Proceedings of National Academy

of Science, U.S.A., 74: 560-564.

Milan D, Hawken R, Cabau C, Leroux S, Genet C, Lahbib

Y, Tosser G, Robic A, Hatey F, Alexander L, Beattie

C, Schook L, Yerle M, Gellin J. 2000. IMpRH server:

an RH mapping

server available

on the Web.

Bioinformatics, 16: 558-559.

Pearson WR, Lipman DJ.

1988. Improved tools for

biological

sequence comparison.

Proceedings

of

National Academy of Science, U.S.A., 85: 2444-2448.

Pertea G, Huang X, Liang F, Antonescu V, Sultana R,

Karamycheva S, Lee Y, White J, Cheung F, Parvizi B,

Tsai J, Quackenbush J. 2003. TIGR Gene Indices

clustering tools (TGICL): a software system for fast

clustering of large EST datasets. Bioinformatics, 19:

651-652.

Pruitt KD, Tatusova T, Maglott DR. 2007. NCBI reference

sequences (RefSeq): a curated non-redundant sequence

database of genomes, transcripts and proteins. Nucleic

Acids Research, 35: D61-65.

(11)

ブ タ ゲ ノ ム解 析 研 究 の た め の デ ー タ ベ ー ス

K, Bolund L, Wang J. 2007. PigGIS: Pig Genomic

Informatics System.

Nucleic Acids Research, 35:

D654-657.

Sanger F, Nicklen S, Coulson AR. 1977. DNA sequencing

with chain-terminating

inhibitors.

Proceedings of

National Academy of Science, U.S.A., 74: 5463-5467.

Sanger F, Tuppy H. 1951a. The amino-acid sequence in

the phenylalanyl chain of insulin. 1. The identification

of lower

peptides

from

partial

hydrolysates.

Biochemical Journal, 49: 463-481.

Sanger F, Tuppy H. 1951b. The amino-acid sequence in

the phenylalanyl chain of insulin. 2. The investigation

of peptides from enzymic hydrolysates. Biochemical

Journal, 49: 481-490.

Schook LB, Beever JE, Rogers J, Humphray S, Archibald

A, Chardon P, Milan D, Rohrer G, Eversole K. 2005.

Swine Genome Sequencing Consortium (SGSC): a

strategic roadmap for sequencing the pig genome.

Comparative and Functional Genomics, 6: 251-255.

Smith TF, Waterman MS. 1981. Identification of common

molecular

subsequences.

Journal

of Molecular

Biology, 147: 195-197.

Uenishi H, Eguchi-Ogawa

T, Shinkai H, Okumura N,

Suzuki K, Toki D, Hamasima N, Awata T. 2007.

PEDE (Pig EST Data Explorer) has been expanded into

Pig Expression

Data Explorer,

including

10 147

porcine full-length cDNA sequences. Nucleic Acids

Research, 35: D650-653.

Uenishi H, Eguchi T, Suzuki K, Sawazaki T, Toki D,

Shinkai H, Okumura N, Hamasima N, Awata T. 2004.

PEDE (Pig EST Data Explorer): construction

of a

database for ESTs derived from porcine full-length

cDNA libraries.

Nucleic

Acids Research,

32:

D484-488.

Watson JD, Crick FH. 1953. Molecular structure of

nucleic acids; a structure for deoxyribose nucleic acid.

Nature, 171: 737-738.

Wheeler DL, Barrett T, Benson DA, Bryant SH, Canese K,

Chetvernin V, Church DM, DiCuccio M, Edgar R,

Federhen S, Geer LY, Kapustin Y, Khovayko 0,

Landsman D, Lipman DJ, Madden TL, Maglott DR,

Ostell J, Miller V, Pruitt KD, Schuler GD, Sequeira E,

Sherry ST, Sirotkin K, Souvorov A, Starchenko G,

Tatusov RL, Tatusova TA, Wagner L, Yaschenko E.

2007. Database resources of the National Center for

Biotechnology Information. Nucleic Acids Research, 35: D5-12.

石 井 達 夫.2006. PC UNIXユ ー ザ の た め のPostgreSQL 完 全 攻 略 ガ イ ド.技 術 評 論 社.

堀 田 倫 英,桑 村 潤.2004. PHP5徹 底 攻 略 ソ フ トバ ン ク ク リ エ イ テ イ ブ.

参照

関連したドキュメント

AY2022 Grant Proposal for RIMS Joint Research Activity (RIMS Workshop (Type C)) To Director, Research Institute for Mathematical Sciences, Kyoto University

† Institute of Computer Science, Czech Academy of Sciences, Prague, and School of Business Administration, Anglo-American University, Prague, Czech

RIMS has each year welcomed around 4,000 researchers in the mathematical sciences in Japan and more than 200 from abroad, who either come as long-term research visitors or

The intention of this work is to generalise the limiting distribution results for the Steiner distance and for the ancestor-tree size that were obtained for the special case of

Pacific Institute for the Mathematical Sciences(PIMS) カナダ 平成21年3月30日 National Institute for Mathematical Sciences(NIMS) 大韓民国 平成22年6月24日

Where a rate range is specified, the higher rates should be used (a) in fields with a history of severe weed pressure, (b) when the time between early preplant tank mix and

TriCor 4F herbicide tank mix combinations are recommended for preplant incorporated applications, pre-emergence surface applications, Split-Shot application and Extended

Apply specified dosages of Dimetric EXT and Gramoxone Inteon in at least 10 gallons of water per acre with aerial equipment or at least 20 gallons of water per acre with