• 検索結果がありません。

セミナー室 実践的 バイオインフ ォマテ ィクス-1 実践的ホモロジー サーチと遺伝子機能 アノテーション 守屋勇樹, 五斗 進 京都大 学化学研究所 バイオインフ ォマテ ィクスセンター 配 列類似性 と遺伝子機 能 伝 子 を相 同 遺 伝 子 (ホ モ ロ グ) と呼 び, これ らの遺 伝

N/A
N/A
Protected

Academic year: 2021

シェア "セミナー室 実践的 バイオインフ ォマテ ィクス-1 実践的ホモロジー サーチと遺伝子機能 アノテーション 守屋勇樹, 五斗 進 京都大 学化学研究所 バイオインフ ォマテ ィクスセンター 配 列類似性 と遺伝子機 能 伝 子 を相 同 遺 伝 子 (ホ モ ロ グ) と呼 び, これ らの遺 伝"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

セミナー室

実践的 バイオインフ ォマテ ィクス-1

実践的ホモロジー

サーチと遺伝子機能

アノテーション

守屋勇樹, 五斗

京都大 学化学研究所 バイオインフ ォマテ ィクスセンター 配 列類似性 と遺伝子機 能 遺 伝 子 や タ ンパ ク質 の配 列 が 新 た に 得 られ, そ の 機 能 の推 定 を した い と き, もち ろ ん 実 験 的 手 法 を用 い て 機 能 同定 す る手 法 も存 在 す る が, 現 段 階 に お い て一 番 の 近 道 と考 え られ る 手 法 は ホ モ ロ ジ ー サ ー チ だ ろ う. ホ モ ロ ジ ー サ ー チ と は, 問 い合 わ せ 配 列 とデ ー タ ベ ー ス に蓄 積 さ れ た す べ て の配 列 を 比 較 す る こ とに よ っ て, 問 い合 わ せ 配 列 と類 似 性 を もつ 配 列 を 検 索 す る こ と で あ る. で は なぜ, 類 似 配 列 を 検 索 す る こ とで 遺 伝 子 機 能 が 推 定 で き る の だ ろ うか. これ は想 像 に 難 くな い だ ろ うが, 配 列 類 似 性 を 有 す る遺 伝 子 は 同一 の 機 能 を有 して い る と推 測 で き るか らで あ る. 特 に進 化 の 上 で共 通 の 祖 先 を も っ た遺 伝 子 を相 同 遺 伝 子 (ホ モ ロ グ) と呼 び, これ らの遺 伝 子 を 見 つ け る こ とが ホ モ ロ ジ ー サ ー チ の 目的 とな る. デ ー タベ ー ス か ら得 られ た 相 同遺 伝 子 に機 能 の 情 報 が記 載 さ れ て い た な ら ば, 問 い 合 わせ た 配 列 の機 能 の 推 測 が可 能 と な る. ま た, 相 同遺 伝 子 の よ う に遺 伝 子 全 体 が似 て い る の で は な く, 部 分 的 に似 た配 列 を 有 して い る場 合 にお い て も, そ の 部 位 が どん な機 能 を もっ て い るの か を デ ー タベ ー ス上 か ら知 る こ とが で きた な らば, 遺 伝 子 全 体 の 機 能 を類 推 す る の に 役 立 つ だ ろ う. で は, どの よ うに して 配 列 類 似 性 を もつ 配 列 を デ ー タ ベ ー ス か ら探 し出 せ ば よ い の で あ ろ う か. 完 全 一 致 す る 配 列 が デ ー タベ ー ス中 に存 在 す るな らば そ れ ほ ど難 しい 問 題 で は な い の だ が, 一 般 的 な 遺 伝 子 の 多 くは進 化 の 上 化 学 と生 物 Vol. 44, No. 1, 2006 27

(2)

で 様 々 な変 異 を 蓄 積 して お り, 塩 基 配 列 の上 で もア ミノ 酸 配 列 の上 で も置 換, 挿 入, 欠 失 が 存 在 して い る. そ の た め, 相 同遺 伝 子 を 巨大 な 配 列 デ ー タベ ー ス か ら探 し出 す の は 困 難 で あ る. そ れ を 解 決 す る た め に, 現 在 BLAST, FASTA, SSEARCHに 実 装 さ れ る もの を は じ め と して 様 々 な ホ モ ロ ジー サ ー チ の た め の ア ル ゴ リズ ム が 開 発 され て い る. 本 稿 で 紹 介 す る代 表 的 な ホ モ ロ ジー サ ー チ プ ロ グ ラ ム とデ ー タベ ー ス, そ の ウ ェ ブ サ イ トを 表1に ま とめ た. 本 稿 で は, こ れ ら検 索 プ ロ グ ラ ム の 利 用 法 と そ の結 果 を 用 い た遺 伝 子 機 能 ア ノ テ ー シ ョ ン につ い て 述 べ る こ と とす る. ペ ア ワ イ ズ 配 列 比 較 を 用 い た ホ モ ロ ジー サ ー チ 一 口 に ホ モ ロ ジ ー サ ー チ とい って も, そ れ らは デ ー タ ベ ー ス検 索 の 方 法 や使 わ れ 方 に よ っ て い くつ か に分 類 で き る. そ の一 つ に, 問 い 合 わせ 配 列 とデ ー タベ ー ス上 の 配 列 を 一 対 一 (ペ ア ワイ ズ) に 比較 して類 似 配 列 を検 索 す る方 法 が あ り, BLASTやFASTA, SSEARCHな ど の プ ロ グ ラ ム で 実 装 さ れ て い る. こ の う ち Smith-Waterman ア ル ゴ リズ ム を 実 装 したSSEARCHで は, 問 い合 わ せ 配 列 と デ ー タベ ー ス上 の 配 列 の 間 で, 考 え 得 る す べ て の ア ラ イ ンメ ン トを生 成 し, 最 適 とな る ア ラ イ ンメ ン トを得 る こ とを 目的 と して い る. 精 度 の 高 い ア ラ イ ン メ ン トが得 られ る た め, 進 化 の 上 で共 通 す る祖 先 を もつ 局 所 的 な 保 存 配 列 を 検 出 した い 場 合 な ど に有 用 で あ 表1 ■代 表 的 な ホ モ ロ ジ ー サ ー チ お よ び デ ー タ ベ ー ス と そ の ウ ェ ブ サ イ ト 28 化 学 と生 物 Vol. 44, No. 1, 2006

(3)

る. 一 方, BLASTとFASTAで は経 験 的 手 法 を 用 い て 高 速 にデ ー タ ベ ー ス を検 索 す る こ とを 目 的 と して 開 発 され て い る. どち ら も, 始 め に問 い合 わ せ 配 列 とデ ー タ ベ ー ス上 の 配 列 に 共 通 して存 在 す る短 い 配 列 を検 索 す る こ と を 足 が か りに, 類 似 配 列 検 索 の高 速 化 に成 功 して い る. そ の結 果, Smith-Waterman ア ル ゴ リ ズ ム に 代 表 さ れ る最 適 ア ラ イ ン メ ン トを 求 め る ア ル ゴ リズ ム に比 べ て 非 常 に高 速 に検 索 で き る よ う に な った が, 最 良 ス コ ア の も の が 最 も似 て い る配 列 で あ る と は 限 ら な い. そ の た め, 高 速 に類 似 配 列 の リス トを 得 た い場 合 に有 用 で あ る. ま たBLASTはNCBI (米 国 国 立 バ イ オ テ ク ノ ロ ジー 情 報 セ ン タ ー) で 開 発 が進 め られ て い るNCBI BLASTと ワ シ ン トン大 学 で 開 発 さ れ て い るWU-BLASTの2種 類 が 存 在 し, こ れ ら は 異 な る 結 果 を 返 す. こ の2つ で は NCBI BLASTが よ り一 般 に使 わ れ て い る た め, 本 稿 で はNCBI BLASTに つ い て記 述 す る. 検 索 結 果 は ア ミ ノ酸 置 換 行 列 に よ っ て も変 わ って く る. ア ミノ酸 置 換 行 列 は ア ミノ酸 ど う しの類 似 性 を定 義 した 得 点 表 で, 類 似 性 の 高 い ア ミノ 酸 間 の ス コ ア は 高 く, 類 似 性 の 低 い ア ミ ノ酸 間 の ス コ ア は 低 くな っ て い る. 主 にBLOSUMとPAM (Percent Accepted Muta-tion) の2系 統 が 使 わ れ て い る. PAMは 相 同 タ ンパ ク質 の ア ミノ酸 配 列 を用 い て 進 化 系 統 樹 解 析 を 行 な って 作 成 され た ア ミノ酸 置 換 行 列 で, 配 列 上 に現 わ れ る 点 突 然 変 異 の 割 合 に よ っ て ス コ ア を 算 出 し て い る. 一 方BLO-SUMは, 進 化 を 考 慮 せ ず に, タ ンパ ク質 フ ァ ミ リー の 中 で ギ ャ ップ の な い 局 所 的 な マ ル チ プ ル ア ラ イ ン メ ン ト の得 られ る領 域 を 選 び 出 し, そ の領 域 で の ア ミノ酸 置 換 頻 度 を も と に作 成 さ れ た ア ミノ酸 置 換 行 列 で あ る. 図1はBLOSUM62と 呼 ば れ る ア ミノ酸 置 換 行 列 の例 で あ る. ギ ャ ッ プペ ナ ル テ ィ は ア ライ ンメ ン トされ た配 列 の片 方 で ア ミノ酸 が欠 けて い る領 域 を 評 価 す る た め の ス コア で, ア ミノ酸 の欠 失, 挿 入 が起 こ る メ カ ニ ズ ム を 考 慮 して ギ ャ ッ プオ ー プ ニ ン グ ペ ナ ル テ ィ (連 続 した1 つ の ギ ャ ップ に か か る ペ ナ ル テ ィ) を 大 き く, ギ ャ ップ エ ク ス テ ン シ ョンペ ナ ル テ ィ (ギ ャ ップ長 が1増 え る毎 に加 算 され る ペ ナ ル テ ィ) を 小 さ く と って い る. BLO-SUM62の62と い う番 号 は, こ の行 列 が マ ル チ プル ア ラ イ ン メ ン ト領 域 内 の 類 似 性 が ど の 配 列 ペ ア 間 で も62% 未 満 で あ る タ ンパ ク質 フ ァ ミ リー を用 い て つ く られ た こ と を意 味 して い る. そ の た め, 数 字 の小 さ い もの が 遠 い 類 似 関 係 を 検 出 す る の に 適 し て い る と い え る. 逆 に PAMで は数 字 は進 化 距 離 を 表 わ して お り, 数 字 の大 き い も の ほ ど遠 い 類 似 関 係 を 検 出 す る の に適 して い る. BLASTで はBLOSUM62が, FASTAとSSEARCHで

はBLOSUM50が 標 準 と して 使 用 さ れ て い る. ま た 塩 基 に は確 立 した 置 換 行 列 は存 在 せ ず, 一 般 的 に一 致 か 不 一 致 か を 区別 す る だ け で ア ラ イ ン メ ン トを行 な って い る. BLASTやFASTAで は ア ミノ酸 とア ミノ酸, 塩 基 と 塩 基 の配 列 比 較 が で き る だ け で な く, ア ミノ酸 配 列 と塩 基 配 列 を比 較 す る オ プ シ ョ ンを も って い る. そ の場 合, プ ロ グ ラ ム 側 で 塩 基 配 列 を ア ミノ 酸 配 列 に翻 訳 した 上 で, ア ミノ酸 ど う しの 配 列 比 較 を 行 な うが, 翻 訳 フ レー ム の 情 報 が な い た め6フ レー ム す べ て を翻 訳 し, 配 列 比 較 を 行 な う こ と に な る. そ の た め, ア ミノ 酸 ど う しを 比 図1 ■BLOSUM62ア ミ ノ 酸 置 換 行 列 と ギ ャ ップ ペ ナ ル テ ィ 各 ア ル フ ァベ ッ トは ア ミノ酸 の 一 文 字 略 号. ま たBは ア ス パ ラ ギ ン酸 ま た は ア ス パ ラ ギ ンを, Zは グ ル タ ミ ン酸 ま た は グ ル タ ミ ン を, Xは 未 知 ま た は そ の他 の ア ミノ酸 を示 し て い る. 化 学 と生 物 Vol. 44, No. 1, 2006 29

(4)

較 す る の と比 べ て ホ モ ロ ジ ー サ ー チ に6倍 の 時 間 が か か る こ と に な る. ど の検 索 プ ロ グ ラ ム の どの オ プ シ ョンを 選 ぶ の が よ い か と い う問 題 は, 目的 と デ ー タベ ー ス の 特 徴 に も左 右 され 一 概 に は 決 め られ な い が, ご く近 縁 の 相 同 遺 伝 子 を得 た い場 合 に は塩 基 レベ ル で の検 索 を, 遠 縁 の 類 似 配 列 を 検 索 した い 場 合 に は ア ミノ酸 レベ ル の 検 索 を 行 な うの が よ い と され て い る. ま た, 塩 基 を ア ミノ酸 に翻 訳 しな が ら検 索 す る こ とで, フ レー ム シ フ トの 可 能 性 を検 出 す る こ と もで き る. ま たBLASTで は 標 準 で 配 列 の フ ィ ル タ リ ン グ を 行 な っ て い る. こ れ は, 問 い合 わ せ 配 列 に ポ リア デ ニ ン領 域 や プ ロ リン リ ッチ領 域 な どの 構 造 上 の複 雑 度 が低 い 領 域 が 存 在 す る場 合, ま た 反 復 配 列 が 存 在 す る場 合, 高 い 類 似 ス コア で ア ラ イ ン メ ン トが 行 な わ れ,有 意 で は な い 配 列 の一 致 に よ って 他 の 領 域 の 類 似 性 が 隠 れ て しま う た め で あ る. そ こで, 問 い合 わ せ 配 列 に見 つ か る これ らの 領 域 を 無 視 して 検 索 す る た め, 塩 基 レベ ル の 検 索 で は DUSTプ ロ グ ラ ム に よ っ て “N”に, そ の 他 の 場 合 に は SEGプ ロ グ ラ ム に よ って “X”に置 き 換 え る こ と が 行 な わ れ る. 実 際 にBLASTプ ロ グ ラ ム を動 作 させ る と, 図2-Aの よ うな, 類似 ス コ ア が 有 意 に高 い デ ー タ ベ ー ス配 列 の リ ス トが 得 られ る. 類 似 ス コ ア の 他 に ア ライ ンメ ン トの 有 意 性 の 評 価 と して E-value が 得 られ る が, これ は 「同 じ 長 さを もち, 同 じ類 似 ス コ ア を 得 られ る配 列 が, 偶 然 に デ ー タ ベ ー ス か ら見 つ か る」 と い う期 待 値 を 示 して い る. E-value は 問 い 合 わ せ 配 列 の 長 さ と類 似 ス コ ア, デ ー タベ ー ス の 大 き さか ら計 算 され る統 計 学 的 な評 価 で あ るた め, デ ー タ ベ ー スの 蓄 積 に 伴 い そ の 値 は微 妙 に 変 わ って く る. ま た, タ ンパ ク質フ ァ ミ リー に よ って 配 列 図2 ■BLASTの 検 索 結 果 デ ー タ ベ ー ス に 登 録 され て い るエ ン トリー 名 とそ の 遺 伝 子 機 能 情 報, 問 い 合 わ せ 配 列 と の 類 似 ス コ ア, E-value が 記 載 さ れ た リ ス ト (A) と, ア ラ イ ンメ ン ト情 報 (B) が 得 られ る. 30 化 学 と生 物 Vol. 44, No. 1, 2006

(5)

の 類 似 度 は 異 な る た め, E-value が ど の 程 度 の 値 で あ れ ば 機 能 的 関 連 が あ る と い え る の か は 場 合 に よ る が, 結 果 の リ ス ト上 で E-value が 大 き く 変 化 し て い る 場 所 が タ ン パ ク 質 フ ァ ミ リ ー を 分 け る た め の 一 つ の 目 安 と い え る だ ろ う. た と え ば 図2-Aの 例 で い え ば, 上 位3配 列 と そ れ 以 降 に お い て E-Value に も 隔 た りが 見 ら れ る. そ の た め, 上 位3配 列 の 機 能 情 報 か ら, 問 い 合 わ せ 配 列 が2,3-bisphosphoglycerate mutase の 機 能 を も っ て い る こ と が 推 測 で き る だ ろ う. さ ら に, リ ス ト全 体 か ら も phos-phoglycerate mutase タ ン パ ク 質 フ ァ ミ リ ー の 一 員 で あ る こ と が 伺 え る だ ろ う. 図2-Bに 最 も 類 似 度 の 高 か っ た 配 列 と の ア ラ イ ン メ ン ト結 果 を 示 し た.“Score”で 示 さ れ る 数 値 が2つ 存 在 す る が, 括 弧 で 示 さ れ た 数 値 は 実 際 の ア ラ イ ン メ ン トか ら ア ミ ノ 酸 置 換 行 列 を 用 い て 算 出 し た ス コ ア (raw ス コ ア) で, も う一 方 が bit ス コ ア と 呼 ば れ る 類 似 ス コ ア で あ る. raw ス コ ア は ス コ ア リ ン グ シ ス テ ム の 影 響 に よ り統 計 学 的 に 偏 り が 生 じ る た め, BLASTで は こ の 偏 り を 正 規 化 し た bit ス コ ア を 用 い て い る.“Expect”で 示 さ れ る 数 値 は E-value で あ る. ま た ア ラ イ ン メ ン トの 完 全 一 致 度 (Identities) と ア ミ ノ 酸 置 換 行 列 に お け る 正 の 値 で の 一 致 度 (Positives) も類 似 度 の 指 標 と し て 用 い られ る. 遠 い 類 似 配 列 を 検 索 す る た め の ホ モ ロ ジ ー サ ー チ 単 一 の 問 い 合 わ せ 配 列 を 用 い た デ ー タ ベ ー ス 検 索 の 他 に, マ ル チ プ ル ア ラ イ ン メ ン トの 情 報 を 用 い て デ ー タ ベ ー ス 検 索 す る 手 法 も 開 発 さ れ て い る. 複 数 配 列 の 情 報 を 用 い る こ と が で き る た め, 多 くの 場 合 で 単 一 配 列 の 問 い 合 わ せ で は 見 つ か ら な か っ た 類 似 配 列 を 検 索 す る こ と が で き る. そ の 一 つ にPSSM (position-Specific scor-ing matrix) を 利 用 し た ホ モ ロ ジ ー サ ー チ が あ る. PSSMは, ギ ャ ッ プ の な い モ チ ー フ 配 列 (タ ン パ ク 質 フ ァ ミ リ ー 内 に お い て よ く保 存 さ れ る 配 列 パ タ ー ン) の マ ル チ プ ル ア ラ イ ン メ ン トか ら, 各 残 基 部 位 の ア ミ ノ 酸 出 現 頻 度 をBLOSUM62の よ う な 標 準 的 な 置 換 行 列 で 正 規 化 し, 作 成 さ れ た ス コ ア 行 列 で あ る. MASTはPSSM を 問 い 合 わ せ 情 報 と して 利 用 で き る ホ モ ロ ジ ー サ ー チ プ ロ グ ラ ム で, モ チ ー フ と 類 似 性 の 高 い 配 列 を も つ 遺 伝 子 を 検 索 す る こ と が で き る. ま た, 配 列 プ ロ フ ァ イ ル を 用 い た デ ー タ ベ ー ス 検 索 も行 な わ れ て い る. 配 列 プ ロ フ ァ イ ル と は, ギ ャ ッ プ を 考 慮 し た ス コ ア 行 列 の 一 種 で あ る. PSSMに 比 べ て 配 列 プ ロ フ ァ イ ル を 使 う 手 法 は, ギ ャ ッ プ を 考 慮 し て い る た め に 感 度 が 良 く な っ て い る. 配 列 デ ー タ ベ ー ス に 対 す る 検 索 を 行 な う ホ モ ロ ジ ー サ ー チ の他 に, タ ンパ ク質 フ ァ ミ リー に見 られ るパ ター ンの デ ー タ ベ ー ス に対 して検 索 を 行 な うホ モ ロ ジ ー サ ー チ が あ る. PROSITEや Pfam は タ ンパ ク質 フ ァ ミ リー が もつ モ チ ー フ の デ ー タベ ー ス で, PSSMや プ ロ フ ァイ ルHMM (hidden Markov model) に よ って 作 成 さ れ た 配 列 プ ロ フ ァイ ル な どの パ タ ー ンを 問 い合 わ せ 情 報 と し て, パ タ ー ン ど う しを 比 較 す る こ と で デ ー タベ ー ス検 索 を 行 な う こ とが 可 能 で あ る. 現 在 はPROSITEや Pfam な どを 統 合 的 に利 用 で き る InterPro も広 く利 用 さ れ て い る. 上 記 の手 法 の よ う に マ ル チ プ ル ア ラ イ ン メ ン トの 情 報 を 利 用 で き れ ば, 単 一 の 問 い 合 わ せ 配 列 を 用 い る場 合 に 比 べ て類 似 配 列 の検 出感 度 は 上 昇 す る が, パ タ ー ンを 用 い た ホ モ ロ ジ ー サ ー チ を行 な うた め に は, 初 め に機 能 の 関 連 した 複 数 の配 列 を 準 備 しな くて は な らな い. そ れ を 克 服 した の がPSI-BLAST (position-specific-iterated-BLAST) で あ る. PSLBLASTで は 始 め に 通 常 の BLASTと 同 様 に, 単 一 の 問 い 合 わ せ配 列 を 用 い た 配 列 デ ー タ ベ ー ス の ホ モ ロ ジー サ ー チ を行 な う. 次 に, 得 ら れ た類 似 配 列 の う ち, E-value が 設 定 した 閾 値 以 下 の 配 列 群 と問 い合 わ せ配 列 の マ ル チ プル ア ライ ンメ ン トを 行 な い, 配 列 プ ロ フ ァイ ル かPSSMを 作 成 す る. そ して 作 成 され た 配 列 プ ロ フ ァイ ル やPSSMを 問 い 合 わ せ 情 報 と して 再 度 デ ー タベ ー ス の 検 索 を行 な う. こ の配 列 プ ロ フ ァ イ ル やPSSMの 作 成 と デ ー タベ ー ス 検 索 を 繰 り返 し行 な う こ とで, 単 一 の 問 い合 わせ 配 列 を用 い る よ り多 く の 類 似 配 列 を 検 索 す る こ と が で き る. 実 際 に, BLASTは も ち ろ ん, SSEARCHよ り も多 くの 類 似 配 列 が 見 つ か る こ とが 検 証 され て い る. しか し, 繰 り返 し検 索 に よ って 検 索 に お け る ノ イ ズ も増 幅 さ れ る た め, 過 度 の繰 り返 し検 索 は偽 陽性 配 列 の増 加 を 招 く こ と に な る. そ の た め, 検 索 結 果 の ア ノ テ ー シ ョ ンや E-Value を手 作 業 で 確 認 しな が ら, 目的 に あ った繰 り返 し回 数 と閾 値 を 決 定 す る こ とが, PSI-BLASTを 用 い た 類 似 配 列 検 索 の 重 要 な 要 素 にな る. 遺 伝 子 の グ ル ー ピ ング と機 能 の 分 類 問 い 合 わ せ 配 列 の 遺 伝 子 機 能 を 推 測 す る段 階 に お い て, 機 能 が 知 られ て い る相 同遺 伝 子 を デ ー タベ ー ス か ら 見 つ け 出す こ と が重 要 で あ る こ と は最 初 に述 べ た. しか し, ホ モ ロ ジ ー サ ー チ に よ って 得 られ た配 列 類 似 遺 伝 子 す べ て が 同 一 機 能 を 有 す る相 同 遺 伝 子 で あ る保 証 は な い た め, 相 同 遺 伝 子 の 見 極 め が必 要 と な る. そ こ で, ゲ ノ ム 解 析 に よ っ て もた ら され た遺 伝 子 や タ ンパ ク質 の 情 報 化 学 と 生 物 Vol. 44, No. 1, 2006 31

(6)

を, 相 同遺 伝 子 の関 係 に即 して グル ー ピ ン グす る研 究 が 行 な わ れ た. 遺 伝 子 に は 配 列 の よ く似 た相 同 遺 伝 子 もあ れ ば, 変 異 が 進 ん で い る相 同遺 伝 子 も存 在 す る た め, 単 純 に ホ モ ロ ジ ー サ ー チ の 類 似 ス コ ア や E-value の み に 頼 っ て 遺 伝 子 を グル ー ピ ン グす る こ と は, 必 ず し も同一 機 能 を 有 す る相 同 遺 伝 子 を グル ー ピ ン グ す る こ と に は な らな い. そ こでCOG (Clusters of Orthologous Groups of pro-teins) で は, 生 物 種 間 の ゲ ノ ム比 較 を行 な う こ とで, 同 一 機 能 を有 す る相 同遺 伝 子 を 同定 し集 め て い る. 相 同 遺 伝 子 は, 種 分 岐 を 経 て生 物 種 間 に ま たが って 存 在 す る場 合 に オ ー ソ ロ グ遺 伝 子 と呼 び, 同 一 生 物 種 内 に遺 伝 子 重 複 な ど の イ ベ ン トを 経 て 存 在 す る場 合 に はパ ラ ロ グ遺 伝 子 と呼 ばれ て い る. そ の た め オ ー ソ ロ グ遺 伝 子 は, 生 物 種 間 の 全 配 列 ペ アの 中 で最 も近 い 類 縁 関 係 に あ る とい え る. た とえ ば, あ る遺 伝 子 配 列 を 問 い合 わ せ 配 列 に して, そ れ と は異 な る一 生 物 種 の 全 遺 伝 子 配 列 に対 して ホ モ ロ ジ ー サ ー チ を行 な っ た とす る. そ の 場 合, 最 も高 い類 似 ス コア を 示 した 遺 伝 子 が, 問 い合 わ せ 配 列 と共 通 の祖 先 を もつ オ ー ソ ロ グ遺 伝 子 で あ る と推 測 で き る. ま た, 多 くの場 合 で は遺 伝 子 重 複 に よ っ て生 じ同 一 の 機 能 を有 す る と考 え られ る パ ラ ロ グ遺 伝 子 も, オ ー ソ ロ グ遺 伝 子 同 様 に 高 い 類 似 性 を 示 し, 相 同 遺 伝 子 と して集 め る こ とが で き る. この よ う に生 物 種 間 で ゲ ノ ム 比 較 を行 な う こ と に よ り, パ ラ ロ グ遺 伝 子 と オ ー ソ ロ グ遺 伝 子 両 方 を一 つ の グ ル ー プ に分 類 す る こ と が で き る. 相 同 遺 伝 子 を グル ー ピ ング し, 問 い合 わ せ 配 列 が どの グ ル ー プ の配 列 群 に最 も 似 て い るか を調 べ る こ とで, 問 い合 わ せ 配 列 の機 能 ア ノ テ ー シ ョ ンに も利 用 で き る. COGで は新 規 配 列 が ど の グ ル ー プ に 分 類 さ れ る か を 自 動 で 計 算 す る COGnitor と い う プ ロ グ ラ ム を 開 発 し, 公 開 して い る. COGnitor で は ア ミ ノ 酸 配 列 を 問 い 合 わ せ 配 列 に, COGデ ー タ ベ ー ス との 配 列 比 較 を 行 な って お り, 類 似 配 列 の リス ト を 出力 す る と と もに 分 類 さ れ る相 同遺 伝 子 グ ル ー プ を予 測 して い る. しか し, COGは2004年6月 以 降 更 新 が停 止 して お り, 新 しい相 同 遺 伝 子 グル ー プ の検 索 に対 応 し き れ な い可 能 性 もあ る. 相 同遺 伝 子 の 機 能 情 報 を検 索 で きた と き, 次 に重 要 と な る の は, 実 際 に そ の遺 伝 子 が どの よ う な 生 命 現 象 に 関 わ って い る の か を知 る こ とで あ る. 生 命 現 象 と は遺 伝 子 間, タ ンパ ク質 問 の相 互 作 用 を意 味 し, そ の た め一 連 の 生 命 現 象 を 司 る 遺 伝 子 機 能 を 分 類 す る こ と が 必 要 に な る. しか し, COGで は そ れ ぞ れ の 相 同遺 伝 子 グル ー プ が 同 じ階 層 に 存 在 す る た め, そ れ ぞ れ の遺 伝 子 が ど の相 同 遺 伝 子 グ ル ー プ に分 類 され る か を 見 た だ け で は, そ の生 物 が どん な代 謝 系 や輸 送 系 を も って い る か が 判 別 で き な い. ま た, これ ま で研 究 者 が 各 々 の 呼 び方 で 遺 伝 子 機 能 情 報 を 記 述 して き た た め, 同一 の 機 能 を表 わ す 言 葉 が複 数 存 在 す る場 合 が あ り, そ の た め 共 通 に利 用 で き る機 能 の表 現 が 必 要 とな った. EcoCyc (Encyclopedia of Esc-herichia coli K12 Genes and Metabolism) は 大 腸 菌 の代 謝 系 に関 す るデ ー タ ベ ー スで, 大 腸 菌 の遺 伝 子 機 能 を 階 層 的 に分 類 して い る, そ の た め, 大 腸 菌 の近 縁 種 に と っ て 有 用 な 機 能 分 類 と い え る だ ろ う. Gene Ontology (GO) は真 核 生 物 を 中心 に遺 伝 子 機 能 を 階 層 的 に 分 類 し た もの で, 遺 伝 子 の生 物 学 的 役 割 や 局 在 な どの 情 報 も記 述 され て い る. これ ら相 同 遺 伝 子 の グル ー ピ ン グ と機 能 の 分 類 を統 括 的 に 構 築 した デ ー タベ ー ス の一 つ にKEGG (Kyoto En-cyclopedia of Genes and Genomes) が あ り, 相 同遺 伝 子 グ ル ー プ と機 能 分 類 間 の 対 応 の とれ た デ ー タベ ー ス と な って い る. KEGGに お け る パ ス ウ ェイ の 再 構 築 遺 伝 子 機 能 ア ノ テ ー シ ョ ン の 最 終 的 な 到 達 点 の 一 つ に, 遺 伝 子 間 の 相 互 作 用 ネ ッ トワー ク の再 構 築 が あ げ ら れ る. これ は, ゲ ノ ム解 析 か ら得 られ る遺 伝 子 や タ ンパ ク質 の情 報 と, 化 合 物 や 化 学 反 応 の 情 報 を統 合 解 析 す る こ とで, 生 命 シス テ ム の機 能 を見 い だ す こ とを 意 味 して い る. KEGGで は2005年10月 現 在, 全 ゲ ノ ム 配 列 の 決 定 し た 約290生 物 種 に 含 ま れ る 約100万 の 遺 伝 子 が GENESデ ー タ ベ ー ス と して 蓄 積 さ れ て お り, Smith-Waterman ア ル ゴ リ ズ ム に よ って 全 遺 伝 子 間 の 配 列 類 似 関 係 を あ らか じめ 計 算 し蓄 積 し たSSDBデ ー タ ベ ー ス を 作 成 して い る. SSDBを も と に ゲ ノ ム 比 較 を 行 な い, す で につ け られ て い る ア ノテ ー シ ョン情 報 や, 遺 伝 子 の 並 び が 近 縁 の生 物 種 に お い て 保 存 され る と い う情 報 を 用 い て, オ ー ソ ロ グ遺 伝 子 を グル ー ピ ン グ した もの が 32 化 学 と生 物 Vol. 44, No. 1, 2006

(7)

KO (KEGG Orthology) で あ る. ま たKEGGで は, タ ン パ ク質 問 の相 互 作 用 ネ ッ トワ ー ク と して 表 現 され た細 胞 機 能 の 知 識 を 階 層 的 に 分 類 しPATHWAYデ ー タ ベ ー ス と して 蓄 積 して い る. PATHWAYはKO間 の 相 互 作 用 ネ ッ トワ ー ク と して 表 現 され て お り, KOはPATH-WAYと 同様 の 階層 的 な機 能 分 類 を も っ た ア ノ テ ー シ ョ ン と して 利 用 で き る (図3: KEGG PATHWAYの 詳 し い 利 用 法 は本 シ リー ズ に て 紹 介 す る 予 定 で あ る). Ge-nomeNetで はBLASTとFASTAの2つ の ホ モ ロ ジー サ ー チ を ウ ェ ブで サ ー ビス して お り, KEGG GENESを デ ー タ ベ ー ス と し た 類 似 配 列 検 索 を 行 な う こ と が で き る. 結 果 の類 似 配 列 リス トか らは個 々 の 遺 伝 子 の 情 報 を 記 した ペ ー ジに リン ク が 張 られ, そ の遺 伝 子 がKOに グ ル ー ピ ング さ れ て い る場 合 に は, オ ー ソ ロ グ遺 伝 子 や そ の遺 伝 子 が 機 能 す るパ ス ウ ェ イ な どの 情 報 を得 る こ とが で き る. これ らの デ ー タ ベ ー ス を利 用 す れ ば, あ る生 物 種 の ゲ ノ ム にKOを ア ノ テ ー シ ョ ンす る こ と に よ っ て, そ の生 物 の もつ代 謝 系 や シ グ ナル 伝 達 系 な どの 情 報 を知 る こ とが 可 能 とな る. ま た, ネ ッ トワー ク の途 切 れ て い る部 分 を 探 す こ と に よ って, ミ ッ シ ン グエ ンザ イ ム の存 在 や新 た な パ ス ウ ェ イ経 路 の 可 能 性 を 見 つ け る こ と も可 能 とな る. KEGGで はKOに 含 ま れ る 遺 伝 子 と の 配 列 類 似 性 を 用 い て, 問 い 合 わせ 配 列 に 自動 計 算 でKOを ア サ イ ンす る 手 法 を 開 発 し, KAAS (KEGG Automatic Annota-tion Server) と して ウ ェ ブ で サ ー ビス して い る. KAAS

で はGENESの 各 生 物 種 に対 し てBLASTを 用 い て 類 似 ス コア を計 算 し, 最 良 ス コ ア に近 い 遺 伝 子 群 を 問 い合 わ せ 配 列 の オ ー ソ ロ グ遺 伝 子 候 補 と して 集 め る. そ の上 で オ ー ソ ロ グ遺 伝 子 候補 そ れ ぞ れ に ア サ イ ン さ れ たKO の 中 か ら確 率 と経 験 則 に基 づ い て, 問 い 合 わ せ配 列 に ア サ イ ンす るKOを 決 定 して い る. ま た, 問 い合 わ せ 配 列 が ゲ ノム 単 位 で用 意 で き る場 合 に は, GENESの そ れ ぞ れ の遺 伝 子 を 問 い 合 わせ 配 列 と して, 問 い合 わ せ ゲ ノ ム を デ ー タ ベ ー ス と して 逆 方 向 のBLASTを か け る こ と に よ って, オ ー ソ ロ グ遺 伝 子 候補 の 予 測 精 度 を 向 上 させ て い る. ゲ ノ ム単 位 の 問 い合 わ せ 配 列 を 利 用 す る こ と に よ り, そ の 生 物 種 が もつ パ ス ウ ェイ を 自動 で 再 構 築 す る こ と もで き る. 現 在, 様 々 な ゲ ノ ム プ ロ ジ ェ ク トの 進 行 に伴 い 増 え 続 け る ゲ ノ ム配 列 情 報 に対 応 す べ く, KEGGで は 日々 デ ー タベ ー ス の 更 新 を行 な って お り, 相 同遺 伝 子 の検 索 お よ び遺 伝 子 機 能 の ア ノ テ ー シ ョン に有 用 な デ ー タ ベ ー ス と して 構築 され て い る. 図3 ■KEGG PATHWAYに お け る 解 糖 系 の 代 謝 パ ス ウ ェイ マ ッ プ パ ス ウ ェイ は生 命 現 象 ご とに 分 類 さ れ, 各 機 能 マ ップ と して 表現 され て い る. 四 角 いBOXは リ フ ァ レ ンス マ ッ プ で はKOで 表 わ さ れ る オ ー ソ ログ遺 伝 子 グ ル ー プ を意 味 し, そ れ を つ な ぐ丸 は化 合 物 を表 わ して い る. な お, 酵 素 のKOは 酵 素 番 号 と対 応 して お り, マ ップ で は酵 素 番 号 を表 示 して い る. 文 献

1) D.W. Mount:“Bioinformatics: Sequence and Genome Analysis”, Cold Spring Harbor Laboratory Press, 2001. 2) C. Gibas, P. Jambeck & L. LeJeune:“Developing Bioin-formatics Computer Skills: An Introduction to Soft-ware Tools for Biological Applications”, Oreilly & As-sociates Inc., 2000.

3) 金 久 實 (編):“ゲ ノ ム ネ ッ トの デ ー タ ベ ー ス 利 用 法 ”, 第3版, 共 立 出 版, 2002.

参照

関連したドキュメント

• 家族性が強いものの原因は単一遺伝子ではなく、様々な先天的要 因によってもたらされる脳機能発達の遅れや偏りである。.. Epilepsy and autism.2016) (Anukirthiga et

Pms2 Impairment at pachytene stage and MI; MutL mismatch repair protein homolog Msh4 Arrest at zygotene-like stage; MutS mismatch repair protein homolog Msh5 Arrest

今日のお話の本題, 「マウスの遺伝子を操作する」です。まず,外から遺伝子を入れると

第四章では、APNP による OATP2B1 発現抑制における、高分子の関与を示す事を目 的とした。APNP による OATP2B1 発現抑制は OATP2B1 遺伝子の 3’UTR

ADAR1 は、Z-DNA 結合ドメインを2つ持つ ADAR1p150 と、1つ持つ ADAR1p110 が.

[r]

その産生はアルドステロン合成酵素(酵素遺伝 子CYP11B2)により調節されている.CYP11B2

 ヒト interleukin 6 (IL-6) 遺伝子のプロモーター領域に 結合する因子として同定されたNF-IL6 (nuclear factor for IL-6 expression) がC/EBP β である.C/EBP