• 検索結果がありません。

累 進 法 を 用 い て い る が, ペ ア ワ イ ズ ア ラ イ ン メ ン トの 間 の 整 合 性 を 考 慮 す る こ と に よ っ て, た. 精 度 の 向上 に 成 功 し さ ら に, 立 体 構 造 ア ラ イ ン メ ン トな ど 別 々 の 根 拠 に 基 づ く ペ

N/A
N/A
Protected

Academic year: 2021

シェア "累 進 法 を 用 い て い る が, ペ ア ワ イ ズ ア ラ イ ン メ ン トの 間 の 整 合 性 を 考 慮 す る こ と に よ っ て, た. 精 度 の 向上 に 成 功 し さ ら に, 立 体 構 造 ア ラ イ ン メ ン トな ど 別 々 の 根 拠 に 基 づ く ペ"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

セミナー室

実践 的バイオイ ンフォマテ ィクス-2

実践的マルチプル

アラインメン ト

加 藤 和 貴 *1, 隈

啓一 *2

*1九州大学 デジタルメデ ィシンイニシアテ ィブ *2京都大学化 学研究所バ イオインフ ォマテ ィクスセンター

配 列 の ア ライ ンメ ン トは, 広 い 応 用 範 囲 を もつ 配 列 解

析 手 法 で あ る. ア ラ イ ン メ ン トと は, 起 源 を 共 有 す る残

基 を 対 応 さ せ て ア ミノ酸 配 列 や塩 基 配 列 を 並 べ た もの で

あ る. 2本 の 配 列 か らな る ア ラ イ ン メ ン トを ペ ア ワイ ズ

ア ラ イ ンメ ン ト, 3本 以 上 の 配 列 か らな る もの を マ ル チ

プ ル ア ラ イ ンメ ン トと呼 ぶ. ゲ ノ ム計 画 な ど に よ る大 量

の配 列 デ ー タ の 蓄 積 に よ って 高 速 か つ 高 精 度 な マ ル チ プ

ル ア ラ イ ンメ ン トソ フ トウ ェ ア が必 要 と な り, 最 近 い く

つ か の ソ フ トウ ェ アが 新 し く開 発 され た. Wallace らの

総 説(1)に よれ ば, そ の 中 で最 も成 功 して い るの は筆 者 ら

の 開 発 し て い るMAFFT(2,3)の

他, ProbCons(4)や

TCoffee(5)な

どで あ る. 本 稿 で は, 他 の優 れ た ソ フ トウ

ェ ア を 簡 単 に紹 介 した後, MAFFTに

つ い て, 利 用 法 に

限 定 し て 解 説 す る. ア ル ゴ リ ズ ム や 理 論 的 背 景 に つ い て は, 筆 者 ら に よ る 別 の 総 説(6)で も う 少 し詳 し く述 べ る. 従 来 は, 累 進 法 に よ る ClustalW(7)が 広 く用 い られ て き た. 累 進 法 は 比 較 的 計 算 量 の 少 な い 方 法 で あ る が 精 度 に 問 題 が あ る た め, 類 似 度 の 低 い 配 列 の 間 の ア ラ イ ン メ ン トを 計 算 す る に は, 反 復 改 善 法(8,9)な ど の よ り精 密 な 方 法 を 適 用 す る こ と が 必 要 で あ る. た だ, 後 で 述 べ る よ う に, 配 列 の 数 が 数 本 程 度 で 全 長 に わ た っ て 高 い 類 似 性 が み ら れ る デ ー タ に 対 し て は, 現 在 で も ClustalWは 有 用 で あ る. 入 手 先 は, ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw/ で あ る. Notredame ら に よ っ て 開 発 さ れ て い るTCoffee(5)は 102 化 学 と生 物 Vol. 44, No. 2, 2006

(2)

累 進 法 を 用 い て い る が, ペ ア ワ イ ズ ア ラ イ ン メ ン トの 間 の 整 合 性 を 考 慮 す る こ と に よ っ て, 精 度 の 向 上 に 成 功 し た. さ ら に, 立 体 構 造 ア ラ イ ン メ ン トな ど 別 々 の 根 拠 に 基 づ く ペ ア ワ イ ズ ア ラ イ ン メ ン トを1つ の マ ル チ プ ル ア ラ イ ン メ ン ト に ま と め る こ と が で き る よ う に な っ た(10) と い う点 で, TCoffee は 重 要 な 方 法 で あ る. TCoffee は, http://igs-server.cnrs-mrs.fr/ cnotred/Projects _ home_page/t_coffee _home_page.html か ら 入 手 で き る. Doら に よ る ProbCons(4)も, ペ ア ワ イ ズ ア ラ イ ン メ ン トの 間 の 整 合 性 を 用 い る ソ フ ト ウ ェ ア で あ る. Prob-Cons は, 最 適 以 外 の ペ ア ワ イ ズ ア ラ イ ン メ ン ト も 考 慮 す る と い う 特 徴 を も つ 上 に, 計 算 量 は TCoffee よ り少 な い. 入 手 先 は, http://probcons.stanford.edu/ で あ る. 筆 者 ら に よ るMAFFTは, 近 似 的 な 距 離 行 列 作 成 法 や 高 速 フ ー リ エ 変 換 (FFT) な ど の 手 法 を 用 い て 累 進 法 を さ ら に 高 速 化 し た. そ の 結 果, 数 千 本 の 配 列 か ら な る ア ラ イ ン メ ン トが 計 算 で き る よ う に な っ た. MAFFTに は 反 復 改 善 法 や 整 合 性 を 取 り入 れ た 方 法 も実 装 さ れ て い て, 必 要 に 応 じ て よ り精 密 な 方 法 を 選 択 す る こ と も で き る. こ の 場 合 精 度 は, 数 本 の 配 列 か ら な る 小 規 模 な ア ラ イ ン メ ン ト に 対 し て はTCoffee や ProbCons と 同 程 度 で あ り, 数 十 の 配 列 か ら な る ア ラ イ ン メ ン トに 対 し て は そ れ ら を 上 回 る. 入 手 先 は, http://www.biophys.kyoto-uac.jp/ katoh/ programs/align/mafft/

で あ る. Linux, MacOSX, Windows そ れ ぞ れ で 動 く バ

イ ナ リ と ソ ー ス が ダ ウ ン ロ ー ドで き る. イ ン ス トー ル 方 法 は, Linux(.rpm) と Mac (.pkg.dmg) に つ い て は 多 く の フ リー ソ フ ト ウ ェ ア パ ッ ケ ー ジ と 同 様 で あ る. Win-dows 版 は Cygwin を 必 要 と す る た め, イ ン ス トー ル に 少 し 手 間 が か か る. メ モ リ は500MB程 度 あ れ ば 通 常 の 使 用 に は 問 題 な い. CPUは 速 い ほ う が 望 ま し い が, 遅 い CPUで も そ れ な り に 動 く. UNIX的 な 環 境 で 開 発 さ れ た た め, 次 節 以 降 で 説 明 す る よ う な コ マ ン ドを 打 ち 込 む 必 要 が あ る. よ りユ ー ザ フ レ ン ド リな イ ン タ ー フ ェ イ ス が 必 要 な 場 合 に は, 京 都 大 学 の ゲ ノ ム ネ ッ トや 筆 者 ら の 研 究 室 の サ ー ビ ス を 利 用 す る こ と も で き る. ゲ ノ ム ネ ッ トで は 系 統 樹 を 推 定 す る こ と も で き る. http://timpani.genome.ad.jp/ mafft/server http://align-genome.jp/mafft/

ま た, Max Planck 研 究 所 や Infobiogen な ど 他 機 関 で

も ClustalWな ど と と も にMAFFTに よ る サ ー ビ ス が 行 な わ れ て い る. こ れ ら の サ ー バ で は, 筆 者 ら に よ る サ ー バ に 比 べ て き め 細 か い パ ラ メ ー タ の 調 整 が で き る よ う で あ る. http://protevo.eb.tuebingen.mpg.de/toolkit/ index.php?view=mafft http://babel.infobiogen.fr:1984/displayForm.php? command=mafft 次 節 以 降 で, 多 くの ソ フ トウ ェ ア に 共 通 し て 使 わ れ て い る 累 進 法 と 反 復 改 善 法 を 紹 介 し な が ら, MAFFTv5.7 を 使 っ て そ れ ら を 実 行 す る た め の コ マ ン ドを 説 明 す る. 上 に 挙 げ たMAFFTサー バ の 一 部 で はFFT-NS-2やL-INS-iと い っ た 名 前 で 計 算 法 を 指 定 す る よ う に な っ て い る の で, そ れ ら も あ わ せ て 示 す. ま た, ア ミ ノ 酸 配 列 に つ い て の み 述 べ る が, 塩 基 配 列 に も ほ ぼ 同 様 の 手 法 が 適 用 で き る. 累 進 法

累 進 法(7,11)は, ClustalWを

は じめ 多 く の ソ フ トウ ェ

ア に採 用 され て い る方 法 で あ る. 入 力 配 列 の 間 の 系 統 関

係 (案 内 木 と 呼 ぶ) を仮 定 し, そ の樹 形 に従 って グ ル ー

プ間 ア ラ イ ンメ ン トを繰 り返 す こ とに よ っ て1つ の マ ル

チ プ ル ア ラ イ ン メ ン トを得 る と い う方 法 で あ る. 図1に

示 した例 で は, 案 内木1の

下 で, 配 列AとB,

配 列Cと

Dの

ア ラ イ ン メ ン トが そ れ ぞ れ 計 算 さ れ た 後, 配 列 グ

ル ー プCDと

配 列E, 最 後 に 配 列 グ ル ー プABとCDE

の ア ライ ンメ ン トが 計 算 され る.

案 内木 は, 距 離 行 列 か ら計 算 さ れ る. 距 離 行 列 と は,

問 題 と す るN本

の 配 列 の 間 の す べ て の ペ ア に つ い て 推

定 さ れ たN(N-1)/2の

進 化 距 離 か らな る行 列 で あ る. 距

離 行 列 を 作 成 す る た め に必 要 な計 算 量 は配 列 の 数 の2乗

に比 例 す る. 多数 の 配 列 か らな る ア ラ イ ンメ ン トを 計 算

す る た め に は, こ の 過 程 を 高 速 化 す る こ とが 重 要 で あ

る. MAFFTで

は, 共 有6-tuple に 基 づ く近 似 的 で 高 速

な 方 法(2,12)と, ア ラ イ ンメ ン トに基 づ く, 比 較 的厳 密 で

あ る が 計 算 量 の 多 い方 法 の2つ

の う ち ど ち らか を 選 べ る

よ う に な っ て い る. デ フ ォ ル トは 前 者 で あ る. 共

有6-tuple に基 づ く方 法 の ア ル ゴ リズ ム に つ い て は こ こ で は

述 べ な い が, これ は全 ペ ア の ア ラ イ ン メ ン トに 基 づ く進

化 距 離 に 対 す る きわ め て 粗 い 近 似 で あ り, 進 化 距 離 と し

て の精 度 は低 い. そ こ で, 累 進 法 に よ る ア ライ ン メ ン ト

を一 度 作 成 した 後, そ の ア ラ イ ンメ ン トに基 づ いて 距 離

行 列 と案 内木 を 更 新 し, も う一 度 累進 法 に よ る ア ラ イ ン

メ ン トを 実 行 す る こ とに よ っ て, 最 初 の 進 化 距 離 の 精 度

の 低 さ の 影 響 を 低 減 す る こ と を 図 って い る. こ の オ ブ

化 学 と生 物 Vol. 44, No. 2, 2006 103

(3)

シ ョ ン をFFT-NS-2と 呼 び, デ フ ォ ル トで あ る. FFT-NS-2 % mafft input>output こ こ で, %記 号 は コ マ ン ド プ ロ ン プ トを 表 わ す. 入 力 配 列 は fasta 形 式 で あ る. 後 で 示 す よ う に, パ ー セ ン トア イ デ ン テ ィ テ ィ が50程 度 の 明 確 な 類 似 性 を も つ 配 列 に 対 し て は, こ の 方 法 で 十 分 な 精 度 が 得 られ る. さ ら に 計 算 を 高 速 化 す る た め に, 案 内 木 の 更 新 を 行 な わ な い こ と も で き る. こ れ をFFT-NS-1と 呼 ぶ. FFT-NS-1 % mafft --retree 1 input>output

こ れ が 最 速 の オ プ シ ョ ン で あ る が, デ フ ォ ル トに 比 べ て 高 々2倍 高 速 な だ け で 精 度 が 少 し 劣 る こ と が 多 い の で, 利 用 価 値 は 低 い. ま た, --retree 3と い う よ う に 案 内 木 を2回 以 上 更 新 す る こ と も で き る が, 2回 目 の 更 新 以 降 精 度 の 向 上 は ほ ぼ み ら れ な い. こ れ ら2つ の オ プ シ ョ ン (FFT-NS-2とFFT-NS-1) で は, グ ル ー プ 間 ア ラ イ ン メ ン トはFFTを 用 い た 高 速 な 方 法 に よ っ て 行 な わ れ る. 通 常 の ダ イ ナ ミ ッ ク プ ロ グ ラ ミ ン グ (DP) の 計 算 量 は 配 列 の 長 さ の2乗 に 比 例 す る の に 対 し て, FFTに よ っ て 類 似 性 の 高 い 領 域 を あ ら か じ め 発 見 し て お く こ と に よ っ て, 計 算 量 を 配 列 の 長 さ の 1乗 に ま で 抑 え る こ と が で き る. た だ し, FFTに よ る 高 速 化 は 配 列 間 の 類 似 性 が 高 い 場 合 の み 有 効 で あ る. FFT に よ る グ ル ー プ 間 ア ラ イ ン メ ン ト と6-tuple に 基 づ く 近 似 的 な 距 離 計 算 の ア ル ゴ リ ズ ム に つ い て は 文 献(2,6)を 参 照 さ れ た い. 距 離 行 列 を, 共 有6-tuple の 数 で な く厳 密 な ア ラ イ ン メ ン トに 基 づ い て 計 算 す る た め に は, 別 の オ プ シ ョ ン を 用 い る.

L-INS-1, G-INS-1, E-INS-1 % mafft --localpair input>output (L-INS-i) % mafft --globalpair input>output (G-INS-i) % mafft --genafpair input>output (E-INS-i)

3通 り の オ プ シ ョ ン を あ げ た が, ペ ア ワ イ ズ ア ラ イ ン メ

ン トの ア ル ゴ リ ズ ム が そ れ ぞ れ 異 な る. --globalpair

は グ ロ ー バ ル ア ラ イ ン メ ン ト(13), --localpair と

--genafpair は ロ ー カ ル ア ラ イ ン メ ン ト(14)を行 な う.

--globalpair と--localpair は 通 常 の affine gap

cost(15)を 用 い る が, --genafpair は generalized affine

gap cost(16)と い う, よ り複 雑 な ギ ャ ッ プ コ ス トを 用 い

る. generalized affine gap cost は, ア ラ イ ン メ ン トを

作 成 す る こ と が 無 意 味 で あ る ほ ど類 似 度 の 低 い 領 域 を 含 ん で い る と き に 有 効 で あ る と 考 え て 導 入 し た が, 有 効 性 を 明 確 に 示 す こ と は で き て い な い. こ れ ら の オ プ シ ョ ン は デ フ ォ ル ト (FFT-NS-2) に 比 べ て 多 少 高 い 精 度 を 示 す. そ の 理 由 は, 第 一 に 距 離 行 列 が 正 確 で あ る こ と と, 第 二 に 後 述 の 全 ペ ア の ア ラ イ ン メ ン トに 基 づ い て 整 合 性 ス コ ア を 利 用 す る こ と が で き る か ら で あ る. よ り精 度 の 高 い ア ラ イ ン メ ン トを 得 る た め に は, 次 節 で 述 べ る 反 復 改 善 法 が 有 効 で あ る. 反 復 改 善 法 前 節 で 述 べ た 累 進 法 は, 配 列 を 組 み 上 げ て い く過 程 で 一 度 誤 り が 入 る と, そ の 後 そ れ を 修 正 で き な い と い う欠 点 を も つ. 一 つ の 解 決 策 は, ア ラ イ ン メ ン トの 「良 さ 」 を 評 価 す る ス コ ア を 設 定 して お き, こ れ を 目 的 関 数 と し て ア ラ イ ン メ ン トを 少 しず つ 変 形 し な が ら よ り良 い 解 を 探 索 す る こ と で あ る. 目 的 関 数 が 適 切 で あ れ ば, 変 形 の 過 程 で 誤 り が 訂 正 さ れ る こ と が 期 待 で き る. い くつ か の 目 的 関 数 と そ れ に 応 じ た 探 索 法 が 提 案 さ れ て い る が, 現 在 の と こ ろ 最 も現 実 的 な 方 法 と 思 わ れ る の は 反 復 改 善 法(8,9)で あ る. こ の 方 法 は, 目 的 関 数 と し て す べ て の 配 列 ペ ア の ス コ ア の 合 計 (sum-of-pairs [SP] score と い う) を 用 い, 暫 定 的 ア ラ イ ン メ ン トを2グ ル ー プ に 分 割 し て, そ の 間 の グ ル ー プ 間 ア ラ イ ン メ ン トを 計 算 し直 す こ と に よ っ て ス コ ア の 改 善 を 図 る. 配 列 ご と に 重 み 付 け し た ス コ ア (weighted SP [WSP] score)(17)や 厳 密 な グ 図1 ■累 進 法 に よ る マ ル チ プ ル ア ラ イ ン メ ン ト 104 化学 と生 物 Vol. 44, No. 2, 2006

(4)

ル ー プ 間 ア ラ イ ン メ ン ト(8,18)によ る 精 度 の 向 上 が

Gotoh(19)に よ っ て 示 さ れ, 最 初 の 実 用 的 な ソ フ トウ ェ

ア と してPRRNが

開 発 さ れ た. 反 復 改 善 法 に つ い て は

後 藤 に よ る総 説(20)に詳 し く述 べ られ て い る.

反 復 改 善 法 の 計 算 手 続 き の概 略 を 図2に 示 す. N本

配 列 か らな る ア ラ イ ン メ ン トを2つ の グ ル ー プ に分 割 す

る と き, 可 能 な 分 割 は2N-1-1通

りあ る が, 配 列 の 間 に

系 統 関 係 を仮 定 して そ の 系 統 樹 を2つ

の部 分 系 統 樹 に 分

け る よ う な 分 割 に 限 定 す る と, 分 割 の 数 は2N-3通

とな り, 効 率 的 な ア ラ イ ン メ ン トの 改 善 が可 能 で あ る こ

とが Hirosawa

ら(21)によ って 見 い だ され た. こ の手 法 は

PRRNやMAFFTに

取 り入 れ られ て い る.

MAFFTに

お い て 反 復 改 善 法 を 実 行 す る た め に は,

FFT-NS-i

% mafft --maxiterate 1000 input>output (fftnsi input>output で も 可) と い う オ プ シ ョ ン を 用 い る. グ ル ー プ 間 ア ラ イ ン メ ン ト に お け る ギ ャ ッ プ の 扱 い な ど の 点 で, PRRNに 比 べ て 簡 略 化 さ れ た 反 復 改 善 法 に よ る ア ラ イ ン メ ン トが 実 行 さ れ る. --maxiterate 1000と 指 定 す る と, 再 ア ラ イ ン メ ン トの 回 数 が (2N-3) 回 ×1000サ イ ク ル に 達 す る か, ス コ ア の 向 上 が み ら れ な く な る ま で 繰 り返 す. 整 合 性 ス コ ア に よ る 精 度 向 上 TCoffee は, 累 進 法 を 採 用 し た ま ま, 反 復 改 善 法 と は ま っ た く別 の ア プ ロ ー チ で 精 度 向 上 に 成 功 した. そ の ア ル ゴ リ ズ ム を3本 の 配 列A, B, Cか ら な る 簡 単 な 例 を 使 っ て 紹 介 す る. ま ず, AB, AC, BCの 間 の 全3通 りの ア ラ イ ン メ ン トと そ れ ぞ れ の ア ラ イ ン メ ン トに 対 す る ス

コ アSab, Sac, Sbcを 計 算 す る. こ れ を primary library

と 呼 ぶ. 次 に, あ る2本 の ア ラ イ ン メ ン トに つ い て, そ の2本 以 外 の す べ て の 配 列 を 仲 立 ち と し て, そ の2本 の 配 列 の 間 の ア ラ イ ン メ ン トを 計 算 す る. 今 の 例 で は, 配 列AとBの 間 の ア ラ イ ン メ ン トと し て, 最 初 に 配 列A とBか ら直 接 計 算 した ア ラ イ ン メ ン ト (ス コ アSab) に 加 え て, 配 列Cを 仲 立 ち と し た 配 列AとBと の 間 の 間 接 的 な ア ラ イ ン メ ン トが 得 られ る. こ の 新 し い ア ラ イ ン メ ン ト に 対 す る ス コ ア を, S'ab=min(Sa,c, Sbc) と 定 め る. こ の 操 作 を す べ て の 配 列 ペ ア に つ い て 行 な い, 得 ら れ た ア ラ イ ン メ ン ト と ス コ ア を extended library と 呼 ぶ. 累 進 法 の 過 程 で 配 列AとBと を ア ラ イ ン す る 必 要 が 生 じ た と き に は, DPに よ る ア ラ イ ン メ ン トを 行 な う が, そ の 際, BLOSUMな ど 通 常 の ス コ ア 行 列 を 用 い た 残 基

間 の ス コ ア の か わ り に, primary library と extended

library の 中 で そ の 残 基 を 対 応 づ け て い る ア ラ イ ン メ ン トの ス コ ア (SabとS'ab) の 合 計 を 用 い る. 以 上 の よ う に, TCoffee は 累 進 法 を 用 い て い る が, ex-tended library に よ っ て, 累 進 法 の 初 期 の 段 階 で 起 こ り が ち な ミ ス ア ラ イ ン メ ン トを 抑 制 し て い る. た だ し, そ の た め に す べ て の 可 能 な3配 列 の 組 み 合 わ せ を 処 理 す る こ と が 必 要 と な り, 計 算 量 は 配 列 の 数 の3乗 に 比 例 す る. こ の 方 法 は 計 算 量 の 問 題 の 他 に, 配 列 の 数 が ど ん な に 増 え て も 同 時 に3本 の 配 列 の 間 の 整 合 性 し か 考 慮 で き な い と い う 難 点 を も つ. MAFFTは こ れ ら の 問 題 を 解 決 す る た め に 改 変 し た 整 合 性 ス コ ア を 用 い て い る. 変 更 点 は, ペ ア ワ イ ズ ア ラ イ ン メ ン トに お け る 出 現 頻 度 に 応 じ て 各 残 基 に 重 み を 課 す こ と と, primary library の み か ら計 算 さ れ た 整 合 性 ス コ ア とWSPス コ ア の 和 を 目 的 関 数 と し た 反 復 改 善 法 を 実 行 す る こ と で あ る. そ の 結 果, TCoffee や ProbCons に 比 べ て 入 力 配 列 の 数 に 伴 う精 度 の 上 昇 が 顕 著 に み ら れ た(3). 以 上 の よ う な, 整 合 性 を 取 り込 ん だ 反 復 改 善 法 を 実 行 す る た め に は, 次 の オ プ シ ョ ン の い ず れ か を 用 い る.

G-INS-i, L-INS-i, E-INS-i

% mafft --localpair --maxiterate 1000 input>output (linsi input>output で も 可)

% mafft --globalpair --maxiterate 1000 input>output (ginsi input>output で も 可)

図2 ■マ ル チ プ ル ア ラ イ ン メ ン ト の 反 復 改 善 法 に よ る 精 密 化

(5)

% mafft --genafpair --maxiterate 1000 input>output (einsi input>output で も 可)

累 進 法 と同 じよ うに, ペ ア ワイ ズ ア ラ イ ンメ ン トの 計 算

法 に応 じて3通

りの オ プ シ ョンが 選 択 可 能 で あ る. 次 節

で 示 す よ う に, これ らの オ プ シ ョ ンが現 在 の と こ ろ最 も

精 度 の高 い 結 果 を与 え る.

特 に精 度 に こ だ わ る場 合 に は, 問題 の 性 質 に 応 じて こ

れ らの オ プ シ ョ ンを 使 い分 け る こ とが 望 ま しい. た とえ

ば, 扱 う ア ミノ酸 配 列 そ れ ぞ れ か ら互 い に相 同 性 の あ る

ドメ イ ンだ け を 取 り 出 し て あ り, 入 力 配 列 の 全 長 に わ

た って ア ラ イ ンメ ン トが 可 能 で あ る と確 信 で き る場 合 に

は, グ ロー バ ル ア ル ゴ リズ ム に よ るペ ア ワ イ ズ ア ラ イ ン

メ ン ト (G-INS-i) が 適 して い る. そ れ ぞ れ の入 力 配 列 の

N端

やC端

に 非 相 同 な ドメ イ ンが 加 わ って い る場 合 は,

ロ ー カ ル アル ゴ リズ ム を用 い た 方 法 (L-INS-i) が 適 して

い る. ま た, 類 似 性 の な い領 域 が 類 似 性 の あ る領 域 に挟

まれ て い る よ うな 可 能 性 も想 定 さ れ る と き に は,

gener-alized affine gap cost を 用 い た方 法 (E-INS-i) を 適 用 す

る の が安 全 で あ る. た だ し, 極 端 に難 しい 問題 を 与 え な

い限 り, これ らの 間 の 精 度 の 差 は小 さ い. ま た, こ れ ら

の 方 法 の 計 算 量 は 配 列 の数 の2乗

に 比 例 し, 適 用 で き る

問 題 の規 模 は数 百 本 まで で あ る.

パ ラ メ ー タ に つ いて

以 上 説 明 した す べ て の オ プ シ ョ ンに つ い て, ス コア 計

算 の も と に な る パ ラ メ ー タ で あ る ギ ャ ップ ペ ナ ル テ ィ と

ス コ ア リン グ マ トリク ス を変 更 す る こ とが で き る. ス コ

ア リン グ マ ト リク ス と は20種

類 の ア ミノ酸 の 間 の 類 似

度 か ら な る マ ト リ ク ス で, ギ ャ ッ プ ペ ナ ル テ ィ と は

ギ ャ ップ の 入 り方 に 関 す るパ ラ メ ー タ で あ る.

パ ラ メ 一 ク 指 定 % mafft --b1 62 --op 1.53 --ep 0.123 input>output % mafft --localpair --op 1.53 --ep 0.123 --lop -2.0/ --lexp -0.1 --lep 0.1 input>output

% mafft --genafpair --op 1.53 --ep 0.123 --lop -2.0/ --lexp -0.1 --lep 0.1 --LOP -6.0 --LEXP 0.0/ input>output --b1 62は, ス コ ア リ ン グ マ ト リ ク ス と し てBLOSUM 62マ ト リ ク ス(22)を 用 い る こ と を 意 味 す る. こ れ が デ フ ォ ル トで あ る が, 他 にBLOSUM30, 45, 80お よ び 任 意 の 距 離 のJTTマ ト リ ク ス(12)が 選 択 で き る. JTT200マ ト リ ク ス を 使 用 す る た め に は--jtt200と 指 定 す る. た だ し, 文 献(2)に 述 べ た よ う にMAFFTは ス コ ア リ ン グ マ ト リ ク ス を 規 格 化 し て か ら使 う た め, ス コ ア リ ン グ マ ト リ ク ス の 選 択 が 精 度 に 与 え る 影 響 は 小 さ い よ う で あ る.

--opは gap opening penalty, --epは offset value(2)

で あ り, ど ち ら も ギ ャ ッ プ の 入 り方 に 影 響 す る パ ラ メ ー

タ で あ る. gap opening penalty を 大 き くす る と ギ ャ ッ

プ の 数 が 少 な く な り, offset value を 大 き くす る と ギ ャ ッ プ が 短 く な る. 上 に 示 し た 値 は デ フ ォ ル トで あ り, SABmark ベ ン チ マ ー ク テ ス ト にFFT-NS-2オ プ シ ョ ン を 適 用 し た と き に 最 も 結 果 が 良 くな る よ う に 決 定 し た. ロ ー カ ル ペ ア ワ イ ズ ア ラ イ ン メ ン トを 行 な う オ プ シ ョ

ン (L-INS-1とE-INS-i) で は, --lop, --lexp, --lep を

用 い て ペ ア ワ イ ズ ア ラ イ ン メ ン トの パ ラ メ ー タ を 指 定 で

き る. E-INS-1で は さ ら に, -LOP, --LEXPの2つ が 加

わ る. 上 に そ れ ぞ れ の デ フ ォ ル トの 値 を 示 し た が, こ れ ら の 値 の 根 拠 は 特 に な い. ギ ャ ッ プ ペ ナ ル テ ィ が 精 度 に 与 え る影 響 は 大 き い た め, こ れ ら を 変 更 す る こ と に よ っ て 精 度 が 向 上 す る 可 能 性 は 大 き い. 特 に 配 列 の 数 が 少 な い 場 合, パ ラ メ ー タ の 選 択 は 重 要 と 思 わ れ る. パ フ ォー マ ン ス に つ い て こ こ ま で はMAFFTを 主 に 紹 介 し て き た が, マ ル チ プ ル ア ラ イ ン メ ン トは き わ め て 応 用 範 囲 の 広 い ツ ー ル で あ る の で, ClustalWを は じ め と す る 他 の 多 く の ソ フ ト ウ ェ ア が 利 用 可 能 で あ る. 特 に2004年 か ら2005年 に か

け てTCoffee v2, Muscle, MAFFTv5や ProbCons な

ど 新 しい ソ フ トウ ェ ア が リ リ ー ス さ れ て, 精 度 と 速 度 に 関 す る 競 争 が 生 じ て い る. ア ラ イ ン メ ン トの 精 度 を 比 較 す る た め に, あ る 程 度 確 立 し た ベ ン チ マ ー ク 用 の デ ー タ

セ ッ トが 存 在 す る. BAliBASE, SABmark, PREFABな

ど で あ る が, こ れ ら は タ ンパ ク質 の 立 体 構 造 ア ラ イ ン メ ン トや そ の 他 の 情 報 か ら 正 し い と 思 わ れ る ア ラ イ ン メ ン トを 集 め た も の で あ る. そ れ ら の ア ラ イ ン メ ン トを, ア ミノ 酸 配 列 の み の 情 報 か ら ど の 程 度 再 現 で き る か を 評 価 す る こ と で, 配 列 ア ラ イ ン メ ン トの 精 度 を テ ス トす る こ と が で き る. HOMSTRADと い う 立 体 構 造 ア ラ イ ン メ ン トの デ ー タ ベ ー ス も こ の 目 的 に 使 用 で き る. こ の 中 の BAliBASEv3(23)を 使 っ て, 代 表 的 な 方 法 の 精 度 を 比 較 し た 結 果 を 図3に 示 す. 大 ま か に み る と, 整 合 性 を 考 慮 し た 方 法 (TCoffee, MAFFTのL-INS-iとProbCons) が 最 も高 い 精 度 を 示 す. 次 い でWSPス コ ア に 基 づ く反 復 改 善 法, 最 も精 度 の 低 い の が 累 進 法 で あ る. こ れ ら3グ ル ー プ の 間 の 精 度 の 差 は 有 意 で あ る こ と が 多 い. パ ー セ ン トア イ デ ン テ ィ 106 化 学 と生 物 Vol. 44, No. 2, 2006

(6)

テ ィが20付

近 の い わ ゆ る twilight zone に お い て

Clus-talWとMAFFTのL-INS-iと

の 間 の精 度 の差 は お よ そ

20%で

あ る. 一 方, 整 合 性 を考 慮 した方 法 (MAFFTの

L-INS-i, TCoffee, ProbCons)

の 間 に は 有 意 な 精 度 の差

は み られ な い. SABmarkやPREFABな

ど他 の デ ー タ

セ ッ トに よ っ て も同 様 の結 果 が 得 られ る.

方 法 に よ る精 度 の 違 い が 見 られ るの は, 入 力 配 列 の 間

の 類 似 度 が 低 い 場 合 の み で あ る. パ ー セ ン トア イ デ ン

テ ィ テ ィ が50を 超 え る よ うな 配 列 に 対 して は, 累 進 法

を含 め て どの よ う な方 法 を 適 用 して もほ ぼ 同 じ結 果 が 得

られ る. この よ う な 問 題 に精 密 な 方 法 を適 用 す る の は無

駄 で あ る. 図3か

ら 判 断 す る と, ClustalWに

代 え て

MAFFTや

他 の 新 し い 方 法 を 使 う こ と で 精 度 の 向 上 が

期 待 で き るの は, パ ー セ ン トア イ デ ンテ ィ テ ィが お よ そ

40を 切 る よ うな 場 合 で あ る と思 わ れ る. た だ し, 入 力 配

列 に強 い 類 似 性 の あ る部 分 と類 似 性 の な い部 分 が 混 在 し

て い る よ う な複 雑 な 問 題 に つ い て は, パ ー セ ン トア イ デ

ンテ ィテ ィ に よ らず 新 しい 方 法 が有 効 な よ うで あ る.

図3に 示 した テ ス トを 完 了 す るの に か か った 時 間 は,

MAFFT

(L-INS-i) 約90分, ProbCons

約12時

間,

TCo-ffee 約2.4日 で あ る. こ の 中 で 最 も高 速 な 方 法 で あ る

MAFFT

(FFT-NS-2)

の計 算 時 間 は約4分

で あ る. 計 算

は, 1GBのRAMと3.06GHz

Xeon プ ロ セ ッサ を もつ

Linux シ ス テ ム 上 で 行 な った. MAFFTの

各 オ プ シ ョ

ン は 同 程 度 の精 度 を 示 す 他 の 方 法 に 比 べ て 高 速 で あ る

が, 図3に

よれ ば 充 分 な精 度 を与 え るの で, 長 時 間 か け

て計 算 しな い と正 確 な ア ライ ンメ ン トは得 られ な い と心

配 す る必 要 は あ ま りな い. 特 に大 量 の デ ー タを 扱 う場 合

に は, FFT-NS-2な

どの 高 速 な方 法 は有 用 と思 わ れ る.

大 量 の デ ー タ と は, ア ラ イ ンメ ン トを 多 数 作 成 す る場 合

と, 多 数 本 か らな るア ラ イ メ ン トを一 度 に作 成 す る場 合

が 考 え られ るが, 配 列 の数 が1,000程 度 で あ れ ば,

FFT-NS-2の

計 算 量 の配 列 の数 へ の依 存 性 は線 形 に 近 い の で,

特 に後 者 の 場 合 に 有 効 性 が 顕 著 で あ る.

最 後 に, ソ フ トウ ェ ア の 精 密 化 とは ま っ た く別 の, 精

度 を 向 上 させ るた め の手 段 と して, デ ー タ ベ ー ス上 の ホ

モ ロ グ情 報 を使 う こ とに つ い て簡 単 に述 べ る. 詳 細 に つ

い て は 文 献(3)を 参 照 さ れ た い. 京 都 大 学 のMAFFT

サ ー バ は, 入 力 配 列 そ れ ぞ れ の ホ モ ロ グ (BLAST(24)に

よ るE-value<10-10)

を デ ー タベ ー ス か ら取 得 して, そ

れ ら と と も に ア ラ イ ン メ ン トを 作 成 す る と い う機 能 を

も っ て い る. 似 た 方 法 は, Simossis ら に よ る

PRALINE(25)で

も用 い られ て い る, 1つ の ア ラ イ ン メ ン

トが 数 本 の 配 列 の み か らな る よ う な ベ ン チ マ ー クデ ー タ

につ い て, MAFFTの

この 機 能 を 用 い て50本

程 度 の ホ

モ ロ グを 加 え て ア ラ イ ン メ ン トを計 算 した後, ホ モ ロ グ

を除 い て 精 度 を 評 価 した と こ ろ, 普 通 に計 算 す る の に比

べ て5∼10%程

度 の精 度上 昇 が み られ た. この 点 を考 慮

す る と, 高 速 化 に よ って 大 量 の配 列 を 扱 え る よ う に す る

こ と は精 度 を 向 上 さ せ る上 で も重 要 で あ る.

図3 ■性 能 の 比 較 色 つ きの 実 線 は整 合 性 を考 慮 した方 法, 黒 い実 線 は反 復 改善 法, 破 線 は 累 進 法 を 示 す. MAFFTの そ れ ぞ れ の オ プ シ ョ ンを太 い線 で 示 す BAliBASE 3.0の218個 の ア ラ イ ン メ ン トにつ い て, 配 列 間 の パ ー セ ン トア イ デ ンテ ィテ ィの 平 均 に 対 して 精 度 (正 し くア ラ イ ン され た 残 基 の 割 合) を プ ロ ッ ト した 後, 3次 ス プ ラ イ ン補 間 に よ っ て 大 ま か な 傾 向 を 求 め た.

文献

1) I. M. Wallace, G. Blackshields

& D. G. Higgins: Curr.

Opin. Struct. Biol., 15, 261 (2005).

2) K. Katoh, K. Misawa, K. Kuma & T. Miyata: Nucleic

Acids Res., 30, 3059 (2002).

3) K. Katoh, K. Kuma, H. Toh & T. Miyata: Nucleic Acids

Res., 33, 511 (2005).

4) C. B. Do, M. S. Mahabhashyam,

M. Brudno & S.

Batzo-glou: Genome Res., 15, 330 (2005).

5) C. Notredame, D. G. Higgins & J. Heringa: J. Mol. Biol.,

302, 205 (2000).

6) 加藤 和 貴, 三 沢計 治: 生 物 物理, 印 刷 中.

7) J. D. Thompson, D. G. Higgins & T. J. Gibson: Nucleic Acids Res., 22, 4673 (1994).

8) O. Gotoh: Comput. Appl. Biosci., 9, 361 (1993).

(7)

9) M. P. Berger & P. J. Munson: Comput. Appl. Biosci., 7,

479 (1991).

10) O. O'Sullivan,

K. Suhre, C. Abergel, D. G. Higgins & C.

Notredame: J. Mol. Biol., 340, 385 (2004).

11) D. F. Feng & R. F. Doolittle: J. Mol. Evol., 25, 351 (1987).

12) D. T. Jones, W. R. Taylor & J. M. Thornton:

Comput.

Appl. Biosci., 8, 275 (1992).

13) S. B. Needleman

& C. D. Wunsch: J. Mol. Biol., 48, 443

(1970).

14) T. F. Smith & M. S. Waterman: J. Mol. Biol., 147, 195

(1981).

15) O. Gotoh: J. Mol. Biol., 162, 705 (1982).

16) S. F. Altschul: Proteins, 32, 88 (1998).

17) O. Gotoh: Comput. Appl. Biosci., 11, 543 (1995).

18) O. Gotoh: Comput. Appl. Biosci., 10, 379 (1994).

19) O. Gotoh: J. Mol. Biol., 264, 823 (1996).

20) 後 藤 修: 生 物 物 理, 38, 52 (1998).

21) M. Hirosawa, Y. Totoki, M. Hoshida & M. Ishikawa:

Comput. Appl. Biosci., 11, 13 (1995).

22) S. Henikoff & J. G. Henikoff: Proc. Natl Acad. Sci. USA,

89, 10915 (1992).

23) J. D. Thompson, P. Koehl, R. Ripp & O. Poch: Proteins,

61, 127 (2005).

24) S. F. Altschul, T. L. Madden, A. A. Schaffer, J. Zhang, Z.

Zhang, W. Miller & D. J. Lipman: Nucleic Acids Res., 25,

3389 (1997).

25) V. A. Simossis & J. Heringa: Nucleic Acids Res., 33, W

289 (2005).

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

の多くの場合に腺腫を認め組織学的にはエオヂ ン嗜好性細胞よりなることが多い.叉性機能減

Department of Central Radiology, Nagoya City University Hospital 1 Kawasumi, Mizuho, Mizuho, Nagoya, Aichi, 467-8602 Japan Received November 1, 2002, in final form November 28,

ア詩が好きだから。イ表現のよさが 授業によってわかってくるから。ウ授

Rumiko Kimura* College of Nursing and

, Kanazawa University Hospital 13-1 Takara-machi, Kanazawa 920-8641, Japan *2 Clinical Trial Control Center , Kanazawa University Hospital *3 Division of Pharmacy and Health Science

ると︑上手から士人の娘︽腕に圧縮した小さい人間の首を下げて ペ贋︲ロ

”, The Japan Chronicle, Sept.