12月19日 情報科学講究2 資料 第13回 計算機演習2 山内長承
(このページは http://pepper.is.sci.toho-u.ac.jp の授業のページ・情報講究IIスケジュール表にある。) [目的] 今回の演習では、タンパク質の構造についていろいろと体験してみる。 [A. タンパク質の構造を見てみよう] タンパク質の構造解析(X線回折やNMRでの解析)の結果得られた3次元構造の情報は、データベースにて公開さ れている。この3次元構造は、たとえば反応性(反応活性の中心や基質特異性など)の分析・予測などに使う一方で、 類似性に基づく他の分子の構造予測(たとえばホモロジーモデリング)のベースにも使われる。 構造データベースにアクセスし、構造情報の操作やホモロジーモデリングを経験してみよう。 まず、3次元構造データベースにアクセスし、3次元構造を見てみよう。タンパク質のデータベースであるPDB(Protein Data Bank、http://www.pdb.org/pdb/home/home.do )にアクセスし、 タンパク質の構造情報を検索してみる。まずは左側のメニューから Getting Started をクリックして、およそのイメージを 掴んでおこう。 では早速検索をしてみる。PDB の初期画面の上部にある、PDB ID or keyword 欄がチェック済みなことを確認して、 その右側の入力欄へ、見たいタンパク質の PDB ID またはキーワードを入れ、その右の Search ボタンをクリックする。 PDB ID は PDB で決めているタンパク質(というより構造データ)の ID で、4文字の英数字からなっている。 見たいタンパク質の ID が分かっていれば、PDB ID を入れて、そのタンパク質の構造データを検索できる。たとえば PDB ID の「1o1j」を与えてみると、Tltle 欄に Deoxy(脱酸素の) hemoglobin(ヘモグロビン)、Classification 欄に Oxygen(酸素) Storage(格納)/transport(運搬)、その下の行に Scientific Name: Homo sapiens (ホモサピエンス= 人類)となっている。PDB ID が分からなければ、キーワードで検索することになる。
他のサイト(例えば前回の実習で見た DNA 配列のサイト、タンパクの配列のサイト(Swiss-Prot/UniProt)など)でも対 応するタンパク質の PDB ID が書いてあったり、リンクが張ってあったりする。但し、アミノ酸配列が分かっていても構造 データがない(X線回折などの構造解析がまだなされていない)タンパク質が多いことに注意。
タンパク屋さんは他の細かいデータに興味があるわけだが、とにかく構造データを見てみよう。右側の図のところに既 に構造の絵が表示されているが、その下の Display Options のところで Jmol をクリックしてみよう。Jmol はJavaアプレッ トを使った分子構造のビューワー(表示プログラム)のようで、ブラウザ用 Java がシステムにインストールされていること が動作条件となる。ビューワーアプレットがダウンロードされて、図がブラウザ中に表示されるはずである。この図はマ ウスで操作可能(左クリックしたままドラッグすると回転、中央クリックしたままドラッグすると拡大縮小)なので、操作して みよ。 右クリックすると、操作用ポップアップメニューが表示される。大半は我々にはまだ使いこなせないが、8段目ほどの Style を選んだ中で、5段目ほどの Scheme を選んで、その中で表示されるいくつかの表示形式を試してみると面白い。 CPK Spacefill、Ball and Stick など、全て試してみると良い。
また、キーワードを入れるとヒットしたタンパク質が列挙される。たとえば、hemoglobin を入れて検索すると、先ほど見た 「1o1j」を含むかなり多数のタンパク質が表示される。この中でどれを選んで表示するかは、タンパク質の研究をしてど ういうものが見たいかが決まったときに選択できるだろう。
自分の知っているタンパク質をいろいろと表示してみよう。今までに出てきた名前としては、hemoglobin のほか、 myoglobin、cytochrome c、ribonuclease、lysozyme などを見てきた。
[B. 構造が類似しているタンパクのデータベース DBAli(ディー・ビー・エー・小文字のエル・小文字のアイ)を参照し、 配列的には一致度が低いにもかかわらず構造的によく似ているタンパクを見てみよう]
DBAli(UCSF の Sali らが開発した、タンパクの paiawise alingment データベース、http://www.salilab.org/DBAli/)をア クセスし、どのようなサービスであるかを読んでみよう。
では、1つのタンパク質(PDB ID 1bar)を与えて、構造が似ているタンパク質のリストを表示してみよう。左メニューの search をクリックする。選択肢から、「Get all similar structures to a given chain」を選び、下に現れる入力画面の Chain の項に「1barA」を与える。タンパク質 1bar の内のチェイン A である。タンパク質 1bar は Basic Fibroblast Growth Factors(bFGF、塩基性繊維芽細胞増殖因子タンパク質)と呼ばれるもので、細胞内の繊維芽の成長を促進する物質 である。 入力 1barA に対する検索の結果として 303 の結果が得られるが(2008/12 現在)、249 番目に 1xyfA、244 番目に 1xyfB が得られている。 1XYF は、Xylanase(キシラナーゼ、キシランを加水分解する酵素、キシランは陸上植物の細胞壁中に多く含まれる多 糖、たとえば http://ja.wikipedia.org/wiki/%E3%82%AD%E3%82%B7%E3%83%A9%E3%83%B3 参照、キシラナーゼは飼 料に混ぜるらしい~http://www.affrc.go.jp/ja/research/seika/data_kyusyu/h17/ky05081~ほか、キシランをキシロー スに分解し、それを還元してキシリトールに変換し食品添加物(甘味料)として使うらしい。) さ て 、 ど れ だ け 構 造 が 似 て い る か は 表 中 の RMSD ( root-mean-square deviation 、 平 均 二 乗 偏 差 、 http://doc.pdbj.org/help_jp.cgi?RMSD)で見ることができる(小さいほど似ている)。3.48 を得た。 他方、配列の類似度は同じ表の alignment の項をクリックすると、ページの最下部にアラインメント表を見ることができる。 そのすぐ上に、RMSD: 3.48Å over 80 residues、 Sequence Identity: 12.66% over 80 (shaded residues) と書いている ので、配列の類似度は 12.66%ということになる。 この様子を見ると、アミノ酸配列がかなり違うのに構造が似ている分子が存在することが分かる。 [C. ホモロジーモデリングを試してみよう] ホモロジーモデリング(相同性~遺伝的に保存されている類似性~を使った、タンパク質3次元構造の推定)には、い くつかのサービスやプログラムがあるが、手近な1つである Swiss-Model を使って試してみる。 [ステップ1 マウスの肥満細胞プロテアーゼのアミノ酸配列を取得する] ここでは、マウスの肥満細胞プロテアーゼ MCPT4_MOUSE を対象にしてみる。 Swiss-Prot のページ(http://us.expasy.org/sprot/)を開き、Swiss-Prot のサービスの説明を読んでおよそ掴んでおこ う。 Curated は専門家(キュレータ、本来は美術館や博物館で選定・企画運営等を行う管理者、生物系のデータベ ースでは、各地の研究者が投稿される情報を整理し、検証してDBに載せ、且つ内容を維持管理する専門家: http://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A5%E3%83%AC%E3%83%BC%E3%82%BF%E3%83%BC)が整理・検証し た情報のこと。Annotation は、配列(の部分)に対する説明書き・注釈のこと。
Swiss-Prot のトップページの Search の行の、for と Go の間の欄に、MCPT4_MOUSE を入力して、Go で検索してみよ う。 「UniProtKB/Swiss-Prot entry P21812」 というページが得られるであろう。 画面の下の方(下から 1/4 ぐらい)に ある「Sequence Information」という項目が欲しいのだが、配列の表示の右側に P21812 in FASTA format と書いてある ところをクリックすると、FASTA 形式(前回の実習で見た)でダウンロードできる。テキストファイル MCPT4.txt として保
存する。
[ステップ2 SWISS-MODEL を使って、立体構造を推定する]
サイト SWISS-MODEL( http://swissmodel.expasy.org/SWISS-MODEL.html )を開く。 SWISS-MODEL は3次元構 造をホモロジーモデリングによって推定するサービスを提供している。 最初のページの記述を読んで、およそのサー ビスを掴んでおこう。
左側メニューの First Approach model をクリックする。 入力画面になるので、必要事項を入力する。 E-Mail アドレス を入力する必要がある。 更に適当なプロジェクト名(たとえば MCPT4_MOUSE)を記入し、先ほどダウンロードした FASTA 形式の配列データをコピー・ペーストする。
「Your Request Has Been Submitted」という画面が出て、しばらく待たなければならない。しばらく待つと、この画面に 結果(タンパクの構造)が表示される。 (「The result will be displayed in this page」というところをクリックすると、同じ画 面がリフレッシュされるが、これをクリックしないでも自動的に表示が変るはずである。)
表示された結果は、上から見ると、テンプレートとして使った配列の記述(ID が 3rp2D)で、配列の Identity(類似度)が 74.888 % と い う よ う に 得 ら れ た 。 そ の 下 に 配 列 の ア ラ イ ン メ ン ト が 書 か れ て い る 。 更 に そ の 下 に Anolea/Gromos/Verify3D という欄がある。この中で Verify3D のマークを選択すると、Verify3D のグラフが表示される。
[ステップ3 Verify3D を使って、得られた推定構造を評価する]
得られた推定構造を評価してみる。評価のプログラムとしてここでは Verify3D を使うこととする。上記の結果でも Verify3D のグラフが出ているが、別途 Verify3D のサイトを訪れて、もう少し詳しくデータを取り出してみる。
まず、推定構造の PDB 形式ファイルをダウンロードしておく。ページの比較的上のほうにある Model Details の黄色い 枠の中の最下行 download model as pdb をクリックし、ファイル名 MCPT4.pdb として保存する。
Verify3D のサイト http://nihserver.mbi.ucla.edu/Verify_3D/ をアクセスする。Verify3D の機能について、ページの 網掛けされている説明を読んで掴んでおくこと。
実際に、先ほど格納した MCPT4.pdb ファイルを、Verify3D サーバーにアップロードする。File Upload の下の枠に参照 ボタンを使ってファイルを選択して、Send File ボタンによってファイルを送信する。しばらく待つと、結果が表示される。 横に長いグラフ(各残基ごとのスコアを書いてある)が得られる。 この推定構造の評価は、残基数を L とするとき、インデックス S = exp(-0.83+1.008×ln(L)) に対して、モデルの総スコ アが近い値であればモデルは妥当と考えられ、明らかに不適切と判断される閾値は 0.45×S である (「基礎と実習 バイオインフォマティクス」 郷通子・高橋健一、共立出版)。この値を下回るようだと、モデルとしては不適切で、鋳型 を選びなおす、アラインメントをやり直す、などの対策が必要になる。この例の場合 L が 223 であるから(結果ページの 先頭に出ている)、S の値はおよそ 102 である。 得られた推定構造のインデックスの合計は結果ページに書かれていないが、結果ページの下から4行目にある 「 Display the raw Averaged data 」 ボ タ ン を 押 し て 、 画 面 表 示 の 表 デ ー タ を 全 て コ ピ ー し て テ キ ス ト フ ァ イ ル MCPT4score.txt を作り、Excel を起動しておいて、ファイル→開く から MCPT4score.txt を開く。このとき、「テキストフ ァイルウィザード」が出るので、それに従って欄の区切りを理解させる。その結果できた欄D(0.34, 0.34, …と並んでい る列)がノードごとのスコアであるので、これをΣボタンで加算して総スコアを出す。102.93 となった。
[ステップ4 Chimera によるモデル構造の表示] 構造表示プログラム Chimera を使って、得られた推定構造 MCPT4.pdb と、そのテンプレート(鋳型)となったタンパク 質 3rp2D の構造を重ねて表示して、比較してみよう。 [ステップ1] 分子構造表示ソフト Chimera のインストール 分子構造を表示するソフトは多数あるが、ここでは Chimera を使ってみる。(「基礎と実習 バイオインフォマティクス」 郷通子・高橋健一編集、共立出版、5.2.3-5 節)
http://www.cgl.ucsf.edu/chimera/ から Chimera をダウンロードする。 まずこのページの UCSF CHIMERA の説明 (中央の欄・上段)を読んで、およその概要を掴もう。
左側メニュー(Quick Links)から Download をクリックし、ダウンロードページに飛ぶ。Current Production Releases から Microsoft Windows の欄の chimera-xxxx-win32.exe をダウンロードする。利用条件のページが表示されるので、よけ れば Accept をクリックすると、ダウンロードが始まる。ダウンロードした chimera-xxx-win32.exe ファイルを実行してイン ストールする。 アイコンが出来るので、それをダブルクリックして起動。File → Open → ファイル名指定で、得られたモデル構造の pdb ファイルを指定して開く。 Chimera の簡単な使い方 表示操作: 左クリックしたままドラッグ: 回転(rotate) 中央クリックしたままドラッグ: 移動(translate) 右クリックしたままドラッグ: 拡大縮小(scale) Ctrl を押しながら中央クリックしたままドラッグ: 奥行き(Z 軸)方向移動(Z-translate) 表示状況は、Favorite → Side View にてどのようになっているかが表示される Ctrl を押しながら左クリックすると、その原子を選択できる(操作するときに使える) 複数モデルを読み込むことが出来る。その時の表示の選択:
Favorite → Model Panel で、Active チェック⇒操作の対象、Shown チェック⇒表示の対象 表示の仕方を変える:
まず対象を選択(select): 1原子だけなら Ctrl-左クリック、多数選択なら Select → 適当な選択肢を選ぶ 例: Select → Select All 全てが選択される(緑になる)
選択解除は、Select → Clear Selection 表示変更動作(Action)を指定する:
例: Action → Atom/Bonds(原子と結合) → wire width → 2 太さが変わる
Action → Atom/Bonds → wire か stick か ball & stick か sphere それぞれ表示モード選択 Action → Atom/Bonds → hide で原子の表示を止めて、代りに Action → Ribbon → show で リボンモードでの表示になる。
同様に Ribbon を hide して、Surface を show すれば表面表示。 このとき、Action→Surface→Solid を選ぶと電子表面の表示になる。
これらは、対象を選択して一部だけを変更することが出来る。
例: Select All しておいて、今表示しているモードで hide (Surface 表示なら Surface で hide)。その上で Select → Structure → Secondary Structure → helix (でも strand でも) として、
2つのモデルの比較表示:
まず、Chimera を初期状態に戻す File → Close session
次に、第1の対象として、MPCT4.pdb を読み込む。 File – Open – ファイル名選択。 比較の邪魔になるいくつかの余分な分子(水分子・基質分子など)を削除する。
Select – Residue で見て、HOH(水)、HPC、NAG、ZN などが含まれていれば、選択する。 あれば、Actions – Atoms/Bonds – delete で削除する。
同様に、第2の対象として、テンプレートとして使われた 3RP2.pdb を読み込む。 File – Open – ファイル名。 ここでズームアウト(マウス右クリックしたままドラッグ)してみると、後から読み込んだ 3RP2 が上方に同じぐらいの
余分を持っていることが分かる。これは 3RP2 が2つのチェインから成るからで、チェインAを削除する。 Select – Chain – A を選択、 次に Action – Atoms/Bonds – delete で削除。
これで、2つのモデルが重ねて表示されているはずである。
次に、2つのモデルの(正確な)位置あわせを、ツール MatchMaker を使って行う。
Tools – Structure Comparison – MatchMaker で MatchMaker のパネルが表示される。
上段の Reference structure と Structure to match で、それぞれ 3RP2.pdb と MPCT4.pdb だけを選ぶ。 OKをクリックすると、しばらく計算して、アラインメント表が表示される。構造画面上も重なって表示。 この表示を変えてみよう。 Action – Surface – show とすると、2つの表面が混ざり合った形が表示される。これは、 どちらの分子が表面に出ているかで色が違う表示になっている。
2つの分子を横に並べたい場合は、次の操作を行う。
Favorite – Model Panel でモデルパネルを表示させる。 3RP2.pdb と MSMS main surface of 3RP2.pdb の 2つについて、Active のチェックを外す。(MPCT4 関連の2つだけが Active になっている) 次に、MPCT4 を横にスライドさせる。(マウス中央クリックしたままドラッグ) 見て分かるとおり、Active のチェックが入った分子だけを、操作している(Action なども同じ効果)。 もう一度すべての分子に Active のチェックを入れて、横にスライドさせて、全体を中央に持ってくる。 横に並べてしまうと、まあ似ているぐらいしかわからない。やはり重ねて表示する方が分かりやすい。とすれば、もう 一度上記の MatchMaker を動かして位置あわせするのがよかろう。
Tools – Structure Comparison – MatchMaker
最後に: 絵をファイル保存や印刷したければ、File – Save Image で適宜選択して、Save As をクリックする。その次の パネルの下段にある File Type で、画像のファイル形式を選択するとよい(たとえば JPEG など)。