Microsoft Word - bif08_13_enshuu2.doc

(1)

１２月１９日情報科学講究２資料第１３回計算機演習２山内長承

（このページは http://pepper.is.sci.toho-u.ac.jp の授業のページ・情報講究ＩＩスケジュール表にある。）［目的］今回の演習では、タンパク質の構造についていろいろと体験してみる。［Ａ．タンパク質の構造を見てみよう］タンパク質の構造解析（Ｘ線回折やＮＭＲでの解析）の結果得られた３次元構造の情報は、データベースにて公開されている。この３次元構造は、たとえば反応性（反応活性の中心や基質特異性など）の分析・予測などに使う一方で、類似性に基づく他の分子の構造予測（たとえばホモロジーモデリング）のベースにも使われる。構造データベースにアクセスし、構造情報の操作やホモロジーモデリングを経験してみよう。まず、３次元構造データベースにアクセスし、３次元構造を見てみよう。

タンパク質のデータベースであるＰＤＢ（Protein Data Bank、http://www.pdb.org/pdb/home/home.do ）にアクセスし、タンパク質の構造情報を検索してみる。まずは左側のメニューから Getting Started をクリックして、およそのイメージを掴んでおこう。では早速検索をしてみる。PDB の初期画面の上部にある、PDB ID or keyword 欄がチェック済みなことを確認して、その右側の入力欄へ、見たいタンパク質の PDB ID またはキーワードを入れ、その右の Search ボタンをクリックする。 PDB ID は PDB で決めているタンパク質（というより構造データ）の ID で、４文字の英数字からなっている。見たいタンパク質の ID が分かっていれば、PDB ID を入れて、そのタンパク質の構造データを検索できる。たとえば PDB ID の「1o1j」を与えてみると、Tltle 欄に Deoxy（脱酸素の） hemoglobin（ヘモグロビン）、Classification 欄に Oxygen（酸素） Storage（格納）/transport（運搬）、その下の行に Scientific Name: Homo sapiens （ホモサピエンス＝人類）となっている。PDB ID が分からなければ、キーワードで検索することになる。

他のサイト（例えば前回の実習で見た DNA 配列のサイト、タンパクの配列のサイト（Swiss-Prot/UniProt）など）でも対応するタンパク質の PDB ID が書いてあったり、リンクが張ってあったりする。但し、アミノ酸配列が分かっていても構造データがない（Ｘ線回折などの構造解析がまだなされていない）タンパク質が多いことに注意。

タンパク屋さんは他の細かいデータに興味があるわけだが、とにかく構造データを見てみよう。右側の図のところに既に構造の絵が表示されているが、その下の Display Options のところで Jmol をクリックしてみよう。Jmol はＪａｖａアプレットを使った分子構造のビューワー（表示プログラム）のようで、ブラウザ用 Java がシステムにインストールされていることが動作条件となる。ビューワーアプレットがダウンロードされて、図がブラウザ中に表示されるはずである。この図はマウスで操作可能（左クリックしたままドラッグすると回転、中央クリックしたままドラッグすると拡大縮小）なので、操作してみよ。右クリックすると、操作用ポップアップメニューが表示される。大半は我々にはまだ使いこなせないが、８段目ほどの Style を選んだ中で、５段目ほどの Scheme を選んで、その中で表示されるいくつかの表示形式を試してみると面白い。 CPK Spacefill、Ball and Stick など、全て試してみると良い。

また、キーワードを入れるとヒットしたタンパク質が列挙される。たとえば、hemoglobin を入れて検索すると、先ほど見た「1o1j」を含むかなり多数のタンパク質が表示される。この中でどれを選んで表示するかは、タンパク質の研究をしてどういうものが見たいかが決まったときに選択できるだろう。

自分の知っているタンパク質をいろいろと表示してみよう。今までに出てきた名前としては、hemoglobin のほか、 myoglobin、cytochrome c、ribonuclease、lysozyme などを見てきた。

(2)

［Ｂ．構造が類似しているタンパクのデータベース DBAli（ディー・ビー・エー・小文字のエル・小文字のアイ）を参照し、配列的には一致度が低いにもかかわらず構造的によく似ているタンパクを見てみよう］

DBAli（UCSF の Sali らが開発した、タンパクの paiawise alingment データベース、http://www.salilab.org/DBAli/）をアクセスし、どのようなサービスであるかを読んでみよう。

では、１つのタンパク質（PDB ID 1bar）を与えて、構造が似ているタンパク質のリストを表示してみよう。左メニューの search をクリックする。選択肢から、「Get all similar structures to a given chain」を選び、下に現れる入力画面の Chain の項に「1barA」を与える。タンパク質 1bar の内のチェイン A である。タンパク質 1bar は Basic Fibroblast Growth Factors（bFGF、塩基性繊維芽細胞増殖因子タンパク質）と呼ばれるもので、細胞内の繊維芽の成長を促進する物質である。入力 1barA に対する検索の結果として 303 の結果が得られるが（2008/12 現在）、249 番目に 1xyfA、244 番目に 1xyfB が得られている。 1XYF は、Xylanase（キシラナーゼ、キシランを加水分解する酵素、キシランは陸上植物の細胞壁中に多く含まれる多糖、たとえば http://ja.wikipedia.org/wiki/%E3%82%AD%E3%82%B7%E3%83%A9%E3%83%B3 参照、キシラナーゼは飼料に混ぜるらしい～http://www.affrc.go.jp/ja/research/seika/data_kyusyu/h17/ky05081～ほか、キシランをキシロースに分解し、それを還元してキシリトールに変換し食品添加物（甘味料）として使うらしい。）さて、どれだけ構造が似ているかは表中の RMSD （ root-mean-square deviation 、平均二乗偏差、 http://doc.pdbj.org/help_jp.cgi?RMSD）で見ることができる（小さいほど似ている）。3.48 を得た。他方、配列の類似度は同じ表の alignment の項をクリックすると、ページの最下部にアラインメント表を見ることができる。そのすぐ上に、RMSD: 3.48Å over 80 residues、 Sequence Identity: 12.66% over 80 (shaded residues) と書いているので、配列の類似度は 12.66%ということになる。この様子を見ると、アミノ酸配列がかなり違うのに構造が似ている分子が存在することが分かる。［Ｃ．ホモロジーモデリングを試してみよう］ホモロジーモデリング（相同性～遺伝的に保存されている類似性～を使った、タンパク質３次元構造の推定）には、いくつかのサービスやプログラムがあるが、手近な１つである Swiss-Model を使って試してみる。［ステップ１マウスの肥満細胞プロテアーゼのアミノ酸配列を取得する］ここでは、マウスの肥満細胞プロテアーゼ MCPT4_MOUSE を対象にしてみる。 Swiss-Prot のページ（http://us.expasy.org/sprot/）を開き、Swiss-Prot のサービスの説明を読んでおよそ掴んでおこう。 Curated は専門家（キュレータ、本来は美術館や博物館で選定・企画運営等を行う管理者、生物系のデータベースでは、各地の研究者が投稿される情報を整理し、検証してＤＢに載せ、且つ内容を維持管理する専門家： http://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%A5%E3%83%AC%E3%83%BC%E3%82%BF%E3%83%BC）が整理・検証した情報のこと。Annotation は、配列（の部分）に対する説明書き・注釈のこと。

Swiss-Prot のトップページの Search の行の、for と Go の間の欄に、MCPT4_MOUSE を入力して、Go で検索してみよう。「UniProtKB/Swiss-Prot entry P21812」というページが得られるであろう。画面の下の方（下から 1/4 ぐらい）にある「Sequence Information」という項目が欲しいのだが、配列の表示の右側に P21812 in FASTA format と書いてあるところをクリックすると、FASTA 形式（前回の実習で見た）でダウンロードできる。テキストファイル MCPT4.txt として保

(3)

存する。

［ステップ２ SWISS-MODEL を使って、立体構造を推定する］

サイト SWISS-MODEL（ http://swissmodel.expasy.org/SWISS-MODEL.html ）を開く。 SWISS-MODEL は３次元構造をホモロジーモデリングによって推定するサービスを提供している。最初のページの記述を読んで、およそのサービスを掴んでおこう。

左側メニューの First Approach model をクリックする。入力画面になるので、必要事項を入力する。 E-Mail アドレスを入力する必要がある。更に適当なプロジェクト名（たとえば MCPT4_MOUSE）を記入し、先ほどダウンロードした FASTA 形式の配列データをコピー・ペーストする。

「Your Request Has Been Submitted」という画面が出て、しばらく待たなければならない。しばらく待つと、この画面に結果（タンパクの構造）が表示される。（「The result will be displayed in this page」というところをクリックすると、同じ画面がリフレッシュされるが、これをクリックしないでも自動的に表示が変るはずである。）

表示された結果は、上から見ると、テンプレートとして使った配列の記述（ID が 3rp2D）で、配列の Identity（類似度）が 74.888 ％というように得られた。その下に配列のアラインメントが書かれている。更にその下に Anolea/Gromos/Verify3D という欄がある。この中で Verify3D のマークを選択すると、Verify3D のグラフが表示される。

［ステップ３ Verify3D を使って、得られた推定構造を評価する］

得られた推定構造を評価してみる。評価のプログラムとしてここでは Verify3D を使うこととする。上記の結果でも Verify3D のグラフが出ているが、別途 Verify3D のサイトを訪れて、もう少し詳しくデータを取り出してみる。

まず、推定構造の PDB 形式ファイルをダウンロードしておく。ページの比較的上のほうにある Model Details の黄色い枠の中の最下行 download model as pdb をクリックし、ファイル名 MCPT4.pdb として保存する。

Verify3D のサイト http://nihserver.mbi.ucla.edu/Verify_3D/ をアクセスする。Verify3D の機能について、ページの網掛けされている説明を読んで掴んでおくこと。

実際に、先ほど格納した MCPT4.pdb ファイルを、Verify3D サーバーにアップロードする。File Upload の下の枠に参照ボタンを使ってファイルを選択して、Send File ボタンによってファイルを送信する。しばらく待つと、結果が表示される。横に長いグラフ（各残基ごとのスコアを書いてある）が得られる。この推定構造の評価は、残基数を L とするとき、インデックス S = exp(-0.83+1.008×ln(L)) に対して、モデルの総スコアが近い値であればモデルは妥当と考えられ、明らかに不適切と判断される閾値は 0.45×S である（「基礎と実習バイオインフォマティクス」郷通子・高橋健一、共立出版）。この値を下回るようだと、モデルとしては不適切で、鋳型を選びなおす、アラインメントをやり直す、などの対策が必要になる。この例の場合 L が 223 であるから（結果ページの先頭に出ている）、S の値はおよそ 102 である。得られた推定構造のインデックスの合計は結果ページに書かれていないが、結果ページの下から４行目にある「 Display the raw Averaged data 」ボタンを押して、画面表示の表データを全てコピーしてテキストファイル MCPT4score.txt を作り、Excel を起動しておいて、ファイル→開くから MCPT4score.txt を開く。このとき、「テキストファイルウィザード」が出るので、それに従って欄の区切りを理解させる。その結果できた欄Ｄ（0.34, 0.34, …と並んでいる列）がノードごとのスコアであるので、これをΣボタンで加算して総スコアを出す。102.93 となった。

(4)

［ステップ４ Chimera によるモデル構造の表示］構造表示プログラム Chimera を使って、得られた推定構造 MCPT4.pdb と、そのテンプレート（鋳型）となったタンパク質 3rp2D の構造を重ねて表示して、比較してみよう。［ステップ１］分子構造表示ソフト Chimera のインストール分子構造を表示するソフトは多数あるが、ここでは Chimera を使ってみる。（「基礎と実習バイオインフォマティクス」郷通子・高橋健一編集、共立出版、5.2.3-5 節）

http://www.cgl.ucsf.edu/chimera/ から Chimera をダウンロードする。まずこのページの UCSF CHIMERA の説明（中央の欄・上段）を読んで、およその概要を掴もう。

左側メニュー（Quick Links）から Download をクリックし、ダウンロードページに飛ぶ。Current Production Releases から Microsoft Windows の欄の chimera-xxxx-win32.exe をダウンロードする。利用条件のページが表示されるので、よければ Accept をクリックすると、ダウンロードが始まる。ダウンロードした chimera-xxx-win32.exe ファイルを実行してインストールする。アイコンが出来るので、それをダブルクリックして起動。File → Open → ファイル名指定で、得られたモデル構造の pdb ファイルを指定して開く。 Chimera の簡単な使い方表示操作：左クリックしたままドラッグ：回転（rotate）中央クリックしたままドラッグ：移動（translate）右クリックしたままドラッグ：拡大縮小（scale） Ctrl を押しながら中央クリックしたままドラッグ：奥行き（Z 軸）方向移動（Z-translate）表示状況は、Favorite → Side View にてどのようになっているかが表示される Ctrl を押しながら左クリックすると、その原子を選択できる（操作するときに使える）複数モデルを読み込むことが出来る。その時の表示の選択：

Favorite → Model Panel で、Active チェック⇒操作の対象、Shown チェック⇒表示の対象表示の仕方を変える：

まず対象を選択（select）：１原子だけなら Ctrl-左クリック、多数選択なら Select → 適当な選択肢を選ぶ例： Select → Select All 全てが選択される（緑になる）

選択解除は、Select → Clear Selection 表示変更動作（Action）を指定する：

例： Action → Atom/Bonds（原子と結合） → wire width → 2 太さが変わる

Action → Atom/Bonds → wire か stick か ball & stick か sphere それぞれ表示モード選択 Action → Atom/Bonds → hide で原子の表示を止めて、代りに Action → Ribbon → show でリボンモードでの表示になる。

同様に Ribbon を hide して、Surface を show すれば表面表示。このとき、Action→Surface→Solid を選ぶと電子表面の表示になる。

これらは、対象を選択して一部だけを変更することが出来る。

例： Select All しておいて、今表示しているモードで hide （Surface 表示なら Surface で hide）。その上で Select → Structure → Secondary Structure → helix (でも strand でも) として、

(5)

２つのモデルの比較表示：

まず、Chimera を初期状態に戻す File → Close session

次に、第１の対象として、MPCT4.pdb を読み込む。 File – Open – ファイル名選択。比較の邪魔になるいくつかの余分な分子（水分子・基質分子など）を削除する。

Select – Residue で見て、HOH（水）、HPC、NAG、ZN などが含まれていれば、選択する。あれば、Actions – Atoms/Bonds – delete で削除する。

同様に、第２の対象として、テンプレートとして使われた 3RP2.pdb を読み込む。 File – Open – ファイル名。ここでズームアウト（マウス右クリックしたままドラッグ）してみると、後から読み込んだ 3RP2 が上方に同じぐらいの

余分を持っていることが分かる。これは 3RP2 が２つのチェインから成るからで、チェインＡを削除する。 Select – Chain – A を選択、次に Action – Atoms/Bonds – delete で削除。

これで、２つのモデルが重ねて表示されているはずである。

次に、２つのモデルの（正確な）位置あわせを、ツール MatchMaker を使って行う。

Tools – Structure Comparison – MatchMaker で MatchMaker のパネルが表示される。

上段の Reference structure と Structure to match で、それぞれ 3RP2.pdb と MPCT4.pdb だけを選ぶ。ＯＫをクリックすると、しばらく計算して、アラインメント表が表示される。構造画面上も重なって表示。この表示を変えてみよう。 Action – Surface – show とすると、２つの表面が混ざり合った形が表示される。これは、どちらの分子が表面に出ているかで色が違う表示になっている。

２つの分子を横に並べたい場合は、次の操作を行う。

Favorite – Model Panel でモデルパネルを表示させる。 3RP2.pdb と MSMS main surface of 3RP2.pdb の２つについて、Active のチェックを外す。（MPCT4 関連の２つだけが Active になっている）次に、MPCT4 を横にスライドさせる。（マウス中央クリックしたままドラッグ）見て分かるとおり、Active のチェックが入った分子だけを、操作している（Action なども同じ効果）。もう一度すべての分子に Active のチェックを入れて、横にスライドさせて、全体を中央に持ってくる。横に並べてしまうと、まあ似ているぐらいしかわからない。やはり重ねて表示する方が分かりやすい。とすれば、もう一度上記の MatchMaker を動かして位置あわせするのがよかろう。

Tools – Structure Comparison – MatchMaker

最後に：絵をファイル保存や印刷したければ、File – Save Image で適宜選択して、Save As をクリックする。その次のパネルの下段にある File Type で、画像のファイル形式を選択するとよい（たとえば JPEG など）。

Microsoft Word - bif08_13_enshuu2.doc

１２月１９日 情報科学講究２ 資料 第１３回 計算機演習２ 山内長承

１２月１９日情報科学講究２資料第１３回計算機演習２山内長承