膨大なデータの中からエンティティやコンディションの発現パターンが似ているものを分 類します。コンディションが少ないものはScatter plotやProfile plotでも変動をつかめます が、コンディションが多くなるとそれぞれのエンティティの発現変動を理解しづらくなる ので、クラスタリングでパターン別に分けて、それぞれのクラスターに、後述のGO
Analysisなどで意味付けしていきます。
クラスタリングする際の注意点1:Baseline Transformationを利用する
Baseline transformationは発現値を同じスケールに置き換えパターンに変換します。この補
正は個々の遺伝子の条件変化による変動を見つけやすくなります。
クラスタリングする際の注意点2:はずれ値を除去する
クラスタリングでは、極端な値を持つはずれ値や変動していないエンティティの影響を受 けます。事前にQuality controlを行い、信頼性の高い、かつ変動したエンティティを絞り込 むことが重要です。
39 k-means
K-meansは、エンティティまたはコンディションをユーザーが指定したK個のクラスターに
分けるアルゴリズムです。例えば、「ある病態に3つのサブタイプが存在する」という仮 説がある場合など、コンディションを3つのクラスターに分けるK-meansを実行する価値 があります。初期のK個のクラスターはランダムに配置されるので、結果が安定しない場 合があります。
メモリ使用量が低く非常に処理が早いアルゴリズムですが、エンティティ同士の関連やク ラスター同士の関連情報は得られません。
1. ワークフローのAnalysisからClusteringを選択する
2. エンティティリスト、インタープリテーションを選択し、K-meansを選択してNext
3. Parametersを設定する
Cluster on:クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric:距離の定義を設定します
Number of clusters:クラスター数を指定します
Number of iterations:クラスターを探す工程を繰り返す回数(大きいほど再現性が良くなる)
4. Previewボタンで結果が表示されます。保存する場合はOKをクリックします。
5. 名前を確認してFinish
6. 結果がプロジェクトナビゲーターに保存されます。
7. 結果を右クリックしてExpand as Entity listをクリックするとクラスター毎のリストが保存され ます。
各クラスターに後述のGO解析やパスウェイ解析をお試しください
エンティティリストを指定 インタープリテーションを指定
K-meansを指定
40 Hierarchical
Hierarchicalは階層的クラスタリングです。エンティティとコンディションの距離をツリー
で表現します。枝が近いほど似ていると解釈します。全ての関連を表示することができま すが、クラスターの明確な境界が無いためその点はユーザーが判断する必要があります。
1. ワークフローのAnalysisからClusteringを選択する
2. エンティティリスト、インタープリテーションを選択し、Hierarchicalを選択してNext
3. Parametersの設定
Normalized intensity values:Normalized intensityを利用します
Associated values:P-valueやFold change等エンティティリストに付加された値を利用。
Cluster on:クラスタリングする対象を選択、EntitiesかCondition、またはBoth(両方)
Distance metric:距離の定義を設定します
Linkage rule:クラスター間を比較するためのアルゴリズムを選択します
Single:クラスター間の最近のノードの距離を比較(最近隣距離法)
Complete:クラスター間の最遠のノードの距離を比較(最遠距離法)
Average:クラスター間のそれぞれのノードの平均距離を比較(群平均距離法)
Centroid:クラスター内の重心(平均)同士の距離を比較(重心距離法)
Ward’s:ANOVAに似たアプローチで、クラスター内の誤差の平均値を計算し全
体の誤差の平均値から差が小さいものを新しいクラスターに結合します。
4. Previewをクリックすると、結果が表示されます、保存する場合はOKをクリックします
5. 名前を確認してFinish
エンティティリストを指定 インタープリテーションを指定 Hierarchicalを指定
41 6. 結果がプロジェクトナビゲーターに保存されます。
7. 保存後は、発現量に応じた階層的クラスタリングの図が表示されます。
画面左側の任意の位置のツリーをクリックすると、そのツリー以下に存在する遺伝子が選 択されます。 アイコンで、選択した遺伝子をエンティティリストとして保存可能です。
全体図
拡大図
サンプルまたは コンディション Gene
発現量のカラ ーチャート
42 Self-Organizing Map(SOM)
SOMはユーザーが行と列を指定したグリッドに対して、近いグリッドが近い値を持つよう に値を繰り返し更新して、クラスターを作ります。グリッドの隣り合ったクラスターはパ ターンが似ている傾向があります。
1. ワークフローのAnalysisからClusteringを選択する
2. エンティティリスト、インタープリテーションを選択し、Self-Organizing Mapを選択する
3. Parametersの設定
Cluster on:クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric:距離の定義を設定します
Maximum number of iterations:クラスターの更新の回数を設定 Number of grid rows:グリッドの列の数を指定
Number of grid columns:グリッドの行の数を指定
※作成されるクラスター数=上記で指定した 列×行 になります。
4. Previewボタンをクリックすると結果が表示されます、保存する場合はOKをクリックします
SOMの結果は、隣り合うクラスターはパターンが似ているという特徴があります。
5. 名前を決めて、Finish ボタンをクリックすると、SOM の結果がプロジェクトナビゲーターに 保存されます。
6. SOMの結果を右クリックしてExpand as Entity listをクリックすると各クラスター毎のリスト が保存されます。
それぞれのクラスターに後述のGO解析やパスウェイ解析等をお試しください エンティティリストを指定 インタープリテーションを指定 Self-Organizing Mapを指定
43
発現パターンの似ているエンティティの検索( Find Similar Entities )
注目すべき発現パターンのエンティティが既にある場合、そのエンティティと似た相関ま たは逆相関する発現パターンを示すエンティティを検索します。
1. AnalysisからFind Similar Entitiesを選びます。
2. エンティティリスト、インタープリテーション、Query Entity、Similarly metricを選択します。
Query Entityは注目しているエンティティをSelectボタンから検索して設定してください。
ピアソン相関係数は線形の相関解析です。非線形の相関を解析したい場合はスピア マン順位相関係数を使用します。
3. 検索結果が表示されます。
Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。
4. エンティティリストの名前を確認してFinishボタンでエンティティリストを保存します。
44
数値パラメーターと相関するエンティティの検索( Filter on Parameters )
タイムコース実験や薬剤の投与量など量的なパラメーターがある場合、パラメーターと発 現量について相関、逆相関するエンティティを検索します。時間依存で変動するエンティ ティや薬剤の量特異的に変動するエンティティなどの抽出が可能です。
事前にExperiment GroupingでParameter typeがNumericのパラメーターを作成します。
1. AnalysisからFilter on parameterを選択します。
2. エンティティリスト、インタープリテーション、相関を探すパラメーター、Similarity Metricを選択
ピアソン相関係数は線形の相関解析なので、非線形の相関を解析したい場合はスピ アマン順位相関係数を使用します。
3. 結果を閲覧する
Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。
4. 名前を確認してFinishボタンでエンティティリストを保存します。
45
Principal Component Analysis (主成分分析)
PCAはアレイデータをベクトルデータとみなし、空間にプロットすることでその分布から新 たな軸(主成分)を作ります。これによりエンティティやコンディションを視覚的に分類 することができます。PCA on EntityとPCA on Conditionのどちらかを選べます。
Quality control on samplesのPCAとは違い、ノーマライズ後のデータを使い、使用するエン
ティティリストやインタープリテーションも選択可能です。
初めに
Toolsメニュー/Options/Data Analysis Algorithmsフォルダを選択し、Principal Component
Analysisの3-D Scoresにチェックを入れてからApplyしてください。
1. AnalysisからPrincipal component Analysisを選択 2. エンティティリストとインタープリテーションを選択
3. 各条件を設定してNext
PCA on:EntityかConditionを選択する(ここではConditionを選択)
Number of principal components:入力した数字だけ主成分を作成します
46 4. 結果を閲覧する
PCA Scores:X軸(PCA Component1)とY軸(PCA Component 2)の2次元のスキャ
ッタープロットです。
3D PCA Scores:X軸(PCA Component1)とY軸(PCA Component 2)Z軸(PCA
Component3)のスキャッタープロットです、デフォルトでは影響の大きいX>Y>Z
の順に並びます。
PCA Loadings:PCA on Conditionを選んだ場合、各Entityが各PCA Componentに対し
て持っている負荷量をプロットすることができます。PCA終了後にエンティティ リストに付加される値と同じものです。
C-C Plot:共分散と相関をプロットしたグラフです。
Eigen values:この値は各PCA Componentがデータの持つ変動を全体からどの程度
説明しているかを表す寄与率です。青は累積の寄与率になります。累積寄与率が 80%程度までのPCA Componentを見れば、十分な情報を捉えていることいえるで しょう。
5. Entity listの保存
NEXTをクリックするとPCAの結果をEntity listで保存できます。この時、Entity listに付加 される Associated value として PCA loading factor が付加されます。これは各 PCA
Componentに対する個々のEntityのインパクトを表します。