クラスタリングなどクラスタリング（ Clustering ）クラスタリング（Clustering）

膨大なデータの中からエンティティやコンディションの発現パターンが似ているものを分類します。コンディションが少ないものはScatter plotやProfile plotでも変動をつかめますが、コンディションが多くなるとそれぞれのエンティティの発現変動を理解しづらくなるので、クラスタリングでパターン別に分けて、それぞれのクラスターに、後述のGO

Analysisなどで意味付けしていきます。

クラスタリングする際の注意点１：Baseline Transformationを利用する

Baseline transformationは発現値を同じスケールに置き換えパターンに変換します。この補

正は個々の遺伝子の条件変化による変動を見つけやすくなります。

クラスタリングする際の注意点2：はずれ値を除去する

クラスタリングでは、極端な値を持つはずれ値や変動していないエンティティの影響を受けます。事前にQuality controlを行い、信頼性の高い、かつ変動したエンティティを絞り込むことが重要です。

39 k-means

K-meansは、エンティティまたはコンディションをユーザーが指定したK個のクラスターに

分けるアルゴリズムです。例えば、「ある病態に3つのサブタイプが存在する」という仮説がある場合など、コンディションを3つのクラスターに分けるK-meansを実行する価値があります。初期のK個のクラスターはランダムに配置されるので、結果が安定しない場合があります。

メモリ使用量が低く非常に処理が早いアルゴリズムですが、エンティティ同士の関連やクラスター同士の関連情報は得られません。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、K-meansを選択してNext

3. Parametersを設定する

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric：距離の定義を設定します

Number of clusters：クラスター数を指定します

Number of iterations：クラスターを探す工程を繰り返す回数（大きいほど再現性が良くなる）

4. Previewボタンで結果が表示されます。保存する場合はOKをクリックします。

5. 名前を確認してFinish

6. 結果がプロジェクトナビゲーターに保存されます。

7. 結果を右クリックしてExpand as Entity listをクリックするとクラスター毎のリストが保存されます。

各クラスターに後述のGO解析やパスウェイ解析をお試しください

エンティティリストを指定インタープリテーションを指定

K-meansを指定

40 Hierarchical

Hierarchicalは階層的クラスタリングです。エンティティとコンディションの距離をツリー

で表現します。枝が近いほど似ていると解釈します。全ての関連を表示することができますが、クラスターの明確な境界が無いためその点はユーザーが判断する必要があります。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、Hierarchicalを選択してNext

3. Parametersの設定

Normalized intensity values：Normalized intensityを利用します

Associated values：P-valueやFold change等エンティティリストに付加された値を利用。

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、またはBoth（両方）

Distance metric：距離の定義を設定します

Linkage rule：クラスター間を比較するためのアルゴリズムを選択します

Single：クラスター間の最近のノードの距離を比較（最近隣距離法）

Complete：クラスター間の最遠のノードの距離を比較（最遠距離法）

Average：クラスター間のそれぞれのノードの平均距離を比較（群平均距離法）

Centroid：クラスター内の重心（平均）同士の距離を比較（重心距離法）

Ward’s：ANOVAに似たアプローチで、クラスター内の誤差の平均値を計算し全

体の誤差の平均値から差が小さいものを新しいクラスターに結合します。

4. Previewをクリックすると、結果が表示されます、保存する場合はOKをクリックします

5. 名前を確認してFinish

エンティティリストを指定インタープリテーションを指定 Hierarchicalを指定

41 6. 結果がプロジェクトナビゲーターに保存されます。

7. 保存後は、発現量に応じた階層的クラスタリングの図が表示されます。

画面左側の任意の位置のツリーをクリックすると、そのツリー以下に存在する遺伝子が選択されます。アイコンで、選択した遺伝子をエンティティリストとして保存可能です。

全体図

拡大図

サンプルまたはコンディション Gene

発現量のカラーチャート

42 Self-Organizing Map(SOM)

SOMはユーザーが行と列を指定したグリッドに対して、近いグリッドが近い値を持つように値を繰り返し更新して、クラスターを作ります。グリッドの隣り合ったクラスターはパターンが似ている傾向があります。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、Self-Organizing Mapを選択する

3. Parametersの設定

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric：距離の定義を設定します

Maximum number of iterations：クラスターの更新の回数を設定 Number of grid rows：グリッドの列の数を指定

Number of grid columns：グリッドの行の数を指定

※作成されるクラスター数＝上記で指定した列×行になります。

4. Previewボタンをクリックすると結果が表示されます、保存する場合はOKをクリックします

SOMの結果は、隣り合うクラスターはパターンが似ているという特徴があります。

5. 名前を決めて、Finish ボタンをクリックすると、SOM の結果がプロジェクトナビゲーターに保存されます。

6. SOMの結果を右クリックしてExpand as Entity listをクリックすると各クラスター毎のリストが保存されます。

それぞれのクラスターに後述のGO解析やパスウェイ解析等をお試しくださいエンティティリストを指定インタープリテーションを指定 Self-Organizing Mapを指定

発現パターンの似ているエンティティの検索（ Find Similar Entities ）

注目すべき発現パターンのエンティティが既にある場合、そのエンティティと似た相関または逆相関する発現パターンを示すエンティティを検索します。

1. AnalysisからFind Similar Entitiesを選びます。

2. エンティティリスト、インタープリテーション、Query Entity、Similarly metricを選択します。

Query Entityは注目しているエンティティをSelectボタンから検索して設定してください。

ピアソン相関係数は線形の相関解析です。非線形の相関を解析したい場合はスピアマン順位相関係数を使用します。

3. 検索結果が表示されます。

Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。

4. エンティティリストの名前を確認してFinishボタンでエンティティリストを保存します。

数値パラメーターと相関するエンティティの検索（ Filter on Parameters ）

タイムコース実験や薬剤の投与量など量的なパラメーターがある場合、パラメーターと発現量について相関、逆相関するエンティティを検索します。時間依存で変動するエンティティや薬剤の量特異的に変動するエンティティなどの抽出が可能です。

事前にExperiment GroupingでParameter typeがNumericのパラメーターを作成します。

1. AnalysisからFilter on parameterを選択します。

2. エンティティリスト、インタープリテーション、相関を探すパラメーター、Similarity Metricを選択

ピアソン相関係数は線形の相関解析なので、非線形の相関を解析したい場合はスピアマン順位相関係数を使用します。

3. 結果を閲覧する

Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。

4. 名前を確認してFinishボタンでエンティティリストを保存します。

Principal Component Analysis （主成分分析）

PCAはアレイデータをベクトルデータとみなし、空間にプロットすることでその分布から新たな軸（主成分）を作ります。これによりエンティティやコンディションを視覚的に分類することができます。PCA on EntityとPCA on Conditionのどちらかを選べます。

Quality control on samplesのPCAとは違い、ノーマライズ後のデータを使い、使用するエン

ティティリストやインタープリテーションも選択可能です。

初めに

Toolsメニュー/Options/Data Analysis Algorithmsフォルダを選択し、Principal Component

Analysisの3-D Scoresにチェックを入れてからApplyしてください。

1. AnalysisからPrincipal component Analysisを選択 2. エンティティリストとインタープリテーションを選択

3. 各条件を設定してNext

PCA on：EntityかConditionを選択する（ここではConditionを選択）

Number of principal components：入力した数字だけ主成分を作成します

46 4. 結果を閲覧する

PCA Scores：X軸（PCA Component1）とY軸（PCA Component 2）の2次元のスキャ

ッタープロットです。

3D PCA Scores：X軸（PCA Component1）とY軸（PCA Component 2）Z軸（PCA

Component3）のスキャッタープロットです、デフォルトでは影響の大きいX>Y>Z

の順に並びます。

PCA Loadings：PCA on Conditionを選んだ場合、各Entityが各PCA Componentに対し

て持っている負荷量をプロットすることができます。PCA終了後にエンティティリストに付加される値と同じものです。

C-C Plot：共分散と相関をプロットしたグラフです。

Eigen values：この値は各PCA Componentがデータの持つ変動を全体からどの程度

説明しているかを表す寄与率です。青は累積の寄与率になります。累積寄与率が 80%程度までのPCA Componentを見れば、十分な情報を捉えていることいえるでしょう。

5. Entity listの保存

NEXTをクリックするとPCAの結果をEntity listで保存できます。この時、Entity listに付加される Associated value として PCA loading factor が付加されます。これは各 PCA

Componentに対する個々のEntityのインパクトを表します。

ドキュメント内 Agilent miRNAアレイ　解析資料 (ページ 38-53)

クラスタリングなど クラスタリング（ Clustering ）クラスタリング（Clustering）

発現パターンの似ているエンティティの検索（ Find Similar Entities ）

数値パラメーターと相関するエンティティの検索（ Filter on Parameters ）

Principal Component Analysis （主成分分析）

クラスタリングなどクラスタリング（ Clustering ）クラスタリング（Clustering）