クラスタリングなどクラスタリング（ Clustering ）クラスタリング（Clustering）

解析 2 クラスタリングなど

50 k-means

K-meansは、エンティティまたはコンディションをユーザーが指定したK個のクラスターに

分けるアルゴリズムです。例えば、「ある病態に3つのサブタイプが存在する」という仮説がある場合など、コンディションを3つのクラスターに分けるK-meansを実行する価値があります。初期のK個のクラスターはランダムに配置されるので、結果が安定しない場合があります。

メモリ使用量が低く非常に処理が早いアルゴリズムですが、エンティティ同士の関連やクラスター同士の関連情報は得られません。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、K-meansを選択してNext

3. Parametersを設定する

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric：距離の定義を設定します

Number of clusters：クラスター数を指定します

Number of iterations：クラスターを探す工程を繰り返す回数（大きいほど再現性が良くなる）

4. Previewボタンで結果が表示されます。保存する場合はOKをクリックします。

5. 名前を確認してFinish

6. 結果がプロジェクトナビゲーターに保存されます。

7. 結果を右クリックしてExpand as Entity listをクリックするとクラスター毎のリストが保存されます。

各クラスターに後述のGO解析やパスウェイ解析をお試しください

エンティティリストを指定インタープリテーションを指定

K-meansを指定

51 Hierarchical

Hierarchicalは階層的クラスタリングです。エンティティとコンディションの距離をツリーで

表現します。枝が近いほど似ていると解釈します。全ての関連を表示することができますが、クラスターの明確な境界が無いためその点はユーザーが判断する必要があります。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、Hierarchicalを選択してNext

3. Parametersの設定

Normalized intensity values：Normalized intensityを利用します

Associated values：P-valueやFold change等エンティティリストに付加された値を利用。

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、またはBoth（両方）

Distance metric：距離の定義を設定します

Linkage rule：クラスター間を比較するためのアルゴリズムを選択します

Single：クラスター間の最近のノードの距離を比較（最近隣距離法）

Complete：クラスター間の最遠のノードの距離を比較（最遠距離法）

Average：クラスター間のそれぞれのノードの平均距離を比較（群平均距離法）

Centroid：クラスター内の重心（平均）同士の距離を比較（重心距離法）

Ward’s：ANOVAに似たアプローチで、クラスター内の誤差の平均値を計算し全体

の誤差の平均値から差が小さいものを新しいクラスターに結合します。

4. Previewをクリックすると、結果が表示されます、保存する場合はOKをクリックします

5. 名前を確認してFinish

エンティティリストを指定インタープリテーションを指定 Hierarchicalを指定

6. 結果がプロジェクトナビゲーターに保存されます。

7. 保存後は、発現量に応じた階層的クラスタリングの図が表示されます。

画面左側の任意の位置のツリーをクリックすると、そのツリー以下に存在する遺伝子が選択されます。アイコンで、選択した遺伝子をエンティティリストとして保存可能です。

全体図

拡大図

サンプルまたはコンディション Gene

発現量のカラーチャート

53 Self-Organizing Map(SOM)

SOMはユーザーが行と列を指定したグリッドに対して、近いグリッドが近い値を持つように値を繰り返し更新して、クラスターを作ります。グリッドの隣り合ったクラスターはパターンが似ている傾向があります。

1. ワークフローのAnalysisからClusteringを選択する

2. エンティティリスト、インタープリテーションを選択し、Self-Organizing Mapを選択する

3. Parametersの設定

Cluster on：クラスタリングする対象を選択、EntitiesかCondition、または両方 Distance metric：距離の定義を設定します

Maximum number of iterations：クラスターの更新の回数を設定 Number of grid rows：グリッドの列の数を指定

Number of grid columns：グリッドの行の数を指定

※作成されるクラスター数＝上記で指定した列×行になります。

4. Previewボタンをクリックすると結果が表示されます、保存する場合はOKをクリックします

SOMの結果は、隣り合うクラスターはパターンが似ているという特徴があります。

5. 名前を決めて、Finishボタンをクリックすると、SOMの結果がプロジェクトナビゲーターに保存されます。

6. SOMの結果を右クリックしてExpand as Entity listをクリックすると各クラスター毎のリストが保存されます。

それぞれのクラスターに後述のGO解析やパスウェイ解析等をお試しくださいエンティティリストを指定インタープリテーションを指定 Self-Organizing Mapを指定

発現パターンの似ているエンティティの検索（ Find Similar Entities ）

注目すべき発現パターンのエンティティが既にある場合、そのエンティティと似た相関または逆相関する発現パターンを示すエンティティを検索します。

1. AnalysisからFind Similar Entitiesを選びます。

2. エンティティリスト、インタープリテーション、Query Entity、Similarly metricを選択します。

Query Entityは注目しているエンティティをSelectボタンから検索して設定してください。

ピアソン相関係数は線形の相関解析です。非線形の相関を解析したい場合はスピアマン順位相関係数を使用します。

3. 検索結果が表示されます。

Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。

4. エンティティリストの名前を確認してFinishボタンでエンティティリストを保存します。

数値パラメーターと相関するエンティティの検索（ Filter on Parameters ）

タイムコース実験や薬剤の投与量など量的なパラメーターがある場合、パラメーターと発現量について相関、逆相関するエンティティを検索します。時間依存で変動するエンティティや薬剤の量特異的に変動するエンティティなどの抽出が可能です。

事前にExperiment GroupingでParameter typeがNumericのパラメーターを作成します。

1. AnalysisからFilter on parameterを選択します。

2. エンティティリスト、インタープリテーション、相関を探すパラメータ、Similarity Metricを選択

ピアソン相関係数は線形の相関解析なので、非線形の相関を解析したい場合はスピアマン順位相関係数を使用します。

3. 結果を閲覧する

Cutoff値のレンジは1に近いと相関、0で相関なし、-1に近いと逆相関になります。

4. 名前を確認してFinishボタンでエンティティリストを保存します。

Principal Component Analysis （主成分分析）

PCAはアレイデータをベクトルデータとみなし、空間にプロットすることでその分布から新たな軸（主成分）を作ります。これによりエンティティやコンディションを視覚的に分類することができます。PCA on EntityとPCA on Conditionのどちらかを選べます。

Quality control on samplesのPCAとは違い、ノーマライズ後のデータを使い、使用するエンテ

ィティリストやインタープリテーションも選択可能です。

初めに

Toolsメニュー/Options/Data Analysis Algorithmsフォルダを選択し、Principal Component

Analysisの3-D Scoresにチェックを入れてからApplyしてください。

1. AnalysisからPrincipal component Analysisを選択 2. エンティティリストとインタープリテーションを選択

3. 各条件を設定してNext

PCA on：EntityかConditionを選択する（ここではConditionを選択）

Number of principal components：入力した数字だけ主成分を作成します

57 4. 結果を閲覧する

PCA Scores：X軸（PCA Component1）とY軸（PCA Component 2）の2次元のスキャ

ッタープロットです。

3D PCA Scores：X軸（PCA Component1）とY軸（PCA Component 2）Z軸（PCA

Component3）のスキャッタープロットです、デフォルトでは影響の大きいX>Y>Zの

順に並びます。

PCA Loadings：PCA on Conditionを選んだ場合、各Entityが各PCA Componentに対して

持っている負荷量をプロットすることができます。PCA終了後にエンティティリストに付加される値と同じものです。

C-C Plot：共分散と相関をプロットしたグラフです。

Eigen values：この値は各PCA Componentがデータの持つ変動を全体からどの程度説

明しているかを表す寄与率です。青は累積の寄与率になります。累積寄与率が 80%程度までのPCA Componentを見れば、十分な情報を捉えていることいえるでしょう。

58 5. Entity listの保存

NEXTをクリックするとPCAの結果をEntity listで保存できます。この時、Entity listに付加されるAssociated valueとしてPCA loading factorが付加されます。これは各PCA Componentに対する個々のEntityのインパクトを表します。

6. PCAの結果はプロジェクトナビゲーターに保存され、ダブルクリックで結果を見ることができます。

7. PCAの結果を右クリックしてExpand Entity listをクリックすると、エンティティリストとして結果が保存されます。

※ViewメニューのPlot list associated valueを使うと、PCAのLoading factorをヒストグラム等で表示することができます。

結果の解釈

GO 解析（ GO Analysis ）

GO（Gene Ontology project

する遺伝子を収集し、遺伝子の機能や、局在、プロセスごとにカテゴライズしています

GeneSpringのGO Analysisは自分の解析で得たエンティティリストがGOで分類された遺伝子の

リストと偶然一致する確率を計算します。偶然一致する確率が低い（p-valueが低い）≒関連が高いと解釈します。

1. ワークフローのResults InterpretationからGO Analysisを選択します 2. エンティティリストを選択してNextをクリックします。

3. 結果の閲覧 4. Spreadsheetの見方

基本的にはCorrected p-valueの値が低い順に見ていきます。

Change cutoffボタンをクリックすることで、p-value（実際にはFDR）のカットオフを変えることができます。カットオフ値を低くすると、検定はより厳しくなります。

GO ACCESSION：GO TermのID

GO Term：GOによって定義されたカテゴリ名

P-value：Fisher’s exact testのp-value

Corrected p-value：Multiple testing correction後のp-value。この値でCutoffします。

Count in selection：自分のエンティティリストとGOカテゴリで重複した遺伝子数

%Count in selection：自分のエンティティリストでそのGOカテゴリに該当し割合 Count in total： All entitiesから、そのGO Termが含まれる遺伝子の数

%count in total：All entitiesから、そのGO Termが含まれる遺伝子の割合

ドキュメント内 548BGeneSpring12.5 (ページ 49-66)

クラスタリングなど クラスタリング（ Clustering ）クラスタリング（Clustering）

解析 2 クラスタリングなど

発現パターンの似ているエンティティの検索（ Find Similar Entities ）

数値パラメーターと相関するエンティティの検索（ Filter on Parameters ）

Principal Component Analysis （主成分分析）

結果の解釈

GO 解析（ GO Analysis ）

クラスタリングなどクラスタリング（ Clustering ）クラスタリング（Clustering）