階層的クラスター分析

階層的クラスター分ＰＡＲＴ９

第

８ 章

③変数の数が多いとき，たくさんの主成分をとるとノイズ成分が結果に大きく寄与するので好ましくない．（例えば，固有値が１以下を打ち切るなどの配慮が必要）芳賀敏郎，日科技連ＭＡ専門コーステキスト「クラスター分析」，1995 より

またクラスター分析を適用するにあたっては (a)２つの個体間の距離をどう定義するか

(b)いくつかの個体が凝縮してできた２つのクラスター間の距離をどう定義する

などの距離の定義とクラスター化の問題，あるいは，対象のデータが所得分布のように歪んでいる場合の対応（一般には対数変換などをして対称分布に近づけてからクラスター化する）など多くの問題を検討する必要があります．

さらに，クラスター分析はサンプルや変数のグルーピングのほか，外れ値の検出，データ構造の把握，

対象間の離れ具合（距離）の決定などに有効であるが，結果に対して何回かの反復やクラスタークロス集計，グラフ化などを行って解析の目的，固有技術にもとづく吟味が必要です．

■データ入力形式

階層的クラスター分析に用いるデータ形式は以下のような多変量データ型の表形式のものです．

つまりｎ個のサンプルのｍ変数の観測値のデータ表です．

(選手（氏名）) [サンプル名]

(打率)

［量的変数］

(安打)

［量的変数］ …

(盗塁)

［量的変数］

西岡剛 346 206 … 22

田中賢介 335 193 … 34

今江敏晃 331 176 … 8

: : : : :

■機能構成

機能解析操作内容

変数の指定解析に用いる変数を指定する．

解析方法の指定（8.4）分類の種類，標準化方法，クラスター化法，

類似係数を指定する．

デンドログラム（8.5）

デンドログラム（樹形図）を表示する．

一様性推移 (8.6)

クラスター数を横軸に取った SPRSQ（セミパーシャル平方重相関），RSQ（平方重相関），

PSF（擬似 F 統計量）の推移を表す．

統計量各変数（サンプル）を現在のクラスター情報で層別した基本統計量を表示する．

連関図各変数（サンプル）を現在のクラスター情報で層別した多変量連関図を表示する．

クラスター数設定

（8.5.2）

クラスター数か切断するレベルを指定し，クラスター数を決定する．

クラスター情報保存

ワークシートにクラスター番号とデンドログラムの並び順を登録する．（別の解析でクラスター番号を層別情報などで使えるようになる）

オプション

・表示モードの設定（「詳細」にするとサンプル名が表示される）

・統計量や切断線の表示/非表示，クラスターごとのハッチング，平方根変換の設定

・結合レベルの表示下限の設定解析方法解析方法を再指定する．

一致プロット(8.7) 類似係数行列と結合レベル行列の相関関係を

8.1 階層的クラスター分析とは

階層的クラスター分ＰＡＲＴ９

第８章

解析方法解析方法を再指定する．

標準化データ（8.5.3）

標準化したデータを表示．（標準化した場合のみ表示）

解析方法解析方法を再指定する．

類似度行列（非類似度行列）

（8.5.3）

最初の全クラスタ（対象）間の類似係数値を表示．

解析方法解析方法を再指定する．

距離順ソート

距離が近い順（デンドログラムの並び順）にソートする．

凝集経過（8.5.4）

凝集過程での各ステップごとの結合したクラスター情報と，全体的な情報量の変化を一覧表示．

解析方法解析方法を再指定する．

結合レベル(8.5.5)

全対象間の結合レベル（距離）を表示．

解析方法解析方法を再指定する．

距離順ソート

距離が近い順（デンドログラムの並び順）にソートする．

８．２手法の選択

選択方法［手法選択］-［多変量解析］-［階層的クラスター分析］

８．３変数の指定

種類変数の数操作

特性値 1～256（量的変数のみ，質的変数のみ，量質混在も可）

※量質混在の場合は順序尺度として扱われる．

特性値(x)とする変数を選択して「特性値」リストの左側の[>]ボタンをクリック．

サンプル名サンプル名１（0 可）サンプル名をリストより選択．

８．４解析方法の指定

解析を行うための条件を指定します．

標準化方法

標準化を行わず，そのままのデータで解析するか，事前に，平均が０，標準偏差が１になるように基準化の変換を行ってから解析するかを選択できます．身長や体重のように単位が異なる変数やばらつきが異なるときは通常基準化を行います．そのままクラスター分析すると解析結果に与える影響が大きいからです．

クラスター化法

クラスターの合併にあたっては当然，

近いクラスター同士を優先的に合併するプロセスを経るわけですが，クラスター間

の近い遠いを表し合併するルールとして群平均法，ウォード法，可変法，最短距離法，最長距離法が選択できます．

一般に群平均法やウォード法が広い範囲でよい結果を与えると言われています．最短距離法はデータの汚れに敏感でたいていの場合満足できる結果とならないが，そのため異常値検出に利用されることもあります．（各クラスター化法の特長については，付録の用語解説を参照して下さい）

類似係数

対象をまとめていくための基準になるのが類似度もしくは非類似度です．距離のように，値の小さい方が類似性が高いことを表す場合，非類似度（dissimilarity），相関係数のように値の大きいほうか類似

8.1 階層的クラスター分析とは 8.2 手法の選択 8.3 変数の指定 8.4 解析方法の指定

性が高い場合，類似度（similarity）と呼びます．ここでは類似係数を選択します．選択されたクラスター化法の種類や選択された変数の種類により，表示内容が変わります．本システムでは以下の表に対応しています．

（各類似係数の特長については，付録の用語解説や参考文献を参照して下さい）

なお，一般的にウォード法では非類似度として平方ユークリッド距離を用います．

係数類似タイプ尺度

ユークリッド距離非類似度間隔

平均ユークリッド距離非類似度間隔

平方ユークリッド距離非類似度間隔

マハラノビス距離非類似度間隔

相関係数類似度間隔

コサイン係数類似度間隔

ブレイ・カーティス係数非類似度間隔

キャンベラ距離係数非類似度間隔

一致係数(単純見合い) 類似度二値

Jaccard 類似度二値

Sorenson 類似度二値

ファイ係数(相関係数) 類似度二値

スピアマンの順位相関係数類似度順序

ケンドールの順位相関係数類似度順序

クラメールの連関係数Ｖ類似度名義

ピアソンの一致係数類似度名義

なお，対象間の距離として，マハラノビス距離を用いる場合と標準偏差を 1.0 に基準化した主成分スコアの対象間のユークリッド距離とは同じことです．

８．５デンドログラム

各対象がどのようにクラスターを形成していくのかをデンドログラム（樹形図）で表現します．

8.4 解析方法の指定 8.5 デンドログラム

階層的クラスター分ＰＡＲＴ９

第８章

8.5.1 デンドログラムにサンプル名を表示する．

■起動方法

1．ツールボタン「オプション」クリック．

2、表示モードを「詳細」に設定．

8.5.2 クラスター数を設定する．

■起動方法

1．ツールボタン「クラスター数設定」クリック．

2．クラスター数を入力するか，切断するレベルを指定する．

なお，本システムで扱えるクラスター数は最大 24 までとなります．

8.5.3 サンプル間（変数間）の距離を確認する

■起動方法

「類似度行列」または「非類似度行列」タブをクリック．

クラスター分析では，最初にすべての対象間の距離を求めて，クラスター化法に基づきクラスターを形成します．この対象間の距離が一覧表示されます．

なお，データを標準化していた場合，距離の計算に使った標準化データは「標準化データ」タブで確認できます．

8.5.4 クラスターの結合・形成過程を確認する

■起動方法

「凝集経過」タブクリック．

クラスターを形成していく上での各ステップごとのクラスタの情報（対象数，結合レベル（距離），

クラスタ内平方和，全クラスタの平方和，各クラスタ統計量など）を一覧表示し，クラスターの結合・

形成過程を表示します．

8.5.5 結合レベル（距離）を確認する

■起動方法

「結合レベル」タブクリック．

全対象の結合レベル（距離）を一覧表示します．

8.5 デンドログラム

８．６一様性推移

凝集過程での各ステップごとの結合したクラスター情報と，全体的な情報量の変化を一覧表示します．

「凝集経過」で表示している SPRSQ（セミパーシャル平方重相関），RSQ（平方重相関），PSF（類似Ｆ統計量）の推移を折れ線グラフで表示し，その推移をみて最適なクラスター数を決定します．

（１）最適なクラスタ数について

自動的に決定するような方法は無く，固有技術や結果の説明し易さからユーザが判断することになります．ただし，以下のような指標があり，判断を助ける目安となります．

クラスタリングの各ステップごとに以下の統計量を求め，その値の最大値，最小値，あるいは急激に変化が現れるクラスターの数などがポイントになり，最適なクラスター数を判断します．

（２）疑似Ｆ統計量（PSF）

各ステップでの全クラスタ間の分離度合いを示す統計量．

pseudo F={traceB/(k-1)}/{traceW/(n-k)}

=(traceT-traceW)/(k-1)}/

8.6 一様性推移

ドキュメント内 JUSE-StatWorks/V5　ユーザーズマニュアル (ページ 38-45)

第

８

章

第 ８ 章

第 ８ 章

第８章

第８章