• 検索結果がありません。

階層的クラスター分析

ドキュメント内 JUSE-StatWorks/V5 ユーザーズマニュアル (ページ 38-45)

PA RT 9

③変数の数が多いとき,たくさんの主成分をとるとノイズ成分が結果に大きく寄与するので好ましくな い.(例えば,固有値が1以下を打ち切るなどの配慮が必要)芳賀敏郎,日科技連MA専門コー ステキスト「クラスター分析」,1995 より

またクラスター分析を適用するにあたっては (a)2つの個体間の距離をどう定義するか

(b)いくつかの個体が凝縮してできた2つのクラスター間の距離をどう定義する

などの距離の定義とクラスター化の問題,あるいは,対象のデータが所得分布のように歪んでいる場合 の対応(一般には対数変換などをして対称分布に近づけてからクラスター化する)など多くの問題を検 討する必要があります.

さらに,クラスター分析はサンプルや変数のグルーピングのほか,外れ値の検出,データ構造の把握,

対象間の離れ具合(距離)の決定などに有効であるが,結果に対して何回かの反復やクラスタークロス 集計,グラフ化などを行って解析の目的,固有技術にもとづく吟味が必要です.

■データ入力形式

階層的クラスター分析に用いるデータ形式は以下のような多変量データ型の表形式のものです.

つまりn個のサンプルのm変数の観測値のデータ表です.

(選手(氏名)) [サンプル名]

(打率)

[量的変数]

(安打)

[量的変数] …

(盗塁)

[量的変数]

西岡 剛 346 206 … 22

田中 賢介 335 193 … 34

今江 敏晃 331 176 … 8

: : : : :

■機能構成

機能 解析操作 内容

変数の指定 解析に用いる変数を指定する.

解析方法の指定(8.4) 分類の種類,標準化方法,クラスター化法,

類似係数を指定する.

デンドログラム(8.5)

デンドログラム(樹形図)を表示する.

一様性推移 (8.6)

クラスター数を横軸に取った SPRSQ(セミパ ーシャル平方重相関),RSQ(平方重相関),

PSF(擬似 F 統計量)の推移を表す.

統計量 各変数(サンプル)を現在のクラスター情報 で層別した基本統計量を表示する.

連関図 各変数(サンプル)を現在のクラスター情報 で層別した多変量連関図を表示する.

ク ラ ス タ ー 数 設 定

(8.5.2)

クラスター数か切断するレベルを指定し,ク ラスター数を決定する.

ク ラ ス タ ー 情報保存

ワークシートにクラスター番号とデンドロ グラムの並び順を登録する.(別の解析でク ラスター番号を層別情報などで使えるよう になる)

オプション

・表示モードの設定(「詳細」にするとサン プル名が表示される)

・統計量や切断線の表示/非表示,クラスタ ーごとのハッチング,平方根変換の設定

・結合レベルの表示下限の設定 解析方法 解析方法を再指定する.

一致プロット(8.7) 類似係数行列と結合レベル行列の相関関係を

8.1 階層的クラスター分析とは

PA RT 9

第 8 章

解析方法 解析方法を再指定する.

標準化データ(8.5.3)

標準化したデータを表示.(標準化した場合の み表示)

解析方法 解析方法を再指定する.

類似度行列(非類似度行列)

(8.5.3)

最初の全クラスタ(対象)間の類似係数値を 表示.

解析方法 解析方法を再指定する.

距 離 順 ソ ー ト

距離が近い順(デンドログラムの並び順)に ソートする.

凝集経過(8.5.4)

凝集過程での各ステップごとの結合したクラスタ ー情報と,全体的な情報量の変化を一覧表示.

解析方法 解析方法を再指定する.

結合レベル(8.5.5)

全対象間の結合レベル(距離)を表示.

解析方法 解析方法を再指定する.

距 離 順 ソ ー ト

距離が近い順(デンドログラムの並び順)に ソートする.

8.2 手法の選択

選択方法 [手法選択]-[多変量解析]-[階層的クラスター分析]

8.3 変数の指定

種類 変数の数 操作

特性値 1~256(量的変数のみ,質的 変数のみ,量質混在も可)

※量質混在の場合は順序尺度 として扱われる.

特性値(x)とする変数を選択して「特性値」リス トの左側の[>]ボタンをクリック.

サンプル名 サンプル名1(0 可) サンプル名をリストより選択.

8.4 解析方法の指定

解析を行うための条件を指定します.

標準化方法

標準化を行わず,そのままのデータで 解析するか,事前に,平均が0,標準偏 差が1になるように基準化の変換を行っ てから解析するかを選択できます.身長 や体重のように単位が異なる変数やばら つきが異なるときは通常基準化を行いま す.そのままクラスター分析すると解析結 果に与える影響が大きいからです.

クラスター化法

クラスターの合併にあたっては当然,

近いクラスター同士を優先的に合併する プロセスを経るわけですが,クラスター間

の近い遠いを表し合併するルールとして群平均法,ウォード法,可変法,最短距離法,最長距離法が 選択できます.

一般に群平均法やウォード法が広い範囲でよい結果を与えると言われています.最短距離法はデー タの汚れに敏感でたいていの場合満足できる結果とならないが,そのため異常値検出に利用されるこ ともあります.(各クラスター化法の特長については,付録の用語解説を参照して下さい)

類似係数

対象をまとめていくための基準になるのが類似度もしくは非類似度です.距離のように,値の小さい 方が類似性が高いことを表す場合,非類似度(dissimilarity),相関係数のように値の大きいほうか類似

8.1 階層的クラスター分析とは 8.2 手法の選択 8.3 変数の指定 8.4 解析方法の指定

性が高い場合,類似度(similarity)と呼びます.ここでは類似係数を選択します.選択されたクラスター 化法の種類や選択された変数の種類により,表示内容が変わります.本システムでは以下の表に対応 しています.

(各類似係数の特長については,付録の用語解説や参考文献を参照して下さい)

なお,一般的にウォード法では非類似度として平方ユークリッド距離を用います.

係数 類似タイプ 尺度

ユークリッド距離 非類似度 間隔

平均ユークリッド距離 非類似度 間隔

平方ユークリッド距離 非類似度 間隔

マハラノビス距離 非類似度 間隔

相関係数 類似度 間隔

コサイン係数 類似度 間隔

ブレイ・カーティス係数 非類似度 間隔

キャンベラ距離係数 非類似度 間隔

一致係数(単純見合い) 類似度 二値

Jaccard 類似度 二値

Sorenson 類似度 二値

ファイ係数(相関係数) 類似度 二値

スピアマンの順位相関係数 類似度 順序

ケンドールの順位相関係数 類似度 順序

クラメールの連関係数V 類似度 名義

ピアソンの一致係数 類似度 名義

なお,対象間の距離として,マハラノビス距離を用いる場合と標準偏差を 1.0 に基準化した主成分スコ アの対象間のユークリッド距離とは同じことです.

8.5 デンドログラム

各対象がどのようにクラスターを形成していくのかをデンドログラム(樹形図)で表現します.

8.4 解析方法の指定 8.5 デンドログラム

PA RT 9

第 8 章

8.5.1 デンドログラムにサンプル名を表示 する.

■起動方法

1.ツールボタン「オプション」クリック.

2、表示モードを「詳細」に設定.

8.5.2 クラスター数を設定する.

■起動方法

1.ツールボタン「クラスター数設定」クリ ック.

2.クラスター数を入力するか,切断するレ ベルを指定する.

なお,本システムで扱えるクラスター数は最大 24 までとなります.

8.5.3 サンプル間(変数間)の距離を確認す る

■起動方法

「類似度行列」または「非類似度行列」タ ブをクリック.

クラスター分析では,最初にすべての対象間の 距離を求めて,クラスター化法に基づきクラスタ ーを形成します. この対象間の距離が一覧表 示されます.

なお,データを標準化していた場合,距離の計 算に使った標準化データは「標準化データ」タ ブで確認できます.

8.5.4 クラスターの結合・形成過程を確認す る

■起動方法

「凝集経過」タブクリック.

クラスターを形成していく上での各ステップごと のクラスタの情報(対象数,結合レベル(距離),

クラスタ内平方和,全クラスタの平方和,各クラス タ統計量など)を一覧表示し,クラスターの結合・

形成過程を表示します.

8.5.5 結合レベル(距離)を確認する

■起動方法

「結合レベル」タブクリック.

全対象の結合レベル(距離)を一覧表示します.

8.5 デンドログラム

8.6 一様性推移

凝集過程での各ステップごとの結合したクラスター情報と,全体的な情報量の変化を一覧表示し ます.

「凝集経過」で表示している SPRSQ(セミパーシャル平方重相関),RSQ(平方重相関),PSF(類 似F統計量)の推移を折れ線グラフで表示し,その推移をみて最適なクラスター数を決定します.

(1)最適なクラスタ数について

自動的に決定するような方法は無く,固有技術や結果の説明し易さからユーザが判断することに なります.ただし,以下のような指標があり,判断を助ける目安となります.

クラスタリングの各ステップごとに以下の統計量を求め,その値の最大値,最小値,あるいは急激 に変化が現れるクラスターの数などがポイントになり,最適なクラスター数を判断します.

(2)疑似F統計量(PSF)

各ステップでの全クラスタ間の分離度合いを示す統計量.

pseudo F={traceB/(k-1)}/{traceW/(n-k)}

=(traceT-traceW)/(k-1)}/

8.6 一様性推移

ドキュメント内 JUSE-StatWorks/V5 ユーザーズマニュアル (ページ 38-45)

関連したドキュメント