非階層的クラスター分析（k-means 法）

７．１非階層的クラスター分析（k-means 法）とは

■目的

ある一定のルールに基づいてクラスター化する方法は，大きく階層的分類法（デンドログラムによって集団の系統発生的な構造を探る）と非階層的分類法（クラスター内の変動を小さくし，クラスター間の変動をできるだけ大きくする）の 2 つに分かれます．特に，k-means 法によるクラスタリングは，非階層的分類法に属する分割最適化型の代表的な手法と言われています．なお適用できるデータは量的データに限られます．

クラスタリングする場合，原データ表をそのまま用いたり，主成分分析や因子分析で解析したスコアを用いるなどの前処理やクラスタリングした結果を用いた検証などの後処理が重要であり，様々な手法がクラスタリングと関連していることがわかります．それは，クラスタリングした結果にどのような情報や特徴が含まれているか,原データに含まれる他の属性や変数との関連,違いを検出あるいは固有技術的立場から検証，解決することが大切だからです．

分類の対象が，量的変数の場合には，原データ表の特性そのままでよいのか，適当な変換（例：正規化，対数変換など）をするのか，主成分分析を適用して得られる縮約情報である主成分スコアを対象とするのかなどを考慮する必要があります．また，対象データが質的変数の場合には，数量化Ⅲ類などを適用し，サンプルスコアを用いるなどの方法があります．

量的変数の場合はクラスタリングした情報を散布図などで観察します．質的変数の場合は，求めたクラスターとのクロス表などで観察します．これらの観察は k-means 法によるクラスタリング結果を変数に登録することにより可能です．

クラスター分析をする場合，必ず原データ表や固有技術に戻って吟味する必要があります．分類操作はデータ解析の出発点であって，解析ではないということを十分に理解して利用しましょう．

クラスター分析については「階層的クラスター分析」の章もご参照ください．

■活用場面

・マーケティングリサーチにおけるセグメンテーション分析など

■データ入力形式

非階層的クラスター分析に用いるデータ形式は以下のような多変量データ型の表形式のものです．つまりｎ個のサンプルのｍ変数の観測値のデータ表です．

(選手（氏名）) [サンプル名]

(打率)

［量的変数］

(安打)

［量的変数］ …

(盗塁)

［量的変数］

西岡剛 346 206 … 22

田中賢介 335 193 … 34

今江敏晃 331 176 … 8

: : : : :

クラスタ数・変数・サンプルの制限は下記のとおりです．

①クラスタリングするクラスタ数は 1～24 までです．

②解析対象は量的変数で 1～256 個選択できます．

③k-means 法によるクラスタリングには初期クラスター配置が必要になりますが，あらかじめ変数登録されている質的変数を用いることができます．すなわち質的変数のカテゴリ番号を，クラスタ番号として用いることになります．クラスタリングの試行回数は最大５回までです．

7.1 非階層的クラスター分析（k-means 法）とは

■機能構成

機能解析操作内容

変数の

指定説明変数と目的変数を指定する

初期配置（7.4）

初期配置を系統配置，ランダム配置，ユーザー指定から選択する．

クラスタリング結果

試行の結果，各サンプルがどのクラスターに割り当てられたかを表示する．

クラスター番

号の入替クラスター番号を入れ替える．

変数登録クラスタリング結果を質的変数としてワークシートに登録．（別の解析で使えるようになる）

推移グラフ横軸に試行回数，縦軸に総平均平方和を取ったグラフで，各試行における比較を行う．

オプション横軸の順番（試行 No か平方和の大きい順）

や縦軸の目盛を設定する．

クラスター統計量

平均値一覧分散一覧

各クラスターにおける各量的変数の平均値や分散を一覧表示する．

クラスター番

号の入替クラスター番号を入れ替える．

変数登録平均値一覧または分散一覧をワークシートに登録．（別の解析で使えるようになる）

平均値グラフ各試行におけるクラスターごとの平均値を表示（初期表示では 1 回目の試行の結果を表示）

オプション・平均値グラフに表示する試行 No を設定

・y 軸目盛を何σにするか設定

・平均値の結線や標準偏差の表示を設定表示形式変更表示を変数名/変数 No に切り替える．

７．２手法の選択

選択方法［手法選択］-［多変量解析］-［非階層的クラスター分析(k-means 法)］

７．３変数の指定

種類変数の数操作

解析対象量的変数 1～256 解析対象とする変数を選択して「解析対象」リストの左側の[>]ボタンをクリック．

初期配置質的変数 0～5 初期配置とする変数を選択して「初期配置」リストの左側の[>]ボタンをクリック．

サンプル名サンプル名１（0 可）サンプル名をリストより選択．

７．４初期配置試行回数を 1～5 に設定後，初期配置を選択

します．初期配置は以下の 3 方法が選択できます．

ここで入力したクラスター数をもとにして，初期クラスタ番号を自動的に各サンプルに割り当てます．また入力するクラスター数は有効サンプル数より多くなると解析できません．

7.1 非階層的クラスター分析（k-means 法）とは 7.2 手法の選択 7.3 変数の指定 7.4 初期配置

非階層的クラスター分析( ＰＡＲＴ９

第７章

（１）系統配置

クラスタ数を入力すると，サンプル番号の昇順に，

（例：11122222333333…）クラスタ番号をシステムが割り当てます．各クラスタ番号に属するサンプル数は均等になるようにしています．

（２）ランダム配置

クラスタ数を入力すると，乱数を発生させてクラスター番号をシステムが割り当てます．各クラスター番号に属するサンプル数は均等になるようにしています．

（３）ユーザー指定

選択された質的変数より一つ選択します．前回のクラスター情報や固有技術情報など事前情報を利用する場合に用います．

各試行におけるクラスタ番号はコンピューターが随時決めるもので，それらの間で意味的な関連性はありません．

７．５クラスタリング結果

各サンプルがそれぞれの試行でどのクラスターに割り当てられたかが一覧表示されます．ここでは各列をキーとして昇順降順のソートが可能です．

７．６推移グラフ

■起動方法

「推移グラフ」タブクリック．

各試行における総平均平方和（ｙ軸）を比較することができます．オプションで総平均平方和の大きさの順でソートした場合，傾斜が急から緩へ変わるポイントが統計的には最適なクラスターとなります．

７．７平均値，分散一覧

■起動方法

「クラスター統計量」グループの「平均値一覧」「分散一覧」タブクリック．

クラスターによって平均値や分散がどのようになっているかを比較します．

７．８平均値グラフ

■起動方法

「クラスター統計量」グループの「平均値グラフ」タブクリック．

各試行（初期標示は１回目の試行）におけるクラスターごとの平均値と範囲（標準偏差）

を表示します．各クラスターの特徴を比較することができます．

7.4 初期配置 7.5 クラスタリング結果 7.6 推移グラフ 7.7 平均値，分散一覧 7.8 平均値グラフ

階層的クラスター分ＰＡＲＴ９

第

８ 章

ドキュメント内 JUSE-StatWorks/V5　ユーザーズマニュアル (ページ 35-38)

第 ７ 章

第

８

章

第７章