7.1 非階層的クラスター分析(k-means 法)とは
■目的
ある一定のルールに基づいてクラスター化する方法は,大きく階層的分類法(デンドログラ ムによって集団の系統発生的な構造を探る)と非階層的分類法(クラスター内の変動を小さく し,クラスター間の変動をできるだけ大きくする)の 2 つに分かれます.特に,k-means 法に よるクラスタリングは,非階層的分類法に属する分割最適化型の代表的な手法と言われていま す.なお適用できるデータは量的データに限られます.
クラスタリングする場合,原データ表をそのまま用いたり,主成分分析や因子分析で解析したスコアを 用いるなどの前処理やクラスタリングした結果を用いた検証などの後処理が重要であり,様々な手法が クラスタリングと関連していることがわかります.それは,クラスタリングした結果にどのような情報や特徴 が含まれているか,原データに含まれる他の属性や変数との関連,違いを検出あるいは固有技術的立 場から検証,解決することが大切だからです.
分類の対象が,量的変数の場合には,原データ表の特性そのままでよいのか,適当な変換(例:正規 化,対数変換など)をするのか,主成分分析を適用して得られる縮約情報である主成分スコアを対象と するのかなどを考慮する必要があります.また,対象データが質的変数の場合には,数量化Ⅲ類など を適用し,サンプルスコアを用いるなどの方法があります.
量的変数の場合はクラスタリングした情報を散布図などで観察します.質的変数の場合は,求めたクラ スターとのクロス表などで観察します.これらの観察は k-means 法によるクラスタリング結果を変数に登 録することにより可能です.
クラスター分析をする場合,必ず原データ表や固有技術に戻って吟味する必要があります.分類操作 はデータ解析の出発点であって,解析ではないということを十分に理解して利用しましょう.
クラスター分析については「階層的クラスター分析」の章もご参照ください.
■活用場面
・マーケティングリサーチにおけるセグメンテーション分析など
■データ入力形式
非階層的クラスター分析に用いるデータ形式は以下のような多変量データ型の表形式のもので す.つまりn個のサンプルのm変数の観測値のデータ表です.
(選手(氏名)) [サンプル名]
(打率)
[量的変数]
(安打)
[量的変数] …
(盗塁)
[量的変数]
西岡 剛 346 206 … 22
田中 賢介 335 193 … 34
今江 敏晃 331 176 … 8
: : : : :
クラスタ数・変数・サンプルの制限は下記のとおりです.
①クラスタリングするクラスタ数は 1~24 までです.
②解析対象は量的変数で 1~256 個選択できます.
③k-means 法によるクラスタリングには初期クラスター配置が必要になりますが,あらかじめ変数登録 されている質的変数を用いることができます.すなわち質的変数のカテゴリ番号を,クラスタ番号として 用いることになります.クラスタリングの試行回数は最大5回までです.
7.1 非階層的クラスター分析(k-means 法)とは
■機能構成
機能 解析操作 内容
変 数 の
指定 説明変数と目的変数を指定する
初 期 配 置(7.4)
初期配置を系統配置,ランダム配置,ユーザ ー指定から選択する.
ク ラ ス タ リ ン グ結果
ク ラ ス タ リ ン グ 結果
試行の結果,各サンプルがどのクラスターに 割り当てられたかを表示する.
ク ラ ス タ ー 番
号の入替 クラスター番号を入れ替える.
変数登録 クラスタリング結果を質的変数としてワ ークシートに登録.(別の解析で使えるよ うになる)
推移グラフ 横軸に試行回数,縦軸に総平均平方和を取 ったグラフで,各試行における比較を行う.
オプション 横軸の順番(試行 No か平方和の大きい順)
や縦軸の目盛を設定する.
ク ラ ス タ ー 統 計量
平均値一覧 分散一覧
各クラスターにおける各量的変数の平均値 や分散を一覧表示する.
ク ラ ス タ ー 番
号の入替 クラスター番号を入れ替える.
変数登録 平均値一覧または分散一覧をワークシー トに登録.(別の解析で使えるようになる)
平均値グラフ 各試行におけるクラスターごとの平均値を表 示(初期表示では 1 回目の試行の結果を表 示)
オプション ・平均値グラフに表示する試行 No を設定
・y 軸目盛を何σにするか設定
・平均値の結線や標準偏差の表示を設定 表示形式変更 表示を変数名/変数 No に切り替える.
7.2 手法の選択
選択方法 [手法選択]-[多変量解析]-[非階層的クラスター分析(k-means 法)]
7.3 変数の指定
種類 変数の数 操作
解析対象 量的変数 1~256 解析対象とする変数を選択して「解析対象」リ ストの左側の[>]ボタンをクリック.
初期配置 質的変数 0~5 初期配置とする変数を選択して「初期配置」リ ストの左側の[>]ボタンをクリック.
サンプル名 サンプル名1(0 可) サンプル名をリストより選択.
7.4 初期配置 試行回数を 1~5 に設定後,初期配置を選択
します.初期配置は以下の 3 方法が選択でき ます.
ここで入力したクラスター数をもとにして,初期ク ラスタ番号を自動的に各サンプルに割り当てま す.また入力するクラスター数は有効サンプル 数より多くなると解析できません.
7.1 非階層的クラスター分析(k-means 法)とは 7.2 手法の選択 7.3 変数の指定 7.4 初期配置
非 階 層 的 ク ラ ス タ ー 分 析( PA RT 9
第 7 章
(1)系統配置
クラスタ数を入力すると,サンプル番号の昇順に,
(例:11122222333333…)クラスタ番号をシステ ムが割り当てます.各クラスタ番号に属するサン プル数は均等になるようにしています.
(2)ランダム配置
クラスタ数を入力すると,乱数を発生させてク ラスター番号をシステムが割り当てます.各クラ スター番号に属するサンプル数は均等になるよ うにしています.
(3)ユーザー指定
選択された質的変数より一つ選択します.前 回のクラスター情報や固有技術情報など事前情 報を利用する場合に用います.
各試行におけるクラスタ 番号はコンピューターが随 時決めるもので,それらの 間で意味的な関連性はあり ません.
7.5 クラスタリング結果
各サンプルがそれぞれの試行でどのクラス ターに割り当てられたかが一覧表示されま す.ここでは各列をキーとして昇順降順のソ ートが可能です.
7.6 推移グラフ
■起動方法
「推移グラフ」タブクリック.
各試行における総平均平方和(y軸)を比較する ことができます.オプションで総平均平方和の大 きさの順でソートした場合,傾斜が急から緩へ変 わるポイントが統計的には最適なクラスターとな ります.
7.7 平均値,分散一覧
■起動方法
「クラスター統計量」グループの「平均値 一覧」「分散一覧」タブクリック.
クラスターによって平均値や分散がどのよ うになっているかを比較します.
7.8 平均値グラフ
■起動方法
「クラスター統計量」グループの「平均値 グラフ」タブクリック.
各試行(初期標示は1回目の試行)における クラスターごとの平均値と範囲(標準偏差)
を表示します.各クラスターの特徴を比較す ることができます.
7.4 初期配置 7.5 クラスタリング結果 7.6 推移グラフ 7.7 平均値,分散一覧 7.8 平均値グラフ
階 層 的 ク ラ ス タ ー 分 PA RT 9