6.1 AID(多段層別分析)とは
■目的
多 段 層 別 分 析 ( A I D ) は , 1963 年 に ミ シ ガ ン 大 学 の Morgan と Sonquist によって提 唱された自動分類法(AID)を 拡張し,対話型でビジュアルに 解析できるようにしました.目的 変数を量的変数としたときは回 帰分析,目的変数を2カテゴリ の質的変数としたときは判別分
析に相当し,多段階にわたってサンプルを2分割層別しながら分類することができます.
多段層別分析は,目的変数(2群の質的変数あるいは量的変数)に影響を強く与える説明変数の条 件によって順次2つに分割を行い,目的変数を階層的に層別していきます.また,無意味な分割を避 けるために停止規則を設定することができ,その規則を満たすと分割を終了します.
通常は,説明変数に質的変数を用いますが,本システムでは,量的変数を指定した場合には,自動 的あるいは手動でカテゴリ化を行うので,量的変数と質的変数が混在した場合にも,説明変数の属性 を意識せずに解析できます.
■活用場面
・不良が発生する悪条件を調査する 等
■データ入力形式
本解析で対象とするデータ形式は,多変量特性値の2元表です.説明変数は,量的変数と質的変 数(最大24カテゴリ)とが混在していても解析可能です.説明変数が量的変数の場合には,自動的に カテゴリ化を行って解析します.目的変数が質的変数の場合には,2値データ(カテゴリ1,カテゴリ2)の み解析できます.
変数名 サンプル名
説明変数
(ノズル)
[質的変数]
説明変数 (速度)
[質的変数]
説明変数
(粘度)
[量的変数]
目的変数
(タレ)
[質的変数]
1 A 1 45 なし
2 B 2 43 あり
3 C 3 52 なし
・
・
・
・
・
・
■機能構成
機能 解析操作 内容
変数の指定 説明変数と目的変数を指定する
カテゴリ情報
カテゴリ化 量的変数をカテゴリ化する
順序有無 説明変数が質的変数の場合,カテゴリ順序の意味の 有無を設定する.初期状態では名義尺度(順序が無 い)となっている.カテゴリの並び順に順序がある 場合は,ダブルクリックして「有」に設定する.
停止規則 分割を停止するための条件変更をおこなう.
変数登録 量的変数を分割条件に従ってカテゴリ化したデー タをワークシートに保存する.
6.1 AID(多段層別分析)とは
分割選択
手動もしくは逐次的に分割を行う.
カテゴリ順変更 質的変数のカテゴリ順序を変更する.
表示切替 2 進木
刈り込み 拡大表示 表示切替
オプション 第 2 群比率や SB/ST で着色をおこなう.
分割過程
サンプル 変数登録 判別図
6.2 手法の選択
選択方法 [手法選択]-[多変量解析]-[AID(多段層別分析)]
6.3 量的変数のカテゴリ化
説明変数が量的変数の場合,初期表示では 各カテゴリのサンプル数ができるだけ等しくなる ように自動的に分割されています.分割数,境 界値を変更したい場合は,該当する変数の行を 選択後[カテゴリ化]ボタンをクリックします.
カテゴリの境界値を変更するには
手順1 「層の数」に任意のカテゴリ数を入力 して下さい.(2~24)
手順2 層の数を入力して[次へ]ボタンをクリ ックすると,サンプル数がほぼ等しくな るように,自動的に境界値が決められ ます.各層の境界値を変更したい場合 は,キー入力します.
6.4 停止規則
分割を停止するための条件を設定変更するこ とができます.変更したい値のセルをクリックして,
新しい値を入力して下さい.
ここで,初期条件を含め各停止規則について の説明をします.
・[停止規則1]
分割される最終ノードの最大数を指定します.
初期設定値は,サンプル数nが 100 以上の場合 は√n,nが 100 未満の場合はn/10 です.
1~100 の値を指定できます.
・[停止規則2]
1つのノードに含まれるサンプル数が少ないと,
そのノードの推定値の信頼度は低くなります.そ こで,ノードに含まれるサンプル数の最小値を設 定します.初期設定値は,サンプル数nが 100 以上の場合は√n/2,nが 100 未満の場合は5 です. 2~50 の値が指定できます.
・[停止規則3]
分割後のノードの群内平方和が十分小さいと き,それ以上の分割は必要がないと考えられま す.(群内平方和)/(総平方和)が設定値より 小さいときは,分割を行いません.初期設定値 は 0.02 です.0.0001~0.5 の値を指定できます.
・[停止規則4]
分割の群間平方和があまりに小さいと,その分 割にはあまり意味がありません.
(群間平方和)/(総平方和)が設定値より小さ いときは, 分 割 を行 いま せん .初 期 設 定 値 は 0.002 です.0.00001~0.1 を指定できます.
・[停止規則5]
分割のF値が小さいと,その分割には統計的
6.1 AID(多段層別分析)とは 6.2 手法の選択 6.3 量的変数のカテゴリ化 6.4 停止規則
A I D( 多 段 層 別 PA RT 9
第 6 章
な有意性がありません.F値が設定値より小さい ときは,分割を行いません.初期設定値は 4.0 で す.0.01~10.0 を指定できます.
6.5 分割選択
現在のノード番号,サンプル数,現在のノード に含まれるサンプルの総平方和,平均値などが 表示されます.
ウィンドウの左側には,F値の大きい変数順に グラフが表示されています.グラフは,目的変数 が量的変数の場合には層別ヒストグラム,目的 変数が質的変数の場合には分割図が表示され ます.
分割図では,縦の比率(分割の間隔)はカテゴ リに含まれるサンプル数の比率,横の比率はカ テゴリ内 の目 的 変 数 の第2群 の比 率を表 しま す.
ウィンドウの中央には,分割情報として,変数 番号,変数名,カテゴリ番号(カテゴリのサンプ ル数),カテゴライズされたデータ(目的変数)の 平均値または第2群の比率,分割指標の値(F 値)などが表示されます.カテゴリの順序に意味 が無い場合には,カテゴライズされたデータ(目 的変数)の平均値あるいは第2群の比率の大き さの順に,カテゴリの順序が並べ換えられて表 示されます.
6.5.1 手動選択
分割処理を対話型で行います.
分割に用いる説明変数の右側の統計量で表 示しているF値の中で着色している数値をクリッ クした後,[手動選択]ボタンをクリックすると,そ の説明変数の最大のF値の位置で分割すること ができます.
また,任意のF値をクリックした後,[手動選 択]ボタンをクリックすると,指定されたF値の位 置で分割することができます.
6.5.2 逐次選択(自動選択)
解析終了後,画面上に分割終了メッセージ のダイアログが表示されます.[OK]ボタ ンをクリックすると,解析結果を検討するこ とができます.
6.6 2進木表示
データの分割過程を2進木で表示し,確認す ることができます.
2進木表示には,各ノードごとにツリー図とノー ド番号,各ノード内のサンプル数を表わしていま す.またそのノードに対して層別した分割変数と その際の2群境界値や該当するカテゴリーとそ の区分点を示しています.すなわち,分割結果 と分割点を同時にみられるようになっています.
さらに,分割されたノードの全体からみた寄与 率を示す SB/ST((群間平方和)/(総平方和))
または,停止規則を表すコードが表示されます.
目的変数が質的変数の場合は,分割後のノード における第2カテゴリの比率である2群比率が表 示されます.2群比率が高いあるいは低い層別 の組み合せに注目し,高いあるいは低い組み合 せを分析します.目的変数が量的変数の場合は,
各ノードに属するサンプルの平均値が表示され ます.
なお,(群間平方和)/(総平方和)を合計する と,重回帰分析の寄与率に相当する値になりま す.
6.6.1 刈り込み
分割結果をみて統合したほうがよいと思われ るノードをまとめる(刈り込む)ことができます.刈 り込みたい枝(ノード)をクリックし指定した後,
[刈り込み]ボタンをクリックすると,その下のノー ドをプールすることができます.
6.6.2 拡大表示
2進木表示の任意のノードについてさらに詳
6.5 分割選択 6.6 2進木表示
したいノードをクリックした後,[拡大]ボタンをクリ ックすると,指定したノードとその兄弟のノードに ついて左側に拡大したグラフ,右側にノードの履 歴情報が表示されます.
6.7 分割過程
現在までの分割過程が表示されます.どの変 数,どの位置で分割を行ったのか確認すること ができます.
6.8 サンプル(層別サンプル表示)
各々の最終ノード(層)に含まれるサンプル情 報を,表示することができます.最終ノードごとの サンプル番号が表示されます.
分割された最終ノード番号,各ノードのサンプ ル数,平均値または第2群の比率,(群内平方 和)/(総平方和),各ノードのサンプル番号など が表示されています.
最終行には,ノード番号0,全サンプル数,(群 内平方和)/(総平方和)の合計などが表示され ています.この合計値は,1から寄与率を差し引 いた値と等しくなります.
6.9 判別図
・量的変数の場合
目的変数の平均値を箱ひげ図で表示します.
つまり,最終ノードに分割された各グループのデ ータをノード番号を横軸に箱ひげ図を表示し,
最終的に層別されたノードに対して,群間のメジ アンの差,群内のばらつきなどを,視覚的にとら えることができます.
[統計量]ボタンをクリックすると,ノード番号,
各ノードのサンプル数,中央値(メジアン)などが 表示されています.
・質的変数の場合
判別図を表示します.縦の比率(分割の間 隔)は最終ノードのサンプル数の比率で表示さ れ,横の比率は目的変数の第2カテゴリの比率
(第2群の比率)で表示されます.なお,グラフの 縦の並びは,第2群の比率の小さい方からの順 序になっています.
右側には,判別図に対応する最終ノード番号,
各ノードのサンプル数,目的変数の第1群のサ ンプル数,第2群のサンプル数,第2群の比率な どが表示されます.
6.6 2進木表示 6.7 分割過程 6.8 サンプル(層別サンプル表示) 6.9 判別図