主 成 分 分 析 P A R T 9
第
1
章
第1章 主成分分析
1.1 主成分分析とは ■目的 主成分分析はたくさんの変数があるデータ表のもつ情報を要約し,データの裏にある構造を探索すること を目的にしており,サンプルの特徴づけや製品のポジショニングなどに有用な手法です. 例えば,n個の対象(サンプル)について,多数個のp変数x1,x2,…,xpのデータが観測されてい るとき,その対象の特徴をできるだけ少数の総合指標z(これを主成分と呼ぶ)で記述したり,もとの変 数間の相関関係を分析したりするための代表的多変量解析手法になります. 下記のように主成分を元の変数の線形結合で表し,その分散を最大になるように係数 aiを決めますが,こ の係数が固有ベクトルとなります.なお,xi は基準化した値です. z = a1・x1+a2・x2+・・・+ap・xp ただし,係数 aiの2乗和が 1.0 このような主成分zを求めることは,空間上ではデータが最も散らばっている方向(直線平面)を探して いることと同じになります.これは,ある点から直線平面への距離の2乗和を最小にするという条件で求 めることができます.また,2番目以降の主成分はそれまでに得られている主成分とはすべて無相関であ るという条件のもとで求め,このように求めた主成分を順に,第 1 主成分,第 2 主成分,・・・などと呼 んでいます. ■活用場面 ・現象を表す特性値や要因がたくさんある場合,複雑なデータを要約し考えやすくする ・サンプル(人や部品)の特徴をみるために散布図上にマッピングする ・重回帰分析やクラスター分析の前処理として利用する ・アンケート調査分析や人間の感性データ,顧客満足度などの分析,商品のポジショニング,グルーピン グなど,単純集計やクロス集計では捉えられない視点から観察することができる.例えば「①収集データ からお客様を区分けして,これからねらうべきターゲット層を絞り込む」,「②商品を区分けして,ねら いの商品コンセプトや問題点を絞り込む」,「③自社と他社情報から,自社の強みや弱みを分析しアクシ ョンを考える」,「④顧客満足度調査,アンケート調査を実施して,課題となる顧客をグルーピングして, グループ別の要望を抽出し分析する」 ■データ入力形式 主成分分析で扱えるデータ形式は,変数×サンプルの2元表で,多変量データ表と呼ばれているものです. 本システムで扱えるのは,サンプル名が 1 個,量的変数が 2~256 個までです.必要に応じて,層別のため の質的変数も入力します.(質的変数を用いると,主成分得点散布図や同時布置図のプロットで,記号が 質的変数のカテゴリーで区別され表示されます.) なお,データ表に欠測値があるサンプルはマスクされ,解析対象データから除かれます. (顧客) [サンプル名] (フロント) [量的変数] (清潔) [量的変数] … (性別) [質的変数] 1 3 4 … 男 2 5 5 … 男 3 3 2 … 男 : : : : : 1.1 主成分分析とは■機能構成 機能 解析操作 内容 変数の指定 解析に用いる変数を指定する. 出発行列(1.4) 出発行列(相関係数行列,分散共分散行列)を指 定する. 主成分数 固有値の大きさによって主成分が元の変数の何個 分の情報を持っているかを確認する. 固有値 主成分数変更 解析で用いる主成分の数を変更する. 強調表示 基準値より大きい固有値や累積寄与率を強調表示 する. オプション 強調表示の On/Off と基準値の設定. 固有ベクトル 固有ベクトルの大きさ,符号で主成分軸の意味を 掴む. 出発行列 出発行列を変更する. 強調表示 出発行列が相関係数行列の場合に,相関係数の絶 対値が大きいものを着色する. 基準化データ 変数ごとに基準化したデータを確認する. 強調表示 基準値より大きい値を着色する. 変数登録 基準化データをワークシートに登録する.(別の 解析で使えるようになる) オプション 強調表示の基準値や画面に出力するサンプルの基 準値を設定する. 因子負荷量 因子負荷量 因子負荷量グ ラフ ・因子負荷量の大きさ,符号で主成分軸の意味を 掴む. ・因子負荷量散布図で変数の関係を確認する. 主成分数変更 解析で用いる主成分の数を変更する. 符号反転 選択した変数の因子負荷量の符号を反転し,解釈 をしやすくする. ソート 因子負荷量でソートを行う. 軸名称 主成分の名称を設定する. 変数登録 因子負荷量をワークシートに登録する.(別の解 析で用いることができるようになる) 強調表示 強調表示の On/Off.大きな値の因子負荷量を着色 することによって,主成分の解釈をしやすくする. オプション 表示する統計量や強調表示の基準値を設定する. 軸の回転 規準化バリマックス回転を行う. 回帰分析 主成分を説明変数とした回帰分析を行う. 散布図行列 因子負荷量の散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,プロットの位置関係を比較しや すくする. 因子負荷量散 布図 データ探索 選択した範囲内にあるプロットの項目名の表示/ 非表示を設定する. 1.1 主成分分析とは
主 成 分 分 析 P A R T 9
第
1
章
軸の回転 規準化バリマックス回転や指定した角度の回転を 行う. 軸名称 主成分の名称を設定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する. 三次元図 軸の変更 因子負荷量の三次元図の軸となる主成分を変更す る. 累積寄与度 累積寄与度グ ラフ 各主成分の元の変数に対する寄与度を表示し,主 成分と元の変数の関連性を確認する. 主成分得点 主成分得点 主成分得点グ ラフ 主成分得点散布図でサンプルの関係を確認する 分散変更 主成分得点の分散をλか 1.0 に設定する. 変数登録 主成分得点をワークシートに登録する.(別の解 析で用いることができるようになる) サンプル名指 定 表示に使用するサンプル名を指定する. 強調表示 強調表示の On/Off.絶対値が基準値以上の主成分 得点だけを出力して,サンプルの解釈をしやすく する. オプション 出力する主成分得点や強調表示の基準値を設定す る. クラスター分 析 求まった主成分得点を用いてクラスター分析を行 う. 回帰分析 主成分を説明変数とした回帰分析を行う. 散布図行列 主成分得点の散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. 主成分得点散 布図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に使用するサンプル名を指定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する.また,マスク したデータを散布図に表示することができる. クラスター分 析 求まった主成分得点を用いてクラスター分析を行 う. マーキング表 示 マーキング設定をしたプロットを強調表示する. 三次元図 軸の変更 主成分得点の三次元図の軸となる主成分を変更す る. 係数 主成分得点を求めるための,元の変数に対する係 数を確認する. 同時布置図 同時布置図行 列 因子負荷量または固有ベクトルと主成分得点の同 時布置図(得点布置図)により,サンプルの特徴 を変数の位置関係と重ねて解釈する. 1.1 主成分分析とは拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. 同時布置図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に使用するサンプル名を指定する。 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する.ワークシート 上でマスクしたデータがあれば,散布図に表示す ることができる. クラスター分 析 求まった主成分得点を用いてクラスター分析を行 う. マーキング表 示 マーキング設定をしたプロットを強調表示する. 1.2 手法の選択 選択方法 [手法選択]-[多変量解析]-[主成分分析] 1.3 変数の指定 種類 変数の数 操作 解析対象 量的変数 2~256 解析対象(x)とする変数を選択して「解析対象」リス トの左側の[>]ボタンをクリック. サンプル名 サンプル名 1(0 可) サンプル名をリストより選択. サンプル名を指定した場合,散布図のプロット点に表示することができます.なお,層別に用いる変数は ここでは指定せず,解析結果の散布図画面において指定します. 1.4 出発行列 1.4.1 出発行列の指定 手法「主成分分析」の起動後や,「出発行列」タ ブで,出発行列を指定できます. 変数間の測定単位が異なっている場合に は相関係数行列を選択します.分散共分 散を出発行列にする場合は,各変数のデ ータが共通の単位をもっている場合に限 ります. 1.5 主成分数 固有値タブでは,第 k 主成分が元の変数の何個分 の情報量を持っているかを示します.出発行列が 相関係数行列の場合,固有値の合計は変数の数と 同じになります. 第 k 主成分の寄与率は,(第 k 主成分の固有値/ 元の変数の数)で計算され,第 k 主成分が全体の もつ情報のどの程度を要約したかを示す指標です. 例えば,第 1 主成分の固有値の値が 2.7 で寄与率 が 0.39 であれば,第 1 主成分が元の変数の 2.7 個 分の情報を持っており,全体の持つ情報の 39%を 要約していることが分かります. 1.1 主成分分析とは 1.2 手法の選択 1.3 変数の指定 1.4 出発行列 1.5 主成分数
主 成 分 分 析 P A R T 9
第
1
章
1.5.1 解析で用いる主成分の数の決定 ■起動方法 ツールボタン「主成分数変更」クリック. 累積寄与率が 80%以上の主成分まで,固有値が 1.0 以上の主成分までなどが,どこまでの主成分を用 いるかを決める目安となります. 一般的には上位数個の主成分がその後の解析で用 いられます.ただし,寄与率が低い主成分でも, 元の変数の特異な特徴を有していることがあるの で,こちらを重要視する場合もあります. 1.5.2 固有ベクトルの確認 ■起動方法 タブ「固有ベクトル」クリック. 固有ベクトルは,その主成分を定める際の基準化 した変数に対する係数で,主成分に対する各変数 のウェイト(重み)を表しています. 例えば,上図からは, 主成分 1 の主成分得点=0.499×フロント(基準化) +0.432×清潔(基準化)+…+0.494×総合満足度(基 準化) が読み取れます. よって固有ベクトルの要素の値の正負や絶対値の 大きさを,他の要素と相対的に比較することによ り,主成分の解釈が可能です. 1.5.3 主成分得点の係数の確認 ■起動方法 タブ「係数」クリック. 係数タブでは,主成分得点を特性値(y)にして, 元の変数(x1,x2,…)の線形結合として得られる 係数を確認できます. 例えば,上図からは, 主成分 1 の主成分得点=-5.770+0.293×フロント +0.251×清潔+…+0.319×総合満足度 が読み取れます. ただし,元の変数の係数そのものには意味がない ので,通常,この係数は主成分の解釈には用いず, 基準化した変数の係数である固有ベクトルの方を 解釈に用います. 1.6 因子負荷量 因子負荷量は主成分と元の変数との相関係数で -1.0~1.0 の値を取ります.因子負荷量の値の大 きさや符号(正負)から,変数間の関係や主成分 軸を解釈することができます. 第 k 主成分の寄与率は,(第 k 主成分の固有値/ 元の変数の数)で計算され,第 k 主成分が全体の もつ情報のどの程度を要約したかを示す指標です. 累積寄与度は現在使っている主成分までで,元の 変数の情報をどの程度持っているかを示す指標で す. ~因子負荷量と固有ベクトルの違い~ 因子負荷量は,主成分と元の変数との相 関関係で,固有ベクトルとほぼ同等な意 味を持ちつつ,要素の値としても意味を 持ちます.ただし,因子負荷量は固有ベ クトルの各要素を固有値の平方根倍した ものなので,固有ベクトルの各要素の比 例関係は因子負荷量でも成り立ちます. 固有ベクトルと因子負荷量は解釈しやす い方を使ってください. 1.5 主成分数 1.6 因子負荷量1.6.1 符号反転 ■起動方法 変数の列を選択してから,ツールボタン「符号反 転」クリック. 初期設定では,各主成分の因子負荷量は絶対値最 大の数値が正になるように調整してありますが, 因子負荷量の符号を反転しても数学的な意味は変 わりません.そこで,軸の解釈が分かりやすいよ うに因子負荷量の符号を反転させることがありま す. 1.6.2 強調表示 ■起動方法 1.ツールボタン「強調表示」クリック. 2.強調表示の基準値や色を変更したい場合は, ツールボタン「オプション」内で設定する. 大きな値の因子負荷量を着色することによって, 主成分の解釈をしやすくします. 1.6.3 因子負荷量散布図 ■起動方法 タブ「散布図行列」クリック. 主成分間の因子負荷量を散布図で表します. 以下の方法で特定の 1 つの散布図を拡大できます. ・散布図をダブルクリックする ・散布図を選択してから「拡大」ボタンを押す ・散布図を選択してから「因子負荷量散布図」タ ブに移る 因子負荷量の散布図の目盛は縦軸,横軸とも-1.0 ~1.0 となっており,図上に半径 1.0 の円弧が描 かれています.円周に近くプロットされる変数ほ ど該当する主成分にとっては寄与が大きく,相関 が強く重要なものであるとみなされます. 各プロット間の距離(近さ加減)や方向などの位 置関係の認識も重要です.変数同士のグルーピン グなどに利用することもできます. 散布図の中心近傍にあるプロット,項目について は,取り上げる主成分軸を変えて確認してみて下 さい. 1.6.4 データ探索 ■起動方法 1.散布図上で探索したいデータを矩形で囲む 2.ツールボタン「データ探索」クリック. 1.6 因子負荷量
主 成 分 分 析 P A R T 9
第
1
章
矩形で囲まれた範囲内にあるデータの座標(x,y) が表示されます.そのデータの項目名を非表示に したい場合は「項目表示/解除」を押します. 1.6.5 三次元図 ■起動方法 タブ「三次元図」クリック 3 つの主成分の関係を確認するために,因子負荷 量や主成分得点の三次元図を表示できます. 回転ボタンを押したり,マウスでドラッグするこ とにより,三次元図を回転できます. 1.7 主成分得点 主成分得点の値を求め,その値を一覧表や散布図 にしてグルーピングを行い,サンプルの特徴を固 有技術的に考えます. 各主成分において主成分得点の絶対値が大きい特 徴的なサンプルに注目することが大切です.その ためには出力基準値を変更したり強調表示を行い ます. 1.7.1 出力サンプルの絞り込み ■起動方法 1.ツールボタン「オプション」クリック. 2.出力基準値を設定する. 1 つでも出力基準値以上の値を持った主成分があ るサンプルが出力されます. なお,ここで出力したサンプルのみが,散布図上 に表示されます. サンプル数が 99 以下の場合は,0.0,サ ンプル数が 100 以上の場合は 2.0 などの 基準値を使って,特徴的なサンプルを確 認するとよいでしょう. 1.7.2 強調表示 ■起動方法 1.ツールボタン「強調表示」クリック. 2.強調表示の基準値や色を変更したい場合は, ツールボタン「オプション」内で設定する. 大きな値の主成分得点を着色することによって, サンプルの解釈をしやすくします. 1.7.2 主成分得点の分散の変更 ■起動方法 ツールボタン「分散変更」クリック. 主成分得点の分散を主成分の固有値λにするか 1.0 にするかを設定します.ここで,分散を 1.0 にした場合は因子負荷量,分散をλにした場合は 固有ベクトルが,同時布置図にベクトル表示され ます. 1.6 因子負荷量 1.7 主成分得点1.7.3 主成分得点散布図 ■起動方法 タブ「散布図行列」クリック. 主成分間の主成分得点を散布図で表します. 散布図の拡大方法は,「因子負荷量散布図」とほ ぼ同様です. 主成分得点散布図では,サンプルのグルーピング や特徴付け,外れ値のサンプルなどを検討します. グラフの初期目盛は,X軸,Y軸の主成分得点の うち,絶対値が最大の値を共通の目盛として設定 しています. 1.7.4 データ探索 ■起動方法 1.散布図上で探索したいデータを矩形で囲む 2.ツールボタン「データ探索」クリック. 矩形で囲まれた範囲内にあるデータの座標(x,y) が表示されます.そのデータの番号を表示したい 場合は「番号表示/解除」を押します. 1.7.5 探索したデータのマーキング ■起動方法 1.散布図上で探索したいデータを矩形で囲む 2.ツールボタン「データ探索」をクリックし, 「マーキング」ボタンを押す. 3.ツールボタン「マーキング」クリック 1.7 主成分得点
主 成 分 分 析 P A R T 9
第
1
章
1.7.6 層別 ■起動方法 1.ツールボタン「層別」クリック. 2.層別に用いる質的変数を選択する. 主成分得点の散布図を任意の質的変数で層別する ことによって,データのバラツキの要因分析がで きます. 1.7.7 軸の回転 主成分は総合指標を表わしますが,総合指標には びます)が含まれる場合があります.このとき, 軸を,(総合指標である主成分ではなく)それら のサブ指標にとった方が,軸の意味付けやそれに 基づくサンプルの特徴付けをし易い場合がありま す.主成分軸の回転を行うことにより,このよう な(サブ指標に対応した)軸が得られ,データの 解釈がし易くなる可能性があります. 例えば,変数「50M 走(m/秒)」,「走り幅跳 び(cm)」,「背筋力(kg)」,「握力(kg)」 に対して主成分分析を行うと,下図の因子負荷量 散布図が得られます. 1.0 -1.0 -0.5 0.0 0.5 -1.0 -0.5 0.0 0.5 1.0 1.0 -1.0 -0.5 0.0 0.5 -1.0 -0.5 0.0 0.5 1.0 背筋力 握力 50M走 走り幅跳び 背筋力 握力 50M走 走り幅跳び 主成分2 主成分1 因子負荷量散布図 この因子負荷量散布図より,例えば,第一主成分 軸(横軸),第二主成分軸(縦軸)は,それぞれ 以下のような意味を持つ軸として解釈できます; 第一主成分軸:総合的な運動能力 第二主成分軸:筋力が優れているか,走力が優れ ているか 一方,規準化バリマックス回転により,軸の回転 を行うと,下図の因子負荷量散布図が得られます. 1.0 -1.0 -0.5 0.0 0.5 -1.0 -0.5 0.0 0.5 1.0 1.0 -1.0 -0.5 0.0 0.5 -1.0 -0.5 0.0 0.5 1.0 背筋力 握力 50M走 走り幅跳び 背筋力 握力 50M走 走り幅跳び 因子2 因子1 回転後の因子負荷量散布図 この回転後の因子負荷量散布図より,例えば,回 転後の横軸,縦軸は,それぞれ以下のような意味 を持つ軸として解釈できます; 横軸:走力の優劣 縦軸:筋力の優劣 1.7 主成分得点釈したい場合は回転前の軸(主成分軸)を使用す るのが好ましく,“総力”・“筋力”という 2 つ のサブ指標でデータを解釈したい場合は回転後の 軸を使用するのが好ましいということになります. 回転後の軸は“主成分”を表しません. そのため本システムでは,便宜上,回転 後の軸を“因子”と表記します. 1.7.8 規準化バリマックス回転 ■起動方法 1.ツールボタン「軸の回転」クリック. 2.回転の種類で「規準化バリマックス回転」を 選択し,回転させる主成分を左下のリストから, 右下のリストに移動させる. 規準化バリマックス回転では,回転後の因子負荷 量の分散が最大となるように主成分軸を回転(直 交回転)します.因子負荷量の分散を大きくする ということは,各軸に対し,その軸と関係が強い 観測変数はより強くなるように,関係が弱い観測 変数はより弱くなるようにすることを意味します. よって,規準化バリマックス回転により,各観測 変数が特定の軸とのみ強い関係を持つ傾向を持つ ような,シンプルな構造が得られます. なお,指定した主成分(右側のリストの主成分) に対し,「回転」列のチェックを外すと,その主 成分は回転せずにそのまま回転後の結果表示画面 に出力されます. 1.7.9 角度を指定した回転 ■起動方法 1.因子負荷量散布図のツールボタン「軸の回転」 クリック. 2.回転の種類で「角度の指定」を選択し,角度 を入力する. 因子負荷量散布図の 2 つの主成分軸の組み合わせ に対し,ユーザーが指定した角度だけ軸を回転し ます.このとき,「プレビュー」ボタンを押すと, 回転後の因子負荷量散布図を確認できます なお,角度の指定による回転を行う場合,回転で きる主成分は,因子負荷量散布図の横軸,縦軸の 2 つの主成分のみです.それ以外の主成分を指定 することも可能ですが,回転はできません. 別の 2 つの主成分を回転させたい場合は,一旦「散 布図行列」タブに戻り,回転させたい 2 軸を持つ 散布図を選択してから,「因子負荷量散布図」を 表示して,同様の操作を行います. 1.8 同時布置図 主成分得点の散布図上に,因子負荷量(主成分得点 の分散が固有値λの場合)を,中心からの矢印で重 ね描きした同時布置図を表示します. 主成分得点 の分散を 1.0 に設定していた場合は,主成分得点 の散布図上に固有ベクトルを重ね書きします. 同時布置図上のサンプルや変数の相対的 な位置関係によって,サンプルの特徴を 解釈します. 1.7 主成分得点 1.8 同時布置図
主 成 分 分 析 P A R T 9
第
1
章
①サンプルの主成分得点の大きさや符号 (正負)により,サンプルの性質を解釈 する.なお,原点付近にあるサンプルは 取り上げた主成分からは平均的な性質で ある.一方,原点から離れているサンプ ルや変数は,取り上げた主成分による説 明力が強い. ②近傍にあるサンプル同士は似たような 性質を持っている. ③原点に対して反対側に位置するサンプ ル同士は,異なる(反対の)性質を持っ ていることになる. ④取り上げたサンプルの近傍に変数(固 有ベクトルの矢印)がプロットされてい る場合にはそのサンプルは,変数と近い 性質を持っている. (ある変数のベクトルを原点の反対方向 まで延ばし,いくつかのサンプルをその 直線上に垂直におろした(投影した)場 合の原点からの距離と変数の位置関係で 性質を解釈できる) ⑤以上の結果に対し,固有技術的な考察 を加え解釈する必要がある. 1.8.1 固有ベクトルの表示(分散の設定) ■起動方法 ツールボタン「分散の設定」クリック. 主成分得点の分散を主成分の固有値λにするか 1.0 にするかを設定します.ここで,分散をλに した場合は因子負荷量,分散を 1.0 にした場合は 固有ベクトルが,同時布置図にベクトル表示され ます. 1.8.2 データ探索 主成分得点の「データ探索」を参照. 1.8.3 層別 ■起動方法 1.ツールボタン「層別」クリック. 2.層別に用いる質的変数を選択する. 同時布置図の解釈のポイントに加えて, ⑥あるカテゴリのマークが同時布置図上 のどの辺に分布しているか.(分布の状 態に偏りはないか) ⑦あるカテゴリのマークの分布が,変数 (矢印)との関係で偏っていないか. ⑧固有技術的に見て,上記による特徴は どう解釈できるか. などを考察します. 1.9 他の解析手法との連携 解釈のし易さ等の理由から,観測データではなく, 主成分得点もしくは回転後の因子得点を用いて回 帰分析やクラスター分析を行うことがありますが, 本システムでは ・主成分(因子)を説明変数とした回帰分析 ・クラスター分析による主成分得点(因子得点) に基づくサンプルの分類 を実行することができます. 機能 利用できるシステム画面 回帰分析 因子負荷量 因子負荷量グラフ 主成分得点 主成分得点グラフ クラスター分析 主成分得点 主成分得点グラフ 主成分得点散布図 同時布置図 なお,途中に,説明変数として指定した主成分(因 子)の主成分得点(因子得点)をワークシートに 登録するかどうかの確認メッセージが表示されま す. 1.8 同時布置図 1.9 他の解析手法との連携主成分得点(因子得点)をワークシートに登録し ておくことにより,次回,改めて主成分分析を経 ずに,ワークシート上の主成分得点(因子得点) を使用して,直接回帰分析やクラスター分析など のその他の解析を行う時に行うことができ便利で す. 1.9.1 回帰分析 ■起動方法 1.ツールボタン「回帰分析」クリック. 2.回帰分析の目的変数とする変数 1 個と,説明 変数とする主成分(因子)からを指定. 主成分(軸の回転後の場合は因子)を説明変数と する回帰分析を行うことができます. 本機能については回帰分析の章をご覧ください. 1.9.2 クラスター分析 ■起動方法 1.ツールボタン「クラスター分析」クリック. 2.サンプルの分類で使用する主成分(軸の回転 後の場合は,因子と呼ぶ)を指定. 3.階層的クラスター分析,非階層的クラスター 分析(k-means 法)のどちらかを指定. 主成分得点もしくは回転後の因子得点を用いて, 階層的クラスター分析や非階層的クラスター分析 (k-means 法)により,サンプルの分類(クラス タリング)を行うことができます. 本機能については,クラスター分析の章をご覧く ださい. 解析対象サンプルが 256 より多い場合は 階層的クラスター分析は指定できません また,クラスター分析でクラスタ情報をワークシ ートに保存しておくと,主成分得点散布図や同時 布置図散布図上でクラスタ情報で層別し,クラス タリング結果を確認することができます. 1.9 他の解析手法との連携
数 量 化Ⅲ 類 P A R T 9
第
2
章
第2章 数量化Ⅲ類
2.1 数量化Ⅲ類とは ■目的 数量化Ⅲ類とは,質的データの主成分分析とも呼ばれ,変数相互間の相関構造を分析したり,総合特性値を求 めるための手法です.本システムでは,アイテムカテゴリ型,0-1型,クロス表型の3つのタイプのデータに対し て解析することができます. ■活用場面 ・多数の特性値間に内在する構造を解析する ・サンプルの相対的な布置を確認し分類する ・新しい合成指標の作成する 等 ■データ入力形式 本システムでは,3 つのデータ形式を扱います. データ形式 変数属性 入力形式1 アイテムカテゴリ型 質的変数 入力形式2 0-1型 量的変数 入力形式3 クロス表型 量的変数 アイテムカテゴリ数は最大 600(ただし,1変数あたりカテゴリ数は,最大 24)となっています.なお,データ表に 欠測値があるサンプルはマスクされ,解析対象データから除かれます. 入力形式1:アイテムカテゴリ型データ(アンケート調査結果のまとめの例) 変数名 No 番号 [サンプル名] 質問1 [質的変数] 質問2 [質的変数] 質問3 [質的変数] 質問4 [質的変数] 1 1 1 1 1 3 2 2 1 2 2 2 3 3 1 4 2 1 4 4 1 3 2 3 5 5 1 2 1 2 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 解析する場合には,システム内でバート表に展開してから計算されます. 2.1 数量化Ⅲ類とは入力形式2:0-1型データ(椅子要求品質データ) 変数名 No 番号 [サンプル名] スムーズに 作業できる [量的変数] 収納が容易 である [量的変数] 処分が容易 である [量的変数] 清潔である [量的変数] ・ ・ ・ ・ 1 A 1.0 0.0 0.0 0.0 ・ ・ 2 B 0.0 0.0 0.0 0.0 ・ ・ 3 C 1.0 0.0 0.0 1.0 ・ ・ 4 D 0.0 0.0 0.0 1.0 ・ ・ 5 E 1.0 1.0 0.0 0.0 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 入力形式3:クロス表型データ(年代と好きな食品の関係数) 変数名 No 年代 [サンプル名] 食品A [量的変数] 食品B [量的変数] 食品C [量的変数] 食品D [量的変数] ・ ・ ・ ・ 1 20代 7.0 6.0 13.0 13.0 ・ ・ 2 30代 3.0 1.0 14.0 6.0 ・ ・ 3 40代 10.0 1.0 6.0 5.0 ・ ・ 4 50代以上 2.0 0.0 1.0 4.0 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 解析対象データがクロス表型の場合には,そのままの解析も,クロス表をバート表に展開した表に対して の解析も可能です. ■機能構成 数量化Ⅲ類の機能の多くは主成分分析とほぼ同等のものとなります.各機能については主成分分析の章を 参照してください. 機能 解析操作 内容 変数の指定 解析に用いる変数を指定する. 成分数 固有値 固有値の大きさによって成分が元の変数の何個分 の情報を持っているかを確認する. 成分数変更 解析で用いる成分の数を変更する. 固有ベクトル 固有ベクトルの大きさ,符号で成分軸の意味を掴 む. 並び替え 並び替えられた原データ表を確認する.これによっ て,データパターンの類似や差異を確認する. (2.4) バート表 データ形式がアイテムカテゴリ型の場合に,質的変 数の各カテゴリの度数をマトリックス形式に表示す る. 変数登録 バート表の結果をワークシート上に登録する.(別 の解析で使えるようになる) 変数スコア 変数スコア表 変数スコアグ ラフ ・変数スコアの大きさ,符号で成分の意味を掴む. ・変数スコア散布図で変数の関係を確認する. 成分数変更 解析で用いる成分の数を変更する. 分散変更 変数スコアやサンプルスコアの分散をλか 1.0 に 設定する. 2.1 数量化Ⅲ類とは
数 量 化Ⅲ 類 P A R T 9
第
2
章
符号反転 選択した成分の変数スコアの符号を反転し,解釈 をしやすくする.(初期表示では,成分ごとに絶 対値が大きいものを正としている) 変数登録 変数スコアをワークシートに登録する.(別の解 析で用いることができるようになる) オプション 変数スコアの絶対値が基準値以上のセルを着色す る. 散布図行列 変数スコアの散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,プロットの位置関係を比較しや すくする. 変数スコア散 布図 データ探索 選択した範囲内にあるプロットの項目名の表示/ 非表示を設定する. 成分名称 成分の名称を設定する. オプション 目盛や表示する項目名を設定する. 三次元図 軸の変更 変数スコアの三次元図の軸となる成分を変更す る. 累積寄与度 累積寄与度グ ラフ 各成分の元の変数に対する寄与度を表示し,成分 と元の変数の関連性を確認する. オプション 表示形式やグラフ名称を変更する. サンプルスコ ア サンプルスコ ア表 サンプルスコ アグラフ サンプルスコア散布図でサンプルの関係を確認す る 分散変更 変数スコアやサンプルスコアの分散をλか 1.0 に 変更する. 変数登録 サンプルスコアをワークシートに登録する.(別 の解析で用いることができるようになる) サンプル名指 定 表示に使用するサンプル名を指定する. 強調表示 強調表示の On/Off.絶対値が基準値以上の主成分 得点だけを出力して,サンプルの解釈をしやすく する. オプション 出力するサンプルや強調表示の基準値を設定す る. 散布図行列 サンプルスコアの散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. サンプルスコ ア散布図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に使用するサンプル名を指定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する.また,マスク したデータを散布図に表示することができる. マーキング表 示 マーキング設定をしたプロットを強調表示する. 2.1 数量化Ⅲ類とは三次元図 軸の変更 サンプルスコアの三次元図の軸となる成分を変更 する. マスクデータ 予測 ワークシート上で前もってマスクしたサンプルデ ータに対し,既に求めてある成分式で計算し,プ ロットする.特異データの一時的な除去とその再 配置,複数グループ(例えば男女)の対比分析, 判別時利用法など種々な応用事例に使える. 同時布置図 同時布置図行 列 変数スコアとサンプルスコアの同時布置図によ り,サンプルの特徴を変数の位置関係と重ねて解 釈する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. 同時布置図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に使用するサンプル名を指定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名とサンプル名を設定する. グループを設定すると,グループことにプロット を結線することができる. マーキング表 示 マーキング設定をしたプロットを強調表示する. 2.2 手法の選択 選択方法 [手法選択]-[多変量解析]-[数量化Ⅲ類] 2.3 変数の指定 種類 変数の数 操作 解析対象 量的変数 2~1000(0-1 型,クロ ス表型)または 質的変数 2~1000(総計 600 ア イテムカテゴリ内)(アイテム カテゴリ型) 解析対象(x)とする変数を選択して「解析対象」リス トの左側の[>]ボタンをクリック. サンプル名 サンプル名1(0 可) サンプル名をリストより選択. サンプル名を指定した場合,散布図のプロット点に表示することができます.なお,層別に用いる変数は ここでは指定せず,解析結果の散布図画面において指定します. 2.4 並び替え ■起動方法 「成分数」グループの「並び替え」タブクリック. 数量化Ⅲ類では,チェック(1 の値)が対角線上に集 まるように行と列をうまく並び替え,反応の似た変数 や反応の似たサンプルが近くになるように配置して います.これにより,サンプルや変数のグルーピング を行います. 本画面では,右上のリストで指定した成分について, 並び替えられた原データ表が確認できます.データ 構造が近いサンプルや変数は近くに位置づけられ, サンプルや変数のグループ化に重要な情報を与え 2.1 数量化Ⅲ類とは 2.2 手法の選択 2.3 変数の指定 2.4 並び替え
数 量 化Ⅲ 類 P A R T 9
第
2
章
ます. 2.5 同時布置図 ■起動方法 「同時布置図」グループクリック. 変数スコアとサンプルスコアを1画面上に布置し,サ ンプルと変数,カテゴリの対応関係など相互関係を 観察することができます. 変数スコア,サンプルスコアにおいて,各成分軸の 正,負の意味を考慮して下さい. なお,オプションで,結線処理を「する」に設定する と,変数間あるいは同一アイテムのカテゴリ間を線で 結ぶことによって,同一グループのパターンを観察 することができます. 線で結ぶ変数に対し,同一グループ番号(1以上)を 入力すると,次図のように該当するカテゴリのみ結線 した同時布置図が表示されます.例えば年代順,男 女,アンケートの回答コード順など結線すると他のプ ロットとの比較が容易に行えます. 2.4 並び替え 2.5 同時布置図因 子 分 析 P A R T 9
第
3
章
第3章 因子分析
3.1 因子分析とは ■目的 因子分析は,心理学における統計的方法として発達し,その後,マーケティング,医学,生物学,経済学,教 育学などに応用されるようになりました.その根本的な考えは,種々な現象も,さまざまな変動における少数個 の潜在因子によって説明されるという原則的な理解にもとづいています. すなわち,2つの変数xjとxkとの間に相関があるのは,その両者に影響を及ぼすいくつかの共通因子がある からであり,その相関が完全に±1にならないのは,両変数それぞれ個別に影響を及ぼす独自因子があると 考えます. 因子分析の目的は,この少数個の潜在因子を探索しようとするものです. 因子分析では,得られたデータと潜在因子との間に統計モデルを想定します.すなわち(すでに標準化済)p 個の変数xi*(i=1,…, p)は,m個の共通因子 f1, f2,…, fmおよび独自因子,εi(i=1,…, p)の線形結合で表現さ れます. 因子モデル式は x1*= a11f1 + a12f2 +…+ ak1fk +…+ am1fm +ε1 x2*= a12f1 + a22f2 +…+ ak2fk +…+ am2fm +ε2 : xp*= a 1pf1 + a2pf2 +…+ akpfk +…+ ampfm +εp です.ここで,akj(k=1,…, m; j=1,…, p) は変数xj*の潜在的な共通因子f kに対する係数で,因子負荷量(行列) と呼ばれています. また,各サンプルk{k=1,…, n} に対する f1 , f2 ,…, fmの値 f1k, f2k,…, fmkを求め,因子得点と呼びます. f1k= b11・x1* + b12・x2* +…+ b1p・xp* f2k= b21・x1* + b 22・x2 * +…+ b 2p・xp* : fmk= bm1・x1* + b m2・x2 * +…+ b mp・xp* {ここで,(bij)= A・ R-1, A=(Aij):因子負荷量行列,R:元データの相関行列} このモデルにおいて実際に観測されるのは左辺のxi*だけであり,右辺の因子負荷量 a kj(k=1,…, m; j=1, …, p),共通因子 f1, f2,…, fm,独自因子ε1,ε2,…, εpはすべて未知であり,種々の仮定の下に求めることに なります. 因子分析と比較される主成分分析では, f1 = c11・x1 + c12・x2 +…+ c1m・xm f2 = c21・x1 + c22・x2 +…+ c2m・xm : fp = cp1・x1 + cp2・x2 +…+ cpm・xm として,主成分得点f1, f2,…, fpが求められるが,(顕在)変数x1, x2,…, xmの線形結合で表現されます. 本システムでは各変数の因子負荷量や各変数の独自因子の大きさを推定する方法として主因子法,及び最 尤法で行なっていますが,どの方法を使うかによって結果が大きくかわることも少なくありません. また,因子軸の回転は規準化バリマックス回転を用いています. 因子分析では事前に共通因子の数(成分の数)を指定する必要があり,因子分析の結果は,共通因子の数 によって大幅に変わります.共通因子の数の目安として固有値の大きさが1以上の因子の数を指定するのも 一つの方法です.いずれにせよ独自因子の大きさの推定方法と共通因子の数によって,結果が異なることを 3.1 因子分析とは踏まえ,適切な使い方をする必要があります. ■活用場面 ・現象を表す特性値がたくさんある場合,少数個の潜在因子を見つける ・サンプル(人や部品)の特徴をみるために散布図上にマッピングする 等 ■データ入力形式 本システムで扱えるのは,サンプル名が1個,量的変数が 2~256 個までです.必要に応じて,層別のため の質的変数も入力します.(質的変数を用いると,因子得点散布図や同時布置図のプロットで,記号が質 的変数のカテゴリーで区別され表示されます.) なお,データ表に欠測値があるサンプルはマスクされ,解析対象データから除かれます. (サンプル名) [サンプル名] (フロント-スムーズさ) [量的変数] (フロント-係の対応) [量的変数] … (食事―係の対応) [質的変数] サンプル 1 4 4 … 4 サンプル 2 3 2 … 3 サンプル 3 4 4 … 3 : : : : : ■機能構成 因子分析の機能の多くは主成分分析とほぼ同等のものとなります.各機能については主成分分析の章を参 照してください. 機能 解析操作 内容 変数の指定 解析に用いる変数を指定する. 解析条件の設定(3.4) 因子負荷量の推定方法や因子の数,収束判定基準 値を設定する. 因子数 固有値の大きさによって因子が元の変数の何個分 の情報を持っているかを確認する. 固有値 因子数変更 解析で用いる因子の数を変更する.(3.5) 軸の回転 回転の有無(回転なしか,規準化バリマックス回 転)を設定.(3.7) 固有ベクトル 固有ベクトルの大きさ,符号で軸の意味を掴む. 出発行列 強調表示 出発行列を確認する.相関係数の絶対値の大きな ものは着色できる. 基準化データ 変数ごとに基準化したデータを確認する. オプション 出力するサンプルや強調表示の基準値を設定す る. 変数登録 規準化データをワークシートに登録する.(別の 解析で使えるようになる) 係数 因子得点を求めるための,元の変数に対する係数 を確認する. 因子負荷量 (3.6) 因子負荷量 因子負荷量グ ラフ ・因子負荷量の大きさ,符号で軸の意味を掴む. ・因子負荷量散布図で変数の関係を確認する. 因子数変更 解析で用いる因子の数を変更する. 符号反転 選択した変数の因子負荷量の符号を反転し,解釈 をしやすくする. ソート 因子負荷量でソートを行う. 因子名称 因子の名称を設定する. 変数登録 因子負荷量をワークシートに登録する.(別の解 3.1 因子分析とは
因 子 分 析 P A R T 9
第
3
章
析で用いることができるようになる) 軸の回転 回転の有無(回転なしか,規準化バリマックス回 転)を設定.(3.7) 強調表示 強調表示の On/Off.大きな値の因子負荷量を着色 することによって,因子の解釈をしやすくする. オプション 表示する統計量や強調表示の基準値を設定する. 回帰分析 因子を説明変数とした回帰分析を行う. 散布図行列 因子負荷量の散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,プロットの位置関係を比較しや すくする. 因子負荷量散 布図 データ探索 選択した範囲内にあるプロットの項目名の表示/ 非表示を設定する. 因子名称 因子の名称を設定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する. 三次元図 軸の変更 因子負荷量の三次元図の軸となる因子を変更す る. 累積寄与度 累積寄与度グ ラフ 各因子の元の変数に対する寄与度を表示し,因子 と元の変数の関連性を確認する. オプション 表示形式やグラフ名称を設定する. 因子得点 因子得点 因子得点グラ フ 因子得点散布図でサンプルの関係を確認する 変数登録 因子得点をワークシートに登録する.(別の解析 で用いることができるようになる) サンプル名指 定 表示に使用するサンプル名を指定する. 強調表示 強調表示の On/Off.絶対値が基準値以上の因子得 点だけを出力して,サンプルの解釈をしやすくす る. オプション 出力する因子得点や強調表示の基準値を設定す る. クラスター分 析 求まった因子得点を用いてクラスター分析を行 う. 回帰分析 因子を説明変数とした回帰分析を行う. 散布図行列 因子得点の散布図一覧を確認する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. 因子得点散布 図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に使用するサンプル名を指定する. 軸の変更 X 軸と Y 軸を変更する. 3.1 因子分析とはオプション 目盛や表示する項目名を設定する.また,マスク したデータを散布図に表示することができる. クラスター分 析 求まった因子得点を用いてクラスター分析を行 う. マーキング表 示 マーキング設定をしたプロットを強調表示する. 三次元図 軸の変更 因子得点の三次元図の軸となる因子を変更する. 同時布置図 同時布置図行 列 因子負荷量と因子得点の同時布置図により,サン プルの特徴を変数の位置関係と重ねて解釈する. 拡大 選択した散布図を拡大表示する. オプション 散布図の並び順を変更したり,特定のプロットを マーキングして,位置関係を比較しやすくする. 同時布置図 データ探索 指定した範囲内のプロットの番号表示やマーキン グを設定する. 層別/ 層別解 除 質的変数を指定し,層別散布図で各カテゴリの特 徴を把握する. サンプル名指 定 表示に利用するサンプル名を指定する. 軸の変更 X 軸と Y 軸を変更する. オプション 目盛や表示する項目名を設定する.ワークシート 上でマスクしたデータがあれば,散布図に表示す ることができる. クラスター分 析 求まった因子得点を用いてクラスター分析を行 う. マーキング表 示 マーキング設定をしたプロットを強調表示する. 3.2 手法の選択 選択方法 [手法選択]-[多変量解析]-[因子分析] 3.3 変数の指定 種類 変数の数 操作 特性値 量的変数 2~256 特性値(x)とする変数を選択して「特性値」リストの 左側の[>]ボタンをクリック. サンプル名 サンプル名1(0 可) サンプル名をリストより選択. サンプル名を指定した場合,散布図のプロット点に表示することができます.なお,層別に用いる変数は ここでは指定せず,解析結果の散布図画面において指定します. 3.4 解析条件の指定 因子負荷量を推定するための代表的な方法として, 「主因子法」,「最尤法」が選択できます.初期値は主 因子法,因子数 3,反復計算の収束条件 0.0001 とな っています.但し,変数の数が 2 個の場合は,因子 数は 2 に設定されます. ・主因子法 因子の抽出に際して相関係数行列または残差行 列の共通性に対する寄与が最大になるように因子を 求める方法. ・最尤法 尤度関数が最大化になるように因子負荷量を推 定する方法. 3.1 因子分析とは 3.2 手法の選択 3.3 変数の指定 3.4 解析条件の指定
因 子 分 析 P A R T 9
第
3
章
両方法とも,反復計算して解を求めてい ます.一般的に最尤法の方が推定精度が 良くなりますが,データによっては(残 差分散が負になり)不適解になることが あります.そういう場合は主因子法を用 います. また,ここで設定する因子数は,反復計算をするに あたっての初期値です.解析にいくつの因子を使用 するかは,求まった固有値の方を参考にします. 3.5 因子数の変更 ■起動方法 1.「因子数」グループの「固有値」タブクリッ ク. 2.ツールボタン「因子数の変更」クリック. 「固有値」タブでは,解析に使用する因子数を変更 することができます.因子の数を決める場合,固有値 が 1.0 より大きい値の数を参考にします. 3.6 因子負荷量 ■起動方法 「因子負荷量」グループの「因子負荷量」タブク リック. 因子負荷量は元の変数 x と仮想的な共通因子 f の間 の相関係数のことです.共通度(各変数ごとの因子 負荷量の2乗和)が大きい程,共通因子で説明され る割合が大きくなります.この値は,元の変数 x を目 的変数,仮想的な共通因子f1,f2,…,fnを説明変数 と考えたときの重相関係数の2乗(R2)に等しくなりま す.また,寄与率は全体の分散の和の中で占める各 因子の割合を示します.寄与率の和が全体の中で 占める共通因子によって説明される割合を表してい ます. もとの変数に対し,各因子の因子負荷量や残差分散, 共通度が表示され,各因子には2乗和と寄与率も計 算されます.なお,規準化バリマックス回転後の残差 分散は表示されません.各因子の解釈は,因子負荷 量の符号と大きさによって解釈します. また,得られた因子負荷量行列のままで解釈しにく い場合は,規準化バリマックス回転を行います.本シ ステムでは初期表示で,規準化バリマックス回転を 行っています. 3.7 軸の回転 ■起動方法 1.「因子数」グループの「固有値」タブか,「因 子負荷量」グループの「因子負荷量」タブクリッ ク. 2.ツールボタン「軸の回転」クリック. 規準化バリマックス回転を行うか,回転を行わな いかを設定します. 因子分析の解には,因子軸の回転による不安定性 があるので,解釈のしやすいように座標軸を回転す ることがあります.因子の解釈のためには,いくつか の変量の因子負荷量の絶対値が大きく,残りの変量 の因子負荷量がゼロに近い形が理想的なので,そ のような因子負荷量を多く得るために,直交回転とし ての規準化バリマックス回転を行います. 規準化バリマックス回転では,回転後の因子負荷 量の分散が最大となるように軸を回転(直交回転) します.因子負荷量の分散を大きくするというこ とは,各軸に対し,その軸と関係が強い観測変数 はより強くなるように,関係が弱い観測変数はよ り弱くなるようにすることを意味します.よって, 規準化バリマックス回転により,各観測変数が特 定の軸とのみ強い関係を持つ傾向を持つような, シンプルな構造が得られます. 規準化バリマックス回転については主成分分析の 「軸の回転」の項も参照してください. 3.4 解析条件の指定 3.5 因子数の変更 3.6 因子負荷量 3.7 軸の回転判 別 分 析 ・ 数 量 化Ⅱ P A R T 9
第
4
章
第4章 判別分析・数量化Ⅱ類
4.1 判別分析・数量化Ⅱ類とは ■目的 判別分析は説明変数 x1,x2,…,xPから目的変数 y を,もっとも良く予測(あるいは判別)す る式を求めるための手法です.この予測式を判別関数と呼び,データの性質によって線形(一次) 判別関数または二次判別関数がよく用いられます.回帰分析では目的変数は量的データであるの に対し,判別分析は目的変数が質的データすなわちカテゴリです.また,判別分析では説明変数 が量的データのみであるのが一般的ですが,本システムでは数量化Ⅱ類を加味し,説明変数とし て量的データと質的データいずれも扱える量質混合型の判別分析を行えるのが特徴です.(二次 判別関数については第 5 章をご覧ください.)なお,説明変数が全て質的データの場合は数量化 Ⅱ類と同じ判別結果(各サンプルの判別)が得られます. 各手法と本システムの表記対応関係,制限事項 判別分析 数量化Ⅱ類 本システム 表記 制限事項 目的変数または群変数 外的基準 目的変数または群変数 質的変数 目的変数の群(カテゴリ) 外的基準のカテゴリ 目 的 変 数 の 群 ( カ テ ゴ リ) 2~4群 説明変数 アイテム またはアイテム変数 説明変数 量的変数 質的変数 説明変数のカテゴリ アイテム・カテゴリ 説明変数のカテゴリ 最大 24 カテゴリ アイテム・カテゴリ数 アイテム・カテゴリ 数 アイテム・カテゴリ数 最大 600 アイテムカテ ゴリ ■活用場面 ・製造条件から製品の合否を予測する(2 群の判別分析) ・試験成績からタイプを分類する(2~4 群の判別分析) ・症状から検査データから不具合モードの診断する(2~4 群の判別分析) 等 ■データ入力形式 下表のような 2 元表形式のデータを入力します.目的変数は質的変数です.2 群の判別分析を おこなう場合はカテゴリを 2 種類,3~4 群の判別分析を行う場合は 3~4 種類を入力してくださ い.説明変数は最大 255 個まで指定でき,量的変数,質的変数いずれを入力しても解析が行えま す.なお,判別分析で解析できる総アイテムカテゴリ数は 600 種類までです.質的変数の各カテ ゴリ,各サンプルのサンプル名には適当な名称を入力しておくと解析時に識別し易くなります. 欠測値のあるサンプルあるいはマスクされているサンプルは解析時に除かれます. (サンプル名) [サンプル名] (電流) [量的変数] (電圧) [量的変数] (速度) [量 的変 数] (欠陥の有無) [質的変数] 1 128 32 86 なし 2 135 31 95 あり 3 126 29 92 なし : : : : : 4.1 判別分析・数量化Ⅱ類とは■機能構成 本システムにおける判別分析・数量化Ⅱ類は以下のような機能で構成されています. 機能 内容 変数選択 判別関数 群間の別れ具合や誤判別率を確認しながら,判別関数に取り入 れる説明変数を検討します. 一般的判定 ジャックナイフ判定 実測値と判別関数で求めた予測値を集計表やグラフなどで比較 します.比較方法として一般的判定やジャックナイフ法判定を 使い,各サンプルの判別結果の正誤を吟味します.また,3,4 群の判別分析では次元の減少による正準判別分析の結果から群 の分かれ具合を確認します. 予測 得られた判別関数に任意値を指定し,予測値を計算します. 4.2 手法の選択 選択方法 [手法選択]-[多変量解析]-[判別分析・数量化Ⅱ類] 4.3 判別関数を求める 判別関数に取り込むべき説明変数はどれか,その判別関数の判別率はどの程度あるかなどを検 討します. D^2(2 群間のマハラノビスの平方距離),D^2 の差(この説明変数を判別関数に取り込む場合, あるいは外す場合のマハラノビスの平方距離の変化量),誤判別率,F 値(この説明変数を判別 関数に取り込む前後での分散比),判別係数(この説明変数の判別係数.一番上の行の数値は定 数項)などの情報をもとに,変数選択をおこないます.選択されている変数行の左端には「IN」 が表示されます. また,現在選択されている説明変数を取り入れた場合の判別関数の良さを判断する基準として, マハラノビスの平方距離(D)^2(判別効率)と誤判別率が表示されます.一般に説明変数が多く 取り込まれた場合は判別効率が過大に評価されてしまうため,説明変数の数の影響を除いた (D')^2(自由度調整判別効率),判別関数に有用でない説明変数を取り込んだ時の影響を除いた (D'')^2(自由度二重調整判別効率)も表示されます. ツールボタン 内容 昇順ソート D^2,D^2 の差,F値の列を選択状態にしてからこのボタン を押すと,その列の値が小さい順に説明変数を並び替えます 降順ソート D^2,D^2 の差,F値の列を選択状態にしてからこのボタン を押すと,その列の値が大きい順に説明変数を並び替えます 変数番号順ソート 説明変数の並び順を変数指定画面で指定した順番に並び替 えます 変数増減法 指定された分散比(F)の基準値をもとに,説明変数を自動 的に判別関数に取り込みます. 全変数選択 変数指定された全ての変数を判別関数に取り込む. 全解除 判別関数に取り込まれた変数を全て解除し,初期状態に戻 る. 4.2 手法の選択 4.3 判別関数を求める
判 別 分 析 ・ 数 量 化Ⅱ P A R T 9
第
4
章
4.3.1 判別関数に取り込む変数の検討 「有用な説明変数は取り入れる」,「判別 率を下げてしまう説明変数は外す」ことで判 別関数の構成内容を検討します. 手動選択をおこなう場合,F値(分散比)や 群間の距離などを参考に,対話的に変数を一 つずつ選択します. どの説明変数を選択すれば良いかの判断基準 としては,一般的には「D^2(群間の距離)が大 きい説明変数」,「F値の大きい説明変数」 などがあります.また,判別関数の良さの判 断基準としては「誤判別率が許容できる程度 かどうか」があります. また実務面から見た場合,まずは「固有技術 に照らして選ばれた説明変数とその判別係数 の大きさや符号の向き(±)が納得のいくもの かどうか」を確認することが重要です.誤判 別率が下がらない場合は,判別関数を構成す る重要な特性(説明変数)が使われていないこ とも考えられますので,データを追加してか ら再び解析を行って下さい. 統計的に精度の高い判別関数を得るためには 多くの説明変数が必要となる場合があります が,実際に判別関数を使う段階になると,そ れらの説明変数について「データをとりやす いかどうか」,「コストはどの程度かかるか」 なども大切な判断基準です. 誤判別率の許容範囲とこれら実際上の制約条 件を加味しながら,どこまで変数選択を行う かを検討して下さい. 3 群,4 群の判別においては,変数を選択した 場合の各2群間の距離の変化量やこれらの距 離の計が表示されます.変数選択の方法とし て, (1) 距離の計の大きい変数から選択する方法 (2) 各変数に対して2群間の距離の変化量に 注目し,さらにその距離が大きい変数か ら選択する方法(リスクを最小化するた めのミニマックス法) などがあります. 4.4 判別関数を確認する 「判別関数」タブでは,求まった判別関数や各種統計量を表示します. 4.5 サンプルの判定をおこなう 一般的判定かジャックナイフ判定かで,サ ンプルを判定します. n個のサンプルから1個を除いたn-1個 のサンプルにもとづいて,判別関数を計算し ます.その関数に,除いたサンプルの値を代 入して,正しく判別されるかどうかを調べま す.1番目のサンプルからn番目のサンプル までを1つずつ,順次除いて計算します. このようにn個のサンプルからn-m(ここ ではm=1)個のサンプルを取り出して解析 する方法を一般的にジャックナイフ法判定と いいます.1つずつ除くので,「1つ取って おき法(leaving-one-out-method)」とも呼 ばれます. 通常の一般的判定方法(判定関数を計算し たデータについて判定力を評価)に比して, ジャックナイフ法のほうが,誤判別の個数が 多くなる傾向があります.その差は,判別関 数に含まれるパラメータ(変数の数)が増え ると大きくなります.通常の方法では,本当 は判別に役立たない変数を取り入れても,誤 判別の個数が減少する場合が少なくありませ 4.3 判別関数を求める 4.4 判別関数を確認する 4.5 サンプルの判定をおこなうん(個数が変化しないことはあっても増加す ることはない).それに対しジャックナイフ 法では,無意味な変数を入れると誤判別率が 増加します. 4.5.1 誤判別表 正答/誤答の数と比率を表示します. 表側(行)が観測された群,表頭(列)が予測さ れた群となります. ここでは, ・現在の判別関数で誤判別率がどの程度なの か ・どちらの群に誤まって判別されてしまうケ ースが多いのか を確認し,許容できる程度かどうかを判断し ます. 「正常」か「異常」かの2群を判別する場合, 「正常であるのに異常であると誤判別する」 と「異常であるのに正常であると誤判別する」 では後者の方が危険であり,これが少なくな るような判別関数を得ることが重要であると 言えます.単に誤判別率の大小を評価するの ではなく,個々の判別傾向についても誤判別 表で確認して下さい. 4.5.2 サンプル表示 各サンプルについて,各群の重心との距離, 確率値,判別の結果などを一覧表示します. 2 群の判別では判別スコアも同時表示されま す. 「確率%」列が淡色表示されているサ ンプルは,『どの群の重心とも大きく 離れているため判別しにくいサンプ ルである』ことを示しています(確率 1%以下). 4.5.3 スコアのヒストグラム 群間の距離や観測値の分布の重なり具合が 確認できます. 4.6 次元の減少を伴う判別分析 目的変数が 3~4 群の場合,「次元の減少を 伴う判別分析」をおこなうことができます. 一般的な判別分析では,各サンプルについて 各群の重心からのマハラノビス距離の平方距 離を求め,最も近い群に判別するような判別 関数を求めました. 次元の減少を伴う判別分析は,群内の分布が p次元の無相関標準正規分布になるような変 換を行い,各群の相互位置が最も鮮明になる ような軸を求めて判別をおこないます. 機能 内容 連関図 正準変量スコアのグラフを表示 し,どの程度判別できているか をグラフで確認します.3 群の場 合の連関図(散布図)では判別 線や判別円を表示することもで きます. 正 準 変 量 ス コ ア 各サンプルの実測値と予測値, 正準変量 Z のスコアを表示しま す. 係数 判別関数の係数を表示します. カ テ ゴ リ ス コ ア グ ラ フ 説明変数として質的変数が選択 されている場合に,変数ごとに 各カテゴリのスコア値を長さで 示します.初期状態では,各変 数について最初のカテゴリを 0 として他のカテゴリのスコアを 相対的に表示します. 4.5 サンプルの判定をおこなう 4.6 次元の減少を伴う判別分析
判 別 分 析 ・ 数 量 化Ⅱ P A R T 9
第
4
章
4.7 判別関数を使って任意サンプルを判 別する 求めた判別関数を使い,任意値による判別 結果の確認(判別や予測),検証用データによ る判別関数の頑健性の確認などに利用します. 任意値を使った対話的な計算を行う場合は (1)任意値による判別 判別関数の頑健性を検証するために検証用 データを使った自動計算を行う場合は (2)マスクデータによる判別 をおこないます. (1)任意値による判別 各説明変数に任意の値を入力します.入力対 象セルをクリックすると画面左上にはその説 明変数の最小値,平均値,最大値が表示され ますので参考にします.ツールボタン[計算開 始]をクリックすると,判別関数による予測値, 判別スコアが表示されます. なお,Excel から説明変数の値をコピーする ことも可能です. (2)マスクデータによる判別 画面右上のリストで「マスクデータ予測」を 選択します. 4.7 判別関数を使って任意サンプルを判別する二 次 判 別 関 数 P A R T 9