2008年度兵庫県立大学公開講座
アンケート調査とデータ解析
JMPによる多変量解析入門
兵庫県立大学
大学院応用情報科学研究科
教授 有馬昌宏
多変量解析とは?
①複数の対象(企業、自治体、人間、製品など)に対して
→ ケース(case)、オブザベーション(observation)、サンプル(sample)
②それらの持つ特性(属性)を測定・観測・調査・記録することによって収集された、
→ 変量(variate)、変数(variable)
③3つ以上の属性に関するデータの集まり(データセット、データベース、データ
ウェアハウス)を対象に、
→ 多変量(multivariate)
④仮説に基づく検証や探索的にデータの持つ特徴を捉えていこうとするプロセスを
通じて、
→仮説(hypothesis)
探索的(exploratory)
⑤問題解決のために有益な情報を引き出そうとする活動を支援するための
⑥統計的手法群
重回帰分析 判別分析 主成分分析 生準相関分析 クラスター分析
数量化理論第Ⅰ類 数量化理論第Ⅱ類 数量化理論第3類
因子分析 潜在構造分析 分散分析 共分散分析 ロジスティック回帰 など
情報とは
• 自然科学分野での最広義の定義
物質=エネルギーの時間的・空間的な、そして定性的・定量的な「パターン」
人間は、自ら情報を生成するとともに、五感を通じて外界からの情報を認識する。• N.Wienerの情報概念
「我々が外界に適用しようと行動し、またその調整行動の結果を外界から感知する
際に、我々が外界と交換するものの内容」
Wiener はCyberneticsの理論の創始者• C.E.Shannonの情報概念
不確実性の量を減らす働きをするもの
不確実性:今、あるシステムにおいて、起こり得る状態として、Z1,Z2,・・・,Znが考えられる が、このうちのどれが実際に起こるかが完全には分からないとき、このシステムは「一定量の 不確実性を持っている」という。 Shannonは通信理論の確立者• A.M.McDonoughによる情報概念
データ:特定の状況において、それらの持つ価値が評価されていないメッセージ 情 報:特定の状況における評価されたデータに対する表示 知 識:情報の概念のより一般的な表現で、知っていることによって役立つ事柄の全般的貯蔵 あるいは蓄積• J.Marschakによる情報概念
不確実性下の意思決定に直面している人間にとって最大期待効用を増大させるもの
多変量解析と多変数解析
• 多変量
解析( multivariate analysis )
z「多変量データ解析」,「多次元データ解析」などの呼称
z統計学,確率論,線形代数などと関連する分野
zデータ解析では変数と変量の区別は曖昧
z複数の変数に関する測定データ(多変量データ行列または
変動行列)を分析
z目的は次元縮小・予測・分類・判別など
• 多変数
解析 ( analysis of several variables )
z
関数解析(複素関数論など)の分野の呼称
データの収集
能動的
検証的
高価
少量
1.実験データ
2.調査データ
3.実績データ
受動的
探索的
安価
大量
実験データ:農業試験,新薬開発(実験計画・小標本)
調査データ:世論調査,社会調査(標本計画・大標本)
実績データ:景気指標,レジ記録(実績蓄積・大規模)
(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)データのタイプ
• 量的変数
(定量データ)
quantitative
z連続変数
(実数)continuous
z離散変数
(整数)discrete
• 質的変数
(定性データ)
qualitative
z分類変数
classification
– カテゴリカルデータcategorical)
z二値変数
binary, dichotomous
– ダミー変数(論理値)0-1型変数
(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)• 数字で表わされるデータが定量的データか?
データのタイプ
• 比率尺度
(比例) ratio
→
C
z絶対温度・身長・体重・金額
(量的・計量)
z属性の強さと変数値が比例関係.0は属性量が「無」を意味.絶対原点をもつ.単位変換
(定数の乗算)y = axが許される。
• 間隔尺度
(距離) interval
→
C
z摂氏,華氏・知能・暦年
(量的・計量)
z属性の強さの差=変数値差.原点に「無」の意味なし.単位と原点の変換(一次変換
y = ax +b)が許される。 (華氏=1.8×摂氏+32)
• 順序尺度
(序数)
ordinal
→ O
z等級・震度・鉱物の硬度
(量的・非計量)
z単調関係.任意の単調変換が許される(大小関係は保存される)。
• 名義尺度
(分類)
nominal
→ N
z都道府県・背番号・銘柄・性別
(質的・非計量)
z対象の質的な差異を示す。
(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)JMPとは?
• 1989年にSAS社上席副社長のJ.P.Sallによって開発された統計
解析パッケージ。
• GUI(Graphical User Interface)を最大限に活用し、J.W.Tukeyの
提唱した探索的データ解析(EDA:Exploratory Data Analysis)を
サポートできるソフト
• Excelによる多変量解析も可能であるが、9,800円のソフト(廉価
版のJMP IN 5)でここまで出来るということを見てしまうと、使わ
ざるを得ない。
• 機能的にはSAS(Statistical Analysis System)に及ばないが、か
なりの基本的手法はカバーしており、操作性ではSASを凌駕。
http://www.jmp.com/japan/product/jmp_high_education_product_comparison.shtml http://www.jmp.com/japan/product/jmp_outline.shtml
JMPがジャンプ?
優れたソフトウェア
JMP + U = JUMP
あなた(You)
• JMPが優れたソフトウェアであっても、分析する者がいなけれ
ば、単にそこにはCD-ROMが置いてあるだけ。
• 「優れたソフトウェアであるJMPに、あなた(you=U)が加わっ
てJMPと対話しながらデータを解析したとき、そのときはじめ
て、JMPとあなたが一緒になってデータからJumpできる」とい
う思いを込めて命名されたとされる。
• 当初の名前は、John‘s Macintosh Product
JMPでのデータ解析
•
使用するデータ
(圓川隆夫、『多変量のデータ解析』、朝倉書店、1988年より)
バッチ番号
y:収率(%)
x1:圧力(気圧)
x2:温度(℃)
1
30.4
14.5
87.6
2
26.5
17.1
89.3
3
29.2
16.5
92.3
4
29.5
15.5
89.2
5
25.9
16.6
87.0
6
29.6
18.8
91.6
7
26.2
19.1
90.0
8
28.1
17.5
91.5
9
31.1
14.6
89.7
10
26.9
16.1
90.5
仮説:ある化学製品の収率は反応過程の圧力と温度で決まるようだ。
エクセルデータの読み込みと尺度の変更
ここをクリックして列情
報で各種の設定
一変量の分布のオプション(1)
• スケールを統一しておくと、分布の比較が容易になる。
• 列の積み重ねで出力の並べ方を変更できる。
• スクリプトをスクリプトウィンドウに保存し、スクリプトに名前をつけて保存
しておくと、実施した分析結果を後で再実行させることができる。
箱ひげ図の見方
外れ値の箱ひげ図
分位点の
箱ひげ図
ヒストグラムの書式設定
ここをダブル
クリック
軸の指定ダイア
ログボックス
モーメントの解釈
• 分散(不偏分散):偏差平方和をN-1で割った値。標準偏差はこの平方根。
• 歪度:0で左右対称、正で右に、負で左に裾が伸びている。
• 尖度:0で正規分布型、正で尖り、負で平坦になっている。
• 変動係数:標準偏差を平均で割り、100を掛けて算出。
平均のひし形
変数間の関係を調べる
• 複数のバーを強調表示するには、Shftキーを押しながら矢印ツール
でクリック。
多変量の相関
計算されるのはPearsonの積率相関
散布図行列
図中で手のひらツールを
動かしてみると?
多変量の相関のオプション
用語や操作が理解できなけれ
ば、ヘルプツールを利用する。
偏相関係数:2変数の間の相関
を、他のすべての変数で調整
して算出したもの。
外れ値分析と投げ縄ツール
• 投げ縄ツールで外れ値をドラッ
グして囲い込み、点を強調表
示できる。複数の範囲を強調
表示する場合は、Shiftキーを
押しながら投げ縄ツールを使う。
強調表示を解除するには、点
のない所を投げ縄ツールで囲
う。
• ラベルにする列は、データ
テーブルウィンドウで、列のラ
ベルあり/ラベルなしで設定。
層別散布図を作成したい場合は
JMPによる多変量解析の実際
-市町村データから地域格差を知る-
指示に従って、
ヒストグラム作成
散布図作成
自治体規模別の指標平均値計算
回帰分析
平均値の差の検定
比率の差の検定
などを実行してみて下さい。
回帰分析
y
=
b
0
+
b
1
x
+ e
従属変数
独立変数
(偏)回帰係数
誤差変数
切片・定数項
直線の式
(回帰直線,回帰式)
母数
直線:y = b
0
+ b
1
x
身長
体重
直線はb
0
とb
1
で決まる
どのように回帰式を選ぶか
最小2乗法
• 残差平方和の最小化
• 符号の問題を解決する
• 2乗すると,大きい残差は,より大きく強調されるので,大きい
残差を排除しようとする
• 代数的(数学的)に扱いやすい
x
b
y
b
s
s
S
S
b
xx
xy
xx
xy
1
0
1
=
=
,
=
−
SSCP
体重
身長
体重
339.600
身長
1832.400
30885.600
COV
体重
身長
体重
37.733
身長
203.600
3431.733
weight
height
148
1615
265
1789
357
1718
467
1795
565
1717
658
1639
763
1700
865
1664
961
1686
1053
1735
mean
60.2
1705.8
var
37.7
3431.7
41
.
003
8
.
1705
0593
.
0
2
.
60
0593
.
0
7
.
3431
6
.
203
6
.
30885
4
.
1832
1
0
1
=
×
−
=
−
=
=
=
=
x
b
y
b
b
予測値 =
切片
+
0.0593
*
身長
残差 =
体重
(実測値) ー 予測値
単回帰分析
寄与率または決定係数
=回帰による変動/全変動
推定された回帰式
確率誤差の標準偏差の推定値
=誤差の平均平方の平方根
回帰式の優位性の検定
F検定とt検定
p値が0.05および0.01
より小さいかどうか?
t値は推定値の標準誤差に対する比率
重回帰分析の手順
①データ入力
②変数の選択と散布図行列の表示
分析 → 多変量 → 多変量の相関
(Y,列に相関関係を見たい変数名を割り当てる)
(Byに変数を割り当てるとその変数で層別の散布図
行列が作成される。)
③散布図を動かしてみる(外れ値の有無や相関関係の確認)
ツール → 手のひらツール
④変数の選択と重回帰分析の実行
分析 → モデルのあてはめ
1)被説明変数(従属変数)を「役割変数の選択」のYに割り
当てる。
2)説明変数(独立変数)を「モデル効果の構成」に追加で
指定する。
3)手法を「標準最小2乗」に設定して、「モデルの実行」を
クリックする。
⑤結果の解釈
1)自由度調整R2乗
2)分散分析のp値 (モデルのF検定)
3)パラメータ推定値のp値の列 (偏回帰係数のt検定)
⑥残差の分析
1)応答Yのプルダウンメニューの「列の保存」 → スチュー
デント化された残差 を選択
2)データテーブルにスチューデント化された残差が記録され
るので、このスチューデント化された残差と各説明変数と
の間の無相関を散布図から確認する。
最小2乗法によるモデルのあてはめの前提
1)誤差項が各ケースで独立
2)誤差項は平均が0で分散は一定
3)誤差項は正規分布に従う
95%信頼区間と平均線の表示
• 図示した95%信頼区間の曲
線が平均線と交わっているか
どうかで、5%有意水準での
回帰式の有意性の検定を視
覚的に行うことができる。
残差分析
• 残差分析(残差=観測値-予測値)
• 残差をプロットすることにより、
①外れ値や異常値のチェックおよびこ
れによる隠された要因の検討
②点の並び方のクセやトレンドから誤
差の等分散性や系列相関、さらに非線
形性のチェック
1)残差のヒストグラムから正規分布に
したがっているといえるか?
2)残差の+と-の符号の数は同数
か?
3)残差の中央値はゼロに近いか?
4)残差と目的変数および説明変数と
の間の散布図から何らかの関係が見
つからないか?
を検討する。
• ダービン・ワトソン比:時系列データの
自己相関のチェックに。2を中心に0か
ら4までの値を取る。
3次元表示で視覚的に確認
手のひらツールで回転させる。
Shift
Alt
の各キーを押しながら
Ctrl
モデルのあてはめ
目的変数
従属変数
被説明変数
決定変数
独立変数
説明変数
あてはめ結果の解釈
①自由度調整R2乗(自由度調整済み決定係数)
②分散分析表によるF検定
(帰無仮説:回帰式は意味をもたない。
(切片を除く全ての回帰パラメータが0である。))
③偏回帰係数のt検定
(帰無仮説:真のパラメータはゼロである。)
残差分析
• 効果の検定は、連続量の
説明変数の場合にはt検定
と同じ。
• 残差分析
製造条件をチェック。
他の要因はないか?
残差と変数との関係
• スチューデント化された残差:i番目
の残差について、i番目の残差を除
いた他の残りの残差から計算された
残差の標準偏差を用いて基準化し
た残差。外的にスチューデント化さ
れた残差とも言う。単に全残差の標
準偏差で基準化された残差を標準
化残差あるいは内的にスチューデン
ト化された残差と言う。
残差と各説明変数との間の関係
スチューデント化され
た残差と説明変数との
間に何の関係も見ら
れないことが望ましい。
てこ比プロット
標準偏回帰係数
• 目的変数と説明変数のそれぞれの
データを標準化してデータテーブル
に保存。
• この標準化されたデータを用いて重
回帰分析を行うと、得られる偏回帰
係数は、ある説明変数が1標準偏差
分だけ変化したとき、目的変数は何
標準偏差分だけ変化するかを示すこ
とになり、説明変数のスケール値や
バラツキの大小には依存しないよう
にして、各説明変数の目的変数への
影響度の比較を行うことができるよう
になる。
• このようにして得られる偏回帰係数を
標準偏回帰係数と呼ぶ。
重回帰分析演習(1)
バッチ番号
y:収率(%)
x1:圧力(気圧)
x2:温度(℃)
x3:酸度(pH)
1
30.4
14.5
87.6
7.5
2
26.5
17.1
89.3
6.9
3
29.2
16.5
92.3
7.2
4
29.5
15.5
89.2
7.4
5
25.9
16.6
87.0
6.5
6
29.6
18.8
91.6
8.2
7
26.2
19.1
90.0
7.3
8
28.1
17.5
91.5
7.8
9
31.1
14.6
89.7
7.0
10
26.9
16.1
90.5
6.7
• 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。
相関分析
偏相関係数
他の変数の影響を取り除いた純粋な
目的変数と1つの説明変数との間の
相関の程度を表す尺度。目的変数と
説明変数を残りの説明変数で回帰式
にあてはめ、それぞれの残差から求
められる相関係数のこと。
結果の解釈
①自由度調整R2乗(自由度調整済み決定係数)
②分散分析表によるF検定
③偏回帰係数のt検定
重相関分析演習(2)
バッチ
番号
y:収率(%)
x1:圧力(気
圧)
x2:温度
(℃)
x3:酸度(p
H)
x4:粘度
1
30.4
14.5
87.6
7.5
6.2
2
26.5
17.1
89.3
6.9
5.5
3
29.2
16.5
92.3
7.2
5.7
4
29.5
15.5
89.2
7.4
6.1
5
25.9
16.6
87.0
6.5
5.0
6
29.6
18.8
91.6
8.2
5.9
7
26.2
19.1
90.0
7.3
5.0
8
28.1
17.5
91.5
7.8
5.7
9
31.1
14.6
89.7
7.0
6.4
10
26.9
16.1
90.5
6.7
5.2
• 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。
結果の解釈
偏回帰係数のt検定結果と偏回帰係数の推
定値はどのように変化しただろうか?
偽相関
• 粘度を目的変数に、圧力と温度と酸度を説明変数に重回帰分析を行ってみよ。
• 同じ説明変数を用いた、収
率を目的変数とした重回帰
分析の結果と比較してみよ。
• 粘度は収率を説明する原
因系の変数ではなく、収率
と同様に圧力と温度と酸度
で説明される結果系の変数
ではないか。
• 収率と粘度との間の高い単
相関は、互いに共通した説
明要因に起因する偽相関
である可能性が強いようだ。
説明変数の選択
•
Principle of Parsimony(ケチの原則)
目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は
高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔
にモデルを記述したいという考え方。
•
有効な変数と不要な変数を選択して、最適な回帰式を求めるには?
•
変数選択の方法
①総当り法
②ステップワイズ法(逐次変数選択法)
1)変数増加法
2)変数減少法
3)変数増減法
4)変数減増法
③対話型変数選択法
説明変数の選択方法の選択
• 方向で選択方法を選択
• SSE:誤差平方和
• DFE:誤差の自由度
• MSE:平均平方誤差
• Cp:MallowのCp基準
• AIC:赤池の情報量基準
AIC=nln(SSE/n)
+2p
AICが最小であるモデ
ルが最良のモデル。
• 経験的にF値が2以上で
あれば有効な変数、2未
満であれば不要な変数と
されている。
多重共線性
• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる
現象。
• 発生する問題
①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能
になってしまう。
②求められた偏回帰係数が、1つのオブザベーションの追加や、ちょっとし
た誤差によって、大きく変化してしまう。
③求められた偏回帰係数の符号が単相関係数の符号と合わない。
④寄与率(決定係数)は高いのに、個々の偏回帰係数は統計的に有意に
ならない。
• 対策
①互いに関係をもった説明変数の一部を除去する。
②多重共線性を弱めるようなデータを追加する。
多重共線性の例
y
x1
x2
x3
1
30
10
20
15
2
32
12
24
17
3
30
14
28
19
4
33
16
32
19
5
30
18
36
22
6
35
20
40
24
7
35
22
44
24
8
37
24
48
25
9
37
26
52
25
10
39
28
56
26
• 以下のデータを用いて重回帰分析を行ってみなさい。(内田他、『すぐわかるJMPに
よる多変量解析』、東京図書、2002年より)
質的変数を含んだ重回帰分析
バッチ
番
号
y:収率(%)
x1:圧力(気
圧)
x2:温度(℃)
x3:酸度(p
H)
x5:原料
1
30.4
14.5
87.6
7.5
A
2
26.5
17.1
89.3
6.9
B
3
29.2
16.5
92.3
7.2
B
4
29.5
15.5
89.2
7.4
A
5
25.9
16.6
87.0
6.5
B
6
29.6
18.8
91.6
8.2
A
7
26.2
19.1
90.0
7.3
B
8
28.1
17.5
91.5
7.8
B
9
31.1
14.6
89.7
7.0
A
10
26.9
16.1
90.5
6.7
B
• これまでのデータには、AとBの異なる原産地からの原料が含まれていることがわかった。
原料の情報を新たな説明変数に加えて重回帰分析を試みよ。
結果の解釈
• Marginal法
結果の違いは?
• Partial法
ダミー変数の作り方
partial法
marginal法
x1
x2
x3
x1
x2
x3
A
1
0
0
1
0
0
B
0
1
0
0
1
0
O
0
0
1
0
0
1
AB
0
0
0
-1
-1
-1
順序尺度の場合のJMP
x1
x2
x3
1
0
0
0
2
1
0
0
3
1
1
0
4
1
1
1
多項式回帰モデルと線形回帰モデル
VTR生産台数
1970
50
1971
49
1972
114
1973
137
1974
124
1975
119
1976
288
1977
762
1978
1470
1979
2199
1980
4441
1981
9498
1982
13134
1983
18217
1984
28611
• 左に示すのは、1970年から1984年ま
での国内VTR生産台数のデータである。
• この生産台数の推移をうまく当てはめる
モデルを推定しなさい。
ヒント
①年の取り方に工夫されたい。
②グラフでプロットしてみて、データの特徴を読み取られたい。
③2次と3次の項を考えなさい。
データ分析の例
店舗名 乗降客数 店の広さ 駐車台数 売上高 小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所:「Lotus1-2-3活用多変量解析」(共立出版)参考文献
•
内野治・松木秀明・上野真由美、『すぐわかるJMPによる統計解析』、東京
図書、2002年。
•
内野治・松木秀明・上野真由美、『すぐわかるJMPによる多変量解析』、東
京図書、2002年。
•
田久浩志・林俊克・小島隆矢、『JMPによる統計解析入門』、2002年。
•
圓川隆夫、『多変量のデータ解析』、朝倉書店、1988。
•
JMPのヘルプファイルや統計関係のウェブサイトも参考になります。ちなみ
に「JMP」をキーワードに検索エンジンで検索してみて下さい。
多項式回帰(1)
• 直線(説明変数xの1次式)
y = a x + b
• 曲線1(説明変数の2次式)
y = a x
2+ b x + c
• 曲線2(説明変数の3次式)
y = a x
3+ b x
2+ c x + d
多項式回帰(2)
• 列を追加して、計算式
で説明変数(西暦年-
1969)の2乗と3乗の
列を作成する。
多項式回帰(5)
多項式回帰(6)
モデルは予測に使えるか?
①マイナスの生産台数
②3次のモデル1973年から76年まで予測値が減少
VTR生産台数の対数変換
• VTR生産台数を対数変換してみ
ると、線形の関係が見られる。
変数変換による線形回帰モデル
推定された回帰モデル: ln y = 2.797 + 0.496 x
このモデルで生産台数を予測するには?
JMPでの対数変換モデルの推定結果
• ここに示された決定係数は、
変換後のデータに対するもの
数量化理論第Ⅰ類
•
ダミー変数のみを用いた重回帰分析と同等
1987年度プロ野球観客動員数と球団属性一覧 観客動員数 リーグ 本拠地 親会社業種 前年度成績 読売 304 セ 首都圏 新聞 A 中日 201 セ その他 新聞 A 広島 112 セ その他 市 A ヤクルト 222 セ 首都圏 メーカー B 大洋 154 セ 首都圏 市 B 阪神 213 セ 関西 電鉄 C 西武 181 パ 首都圏 電鉄 A 阪急 123 パ 関西 電鉄 A 日本ハム 124 パ 首都圏 メーカー B 南海 88 パ 関西 電鉄 B ロッテ 78 パ 首都圏 メーカー C 近鉄 101 パ 関西 電鉄 Cモデルの仮説
観客動員数
セントラルリーグ
パシフィックリーグ
首都圏
関西
その他
新聞社
メーカー
電鉄
市
Aクラス
Bクラス
Cクラス
プラスの効果
マイナスの効果
数量化理論第Ⅰ類の結果(1)
カテゴリスコア
リーグ[パ]の係数=-リーグ[セ]の係数
= -60.76087
本拠地[首都圏]の係数
=-本拠地[関西]の係数
-本拠地[その他]の係数
= 4.333333 + 42.24638 = 46.57971
アイテムの有意性の判定
アイテムのレンジ
=アイテムのカテゴリスコアの
最大値 - カテゴリスコアの最小値
数量化理論第Ⅰ類の結果(2)
アイテム カテゴリー 頻度 カテゴリースコア レンジ リーグ セ 6 60.76087 121.5217 パ 6 -60.76087 本拠地 首都圏 6 46.579713 88.82609 関西 4 -4.333333 その他 2 -42.24638 親会社業種 新聞 2 34.081522 108.7825 メーカー 5 -4.679239 市 2 -69.09239 電鉄 3 39.690107 前年度成績 A 5 24.92029 42.1087 B 4 -7.731884 C 3 -17.188406残差の分析
数量化理論第Ⅰ類の応用
• 2003年度のデータを使用してプロ野球の観客動員数の予測を
行ってみなさい。
• 兵庫県市町データを用いて、数量化理論第Ⅰ類を適用した分
析を考えてみなさい。
判別関数分析
カード使用者の使用状態に関するプロフィールデータ サンプル番号 カード使用状態 家族構成数 年齢 年収 1 ○ 3 30 347 2 ○ 4 55 383 3 ○ 5 50 615 4 ○ 4 54 435 5 ○ 6 60 751 6 ○ 5 39 377 7 ○ 3 42 430 8 ○ 6 64 672 9 ○ 2 70 702 10 ○ 4 35 398 11 × 3 41 552 12 × 3 37 306 13 × 2 40 408 14 × 2 30 301 15 × 3 42 315 16 × 4 37 308 17 × 4 33 375 18 × 2 34 578 19 × 3 39 357 20 × 5 30 422一変量の分布(層別ヒストグラム)
層別散布図(2)
• 「多変量の相関」で散布図行
列を表示させ、2つの変数を
用いてカードの使用状況が判
別できそうかどうかを検討す
る。
判別関数分析(1)
判別関数分析(2)
• JMP 4Jには判別関数
分析が用意されていな
いので、外的基準を0
-1型変数に変換した
上で、この外的基準を
目的変数とする重回帰
分析を行うと、判別関
数分析が行える。
0-1型に変換された
外的基準
• JMP 5Jでは、「分析」
→「多変量」→「判別分
析」を選択
判別関数分析(5)
判別関数分析(7)
マハラノビスの汎距離
による判別式を得るに
は、外的基準 y の値と
して
Ⅰ群に n
2/(n
1+ n
2)
Ⅱ群に –n
1/(n
1+n
2)
を与える。こうすれば、
外的基準の値の総平
均が0となり、予測値の
正負で判別が可能にな
る。
また、重回帰分析の変
数選択や偏回帰係数
の有意性の検討が判
別関数分析にも応用で
きる。
判別関数分析(8)
z = -1.362 + 0.116 x
1+ 0.0218 x
2と
なる直線(線形判別関数)
Ⅰ群(正常○)に判別
判別関数分析(9)
MANOVA(多変量分
散分析モデル)を指定
説明変数を指定
判別関数分析(10)
• 判別結果をデータテーブルに
保存する
判別関数分析(11)
各群の重心からオブザベーション
までのマハラノビスの距離
オブザベーションが各群に
判別関数分析(12)
説明変数として、家族構成員数と年齢に加えて、年収も入れて
分析を行ってみよ。
数量化理論第Ⅱ類(1)
•
ダミー変数のみを用いた判別関数分析と同等
•
リーグを外的基準にして、リーグの違いを分析してみよ。
C 電鉄 関西 パ 101 近鉄 C メーカー 首都圏 パ 78 ロッテ B 電鉄 関西 パ 88 南海 B メーカー 首都圏 パ 124 日本ハム A 電鉄 関西 パ 123 阪急 A 電鉄 首都圏 パ 181 西武 C 電鉄 関西 セ 213 阪神 B 市 首都圏 セ 154 大洋 B メーカー 首都圏 セ 222 ヤクルト A 市 その他 セ 112 広島 A 新聞 その他 セ 201 中日 A 新聞 首都圏 セ 304 読売 前年度成績 親会社業種 本拠地 リーグ 観客動員数 1987年度プロ野球観客動員数と球団属性一覧数量化理論第Ⅱ類(2)
リーグを0ー1
型変数または
0.5と-0.5の値
をとる変数に
変換。
数量化理論第Ⅱ類(3)
R
*2=1-(S
E