ｽﾗｲﾄﾞﾀｲﾄﾙなし

(1)

2008年度兵庫県立大学公開講座

アンケート調査とデータ解析

ＪＭＰによる多変量解析入門

兵庫県立大学

大学院応用情報科学研究科

教授有馬昌宏

(2)

多変量解析とは？

①複数の対象（企業、自治体、人間、製品など）に対して

→ ケース（ｃａｓｅ）、オブザベーション（ｏｂｓｅｒｖａｔｉｏｎ）、サンプル（ｓａｍｐｌｅ）

②それらの持つ特性（属性）を測定・観測・調査・記録することによって収集された、

→ 変量（ｖａｒｉａｔｅ）、変数（ｖａｒｉａｂｌｅ）

③３つ以上の属性に関するデータの集まり（データセット、データベース、データ

ウェアハウス）を対象に、

→ 多変量（ｍｕｌｔｉｖａｒｉａｔｅ）

④仮説に基づく検証や探索的にデータの持つ特徴を捉えていこうとするプロセスを

通じて、

→仮説（ｈｙｐｏｔｈｅｓｉｓ）

探索的（ｅｘｐｌｏｒａｔｏｒｙ）

⑤問題解決のために有益な情報を引き出そうとする活動を支援するための

⑥統計的手法群

重回帰分析判別分析主成分分析生準相関分析クラスター分析

数量化理論第Ⅰ類数量化理論第Ⅱ類数量化理論第３類

因子分析潜在構造分析分散分析共分散分析ロジスティック回帰など

(3)

情報とは

• 自然科学分野での最広義の定義

物質＝エネルギーの時間的・空間的な、そして定性的・定量的な「パターン」

人間は、自ら情報を生成するとともに、五感を通じて外界からの情報を認識する。

• N.Wienerの情報概念

「我々が外界に適用しようと行動し、またその調整行動の結果を外界から感知する

際に、我々が外界と交換するものの内容」

Wiener はCyberneticsの理論の創始者

• C.E.Shannonの情報概念

不確実性の量を減らす働きをするもの

不確実性：今、あるシステムにおいて、起こり得る状態として、Z₁,Z₂,・・・,Z_nが考えられるが、このうちのどれが実際に起こるかが完全には分からないとき、このシステムは「一定量の不確実性を持っている」という。 Shannonは通信理論の確立者

• A.M.McDonoughによる情報概念

データ：特定の状況において、それらの持つ価値が評価されていないメッセージ情報：特定の状況における評価されたデータに対する表示知識：情報の概念のより一般的な表現で、知っていることによって役立つ事柄の全般的貯蔵あるいは蓄積

• J.Marschakによる情報概念

不確実性下の意思決定に直面している人間にとって最大期待効用を増大させるもの

(4)

多変量解析と多変数解析

• 多変量

解析（ multivariate analysis ）

z

「多変量データ解析」，「多次元データ解析」などの呼称

z

統計学，確率論，線形代数などと関連する分野

z

データ解析では変数と変量の区別は曖昧

z

複数の変数に関する測定データ（多変量データ行列または

変動行列）を分析

z

目的は次元縮小・予測・分類・判別など

• 多変数

解析 ( analysis of several variables )

z

関数解析（複素関数論など）の分野の呼称

(5)

データの収集

能動的

検証的

高価

少量

1.実験データ

2.調査データ

3.実績データ

受動的

探索的

安価

大量

実験データ：農業試験，新薬開発（実験計画・小標本）

調査データ：世論調査，社会調査（標本計画・大標本）

実績データ：景気指標，レジ記録（実績蓄積・大規模）

（出典：鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/）

(6)

データのタイプ

• 量的変数

（定量データ）

quantitative

z

連続変数

（実数）continuous

z

離散変数

（整数）discrete

• 質的変数

（定性データ）

qualitative

z

分類変数

classification

– カテゴリカルデータcategorical）

z

二値変数

binary, dichotomous

– ダミー変数（論理値）0-1型変数

• 数字で表わされるデータが定量的データか?

(7)

データのタイプ

• 比率尺度

（比例） ratio

→

Ｃ

z

絶対温度・身長・体重・金額

（量的・計量）

z

属性の強さと変数値が比例関係．０は属性量が「無」を意味．絶対原点をもつ．単位変換

（定数の乗算）y = axが許される。

• 間隔尺度

（距離） interval

→

Ｃ

z

摂氏，華氏・知能・暦年

（量的・計量）

z

属性の強さの差＝変数値差．原点に「無」の意味なし．単位と原点の変換（一次変換

y = ax +b）が許される。（華氏＝１．８×摂氏＋３２）

• 順序尺度

（序数）

ordinal

→ Ｏ

z

等級・震度・鉱物の硬度

（量的・非計量）

z

単調関係．任意の単調変換が許される（大小関係は保存される）。

• 名義尺度

（分類）

nominal

→ Ｎ

z

都道府県・背番号・銘柄・性別

（質的・非計量）

z

対象の質的な差異を示す。

(8)

ＪＭＰとは？

• 1989年にSAS社上席副社長のJ.P.Sallによって開発された統計

解析パッケージ。

• GUI（Graphical User Interface）を最大限に活用し、J.W.Tukeyの

提唱した探索的データ解析（EDA:Exploratory Data Analysis）を

サポートできるソフト

• Excelによる多変量解析も可能であるが、9,800円のソフト（廉価

版のJMP IN ５）でここまで出来るということを見てしまうと、使わ

ざるを得ない。

• 機能的にはSAS（Statistical Analysis System）に及ばないが、か

なりの基本的手法はカバーしており、操作性ではSASを凌駕。

http://www.jmp.com/japan/product/jmp_high_education_product_comparison.shtml http://www.jmp.com/japan/product/jmp_outline.shtml

(9)

JMPがジャンプ？

優れたソフトウェア

JMP ＋ U ＝ JUMP

あなた（You）

• JMPが優れたソフトウェアであっても、分析する者がいなけれ

ば、単にそこにはCD-ROMが置いてあるだけ。

• 「優れたソフトウェアであるJMPに、あなた（ｙｏｕ＝Ｕ）が加わっ

てＪＭＰと対話しながらデータを解析したとき、そのときはじめ

て、ＪＭＰとあなたが一緒になってデータからＪｕｍｐできる」とい

う思いを込めて命名されたとされる。

• 当初の名前は、Ｊｏｈｎ‘ｓＭａｃｉｎｔｏｓｈＰｒｏｄｕｃｔ

(10)

ＪＭＰでのデータ解析

• 使用するデータ

（圓川隆夫、『多変量のデータ解析』、朝倉書店、１９８８年より）

バッチ番号

y：収率(％)

x1：圧力(気圧)

ｘ2：温度（℃)

1

30.4

14.5

87.6

2

26.5

17.1

89.3

3

29.2

16.5

92.3

4

29.5

15.5

89.2

5

25.9

16.6

87.0

6

29.6

18.8

91.6

7

26.2

19.1

90.0

8

28.1

17.5

91.5

9

31.1

14.6

89.7

10

26.9

16.1

90.5 仮説：ある化学製品の収率は反応過程の圧力と温度で決まるようだ。

(11)

エクセルデータの読み込みと尺度の変更

ここをクリックして列情

報で各種の設定

(12)

(13)

一変量の分布のオプション（１）

• スケールを統一しておくと、分布の比較が容易になる。

• 列の積み重ねで出力の並べ方を変更できる。

• スクリプトをスクリプトウィンドウに保存し、スクリプトに名前をつけて保存

しておくと、実施した分析結果を後で再実行させることができる。

(14)

(15)

箱ひげ図の見方

外れ値の箱ひげ図

分位点の

箱ひげ図

(16)

ヒストグラムの書式設定

ここをダブル

クリック

軸の指定ダイア

ログボックス

(17)

モーメントの解釈

• 分散（不偏分散）：偏差平方和をＮ－１で割った値。標準偏差はこの平方根。

• 歪度：０で左右対称、正で右に、負で左に裾が伸びている。

• 尖度：０で正規分布型、正で尖り、負で平坦になっている。

• 変動係数：標準偏差を平均で割り、１００を掛けて算出。

平均のひし形

(18)

変数間の関係を調べる

• 複数のバーを強調表示するには、Ｓｈｆｔキーを押しながら矢印ツール

でクリック。

(19)

(20)

多変量の相関

計算されるのはＰｅａｒｓｏｎの積率相関

散布図行列

図中で手のひらツールを

動かしてみると？

(21)

多変量の相関のオプション

用語や操作が理解できなけれ

ば、ヘルプツールを利用する。

偏相関係数：２変数の間の相関

を、他のすべての変数で調整

して算出したもの。

(22)

外れ値分析と投げ縄ツール

• 投げ縄ツールで外れ値をドラッ

グして囲い込み、点を強調表

示できる。複数の範囲を強調

表示する場合は、Ｓｈｉｆｔキーを

押しながら投げ縄ツールを使う。

強調表示を解除するには、点

のない所を投げ縄ツールで囲

う。

• ラベルにする列は、データ

テーブルウィンドウで、列のラ

ベルあり／ラベルなしで設定。

(23)

層別散布図を作成したい場合は

(24)

(25)

ＪＭＰによる多変量解析の実際

－市町村データから地域格差を知る－

指示に従って、

ヒストグラム作成

散布図作成

自治体規模別の指標平均値計算

回帰分析

平均値の差の検定

比率の差の検定

などを実行してみて下さい。

(26)

回帰分析

(27)

y

=

b

₀

+

b

₁

x

+ e

従属変数

独立変数

（偏）回帰係数

誤差変数

切片・定数項

直線の式

（回帰直線，回帰式）

母数

(28)

直線：y = b

₀

+ b

₁

x

身長

体重

直線はｂ

₀

とｂ

₁

で決まる

どのように回帰式を選ぶか

(29)

最小２乗法

• 残差平方和の最小化

• 符号の問題を解決する

• ２乗すると，大きい残差は，より大きく強調されるので，大きい

残差を排除しようとする

• 代数的（数学的）に扱いやすい

(30)

x

b

y

b

s

S

b

xx

xy

xx

xy

1

0

1 =

=

,

=

−

SSCP

体重

身長

体重

_339.600

身長

_1832.400

_30885.600

COV

体重

身長

体重

_37.733

身長

_203.600

_3431.733

weight

height

1

48 1615

2

65 1789

3

57 1718

4

67 1795

5

65 1717

6

58 1639

7

63 1700

8

65 1664

9

61 1686

10

53 1735

mean

60.2 1705.8

var

37.7 3431.7

41 .

003

8 .

1705

0593

.

0

2 .

60 0593

.

0

7 .

3431

6 .

203

6 .

30885

4 .

1832

1

0

1 =

×

−

=

−

=

x

b

y

b

予測値 =

切片

＋

_0.0593

_*

身長

残差 =

体重

（実測値）ー予測値

(31)

単回帰分析

寄与率または決定係数

＝回帰による変動／全変動

推定された回帰式

確率誤差の標準偏差の推定値

＝誤差の平均平方の平方根

回帰式の優位性の検定

Ｆ検定とｔ検定

ｐ値が０．０５および０．０１

より小さいかどうか？

ｔ値は推定値の標準誤差に対する比率

(32)

重回帰分析の手順

①データ入力

②変数の選択と散布図行列の表示

分析 → 多変量 → 多変量の相関

（Y,列に相関関係を見たい変数名を割り当てる）

（Byに変数を割り当てるとその変数で層別の散布図

行列が作成される。）

③散布図を動かしてみる（外れ値の有無や相関関係の確認）

ツール → 手のひらツール

(33)

④変数の選択と重回帰分析の実行

分析 → モデルのあてはめ

1)被説明変数（従属変数）を「役割変数の選択」のYに割り

当てる。

2)説明変数（独立変数）を「モデル効果の構成」に追加で

指定する。

3)手法を「標準最小２乗」に設定して、「モデルの実行」を

クリックする。

⑤結果の解釈

1)自由度調整R２乗

2)分散分析のp値（モデルのF検定）

3)パラメータ推定値のp値の列（偏回帰係数のｔ検定）

(34)

⑥残差の分析

1)応答Yのプルダウンメニューの「列の保存」 → スチュー

デント化された残差を選択

2)データテーブルにスチューデント化された残差が記録され

るので、このスチューデント化された残差と各説明変数と

の間の無相関を散布図から確認する。

最小２乗法によるモデルのあてはめの前提

1)誤差項が各ケースで独立

2)誤差項は平均が０で分散は一定

3)誤差項は正規分布に従う

(35)

９５％信頼区間と平均線の表示

• 図示した９５％信頼区間の曲

線が平均線と交わっているか

どうかで、５％有意水準での

回帰式の有意性の検定を視

覚的に行うことができる。

(36)

残差分析

• 残差分析（残差＝観測値－予測値）

• 残差をプロットすることにより、

①外れ値や異常値のチェックおよびこ

れによる隠された要因の検討

②点の並び方のクセやトレンドから誤

差の等分散性や系列相関、さらに非線

形性のチェック

１)残差のヒストグラムから正規分布に

したがっているといえるか？

２）残差の＋と－の符号の数は同数

か？

３）残差の中央値はゼロに近いか？

４）残差と目的変数および説明変数と

の間の散布図から何らかの関係が見

つからないか？

を検討する。

• ダービン・ワトソン比：時系列データの

自己相関のチェックに。２を中心に０か

ら４までの値を取る。

(37)

(38)

３次元表示で視覚的に確認

手のひらツールで回転させる。

Ｓｈｉｆｔ

Ａｌｔ

の各キーを押しながら

Ｃｔｒｌ

(39)

モデルのあてはめ

目的変数

従属変数

被説明変数

決定変数

独立変数

説明変数

(40)

あてはめ結果の解釈

①自由度調整Ｒ２乗（自由度調整済み決定係数）

②分散分析表によるＦ検定

（帰無仮説：回帰式は意味をもたない。

（切片を除く全ての回帰パラメータが０である。））

③偏回帰係数のｔ検定

（帰無仮説：真のパラメータはゼロである。）

(41)

残差分析

• 効果の検定は、連続量の

説明変数の場合にはｔ検定

と同じ。

• 残差分析

製造条件をチェック。

他の要因はないか？

(42)

残差と変数との関係

• スチューデント化された残差：ｉ番目

の残差について、ｉ番目の残差を除

いた他の残りの残差から計算された

残差の標準偏差を用いて基準化し

た残差。外的にスチューデント化さ

れた残差とも言う。単に全残差の標

準偏差で基準化された残差を標準

化残差あるいは内的にスチューデン

ト化された残差と言う。

(43)

残差と各説明変数との間の関係

スチューデント化され

た残差と説明変数との

間に何の関係も見ら

れないことが望ましい。

(44)

てこ比プロット

(45)

標準偏回帰係数

• 目的変数と説明変数のそれぞれの

データを標準化してデータテーブル

に保存。

• この標準化されたデータを用いて重

回帰分析を行うと、得られる偏回帰

係数は、ある説明変数が１標準偏差

分だけ変化したとき、目的変数は何

標準偏差分だけ変化するかを示すこ

とになり、説明変数のスケール値や

バラツキの大小には依存しないよう

にして、各説明変数の目的変数への

影響度の比較を行うことができるよう

になる。

• このようにして得られる偏回帰係数を

標準偏回帰係数と呼ぶ。

(46)

(47)

重回帰分析演習（１）

バッチ番号

y：収率(％)

x1：圧力(気圧)

ｘ2：温度（℃)

ｘ3：酸度（ｐＨ)

1

30.4

14.5

87.6

7.5

2

26.5

17.1

89.3

6.9

3

29.2

16.5

92.3

7.2

4

29.5

15.5

89.2

7.4

5

25.9

16.6

87.0

6.5

6

29.6

18.8

91.6

8.2

7

26.2

19.1

90.0

7.3

8

28.1

17.5

91.5

7.8

9

31.1

14.6

89.7

7.0

10

26.9

16.1

90.5

6.7 • 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。

(48)

相関分析

偏相関係数

他の変数の影響を取り除いた純粋な

目的変数と１つの説明変数との間の

相関の程度を表す尺度。目的変数と

説明変数を残りの説明変数で回帰式

にあてはめ、それぞれの残差から求

められる相関係数のこと。

(49)

結果の解釈

①自由度調整Ｒ２乗（自由度調整済み決定係数）

②分散分析表によるＦ検定

③偏回帰係数のｔ検定

(50)

重相関分析演習（２）

バッチ

番号

y：収率(％)

x1：圧力(気

圧)

ｘ2：温度

（℃)

ｘ3：酸度（ｐ

Ｈ)

ｘ4：粘度

1

30.4

14.5

87.6

7.5

6.2

2

26.5

17.1

89.3

6.9

5.5

3

29.2

16.5

92.3

7.2

5.7

4

29.5

15.5

89.2

7.4

6.1

5

25.9

16.6

87.0

6.5

5.0

6

29.6

18.8

91.6

8.2

5.9

7

26.2

19.1

90.0

7.3

5.0

8

28.1

17.5

91.5

7.8

5.7

9

31.1

14.6

89.7

7.0

6.4

10

26.9

16.1

90.5

6.7

5.2 • 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。

(51)

(52)

結果の解釈

偏回帰係数のｔ検定結果と偏回帰係数の推

定値はどのように変化しただろうか？

(53)

偽相関

• 粘度を目的変数に、圧力と温度と酸度を説明変数に重回帰分析を行ってみよ。

• 同じ説明変数を用いた、収

率を目的変数とした重回帰

分析の結果と比較してみよ。

• 粘度は収率を説明する原

因系の変数ではなく、収率

と同様に圧力と温度と酸度

で説明される結果系の変数

ではないか。

• 収率と粘度との間の高い単

相関は、互いに共通した説

明要因に起因する偽相関

である可能性が強いようだ。

(54)

説明変数の選択

• ＰｒｉｎｃｉｐｌｅｏｆＰａｒｓｉｍｏｎｙ（ケチの原則）

目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は

高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔

にモデルを記述したいという考え方。

• 有効な変数と不要な変数を選択して、最適な回帰式を求めるには？

• 変数選択の方法

①総当り法

②ステップワイズ法（逐次変数選択法）

１）変数増加法

２）変数減少法

３）変数増減法

４）変数減増法

③対話型変数選択法

(55)

(56)

説明変数の選択方法の選択

• 方向で選択方法を選択

• ＳＳＥ：誤差平方和

• ＤＦＥ：誤差の自由度

• ＭＳＥ：平均平方誤差

• Ｃｐ：ＭａｌｌｏｗのＣｐ基準

• ＡＩＣ：赤池の情報量基準

ＡＩＣ＝ｎｌｎ（ＳＳＥ／ｎ）

＋２ｐ

ＡＩＣが最小であるモデ

ルが最良のモデル。

• 経験的にＦ値が２以上で

あれば有効な変数、２未

満であれば不要な変数と

されている。

(57)

(58)

多重共線性

• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる

現象。

• 発生する問題

①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能

になってしまう。

②求められた偏回帰係数が、１つのオブザベーションの追加や、ちょっとし

た誤差によって、大きく変化してしまう。

③求められた偏回帰係数の符号が単相関係数の符号と合わない。

④寄与率（決定係数）は高いのに、個々の偏回帰係数は統計的に有意に

ならない。

• 対策

①互いに関係をもった説明変数の一部を除去する。

②多重共線性を弱めるようなデータを追加する。

(59)

多重共線性の例

ｙ

ｘ１

ｘ２

ｘ３

1

30

10

20

15

2

32

12

24

17

3

30

14

28

19

4

33

16

32

19

5

30

18

36

22

6

35

20

40

24

7

35

22

44

24

8

37

24

48

25

9

37

26

52

25

10

39

28

56

26 • 以下のデータを用いて重回帰分析を行ってみなさい。（内田他、『すぐわかるＪＭＰに

よる多変量解析』、東京図書、２００２年より）

(60)

質的変数を含んだ重回帰分析

バッチ

番

号

y：収率(％)

x1：圧力(気

圧)

ｘ2：温度（℃)

ｘ3：酸度（ｐ

Ｈ)

ｘ5：原料

1

30.4

14.5

87.6

7.5 A

2

26.5

17.1

89.3

6.9 B

3

29.2

16.5

92.3

7.2 B

4

29.5

15.5

89.2

7.4 A

5

25.9

16.6

87.0

6.5 B

6

29.6

18.8

91.6

8.2 A

7

26.2

19.1

90.0

7.3 B

8

28.1

17.5

91.5

7.8 B

9

31.1

14.6

89.7

7.0 A

10

26.9

16.1

90.5

6.7 B

• これまでのデータには、ＡとＢの異なる原産地からの原料が含まれていることがわかった。

原料の情報を新たな説明変数に加えて重回帰分析を試みよ。

(61)

結果の解釈

• Marginal法

(62)

(63)

結果の違いは？

• Partial法

(64)

ダミー変数の作り方

partial法

marginal法

ｘ１

ｘ２

ｘ３

ｘ１

ｘ２

ｘ３

Ａ

1

0

1

0

0 Ｂ

0

1

0

1

0 Ｏ

0

1

0

1 ＡＢ

0

0 -1

-1

順序尺度の場合のＪＭＰ

ｘ１

ｘ２

ｘ３

1

0

2

1

0

3

1

0

4

1

(65)

多項式回帰モデルと線形回帰モデル

ＶＴＲ生産台数

1970

50 1971

49 1972

114 1973

137 1974

124 1975

119 1976

288 1977

762 1978

1470

1979

2199

1980

4441

1981

9498

1982

13134

1983

18217

1984

28611

• 左に示すのは、１９７０年から１９８４年ま

での国内ＶＴＲ生産台数のデータである。

• この生産台数の推移をうまく当てはめる

モデルを推定しなさい。

ヒント

①年の取り方に工夫されたい。

②グラフでプロットしてみて、データの特徴を読み取られたい。

③２次と３次の項を考えなさい。

(66)

データ分析の例

店舗名乗降客数店の広さ駐車台数売上高小田原 245 59 60 272 秦野 118 32 35 161 伊勢原 142 25 30 129 本厚木 249 55 45 252 海老名 174 49 40 204 藤沢 202 32 35 168 大和 254 54 45 242 相模大野 168 32 40 169 町田 224 42 50 224 新百合ヶ丘 186 45 45 202 成城学園前 212 56 50 259 経堂 145 32 30 165 下北沢 174 31 35 180 梅ヶ丘 82 38 30 131 代々木上原 177 34 40 215 出所：「Lotus1-2-3活用多変量解析」（共立出版）

(67)

参考文献

• 内野治・松木秀明・上野真由美、『すぐわかるＪＭＰによる統計解析』、東京

図書、2002年。

• 内野治・松木秀明・上野真由美、『すぐわかるＪＭＰによる多変量解析』、東

京図書、2002年。

• 田久浩志・林俊克・小島隆矢、『ＪＭＰによる統計解析入門』、2002年。

• 圓川隆夫、『多変量のデータ解析』、朝倉書店、１９８８。

• ＪＭＰのヘルプファイルや統計関係のウェブサイトも参考になります。ちなみ

に「ＪＭＰ」をキーワードに検索エンジンで検索してみて下さい。

(68)

多項式回帰(1)

• 直線（説明変数ｘの１次式）

ｙ＝ a x + b

• 曲線１（説明変数の２次式）

y = a x

2

+ b x + c

• 曲線２（説明変数の３次式）

y = a x

3

_{+ b x}

2

_{+ c x + d}

(69)

多項式回帰（２）

• 列を追加して、計算式

で説明変数（西暦年－

１９６９）の２乗と３乗の

列を作成する。

(70)

(71)

(72)

多項式回帰（５）

(73)

多項式回帰（６）

(74)

(75)

モデルは予測に使えるか？

①マイナスの生産台数

②３次のモデル１９７３年から７６年まで予測値が減少

(76)

ＶＴＲ生産台数の対数変換

• ＶＴＲ生産台数を対数変換してみ

ると、線形の関係が見られる。

(77)

変数変換による線形回帰モデル

推定された回帰モデル： ln y = 2.797 + 0.496 x

このモデルで生産台数を予測するには？

(78)

(79)

(80)

(81)

JMPでの対数変換モデルの推定結果

• ここに示された決定係数は、

変換後のデータに対するもの

(82)

数量化理論第Ⅰ類

• ダミー変数のみを用いた重回帰分析と同等

１９８７年度プロ野球観客動員数と球団属性一覧観客動員数リーグ本拠地親会社業種前年度成績読売 304 セ首都圏新聞 A 中日 201 セその他新聞 A 広島 112 セその他市 A ヤクルト 222 セ首都圏メーカー B 大洋 154 セ首都圏市 B 阪神 213 セ関西電鉄 C 西武 181 パ首都圏電鉄 A 阪急 123 パ関西電鉄 A 日本ハム 124 パ首都圏メーカー B 南海 88 パ関西電鉄 B ロッテ 78 パ首都圏メーカー C 近鉄 101 パ関西電鉄 C

(83)

モデルの仮説

観客動員数

セントラルリーグ

パシフィックリーグ

首都圏

関西

その他

新聞社

メーカー

電鉄

市

Aクラス

Bクラス

Cクラス

プラスの効果

マイナスの効果

(84)

(85)

数量化理論第Ⅰ類の結果（１）

カテゴリスコア

リーグ[パ]の係数＝－リーグ[セ]の係数

= -60.76087

本拠地[首都圏]の係数

＝－本拠地[関西]の係数

－本拠地[その他]の係数

＝ 4.333333 + 42.24638 ＝ 46.57971

アイテムの有意性の判定

アイテムのレンジ

＝アイテムのカテゴリスコアの

最大値－カテゴリスコアの最小値

(86)

数量化理論第Ⅰ類の結果（２）

アイテムカテゴリー頻度カテゴリースコアレンジリーグセ 6 60.76087 121.5217 パ 6 -60.76087 本拠地首都圏 6 46.579713 88.82609 関西 4 -4.333333 その他 2 -42.24638 親会社業種新聞 2 34.081522 108.7825 メーカー 5 -4.679239 市 2 -69.09239 電鉄 3 39.690107 前年度成績 A 5 24.92029 42.1087 B 4 -7.731884 C 3 -17.188406

(87)

残差の分析

(88)

数量化理論第Ⅰ類の応用

• 2003年度のデータを使用してプロ野球の観客動員数の予測を

行ってみなさい。

• 兵庫県市町データを用いて、数量化理論第Ⅰ類を適用した分

析を考えてみなさい。

(89)

判別関数分析

カード使用者の使用状態に関するプロフィールデータサンプル番号カード使用状態家族構成数年齢年収 1 ○ 3 30 347 2 ○ 4 55 383 3 ○ 5 50 615 4 ○ 4 54 435 5 ○ 6 60 751 6 ○ 5 39 377 7 ○ 3 42 430 8 ○ 6 64 672 9 ○ 2 70 702 10 ○ 4 35 398 11 × 3 41 552 12 × 3 37 306 13 × 2 40 408 14 × 2 30 301 15 × 3 42 315 16 × 4 37 308 17 × 4 33 375 18 × 2 34 578 19 × 3 39 357 20 × 5 30 422

(90)

一変量の分布（層別ヒストグラム）

(91)

(92)

層別散布図（２）

• 「多変量の相関」で散布図行

列を表示させ、２つの変数を

用いてカードの使用状況が判

別できそうかどうかを検討す

る。

(93)

(94)

判別関数分析（１）

(95)

判別関数分析（２）

• JMP 4Jには判別関数

分析が用意されていな

いので、外的基準を０

－１型変数に変換した

上で、この外的基準を

目的変数とする重回帰

分析を行うと、判別関

数分析が行える。

０－１型に変換された

外的基準

• JMP 5Jでは、「分析」

→「多変量」→「判別分

析」を選択

(96)

(97)

(98)

判別関数分析（５）

(99)

(100)

判別関数分析（７）

マハラノビスの汎距離

による判別式を得るに

は、外的基準ｙの値と

して

Ⅰ群に n

₂

／(n

₁

+ n

₂

)

Ⅱ群に –n

₁

／(n

₁

+n

₂

)

を与える。こうすれば、

外的基準の値の総平

均が０となり、予測値の

正負で判別が可能にな

る。

また、重回帰分析の変

数選択や偏回帰係数

の有意性の検討が判

別関数分析にも応用で

きる。

(101)

判別関数分析（８）

z = -1.362 + 0.116 x

₁

+ 0.0218 x

₂

と

なる直線(線形判別関数)

Ⅰ群（正常○）に判別

(102)

判別関数分析（９）

ＭＡＮＯＶＡ（多変量分

散分析モデル）を指定

説明変数を指定

(103)

判別関数分析（１０）

• 判別結果をデータテーブルに

保存する

(104)

判別関数分析（１１）

各群の重心からオブザベーション

までのマハラノビスの距離

オブザベーションが各群に

(105)

判別関数分析（１２）

説明変数として、家族構成員数と年齢に加えて、年収も入れて

分析を行ってみよ。

(106)

数量化理論第Ⅱ類（１）

• ダミー変数のみを用いた判別関数分析と同等

• リーグを外的基準にして、リーグの違いを分析してみよ。

C 電鉄関西パ 101 近鉄 C メーカー首都圏パ 78 ロッテ B 電鉄関西パ 88 南海 B メーカー首都圏パ 124 日本ハム A 電鉄関西パ 123 阪急 A 電鉄首都圏パ 181 西武 C 電鉄関西セ 213 阪神 B 市首都圏セ 154 大洋 B メーカー首都圏セ 222 ヤクルト A 市その他セ 112 広島 A 新聞その他セ 201 中日 A 新聞首都圏セ 304 読売前年度成績親会社業種本拠地リーグ観客動員数１９８７年度プロ野球観客動員数と球団属性一覧

(107)

数量化理論第Ⅱ類（２）

リーグを０ー１

型変数または

0.5と-0.5の値

をとる変数に

変換。

(108)

数量化理論第Ⅱ類（３）

Ｒ

＊２

_{＝１－（Ｓ}

Ｅ

／（ｎ－ｐ－１））／（Ｓ

Ｔ

／（ｎ－１））

(109)

(110)

主成分分析（１）

多数の変数データから、変数間の内部関連に基づく少数の主成分と呼ばれる合成変数を構成する分析法学生番号国語社会数学理科音楽美術保健体育技術家庭英語 1 55 59 38 66 29 32 29 36 61 2 36 49 35 57 63 62 55 66 45 3 53 58 16 41 67 54 50 50 48 4 78 80 42 65 85 75 69 76 70 5 6 19 38 59 49 47 43 57 26 6 41 43 49 66 74 64 63 75 49 7 73 78 57 77 61 62 53 65 73 8 21 29 38 58 64 58 52 65 32 9 50 55 22 51 58 58 51 46 52 10 61 69 57 71 68 61 53 64 63 11 73 80 66 88 43 48 42 60 80 12 56 69 79 91 55 50 50 72 73 13 56 53 30 50 73 72 63 62 45 14 35 43 35 49 57 53 45 47 38 15 37 52 54 71 81 72 70 80 51 16 61 66 53 74 69 62 56 74 63 17 39 55 56 69 82 70 68 78 52 18 37 41 23 42 53 50 37 44 37 19 40 45 60 72 73 67 59 76 48

(111)

(112)

主成分分析（３）

•ｘ

1 、ｘ

２ 、‥‥、ｘ

ｐ

のｐ個の変数から新しい変数ｚ

１ 、ｚ

２ 、‥‥、ｚ

ｍ

を

作成することを考える。

ｚ

₁

＝a

_１１

ｘ

_１

＋ａ

_１２

ｘ

_２

＋‥‥＋ａ

_１ｐ

ｘ

_ｐ

ｚ

２ ＝a

２１ ｘ

１ ＋ａ

２２ ｘ

２ ＋‥‥＋ａ

２ｐ

ｘ

ｐ

：

ｚ

_ｍ

＝ａ

_ｍ１

ｘ

_１

＋ａ

_ｍ２

ｘ

_２

＋‥‥＋ａ

_ｍｐ

ｘ

_ｐ

ここで、ｚ

_１

からｚ

_ｍ

へと順にｘ

_１

からｘ

_ｐ

までの情報が最大限に集約

されるように係数ａ

_ｉｊ

を決めたい。

•もとの変数の分散共分散行列の固有値と固有ベクトルを計算す

ることに帰着される。

(113)

主成分分析（４）

•通常は相関係数行列

からを選択

•分散共分散行列から

を選択すると変数のス

ケールのとり方に依存

して分散共分散行列の

値が変化する。

(114)

主成分分析（５）

固有値の総和＝ｐ（分散共分散行列からの場合は各変数の分散の総和）

ｽﾗｲﾄﾞ ﾀｲﾄﾙなし

2008年度兵庫県立大学公開講座

アンケート調査とデータ解析

ＪＭＰによる多変量解析入門

兵庫県立大学

大学院応用情報科学研究科

教授 有馬昌宏

多変量解析とは？

①複数の対象（企業、自治体、人間、製品など）に対して

→ ケース（ｃａｓｅ）、オブザベーション（ｏｂｓｅｒｖａｔｉｏｎ）、サンプル（ｓａｍｐｌｅ）

②それらの持つ特性（属性）を測定・観測・調査・記録することによって収集された、

→ 変量（ｖａｒｉａｔｅ）、変数（ｖａｒｉａｂｌｅ）

③３つ以上の属性に関するデータの集まり（データセット、データベース、データ

ウェアハウス）を対象に、

→ 多変量（ｍｕｌｔｉｖａｒｉａｔｅ）

④仮説に基づく検証や探索的にデータの持つ特徴を捉えていこうとするプロセスを

通じて、

→仮説（ｈｙｐｏｔｈｅｓｉｓ）

探索的（ｅｘｐｌｏｒａｔｏｒｙ）

⑤問題解決のために有益な情報を引き出そうとする活動を支援するための

⑥統計的手法群

重回帰分析 判別分析 主成分分析 生準相関分析 クラスター分析

数量化理論第Ⅰ類 数量化理論第Ⅱ類 数量化理論第３類

因子分析 潜在構造分析 分散分析 共分散分析 ロジスティック回帰 など

情報とは

• 自然科学分野での最広義の定義

物質＝エネルギーの時間的・空間的な、そして定性的・定量的な「パターン」

• N.Wienerの情報概念

「我々が外界に適用しようと行動し、またその調整行動の結果を外界から感知する

際に、我々が外界と交換するものの内容」

• C.E.Shannonの情報概念

不確実性の量を減らす働きをするもの

• A.M.McDonoughによる情報概念

• J.Marschakによる情報概念

不確実性下の意思決定に直面している人間にとって最大期待効用を増大させるもの

多変量解析と多変数解析

• 多変量

解析（ multivariate analysis ）

「多変量データ解析」，「多次元データ解析」などの呼称

統計学，確率論，線形代数などと関連する分野

データ解析では変数と変量の区別は曖昧

複数の変数に関する測定データ（多変量データ行列または

変動行列）を分析

目的は次元縮小・予測・分類・判別など

• 多変数

解析 ( analysis of several variables )

関数解析（複素関数論など）の分野の呼称

データの収集

能動的

検証的

高価

少量

1.実験データ

2.調査データ

3.実績データ

受動的

探索的

安価

大量

実験データ：農業試験，新薬開発（実験計画・小標本）

調査データ：世論調査，社会調査（標本計画・大標本）

実績データ：景気指標，レジ記録（実績蓄積・大規模）

データのタイプ

• 量的変数

（定量データ）

quantitative

連続変数

（実数）continuous

離散変数

（整数）discrete

• 質的変数

（定性データ）

qualitative

分類変数

classification

– カテゴリカルデータcategorical）

二値変数

binary, dichotomous

– ダミー変数（論理値）0-1型変数

• 数字で表わされるデータが定量的データか?

ｽﾗｲﾄﾞﾀｲﾄﾙなし

教授有馬昌宏

重回帰分析判別分析主成分分析生準相関分析クラスター分析

数量化理論第Ⅰ類数量化理論第Ⅱ類数量化理論第３類

因子分析潜在構造分析分散分析共分散分析ロジスティック回帰など

y = ax +b）が許される。（華氏＝１．８×摂氏＋３２）

• 当初の名前は、Ｊｏｈｎ‘ｓＭａｃｉｎｔｏｓｈＰｒｏｄｕｃｔ