• 検索結果がありません。

0506

N/A
N/A
Protected

Academic year: 2021

シェア "0506"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

講義資料@慶応大学 2005.5.6 by K.Kurihara

多変量解析

多変量解析

part1

part1

重回帰分析

重回帰分析

判別分析

判別分析

講義資料@慶応大学 2005.5.6 by K.Kurihara

2章

2章

part2

part2

の復習

の復習

・推定 区間推定 平均値(母分散が既知or未知) 分散 ・検定 基準値との検定(平均値、分散) 2つの集団間の検定(母分散が等しい場合、異なる場合) 講義資料@慶応大学 2005.5.6 by K.Kurihara

・重回帰分析、判別分析

⇒多変量解析の中で、目的変数と説明変数との

関係を数式化する手法

解析目的,解析方法,結果の見方を理解する

例えば、 ☆加速性能⇔車重、エンジン出力、ギア比、‥の関係 ☆異音発生の有無⇔ギアの形状特性値

今回の授業の狙い

今回の授業の狙い

講義資料@慶応大学 2005.5.6 by K.Kurihara

多変量解析

多変量解析

multivariate analysis

multivariate analysis

多変量データ

多変量データ

を分析する

統計手法の総称

総称

講義資料@慶応大学 2005.5.6 by K.Kurihara

多変量解析手法の分類

多変量解析手法の分類

表3-1 多変量解析の種類と分類 目的変数 データ形態 解析手法 の有無 目的変数 説明変数 有り 無し カテゴリーデータ 数量化Ⅲ類 数量データ 数量データ 重回帰分析重回帰分析 正準相関分析 カテゴリーデータ 数量化Ⅰ類 カテゴリーデータ 数量データ 判別分析判別分析 カテゴリーデータ 数量化Ⅱ類 主成分分析 数量データ 因子分析 数量化Ⅳ類 講義資料@慶応大学 2005.5.6 by K.Kurihara

回帰分析

回帰分析

(Regression

(Regression

Analysis

Analysis

要因間への関係式のあてはめ

要因間への関係式のあてはめ

単回帰分析:1つの説明変数Xで、目的変数Yを説明する。 単回帰式 Y=β0+β1・X+ε 回帰式による予測値 Yα=β0+β1・Xα X:パワーウエイトレシオ Y : 最 大加速 度 Y=β0+β1・X+ε

(2)

講義資料@慶応大学 2005.5.6 by K.Kurihara 回帰式を求める際、誤差には4つの仮定をおく。 (1) 不偏性 期待値がゼロである。(足すとゼロ) (2) 等分散性 分散が一定である。 (3) 無相関性 誤差εが互いに無相関である。 (4) 正規性 誤差εが正規分布に従う。 上記の仮定を満たす β0,β1を求めることが 回帰分析の直接の作業 X σ Y σ Y=β0+β1X

回帰式の前提条件

回帰式の前提条件

講義資料@慶応大学 2005.5.6 by K.Kurihara x:体重[kg] x α Y=β0+β1x 160 170 180 58 63 68 73

Y

α

α y:身長 [cm]

残差(

残差(

Residual

Residual

実測値Yと予測値Y’の差を残差と呼ぶ

ε

α=

α

-Y’

α

残差:ε

α 講義資料@慶応大学 2005.5.6 by K.Kurihara 偏差の絶対値の和: 回帰線からの距離が配慮されない 2 -1 -1 0 0 3 偏差の総和: 0 (不定)

回帰式の考え方

回帰式の考え方

講義資料@慶応大学 2005.5.6 by K.Kurihara

回帰式の考え方

回帰式の考え方

最小二乗法

最小二乗法

• 符号問題の解決

• 2乗すると,大きい残差は,より大きく強調される

ので,大きい残差を排除しようとする

• 代数的(数学的)に扱いやすい。(変動の分解)

• 理論的な理由

(1)ガウスーマルコフの定理 (2)漸近理論ー最大尤度基準ー最尤法 講義資料@慶応大学 2005.5.6 by K.Kurihara n組のX,Yのデータに対して、残差変動(Se)を最小 にするβ0,β1を求める。 e n n S = ∑ − = ∑ − − =( α ' ) =( ) α 1Υ Υα α Υα β β Χα 2 1 0 1 2

最小二乗法による回帰式の導出

最小二乗法による回帰式の導出

式(3-4) n Se = ∑ =( α Υα 2+β 02 +β12 Χα2 − 2 Υαβ 0 2 β 0 β 1 Χα −2 Υαβ 1 Χ α ) 1 求めるβ0,β1は上記Seをβ0,β1で偏微分し, これを0とした連立方程式の解となる. Yα=β0+β1・Xα 講義資料@慶応大学 2005.5.6 by K.Kurihara ∂ βe S 0= ∂ n α =1

Σ

(2 β 0− 2 Υα +2 β 1 Χα )= 0 n

Se =

∑ =( α Υα2+β 02 +β12 Χα2 − 2 Υαβ 0 +2 β 0 β 1 Χα −2 Υαβ 1 Χ α ) 1 n α =1

Σ

Υα- n β 0-β 1

Σ

Χα =0 n α =1 Y=β01X 式(3-6) =β 0+ β 1 n α =1ΣΥα n n α =1ΣΧα n β β α α n Y 0 1X 2∑( − − )(−1)=0 α =1 -β 1 n α =1ΣΥα n n α =1ΣΧα n β 0= 求める回帰直線はX,Y各々の平均値を通る

(3)

講義資料@慶応大学 2005.5.6 by K.Kurihara βe S 1 = ∂ ∂ Σ( 2 β 1Χα 2 2 β 0 Χα 2 ΥαΧ α ) =0 α =1 n n

Se =

∑ =( α Υα 2+β 02 +β12 Χα2 − 2 Υαβ 0 2 β 0 β 1 Χα −2 Υαβ 1 Χ α ) 1 β β α α α 2 ∑ ( Y − 01X )(−X )= 0 α =1 n ΣΥαΧ α -β 0 ΣΧα -β 1ΣΧα2 =0 α =1 n α =1 n α =1 n ΣΥαΧ α -( ) ΣΧα -β 1ΣΧα2 =0 α =1 n α =1 n α =1 n -β 1 n α =1ΣΥα n n α =1ΣΧα n ΣΥαΧ α- n n α =1 ( ΣΧα)2 n n α =1ΣΥα n α =1ΣΧα = β 1ΣΧ α2β 1 を代入する -β 1 n α =1ΣΥα n n α =1ΣΧα n β 0= 講義資料@慶応大学 2005.5.6 by K.Kurihara 整理すると 残差変動(Se)が最小の回帰直線 1 0 1

β

β

β

=

=

=



xy xx xy xx

S

S

Y

X

Y

S

S

X

= Sxx ( ) α β Xα n X n = ∑ − 1 2 1 2 Sxy ( α ) α X Yα nX Y n = ∑ − 1 式(3-8) ΣΥαΧ α- n n α =1 ( ΣΧα)2 n n α =1ΣΥα n α =1ΣΧα = β 1ΣΧα2β 1 講義資料@慶応大学 2005.5.6 by K.Kurihara

回帰式:公式

回帰式:公式

=

xx

xy

β

1 Sxx,Syy:偏差変動

Sxx

Xi

X

Syy

Yi

Y

i n i n

=

-=

-= =

(

)

(

)

2 1 2 1

Sxy

Xi

X Yi

Y

i n

=

-

-=1

(

)(

)

Sxy:偏差積和

式(3-8)

β

0

= y - β

1

講義資料@慶応大学 2005.5.6 by K.Kurihara

EXCEL

EXCEL

による回帰分析

による回帰分析

回帰係数 = linest(セル範囲y,セル範囲x) 切片 = intercept(セル範囲y,セル範囲x) 講義資料@慶応大学 2005.5.6 by K.Kurihara

重回帰分析の求め方

定数項、および各偏回帰係数の求め方 単回帰の式と同じ最小二乗法 (詳細は配布資料参照方) 手計算はほとんど不可能

現在はソフトウエアがあり容易

講義資料@慶応大学 2005.5.6 by K.Kurihara

重回帰分析

重回帰分析

◆多変量解析の中で、全て数量データを扱う一手法 ◆複数の説明変数:Xiで目的変数:Yを表す。 β1 ,… ,β1:偏回帰係数 β0 :切片 ε:誤差 重回帰分析:複数の説明変数Xで目的変数Yを説明する。 重回帰式:Y=β0+β1・X1 +β2・X2 +…+βi・Xi +ε 予測値 Y’α= β0+β1・X1 +β2・X2 +…+βi・Xi ★目的変数への影響要因の分析 ★目的変数の予測 ★影響要因のコントロール

(4)

講義資料@慶応大学 2005.5.6 by K.Kurihara ◆説明変数の目的変数に対する影響力を示す。 ◆この係数には単位がある。 従って、その大きさは単位に左右される 偏回帰係数の直接比較することは危険

偏回帰係数の意味

偏回帰係数の意味

◆各変数を平均0,分散1になるように基準化した上で、 単位に無関係な回帰係数を求めたもの ◆大事な説明変数のランキング(順番)を示すと考えればよい。 標準偏回帰係数 講義資料@慶応大学 2005.5.6 by K.Kurihara

分散分析

分散分析

(Analysis of Variance)

(Analysis of Variance)

+ S

(全変動) =(回帰変動)+(誤差変動)

=

xy xx 2

= Σ( Y’

α

- Y )

2 i = 1 n

= Syy =Σ( Y

α

- Y )

2 i = 1 n 実測値Yαの変動:データそのものの変動 推定値Yαの変動:回帰式により説明される変動

=S

T-

R 解析式で説明できない変動

式(3-18)

講義資料@慶応大学 2005.5.6 by K.Kurihara

分散分析(3)

分散分析(3)

要因 f S V F0 回帰 1 SR VR VR/Ve 残差 n - 2 Se Ve 全体 n - 1 S T 表3-2 分散分析表 Se ST SR 回帰式の統計的な 検証方法 分散分析 F検定 分散分析のイメージ 回帰式の有意性 → 分散比(F0)をF検定で判断 F0= VR/Ve> F(1,n-2,α) であれば、SRがSeに対して100(1-α)%で有意 講義資料@慶応大学 2005.5.6 by K.Kurihara

重回帰分析の実施手順

重回帰分析の実施手順

重回帰分析手法 固有技術 データの確認 回帰式の仮説立案 重回帰分析の実施 回帰式の確認 標準化への落とし込み 解析の流れ 講義資料@慶応大学 2005.5.6 by K.Kurihara 取り上げる変数は何か? 変数は質的、量的? データの取得範囲は? 変数間の関係から回帰式 の仮説を立案し,分析を通 じて仮説を検証する 重回帰分析では目的や仮説によりデータの取得方法が変わる. 過去の知見や情報よりQCストーリやFTA,QFD等を活用し,目的 ,仮説を十分吟味し整理する事が重要となる.

回帰式の仮説立案

回帰式の仮説立案

重回帰分析をどう使うのか? 講義資料@慶応大学 2005.5.6 by K.Kurihara

回帰式の仮説立案(2)

回帰式の仮説立案(2)

回帰モデル ← 理論式,仮説,データの確認結果 回帰モデルはβiに関する一次式

X

X

X

1 2 2 p p 1 0

Y

=

β

+

β

+

β

+

L

+

β

Xに関しての高次成分 → 変数の変換 → 一次式のモデル etc X / X X' X X X' X X' 2 1 2 1 2 1 、 = × 、 = 、L = 解析検討の効率化の為に不可欠 0 2 4 6 8 10 0 20 40 60 80 100 X^2 Y 0 2 4 6 8 10 0 0.5 1 Log X Y 0 2 4 6 8 10 0 10000 20000 30000 exp X Y

(5)

講義資料@慶応大学 2005.5.6 by K.Kurihara 取得したデータをそのまま重回帰分析 NG 取得したデータの素性を把握する 基本統計量 各変数のヒストグラム 各変数間の散布図

データの確認

データの確認

講義資料@慶応大学 2005.5.6 by K.Kurihara 相関係数で二組のデータの関係をチェックする

S

S

S

r

yy xx xy

=

説明変数同士の相関が強い場合、問題が起る

データの確認(2)

データの確認(2)

式(2.5) 15 10 5 0 10 15 X2 x1 5

Y= β

0+β1

1

1

≒c

2 固有技術ではX1、X2共に 正の相関を持つことが 分かっている 講義資料@慶応大学 2005.5.6 by K.Kurihara

1

、X

2を両方取り上げて回帰式を作成

Y= β

0+β1

1+β

2

2

多重共線性

多重共線性

β1>0、β2<?? 偏回帰係数の 符号がおかしい Y:体重 X1:身長 X2:足の大きさ

データの確認(3)

データの確認(3)

一般的な目安 0.8>|r| ならば どちらかの変数を解析から外し、変数を1つに絞り込む 相関係数がいくつ以上で多重共線性に注意すべきか? 講義資料@慶応大学 2005.5.6 by K.Kurihara ★寄与率(決定係数): R2 目的変数の全変動のうち,回帰により説明できる割合を示す. 寄与率は重相関係数Rの 2 乗に等しく,0~1の範囲の値をとる. 重回帰式の評価尺度

重回帰分析の実施

重回帰分析の実施

式(3-19) R2SR =1-Se/St 回帰計算 → 解析ソフトで行う.その際,変数をどう取捨選択 するかがポイント 寄与率R2 が大きい ≠ 良い回帰式 多くの変数から有効な変数を 選び出す尺度は? ☆2重自由度調整済寄与率 ☆F値 ※)どのような説明変数でも回帰式に取り入れると寄与率は1 に近付く. 講義資料@慶応大学 2005.5.6 by K.Kurihara ★2重自由度調整済みの寄与率(R’’2 式(3-22)

V

'

V

1

)

1

n

(

S

)

1

n

(

)

1

p

n

(

S

)

1

p

n

(

1

''

R

T e T e 2

=

+

+

+

=

重回帰分析の実施(2)

重回帰分析の実施(2)

取り上げた変数の数 1 2 3 4 5 6

R'

2

R

2

R’’

2

1

R2≠ 1 である限り,R’’2 R2よりも小さい。 R’’2が増加する限り,追加 された説明変数は有効 講義資料@慶応大学 2005.5.6 by K.Kurihara

)

2

p

n

(

S

S

F

2 e R 0

=

重回帰分析の実施(3)

重回帰分析の実施(3)

取り入れた変数が残差に対して有意な 効果が有るかを表す指標

分散比

分散比

F

F

: 説明変数p個 回帰変動 SR1 回帰変動 SR2 残差変動 Se1 残差変動 Se2 説明変数を1個増やしたこと による残差変動の減少分 ΔSR 説明変数p+1個 全変動 ST 残差変動の減り分と残差変動の分散との比

(6)

講義資料@慶応大学 2005.5.6 by K.Kurihara F値での変数の手動選択方法 F≧2を取り上げ,F<2を捨てる。 その際、偏回帰係数の符号が知見に合うか確認。 R’’2極大に相当する。 R’2極大よりも変数が少ない 重回帰分析では無意味な変数を取り上げると、 信頼性が低下する。変数選択を確実に行うこと。 ちなみにR’2極大は、 F≧1を取り上げ,F<1を捨てる方法に相当

重回帰分析の実施(4)

重回帰分析の実施(4)

講義資料@慶応大学 2005.5.6 by K.Kurihara

回帰式の確認

求めた式が統計的に正しいか検討 残差の仮定が成立するか検証 不偏性, 等分散性, 無相関性, 正規性 残差のヒストグラム 各変数と残差の散布図 残差の検討 0 1 2 3 4 5 -1.715 0.857 -2.572 -0.857 0.000 1.715 2.572 26 26 27 28 29 30 31 27 28 29 30 31 予測値 実測 値 講義資料@慶応大学 2005.5.6 by K.Kurihara ☆残差のヒストグラムで正規分布とならないとき ☆予測値と実測値との散布図で際立った特徴がある 外れ値 因子の見落とし 因子の高次効果 固有技術と照らし合わせ モデルの再検討が必要 ☆残差の大きさ 要求精度を満たす回帰式かを判断する

回帰式の確認(2)

別のデータで確認して始めて以後の検討に活用できる ☆別データでの再現性 確認結果の残差が解析時の残差と同程度 講義資料@慶応大学 2005.5.6 by K.Kurihara

実施例

実施例

切削加工条件の最適化

<概要> 部品表面を切削加工することで表面を滑らかにする. 表面状態は加工時の切削抵抗と密接に関係しており,切削抵 抗を下げることで表面を滑らかにできる. そこで加工条件を変えて切削抵抗を計測した. 重回帰分析を行い切削抵抗と加工条件の関係式を求める. 得られた関係式に従い,部品の表面状態を改善する. 講義資料@慶応大学 2005.5.6 by K.Kurihara 刃先 種類 刃先 形状 送り量 回転数 切削 抵抗 A 0.8 50 8.8 509.0 A 0.8 75 13.3 365.0 A 1.2 75 13.3 395.4 A 1.2 100 17.7 369.9 A 1.6 50 13.3 468.7 A 1.6 75 17.7 372.6 A 1.6 100 8.8 481.0 B 0.8 50 17.7 508.2 B 0.8 100 13.3 500.0 B 1.2 50 13.3 529.7 B 1.2 75 17.7 513.9 B 1.2 100 8.8 585.5 B 1.6 50 17.7 511.2 B 1.6 75 8.8 553.6 B 1.6 100 13.3 542.2 表3-3 切削抵抗の要因とデータ 加工条件を変えて切 削抵抗を計測した. 重回帰分析を行い切 削抵抗と加工条件の 関係式を求める. 得られた関係式に従 い,部品の表面状態 を改善する.

実施例

実施例

:計測データ

:計測データ

講義資料@慶応大学 2005.5.6 by K.Kurihara 説明変数名 分散比 偏回帰係数 定数項 164.8 604.308 刃先種類 54.9 A 0 B 113.243 刃先形状 1.3 + 送り量 2.2 -0.565 回転数 21.2 -10.461 表3-5 算出した回帰式の係数表

Y=604.308+113.243x

1

-0.565x

2

-10.461x

3

実施例

実施例

:重回帰分析の実施

:重回帰分析の実施

Y:切削抵抗 x1:刃先種類 (刃先Aの場合x1=0, 刃先Bの場合x1=1) x2:送り量 x3:回転数 得られた回帰式 R'2 R''2 0.931 0.866 0.83 0.798 11 29.427 残差 標準偏差 自由度調整済み 寄与率 表3-6 求めた回帰式の評価指標 重相関 係数R 寄与率 R2 残差 自由度

(7)

講義資料@慶応大学 2005.5.6 by K.Kurihara -44.1 -29.4 -14.7 0.0 14.7 29.4 44.1 58.8 -58.8 0 2 4 6 0 2 4 6 a) 残差のヒストグラム 281.8 465.5 649.2 281.8 465.5 649.2 回帰式による予測値 実 測 値 b)回帰式による予測値と実測値の関係 図3-5 回帰式の確認

実施例

実施例

回帰式の確認

回帰式の確認

講義資料@慶応大学 2005.5.6 by K.Kurihara

判別分析

判別分析

(

(

Discriminant

Discriminant

Analysis)

Analysis)

★説明変数のデータに基づいて、そのサンプルが そのカテゴリーに属するか判定(予測)する手法。 •目的変数が質的データ •目的変数が2値型の例 –アメリカ人群と日本人群 –セダン購買層とミニバン購買層 –ブッシュ支持派とケリー支持派 区別点:重回帰分析に対して、 目的変数⇒質的データ 説明変数⇒数量データ 講義資料@慶応大学 2005.5.6 by K.Kurihara x1

判別分析のイメージ

判別分析のイメージ

判別関数

z=a

1

x

1

+a

2

x

2 A B 抵抗 X2 膜厚 X1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

ロットA

ロットB 講義資料@慶応大学 2005.5.6 by K.Kurihara

判別分析の種類

判別分析の種類

判別分析の2つの手法

1)線型判別関数を用いる方法 前提)2群の共分散行列が同じ =散らばりの大きさや相関が2群でおなじ 特性値が正規分布である メリット)説明変数の有意性がわかりやすい. デメリット)前提条件がより厳しい 2)マハラノビスの距離を用いる方法 前提)特性値が正規分布である メリット)特性間の確率分布、相関関係が診断に考慮される デメリット)計算が複雑になる 講義資料@慶応大学 2005.5.6 by K.Kurihara

線型判別関数

線型判別関数

受験者 筆記 面接 1 50 90 2 60 50 3 80 60 4 100 60 5 90 80 6 30 70 7 70 60 8 50 80 9 70 40 10 70 80 合否判定 合格 不合格 合格 合格 合格 不合格 不合格 合格 不合格 合格 得点 表3-7 試験結果 筆記試験 面接 試験 20 40 60 80 100 20 40 60 80 100 合格 不合格 不合格 合格 図3-6 試験結果の散布図 受験者 筆記 面接 1 50 90 2 60 50 3 80 60 4 100 60 5 90 80 6 30 70 7 70 60 8 50 80 9 70 40 10 70 80 合否判定 合格 不合格 合格 合格 合格 不合格 不合格 合格 不合格 合格 得点 表3-7 試験結果 受験者 筆記 面接 1 50 90 2 60 50 3 80 60 4 100 60 5 90 80 6 30 70 7 70 60 8 50 80 9 70 40 10 70 80 合否判定 合格 不合格 合格 合格 合格 不合格 不合格 合格 不合格 合格 合否判定 合格 不合格 合格 合格 合格 不合格 不合格 合格 不合格 合格 得点 表3-7 試験結果 筆記試験 面接 試験 20 40 60 80 100 20 40 60 80 100 合格 不合格 不合格 合格 図3-6 試験結果の散布図 筆記試験 面接 試験 20 40 60 80 100 20 40 60 80 100 合格 不合格 不合格 合格 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 20 40 60 80 100 合格 不合格 不合格 合格 図3-6 試験結果の散布図 例)次年度の受験指導のために, 学校の入学試験結果を予測したい

Z=a0+a11+a22

講義資料@慶応大学 2005.5.6 by K.Kurihara

線型判別関数(2)

線型判別関数(2)

判別関数の係数の求め方

関数から推定した結果と実際の結果ができるだけ一致するよ うに係数を決める. (1) 群毎にサンプル数,平均,分散,共分散を求める (2) プール後の分散・共分散を求める 分散・共分散は群間でサンプル数の違いがある場合,加重平 均をとったプール後の分散・共分散を求める S11={(n1-1)S11(1)+(n2-1) S11(2)}/(n1+n2-2) S22={(n2-1)S22(1)+(n2-1) S22(2)}/(n1+n2-2) S12={(n1-1)S12(1)+(n2-1) S12(2)}/(n1+n2-2) S21={(n2-1)S21(1)+(n2-1) S21(2)}/(n1+n2-2)

(8)

講義資料@慶応大学 2005.5.6 by K.Kurihara 表 3- 8 分析準備 群1 変数 x1 サンプル 平均 分散 共分散 n1 サンプル数 S11(1) S12(1) 平均 分散 共分散 S22(1)S21(1) 変数 x2 x1(1) x2(1) 群1 変数 x1 サンプル 平均 分散 共分散 n1 サンプル数 S11(1) S12(1) 平均 分散 共分散 S22(1)S21(1) 変数 x2 x x 群 2 n2 x1(2) S11(2) S12(2) x2(2) S22(2)S21(2) 群 2 n2 1(2)1(2) S11(2) S12(2) xx2(2)2(2) S22(2)S21(2) a1,a2は次の連立方程式から求められる a111+a212=X1(1)-X1(2) a121+a222=X2(1)-X2(2) 定数項a0は次の式で求められる. ここで上記データから線型判別関数を求めた結果を示す. Z = - 0.205 X1 - 0.365 X2 + 37.129 2 ) X + X ( )+a X + X ( a a 1 1(1) 1(2) 2 2(1) 2(2) 0=

線型判別関数(3)

線型判別関数(3)

講義資料@慶応大学 2005.5.6 by K.Kurihara 受験者 筆記 面接 1 50 90 合格 -6.0 2 60 50 不合格 6.6 3 80 60 合格 -1.2 4 100 60 合格 -5.3 5 90 80 合格 -10.5 6 30 70 不合格 5.4 7 70 60 不合格 0.9 8 50 80 合格 -2.3 9 70 40 不合格 8.2 10 70 80 合格 -6.4 得点 判別 得点 合否判定 表3-9 判別得点 全データを適切に 判別できた

線型判別関数(4)

線型判別関数(4)

講義資料@慶応大学 2005.5.6 by K.Kurihara 1 2 . . . i . . . m サンプル 1 2 . . . i . . . n 変数 1 2 . . . i . . . m 1 2 . . . i . . . m 表3- 10 判別分析データ 1 2 . . . i . . . n 1 2 . . . i . . . n x1 x2 … xj … xp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xm1 xm2… xnj … xnp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xn1 xn2 … xnj … xnp x1 x2 … xj … xp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xm1 x … xnj … xnp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xm1 x … xnj … xnp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xn1 xn2 … xnj … xnp x11 x12 … x1j … x1p x21 x22 … x2j … x2p . . . . . . . . . xi1 xi2 … xij … xip . . . . . . . . . . . . . . . xn1 xn2 … xnj … xnp

線形判別関数(5)

線形判別関数(5)

判別関数:Z=β0+β1・X1 +β2・X2 +…+βp・Xp 判別関数の係数は観測 されている2群のデータ を最もよく判別するよう に決める 講義資料@慶応大学 2005.5.6 by K.Kurihara

線形判別関数(6)

線形判別関数(6)

全変動STを2つに分解し、 級間変動SBを最大化する

= = − + − = m 1 i 2 n 1 i i(2) 2 i(1) T (Z Z) (Z Z) S ˆ ˆ 2 n 1 i 2 2 m 1 i 1 B (Z Z) (Z Z) S =

− +

− = = T W T B 2

S

/

S

1

S

/

S

=

=

η

相関比は回帰分析の寄与率と同じ意味を持つ 相関比を最大化 相関比 講義資料@慶応大学 2005.5.6 by K.Kurihara

線形判別関数(

線形判別関数(

7

7

判別関数に取り入れる変数は重回帰分析と同様に 次の点を考慮して選択する必要がある. ・説明力の高い変数を分散比(F値)で選択する. ・多重共線性に注意する必要がある. 説明変数間の相関係数が0.8以上となる変数関係が 生じている場合はどちらか1つに変数を絞り込んで 解析を進める 基本的に線型判別関数は重回帰式と等価な関係にある. 講義資料@慶応大学 2005.5.6 by K.Kurihara

マハラノビスの距離

マハラノビスの距離

図3-7 データ群の分布による判別への影響 μB μA σA2>σB2 Xはどちらに 判別すべきか? 図3-7 μB μA σA2>σB2 Xはどちらに 判別すべきか? X ユークリッドの距離では,サンプルXは集団Bに近い.

(9)

講義資料@慶応大学 2005.5.6 by K.Kurihara

x

1

x

2 ・ ● ● A B

•確率等高線上で同じところのサンプルで

はマハラノビスの距離は同じ

= 確率分布を考慮した距離

サンプルAとBは マハラノビスの距離は等しい DA2=DB2

マハラノビスの距離

マハラノビスの距離

講義資料@慶応大学 2005.5.6 by K.Kurihara

参考)マハラノビスの距離の意味

参考)マハラノビスの距離の意味

x

1

x

2 ・ ● ● 理解しやすくするため、2特性で考える. ☆ AとBの2つサンプルに対し、2つの特性値x1、x2のデータを求めた. ☆ 特性値x1、x2には相関が見られる. ☆ 散布図上の楕円は工程の実力から求めた確率分布を示している. A、Bのサンプルは従来のサンプルに比較してどちらが異常と考えられ るか? A B 人の目で見れば、 Bが異常と分る それを数値で示したものが マハラノビスの距離 講義資料@慶応大学 2005.5.6 by K.Kurihara 基準化

x

1

x

2 ・ ● ● x1i -x1 σx1 X1i= x2i -x2 σx2 X2i=

I

)基準化(標準化)

A B ( i= A or B ) X1 X2 ・ ● ●

参考)マハラノビスの距離の意味(2)

参考)マハラノビスの距離の意味(2)

A B 講義資料@慶応大学 2005.5.6 by K.Kurihara U-V軸 による 回転

II

)軸の回転

・ ● ● ・ ● ● U X1 X2 X1 X2 U=X1cos(π/4) + X2 sin(π/4) V=X1cos(π/4) - X2 sin(π/4) 45deg A B A B V U V

参考)マハラノビスの距離の意味(3)

参考)マハラノビスの距離の意味(3)

講義資料@慶応大学 2005.5.6 by K.Kurihara

III

u-v

軸での基準化

・ ● ● U ui- u σu uivi- v σv vi= 基準化 v u ● ● X1 X2 X1 X2 基準化後のu-v 軸上のA,B 各点の距離を示したものが マハラノビスの距離 A B A B V

参考)マハラノビスの距離の意味(4)

参考)マハラノビスの距離の意味(4)

講義資料@慶応大学 2005.5.6 by K.Kurihara

マハラノビスの距離の計算

マハラノビスの距離の計算

1変数の場合(1次元)のマハラノビスの距離 =(x- )(σ2)-1(x- ) (3-34) 2変数の場合(2次元)のマハラノビスの距離 分散・共分散行列S= ,逆行列S-1 とすると (3-35) P変数の場合(p次元)のマハラノビスの距離 (3-36) 2 D       σ x x-  =  2       22 21 12 11 S S S S         S S S S 22 21 12 11       − −         − − = x x x x [ 2 1 22 21 12 11 2 1 2 x x ] x , x D S S S S               − −               … − − = x - x    x x x x ] x - ,x , x x , x [x D p 2 1 pp p2 p1 2p 22 21 1p 12 11 p 2 1 2 S S S S S S S S S M L M O M M L L x x

(10)

講義資料@慶応大学 2005.5.6 by K.Kurihara

マハラノビスの距離による判定

マハラノビスの距離による判定

1)2つの集団A,Bそれぞれの 集団毎に分散・共分散行列S, その逆行列S-1を求める. 2)全サンプルに対して式(3-36) により集団A,Bそれぞれの マハラノビスの距離DA2とDB2を 求める. 3)求めたDA2,DB2の比較から 判別を行う. DA2>DB2 集団Aに属する DA2<DB2 集団Bに属する DA2=DB2 集団Aと集団B の境界上であり 判別できない. 1 合格 0.98 8.99 2 不合格 7.85 0.14 3 合格 1.27 3.44 4 合格 1.11 9.90 5 合格 1.56 17.82 6 不合格 7.03 1.41 7 不合格 2.20 1.48 8 合格 0.96 4.20 9 不合格 10.75 0.97 10 合格 0.12 9.31 表3-11 マハラノビスの距離 による判別結果 D合格 2 D不合格 2 受験者 合否判定 講義資料@慶応大学 2005.5.6 by K.Kurihara

判定の評価方法

判定の評価方法

推定結果と実際の結果との対応関係から判別分析の結果の精度を比較する. 比較指標として次の3指標を紹介する. (1) 正答率(判別的中率とも呼ばれる.hitting ratio) 正答率= (3-37) 評価は事例により異なるが,一般的に正答率>90%であれば非常に良い. (2) 相関比(correlation ratio) 式(3-31)のとおり.相関比は重回帰分析の寄与率に相当しており,結果の 見方も寄与率に準じて考えればよい. (3) 誤判別の確率(error ratio) あるサンプルを判別する際に実際と異なる集団へと間違って判断する確率. 2つの集団AとBの重心間の距離をマハラノビスの距離で求める. D02= (3-38) 100 全サンプル数 正答サンプル数 ×

 (

p iB iA 1 i

i

= 講義資料@慶応大学 2005.5.6 by K.Kurihara

実施例

実施例

溶接ロボットの動作によるケーブル断線診断

<概要> 生産性を高めるためには,1台の溶接ロボットが行う動作を広 げたい.一方で溶接動作が複雑になるとケーブルへの負荷が 高まり,動作中に断線する場合がある. そこで工場の溶接ケーブルの断線発生履歴を調査し,ロボット の動作設定とケーブル断線発生の有無の関係を分析し, ケ ーブル断線が発生しない範囲でロボットの動作を設定すること を試みた. 講義資料@慶応大学 2005.5.6 by K.Kurihara

実施例

実施例

:データの確認

:データの確認

表3-12 説明変数一覧 ケーブル長さ 初期曲げ角最小値 初期ねじれ角最小値 取付点距離最小値 初期曲げ角最大値 初期ねじれ角最大値 取付点距離最大値 初期曲げ角平均値 初期ねじれ角平均値 取付点距離平均値 中期曲げ角最小値 中期ねじれ角最小値 取付点距離変動 中期曲げ角最大値 中期ねじれ角最大値 中期曲げ角平均値 中期ねじれ角平均値 後期曲げ角最小値 後期ねじれ角最小値 後期曲げ角最大値 後期ねじれ角最大値 後期曲げ角平均値 後期ねじれ角平均値 変数 ケーブ ル長さ 取付点 距離変 動 初期 曲げ角 最小値 後期 曲げ角 最小値 後期 曲げ角 平均値 初期 ねじり角 最小値 初期 ねじり角 平均値 ケーブル長さ 1 0.223 0.153 0.135 0.06 -0.163 -0.159 取付点距離変動 0.223 1 0.085 0.015 -0.031 0.007 0.047 初期曲げ角最小値 0.153 0.085 1 0.455 0.372 -0.045 0.262 後期曲げ角最小値 0.135 0.015 0.455 1 0.786 0.214 0.271 後期曲げ角平均値 0.06 -0.031 0.372 0.786 1 0.116 0.218 初期ねじり角最小 -0.163 0.007 -0.045 0.214 0.116 1 0.706 初期ねじり角平均 -0.159 0.047 0.262 0.271 0.218 0.706 1 表3-13 説明変数の相関係数行列 講義資料@慶応大学 2005.5.6 by K.Kurihara

実施例

実施例

:判別分析の実施

:判別分析の実施

F値 判別係数 定数項 8.068 OK NG ケーブル長さ 31.2 -0.0073 OK 180 18 198 取付点距離変動 0.0 NG 1 14 15 初期曲げ角最小値 7.1 -0.0270 181 32 213 後期曲げ角最大値 18.0 後期曲げ角最小値 35.8 0.0544 初期ねじれ角最小値 24.6 -0.0104 初期ねじれ角平均 1.6 推定値 合計 実測値 合計 表3-14 判別関数 表3-15 判別結果一覧 講義資料@慶応大学 2005.5.6 by K.Kurihara 実際にはケーブル断線が発生しない条件で,断線が発生す ると間違った結果が14件発生している. しかし,現場で断線が発生することの問題の方が大きいた めこの結果とした. この場合,判別関数の値が負の場合にケーブル断線が発生 しないことから,それぞれの説明変数を表3-14に示した判別 係数に従ってケーブルの条件を変更する. ケーブルの長さを長めに設定し,動作初期の曲げ角の設定 は大きくし,一方で動作後期の曲げ角設定は小さくする. 併せてねじれ角の最小値を大きくする(=ねじれ角は±あ るため-側のねじれ角を減らすこと.)ことで対応すれば よい.

実施例

実施例

:結果の解釈

:結果の解釈

(11)

講義資料@慶応大学 2005.5.6 by K.Kurihara 100 200 300 400 中古価格(万円) 89 97 91 95 100 200 300 400 93 年式 トランスミッション 5F 4AT

適用例)

適用例)

Z32

Z32

トランスミッションタイプの判別

トランスミッションタイプの判別

講義資料@慶応大学 2005.5.6 by K.Kurihara IN (D)^2 (D')^2 (D'')^2 6 マハラノビス距離 2.938 2.400 1.960 誤判別率(%) 19.573 21.930 24.198 D^2 D^2の差 誤判別率 F比 判別係数 vNo. 定数 124.2 IN 2 中古価格(万円) 0.079 -2.858 44.4 24.9 0.077 IN 5 年式 1.1 -1.8 29.7 12.5 -1.5 IN 6 走行距離(万km)2.4 -0.5 22.0 3.1 0.4 正答 33 82.50% 誤答 7 17.50% 観測/予測 5F 4AT 合計 5F 19 6 25 4AT 1 14 15 合計 20 20 40 講義資料@慶応大学 2005.5.6 by K.Kurihara

参考)判別分析とMT法

参考)判別分析とMT法

特性A 特 性 B 健康者の 集団 ● Bさん D2:マハラノビスの距離 結論:AさんはOK Bさんは再検査 MT法の考え方 DA2<DB2 Aさん 特性A 特 性 B インド象:I アフリカ象:A 結論:化石Xはインド象である 判別分析の考え方 判別関数z 化石X ● DI2<DA2 ● 判別対象とする集団が明確かどうかに気をつけて欲しい。 判別対象とする集団が明確かどうかに気をつけて欲しい。 D2が等しい 講義資料@慶応大学 2005.5.6 by K.Kurihara

参照

関連したドキュメント

表 2-2 各科目の構成(統計学系科目) 2.2 講義のデザイン

 本稿において分析に用いる主成分分析とは、高い次元のデータを情報をでき

概要 試作システム 収量 = 作付面積 × 単収 SARデータ 解析 作付面積 単収 SAR、光学センサ 解析 雨量と統計値 解析 統計情報 KKU モデル 作付面積 作付面積

近年の計算機科学の発展により、大規模かつ複雑な多変量データ集合が

近年の計算機科学の発展により、大規模かつ複雑な多変量データ集合が

近年の計算機科学の発展により、大規模かつ複雑な多変量データ集合が

ができる。 B: 多変量解析の基本的な手法と使い方を理解しており、基礎レベルのデータ解析がで

多変量解析の手法