誤差項は平均が０で分散は一定 3) 誤差項は正規分布に従う

直線はｂ 0 とｂ 1 で決まる

2) 誤差項は平均が０で分散は一定 3) 誤差項は正規分布に従う

９５％信頼区間と平均線の表示

• 図示した９５％信頼区間の曲

線が平均線と交わっているか

どうかで、５％有意水準での

回帰式の有意性の検定を視

覚的に行うことができる。

残差分析

• 残差分析（残差＝観測値－予測値）

• 残差をプロットすることにより、

①外れ値や異常値のチェックおよびこれによる隠された要因の検討

②点の並び方のクセやトレンドから誤差の等分散性や系列相関、さらに非線形性のチェック

１ ) 残差のヒストグラムから正規分布にしたがっているといえるか？

２）残差の＋と－の符号の数は同数か？

３）残差の中央値はゼロに近いか？

４）残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか？

を検討する。

• ダービン・ワトソン比：時系列データの

自己相関のチェックに。２を中心に０か

ら４までの値を取る。

回転プロット

３次元表示で視覚的に確認

手のひらツールで回転させる。

Ｓｈｉｆｔ

Ａｌｔの各キーを押しながら

Ｃｔｒｌ

モデルのあてはめ

目的変数従属変数被説明変数

決定変数

独立変数

説明変数

あてはめ結果の解釈

①自由度調整Ｒ２乗（自由度調整済み決定係数）

②分散分析表によるＦ検定

（帰無仮説：回帰式は意味をもたない。

（切片を除く全ての回帰パラメータが０である。））

③偏回帰係数のｔ検定

（帰無仮説：真のパラメータはゼロである。）

残差分析

• 効果の検定は、連続量の説明変数の場合にはｔ検定と同じ。

• 残差分析

製造条件をチェック。

他の要因はないか？

残差と変数との関係

• スチューデント化された残差：ｉ番目

の残差について、ｉ番目の残差を除

いた他の残りの残差から計算された

残差の標準偏差を用いて基準化し

た残差。外的にスチューデント化さ

れた残差とも言う。単に全残差の標

準偏差で基準化された残差を標準

化残差あるいは内的にスチューデン

ト化された残差と言う。

残差と各説明変数との間の関係

スチューデント化され

た残差と説明変数との

間に何の関係も見ら

れないことが望ましい。

てこ比プロット

個々の偏回帰係数の有意性に関して、５％有意水準で視覚的に判定できる。

標準偏回帰係数

• 目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存。

• この標準化されたデータを用いて重回帰分析を行うと、得られる偏回帰係数は、ある説明変数が１標準偏差分だけ変化したとき、目的変数は何標準偏差分だけ変化するかを示すことになり、説明変数のスケール値やバラツキの大小には依存しないようにして、各説明変数の目的変数への影響度の比較を行うことができるようになる。

• このようにして得られる偏回帰係数を

標準偏回帰係数と呼ぶ。

標準偏回帰係数の推定

重回帰分析演習（１）

バッチ番号 y：収率(％) x1：圧力(気圧) ｘ2：温度（℃) ｘ3：酸度（ｐＨ)

1 30.4 14.5 87.6 7.5

2 26.5 17.1 89.3 6.9

3 29.2 16.5 92.3 7.2

4 29.5 15.5 89.2 7.4

5 25.9 16.6 87.0 6.5

6 29.6 18.8 91.6 8.2

7 26.2 19.1 90.0 7.3

8 28.1 17.5 91.5 7.8

9 31.1 14.6 89.7 7.0

10 26.9 16.1 90.5 6.7

• 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。

相関分析

偏相関係数

他の変数の影響を取り除いた純粋な

目的変数と１つの説明変数との間の

相関の程度を表す尺度。目的変数と

説明変数を残りの説明変数で回帰式

にあてはめ、それぞれの残差から求

められる相関係数のこと。

結果の解釈

①自由度調整Ｒ２乗（自由度調整済み決定係数）

②分散分析表によるＦ検定

③偏回帰係数のｔ検定

④偏回帰係数の推定値の符号

重相関分析演習（２）

バッチ

番号 y：収率(％) x1：圧力(気圧)

ｘ2：温度

（℃)

ｘ3：酸度（ｐ

Ｈ) ｘ4：粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87.0 6.5 5.0 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90.0 7.3 5.0 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7.0 6.4 10 26.9 16.1 90.5 6.7 5.2

• 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。

相関分析と相関・偏相関係数

結果の解釈

偏回帰係数のｔ検定結果と偏回帰係数の推

定値はどのように変化しただろうか？

偽相関

• 粘度を目的変数に、圧力と温度と酸度を説明変数に重回帰分析を行ってみよ。

• 同じ説明変数を用いた、収率を目的変数とした重回帰分析の結果と比較してみよ。

• 粘度は収率を説明する原因系の変数ではなく、収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか。

• 収率と粘度との間の高い単

相関は、互いに共通した説

明要因に起因する偽相関

である可能性が強いようだ。

説明変数の選択

• ＰｒｉｎｃｉｐｌｅｏｆＰａｒｓｉｍｏｎｙ（ケチの原則）

目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔にモデルを記述したいという考え方。

• 有効な変数と不要な変数を選択して、最適な回帰式を求めるには？

• 変数選択の方法

①総当り法

②ステップワイズ法（逐次変数選択法）

１）変数増加法２）変数減少法３）変数増減法４）変数減増法

③対話型変数選択法

ステップワイズ法による変数選択

説明変数の選択方法の選択

• 方向で選択方法を選択

• ＳＳＥ：誤差平方和

• ＤＦＥ：誤差の自由度

• ＭＳＥ：平均平方誤差

• Ｃｐ：ＭａｌｌｏｗのＣｐ基準

• ＡＩＣ：赤池の情報量基準ＡＩＣ＝ｎｌｎ（ＳＳＥ／ｎ）

＋２ｐ

ＡＩＣが最小であるモデルが最良のモデル。

• 経験的にＦ値が２以上で

あれば有効な変数、２未

満であれば不要な変数と

されている。

ステップワイズ法の結果

多重共線性

• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象。

• 発生する問題

①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能になってしまう。

②求められた偏回帰係数が、１つのオブザベーションの追加や、ちょっとした誤差によって、大きく変化してしまう。

③求められた偏回帰係数の符号が単相関係数の符号と合わない。

④寄与率（決定係数）は高いのに、個々の偏回帰係数は統計的に有意にならない。

• 対策

①互いに関係をもった説明変数の一部を除去する。

②多重共線性を弱めるようなデータを追加する。

多重共線性の例

ｙｘ１ｘ２ｘ３

1 30 10 20 15

2 32 12 24 17

3 30 14 28 19

4 33 16 32 19

5 30 18 36 22

6 35 20 40 24

7 35 22 44 24

8 37 24 48 25

9 37 26 52 25

10 39 28 56 26

• 以下のデータを用いて重回帰分析を行ってみなさい。（内田他、『すぐわかるＪＭＰに

よる多変量解析』、東京図書、２００２年より）

質的変数を含んだ重回帰分析

バッチ番号

y：収率(％) x1：圧力(気

圧) ｘ2：温度（℃) ｘ3：酸度（ｐ

Ｈ) ｘ5：原料

1 30.4 14.5 87.6 7.5 A

2 26.5 17.1 89.3 6.9 B

3 29.2 16.5 92.3 7.2 B

4 29.5 15.5 89.2 7.4 A

5 25.9 16.6 87.0 6.5 B

6 29.6 18.8 91.6 8.2 A

7 26.2 19.1 90.0 7.3 B

8 28.1 17.5 91.5 7.8 B

9 31.1 14.6 89.7 7.0 A

10 26.9 16.1 90.5 6.7 B

• これまでのデータには、ＡとＢの異なる原産地からの原料が含まれていることがわかった。

原料の情報を新たな説明変数に加えて重回帰分析を試みよ。

結果の解釈

• Marginal 法

• 推定された回帰式は？

０ー１型ダミー変数の導入

結果の違いは？

• Partial 法

• 推定された回帰式は？

ダミー変数の作り方

partial法 marginal法

ｘ１ｘ２ｘ３ｘ１ｘ２ｘ３

Ａ 1 0 0 1 0 0

Ｂ 0 1 0 0 1 0

Ｏ 0 0 1 0 0 1

ＡＢ 0 0 0 -1 -1 -1

順序尺度の場合のＪＭＰ

ｘ１ｘ２ｘ３

1 0 0 0

2 1 0 0

3 1 1 0

4 1 1 1

多項式回帰モデルと線形回帰モデル

ＶＴＲ生産台数 1970 50 1971 49 1972 114 1973 137 1974 124 1975 119 1976 288 1977 762 1978 1470 1979 2199 1980 4441 1981 9498 1982 13134 1983 18217 1984 28611

• 左に示すのは、１９７０年から１９８４年までの国内ＶＴＲ生産台数のデータである。

• この生産台数の推移をうまく当てはめるモデルを推定しなさい。

ヒント

①年の取り方に工夫されたい。

②グラフでプロットしてみて、データの特徴を読み取られたい。

③２次と３次の項を考えなさい。

データ分析の例

店舗名乗降客数店の広さ駐車台数売上高

小田原 245 59 60 272

秦野 118 32 35 161

伊勢原 142 25 30 129

本厚木 249 55 45 252

海老名 174 49 40 204

藤沢 202 32 35 168

大和 254 54 45 242

相模大野 168 32 40 169

町田 224 42 50 224

新百合ヶ丘 186 45 45 202

成城学園前 212 56 50 259

経堂 145 32 30 165

下北沢 174 31 35 180

梅ヶ丘 82 38 30 131

代々木上原 177 34 40 215 出所：「Lotus1-2-3活用多変量解析」（共立出版）

参考文献

• 内野治・松木秀明・上野真由美、『すぐわかるＪＭＰによる統計解析』、東京図書、 2002 年。

• 内野治・松木秀明・上野真由美、『すぐわかるＪＭＰによる多変量解析』、東京図書、 2002 年。

• 田久浩志・林俊克・小島隆矢、『ＪＭＰによる統計解析入門』、 2002 年。

• 圓川隆夫、『多変量のデータ解析』、朝倉書店、１９８８。

• ＪＭＰのヘルプファイルや統計関係のウェブサイトも参考になります。ちなみ

に「ＪＭＰ」をキーワードに検索エンジンで検索してみて下さい。

多項式回帰(1)

• 直線（説明変数ｘの１次式）

ｙ＝ a x + b

• 曲線１（説明変数の２次式）

y = a x

+ b x + c

• 曲線２（説明変数の３次式）

y = a x

+ b x

+ c x + d

多項式回帰（２）

• 列を追加して、計算式で説明変数（西暦年－

１９６９）の２乗と３乗の

列を作成する。

多項式回帰（３）

多項式回帰（４）

多項式回帰（５）

推定された多項式回帰モデルは y = 5318.13 – 2812.08 x + 271.686 x

誤差項は平均が０で分散は一定 3) 誤差項は正規分布に従う

直線はｂ 0 とｂ 1 で決まる

2) 誤差項は平均が０で分散は一定 3) 誤差項は正規分布に従う

９５％信頼区間と平均線の表示

• 図示した９５％信頼区間の曲

線が平均線と交わっているか

どうかで、５％有意水準での

回帰式の有意性の検定を視

覚的に行うことができる。

残差分析

• 残差分析（残差＝観測値－予測値）

• 残差をプロットすることにより、

①外れ値や異常値のチェックおよびこ れによる隠された要因の検討

②点の並び方のクセやトレンドから誤 差の等分散性や系列相関、さらに非線 形性のチェック

１ ) 残差のヒストグラムから正規分布に したがっているといえるか？

２）残差の＋と－の符号の数は同数 か？

３）残差の中央値はゼロに近いか？

４）残差と目的変数および説明変数と の間の散布図から何らかの関係が見 つからないか？

を検討する。

• ダービン・ワトソン比：時系列データの

自己相関のチェックに。２を中心に０か

ら４までの値を取る。

回転プロット

３次元表示で視覚的に確認

手のひらツールで回転させる。

Ｓｈｉｆｔ

Ａｌｔ の各キーを押しながら

Ｃｔｒｌ

モデルのあてはめ

目的変数 従属変数 被説明変数

決定変数

独立変数

説明変数

あてはめ結果の解釈

①自由度調整Ｒ２乗（自由度調整済み決定係数）

②分散分析表によるＦ検定

（帰無仮説：回帰式は意味をもたない。

（切片を除く全ての回帰パラメータが０である。））

③偏回帰係数のｔ検定

（帰無仮説：真のパラメータはゼロである。）

残差分析

• 効果の検定は、連続量の 説明変数の場合にはｔ検定 と同じ。

• 残差分析

製造条件をチェック。

他の要因はないか？

残差と変数との関係

• スチューデント化された残差：ｉ番目

の残差について、ｉ番目の残差を除

いた他の残りの残差から計算された

残差の標準偏差を用いて基準化し

た残差。外的にスチューデント化さ

れた残差とも言う。単に全残差の標

準偏差で基準化された残差を標準

化残差あるいは内的にスチューデン

ト化された残差と言う。

残差と各説明変数との間の関係

スチューデント化され

た残差と説明変数との

間に何の関係も見ら

れないことが望ましい。

てこ比プロット

個々の偏回帰係数の有意性に関して、５％有意水準で視覚的に判定できる。

標準偏回帰係数

• 目的変数と説明変数のそれぞれの データを標準化してデータテーブル に保存。

• このようにして得られる偏回帰係数を

標準偏回帰係数と呼ぶ。

標準偏回帰係数の推定

重回帰分析演習（１）

バッチ番号 y：収率(％) x1：圧力(気圧) ｘ2：温度（℃) ｘ3：酸度（ｐＨ)

1 30.4 14.5 87.6 7.5

2 26.5 17.1 89.3 6.9

3 29.2 16.5 92.3 7.2

4 29.5 15.5 89.2 7.4

5 25.9 16.6 87.0 6.5

6 29.6 18.8 91.6 8.2

7 26.2 19.1 90.0 7.3

8 28.1 17.5 91.5 7.8

9 31.1 14.6 89.7 7.0

10 26.9 16.1 90.5 6.7

• 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。

①外れ値や異常値のチェックおよびこれによる隠された要因の検討

②点の並び方のクセやトレンドから誤差の等分散性や系列相関、さらに非線形性のチェック

１ ) 残差のヒストグラムから正規分布にしたがっているといえるか？

２）残差の＋と－の符号の数は同数か？

４）残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか？

Ａｌｔの各キーを押しながら

目的変数従属変数被説明変数

• 効果の検定は、連続量の説明変数の場合にはｔ検定と同じ。

• 目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存。

番号 y：収率(％) x1：圧力(気圧)

• 同じ説明変数を用いた、収率を目的変数とした重回帰分析の結果と比較してみよ。

• 粘度は収率を説明する原因系の変数ではなく、収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか。

• ＰｒｉｎｃｉｐｌｅｏｆＰａｒｓｉｍｏｎｙ（ケチの原則）

目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔にモデルを記述したいという考え方。

１）変数増加法２）変数減少法３）変数増減法４）変数減増法

• ＡＩＣ：赤池の情報量基準ＡＩＣ＝ｎｌｎ（ＳＳＥ／ｎ）

ＡＩＣが最小であるモデルが最良のモデル。

• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象。

①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能になってしまう。

②求められた偏回帰係数が、１つのオブザベーションの追加や、ちょっとした誤差によって、大きく変化してしまう。

④寄与率（決定係数）は高いのに、個々の偏回帰係数は統計的に有意にならない。

ｙｘ１ｘ２ｘ３