直線はb 0 とb 1 で決まる
2) 誤差項は平均が0で分散は一定 3) 誤差項は正規分布に従う
95%信頼区間と平均線の表示
• 図示した95%信頼区間の曲
線が平均線と交わっているか
どうかで、5%有意水準での
回帰式の有意性の検定を視
覚的に行うことができる。
残差分析
• 残差分析(残差=観測値-予測値)
• 残差をプロットすることにより、
①外れ値や異常値のチェックおよびこ れによる隠された要因の検討
②点の並び方のクセやトレンドから誤 差の等分散性や系列相関、さらに非線 形性のチェック
1 ) 残差のヒストグラムから正規分布に したがっているといえるか?
2)残差の+と-の符号の数は同数 か?
3)残差の中央値はゼロに近いか?
4)残差と目的変数および説明変数と の間の散布図から何らかの関係が見 つからないか?
を検討する。
• ダービン・ワトソン比:時系列データの
自己相関のチェックに。2を中心に0か
ら4までの値を取る。
回転プロット
3次元表示で視覚的に確認
手のひらツールで回転させる。
Shift
Alt の各キーを押しながら
Ctrl
モデルのあてはめ
目的変数 従属変数 被説明変数
決定変数
独立変数
説明変数
あてはめ結果の解釈
①自由度調整R2乗(自由度調整済み決定係数)
②分散分析表によるF検定
(帰無仮説:回帰式は意味をもたない。
(切片を除く全ての回帰パラメータが0である。))
③偏回帰係数のt検定
(帰無仮説:真のパラメータはゼロである。)
残差分析
• 効果の検定は、連続量の 説明変数の場合にはt検定 と同じ。
• 残差分析
製造条件をチェック。
他の要因はないか?
残差と変数との関係
• スチューデント化された残差:i番目
の残差について、i番目の残差を除
いた他の残りの残差から計算された
残差の標準偏差を用いて基準化し
た残差。外的にスチューデント化さ
れた残差とも言う。単に全残差の標
準偏差で基準化された残差を標準
化残差あるいは内的にスチューデン
ト化された残差と言う。
残差と各説明変数との間の関係
スチューデント化され
た残差と説明変数との
間に何の関係も見ら
れないことが望ましい。
てこ比プロット
個々の偏回帰係数の有意性に関して、5%有意水準で視覚的に判定できる。
標準偏回帰係数
• 目的変数と説明変数のそれぞれの データを標準化してデータテーブル に保存。
• この標準化されたデータを用いて重 回帰分析を行うと、得られる偏回帰 係数は、ある説明変数が1標準偏差 分だけ変化したとき、目的変数は何 標準偏差分だけ変化するかを示すこ とになり、説明変数のスケール値や バラツキの大小には依存しないよう にして、各説明変数の目的変数への 影響度の比較を行うことができるよう になる。
• このようにして得られる偏回帰係数を
標準偏回帰係数と呼ぶ。
標準偏回帰係数の推定
重回帰分析演習(1)
バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH)
1 30.4 14.5 87.6 7.5
2 26.5 17.1 89.3 6.9
3 29.2 16.5 92.3 7.2
4 29.5 15.5 89.2 7.4
5 25.9 16.6 87.0 6.5
6 29.6 18.8 91.6 8.2
7 26.2 19.1 90.0 7.3
8 28.1 17.5 91.5 7.8
9 31.1 14.6 89.7 7.0
10 26.9 16.1 90.5 6.7
• 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。
相関分析
偏相関係数
他の変数の影響を取り除いた純粋な
目的変数と1つの説明変数との間の
相関の程度を表す尺度。目的変数と
説明変数を残りの説明変数で回帰式
にあてはめ、それぞれの残差から求
められる相関係数のこと。
結果の解釈
①自由度調整R2乗(自由度調整済み決定係数)
②分散分析表によるF検定
③偏回帰係数のt検定
④偏回帰係数の推定値の符号
重相関分析演習(2)
バッチ
番号 y:収率(%) x1:圧力(気 圧)
x2:温度
(℃)
x3:酸度(p
H) x4:粘度 1 30.4 14.5 87.6 7.5 6.2 2 26.5 17.1 89.3 6.9 5.5 3 29.2 16.5 92.3 7.2 5.7 4 29.5 15.5 89.2 7.4 6.1 5 25.9 16.6 87.0 6.5 5.0 6 29.6 18.8 91.6 8.2 5.9 7 26.2 19.1 90.0 7.3 5.0 8 28.1 17.5 91.5 7.8 5.7 9 31.1 14.6 89.7 7.0 6.4 10 26.9 16.1 90.5 6.7 5.2
• 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。
相関分析と相関・偏相関係数
結果の解釈
偏回帰係数のt検定結果と偏回帰係数の推
定値はどのように変化しただろうか?
偽相関
• 粘度を目的変数に、圧力と温度と酸度を説明変数に重回帰分析を行ってみよ。
• 同じ説明変数を用いた、収 率を目的変数とした重回帰 分析の結果と比較してみよ。
• 粘度は収率を説明する原 因系の変数ではなく、収率 と同様に圧力と温度と酸度 で説明される結果系の変数 ではないか。
• 収率と粘度との間の高い単
相関は、互いに共通した説
明要因に起因する偽相関
である可能性が強いようだ。
説明変数の選択
• Principle of Parsimony(ケチの原則)
目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は 高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔 にモデルを記述したいという考え方。
• 有効な変数と不要な変数を選択して、最適な回帰式を求めるには?
• 変数選択の方法
①総当り法
②ステップワイズ法(逐次変数選択法)
1)変数増加法 2)変数減少法 3)変数増減法 4)変数減増法
③対話型変数選択法
ステップワイズ法による変数選択
説明変数の選択方法の選択
• 方向で選択方法を選択
• SSE:誤差平方和
• DFE:誤差の自由度
• MSE:平均平方誤差
• Cp:MallowのCp基準
• AIC:赤池の情報量基準 AIC=nln(SSE/n)
+2p
AICが最小であるモデ ルが最良のモデル。
• 経験的にF値が2以上で
あれば有効な変数、2未
満であれば不要な変数と
されている。
ステップワイズ法の結果
多重共線性
• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる 現象。
• 発生する問題
①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能 になってしまう。
②求められた偏回帰係数が、1つのオブザベーションの追加や、ちょっとし た誤差によって、大きく変化してしまう。
③求められた偏回帰係数の符号が単相関係数の符号と合わない。
④寄与率(決定係数)は高いのに、個々の偏回帰係数は統計的に有意に ならない。
• 対策
①互いに関係をもった説明変数の一部を除去する。
②多重共線性を弱めるようなデータを追加する。
多重共線性の例
y x1 x2 x3
1 30 10 20 15
2 32 12 24 17
3 30 14 28 19
4 33 16 32 19
5 30 18 36 22
6 35 20 40 24
7 35 22 44 24
8 37 24 48 25
9 37 26 52 25
10 39 28 56 26
• 以下のデータを用いて重回帰分析を行ってみなさい。(内田他、『すぐわかるJMPに
よる多変量解析』、東京図書、2002年より)
質的変数を含んだ重回帰分析
バッチ 番 号
y:収率(%) x1:圧力(気
圧) x2:温度(℃) x3:酸度(p
H) x5:原料
1 30.4 14.5 87.6 7.5 A
2 26.5 17.1 89.3 6.9 B
3 29.2 16.5 92.3 7.2 B
4 29.5 15.5 89.2 7.4 A
5 25.9 16.6 87.0 6.5 B
6 29.6 18.8 91.6 8.2 A
7 26.2 19.1 90.0 7.3 B
8 28.1 17.5 91.5 7.8 B
9 31.1 14.6 89.7 7.0 A
10 26.9 16.1 90.5 6.7 B
• これまでのデータには、AとBの異なる原産地からの原料が含まれていることがわかった。
原料の情報を新たな説明変数に加えて重回帰分析を試みよ。
結果の解釈
• Marginal 法
• 推定された回帰式は?
0ー1型ダミー変数の導入
結果の違いは?
• Partial 法
• 推定された回帰式は?
ダミー変数の作り方
partial法 marginal法
x1 x2 x3 x1 x2 x3
A 1 0 0 1 0 0
B 0 1 0 0 1 0
O 0 0 1 0 0 1
AB 0 0 0 -1 -1 -1
順序尺度の場合のJMP
x1 x2 x3
1 0 0 0
2 1 0 0
3 1 1 0
4 1 1 1
多項式回帰モデルと線形回帰モデル
VTR生産台数 1970 50 1971 49 1972 114 1973 137 1974 124 1975 119 1976 288 1977 762 1978 1470 1979 2199 1980 4441 1981 9498 1982 13134 1983 18217 1984 28611
• 左に示すのは、1970年から1984年ま での国内VTR生産台数のデータである。
• この生産台数の推移をうまく当てはめる モデルを推定しなさい。
ヒント
①年の取り方に工夫されたい。
②グラフでプロットしてみて、データの特徴を読み取られたい。
③2次と3次の項を考えなさい。
データ分析の例
店舗名 乗降客数 店の広さ 駐車台数 売上高
小田原 245 59 60 272
秦野 118 32 35 161
伊勢原 142 25 30 129
本厚木 249 55 45 252
海老名 174 49 40 204
藤沢 202 32 35 168
大和 254 54 45 242
相模大野 168 32 40 169
町田 224 42 50 224
新百合ヶ丘 186 45 45 202
成城学園前 212 56 50 259
経堂 145 32 30 165
下北沢 174 31 35 180
梅ヶ丘 82 38 30 131
代々木上原 177 34 40 215 出所:「Lotus1-2-3活用多変量解析」(共立出版)
参考文献
• 内野治・松木秀明・上野真由美、『すぐわかるJMPによる統計解析』、東京 図書、 2002 年。
• 内野治・松木秀明・上野真由美、『すぐわかるJMPによる多変量解析』、東 京図書、 2002 年。
• 田久浩志・林俊克・小島隆矢、『JMPによる統計解析入門』、 2002 年。
• 圓川隆夫、『多変量のデータ解析』、朝倉書店、1988。
• JMPのヘルプファイルや統計関係のウェブサイトも参考になります。ちなみ
に「JMP」をキーワードに検索エンジンで検索してみて下さい。
多項式回帰(1)
• 直線(説明変数xの1次式)
y = a x + b
• 曲線1(説明変数の2次式)
y = a x
2+ b x + c
• 曲線2(説明変数の3次式)
y = a x
3+ b x
2+ c x + d
多項式回帰(2)
• 列を追加して、計算式 で説明変数(西暦年-
1969)の2乗と3乗の
列を作成する。
多項式回帰(3)
多項式回帰(4)
多項式回帰(5)
推定された多項式回帰モデルは y = 5318.13 – 2812.08 x + 271.686 x
2多項式回帰(6)
推定された多項回帰式: y = -2063.55 + 1970.32 x – 452.007 x
2+ 30.1539 x
3予測値のチェック
モデルは予測に使えるか?
①マイナスの生産台数
②3次のモデル1973年から76年まで予測値が減少
VTR生産台数の対数変換
• VTR生産台数を対数変換してみ
ると、線形の関係が見られる。
変数変換による線形回帰モデル
推定された回帰モデル: ln y = 2.797 + 0.496 x
このモデルで生産台数を予測するには?
予測値の逆変換
対数変換モデルによる予測
JMP での変数変換による重回帰分析
JMP での対数変換モデルの推定結果
• ここに示された決定係数は、
変換後のデータに対するもの
数量化理論第Ⅰ類
• ダミー変数のみを用いた重回帰分析と同等
1987年度プロ野球観客動員数と球団属性一覧
観客動員数 リーグ 本拠地 親会社業種 前年度成績
読売 304 セ 首都圏 新聞 A
中日 201 セ その他 新聞 A
広島 112 セ その他 市 A
ヤクルト 222 セ 首都圏 メーカー B
大洋 154 セ 首都圏 市 B
阪神 213 セ 関西 電鉄 C
西武 181 パ 首都圏 電鉄 A
阪急 123 パ 関西 電鉄 A
日本ハム 124 パ 首都圏 メーカー B
南海 88 パ 関西 電鉄 B
ロッテ 78 パ 首都圏 メーカー C
近鉄 101 パ 関西 電鉄 C
モデルの仮説
観客動員数
セントラルリーグ パシフィックリーグ
首都圏 関西 その他 新聞社
メーカー
ドキュメント内
スライド タイトルなし
(ページ 34-83)