回帰分析編
24
■相関図
データXに対応してデータYが決まるような(Xi,Yi)のデータの組を考えます。 これを、X-Y座標にプロットすると、次のような相関図ができます。正の相関
相関がない
負の相関
相関係数:XとYの関係の強さを示す。(-1≦相関係数≦1) プロットの傾きではなく、線上への密集の度合いで強さが決まる。■回帰分析
相関図からデータXとデータYの相関関係(数式)が見つかれば、観測や予測による Xの値を、数式に代入して、Yの値(理論値)を知ることができます。 最も単純な式は、次の直線の式です。これを回帰式といいます。 ここで、a を回帰係数、bを定数項といいます。a と b は最小2乗法で求めるこ とができます。また、yを従属(目的)変数、xを独立(説明)変数とよびます。 時間(日、月、年)の経過(x)に相関して変化するデータ(y)があれば、回帰式から将 来が予測できそうですね。また x と y のデータ(現象)の関係を数学的に示すこと は現象の解明に客観性を与えます。◆aとbを算出する:最小2乗法
x
y
回帰直線ax
i+b
y
i[
最小2乗法
] 距離diの平方の和
Σd
i2=Σ{y
i-(ax
i+b)}
2を最小にするようにa,bの値を求める。
aを
回帰係数
、bを
切片
と呼ぶ。
d
i|d
i|=|y
i-(ax
i+b)|
回帰分析
怪奇な現象を回帰分析で数学的に説明しよう!x
ib
回帰分析編
25
科学のメスを入れる
2009年度に実施された全国学力調査から次の新聞報道のように「世帯年収と成績格差」が 問題視された(日本経済新聞より).確かに表を見ていると世帯年収と成績は相関している ように見える.では,どのくらい相関しているのであろうか.10人いれば10人の見解があ るとも言える.そこで,回帰分析によって科学的に解明しよう.回帰分析編 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 購買動機 (% ) 評判がよい(%) 評判と購買動機の関係
26
次のデータは首都圏と近畿圏の20歳から59歳までの消費者600人を対象にしたビール の調査結果です. Y軸は購買動機:そのビールを「買いたい」と答えた人の割合(複数回答) X軸は評判:そのビールを飲んだことがある人の銘柄評価の割合(複数回答) 演習 1. このページを印刷して、グラフから鉛筆と定規で回帰式 “ ” を求めよう。 2. 求めた回帰式の に下表の観測値「評判がよい」を代入して理論値 を求めよう。 3. 理論値 と観測値「購買動機」の相関係数をデータ分析ツール(相関)で求めてみよう。 あとで、みなさんが定規で求めた式と分析ツールで求めた回帰式とを比べてみましょう。手と頭を使って単回帰分析のコンテスト
銘柄名 人気度 理論値 評判が良い モーニングスーパードライ 45 45 ジラフ一番搾り 38 30 ジラフラガービール 34 26 ダイコクビール 33 27 サホロ生ビール黒ラベル 25 18 ジラフ淡麗生ビール 23 14 トリスモルツ 20 12 モーニング黒生ビール 15 11 オリオンビール 7 5 サホロドラフトワン 7 6相関係数
回帰分析編 0 5 10 15 20 25 30 35 40 45 50 0 5 10 15 20 25 30 35 40 45 50 購買動機 (% ) 評判がよい(%) 評判と購買動機の関係 銘柄 評判が良い(%) 購買動機(%) モーニングスーパードライ 45 45 ジラフ一番搾り 30 38 ジラフラガービール 26 34 ダイコクビール 27 33 サホロ生ビール黒ラベル 18 25 ジラフ淡麗生ビール 14 23 トリスモルツ 12 20 モーニング黒生ビール 11 15 オリオンビール 5 7 サホロドラフトワン 6 7
27
データX,Yの散布図(グラフ)を描いて、その上に回帰直線を求めます。①散布図を作成
データ範囲の指定 1列目:X軸のデータ項目 2列目:Y軸の数値データ 挿入タブ → グラフの種類:散布図 → 散布図の形式(マーカーのみ) → デザインタブ → クイックレイアウト → タイトル、凡例、軸ラベル名の表示形式を指定②回帰直線を求めるグラフの選択
→グラフのマーカーをクリックグラフを基にした回帰分析
グラフのマーカーを クリックする回帰分析編
28
この二つをクリックして、回帰式と R2値(重決定係数)を表示する. (右の例から) ■回帰式 ■重決定係数 ※重決定係数とは yの実測値と理論値の相関を表し、 回帰式の説明力を示す指標となる。 0< R2<1 R2>=0.8が理想。一般的には0.6 問題1:手作業で求めた式と回帰分析で得られた回帰式とを比較しなさい。③近似曲線で回帰直線を描く
グラフの右隅にある [グラフ要素] をクリックします。 → 近似曲線にチェック → ▲をクリックして、その他のオプション → 近似曲線の書式設定 → 線形近似 → グラフに数式を表示する → グラフにR2乗値を表示するグラフを基にした回帰分析
y = 0.9928x + 5.4401 R² = 0.9342 0 5 10 15 20 25 30 35 40 45 50 0 10 20 30 40 50 購買動機 (% ) 評判がよい(%) 評判と購買動機の関係 回帰式と重決定係数回帰分析編
29
つぎに分析ツールの回帰分析で回帰式を求めてみましょう. 重決定係数回帰式は
*
■分析手順 ①回帰分析ツールの選択 データタブ →データ分析 →回帰分析 ②データの設定 従属変数のデータ範囲 ( 購買動機) 説明変数のデータ範囲 ( 評判が良い) 結果表示セル分析ツールによる回帰分析
-単回帰分析-分散分析 によるyの変動がyの誤 差による変動に比べて 十分に大きいことから モデルの説明力を判定. 観測された分散比(F)が自 由度(m.n)のF分布表のF値 よりも大きいならば回帰式 は有意とみなせる.ここで、 m=説明変数の数 n=(サンプル数-1) - m F値の有意水準として5% あるいは1%を適用. ①自由度 ・回帰(m)→説明変数 →1 ・残差(n)→(サンプル数-1)-説明変数 →8 ②変動 ・回帰の変動=Σ(理論値-理論値の平均)2 ・残差の変動=Σ(観測値-理論値)2 ③分散=回帰(残差)変動/自由度 ④分散比(F)=1392/12.3=113 ⑤自由度(m=1,n=8)の有意水準5%の F値は5.32 ∵④>⑤より5%の誤り率で「この回帰は有 意でない」という帰無仮説は棄却される. →95%の信頼率で変動と誤差には有意な差がある. x(評判が良い)とう要因にy(購買動機)が従属する. ⑥有意FはF=55.8の有意水準(P)を示す. ※5.262E-05=0.000005262 →1%よりさらに小さい。回帰分析編
30
次のデータは首都圏と近畿圏の20歳から59歳までの消費者600人を対象 にしたビールの調査結果です. 補足 購買動機:そのビールを「買いたい」と答えた人の割合(複数回答) 味がよい:そのビールを飲んだことがある人の評価の割合(複数回答) 手と頭を使って単回帰分析の演習-1-銘柄名 購買動機(%) 味がよい(%) 1 モーニングスーパードライ 45 61 2 ジラフ一番搾り 38 53 3 ジラフラガービール 34 45 4 ダイコクビール 33 57 5 サホロ生ビール黒ラベル 25 42 6 ジラフ淡麗生ビール 23 34 7 トリスモルツ 20 31 8 モーニング黒生ビール 15 33 9 オリオンビール 7 19 10 サホロドラフトワン 7 10 ※参考:上田太一郎著「EXCELでできるデータマイニング入門」より一部改変 演習問題 説明変数を「味がよい」、目的変数を「購買動機」とし、味と購買動機の関係を調 べてみましょう. y(購買動機)=a * x(味がよい) + b 1. 散布図から回帰式を求めてください. そして、R2値からこの回帰モデルの説明力を検討してください. 注意:「購買動機度」と「味がよい」のデータ範囲をドラッグして散布図を作成すると、X 軸が「購買動機度」、Y軸が「味がよい」になります(左列がX軸になる)。 これでは、X軸の「人気度」が説明変数になりますね。つまり、 y(味がよい)=a * x(購買動機) + b ※X軸とY軸を入れ替えるには、散布図を作成した後、グラフエリアを右クリックして、 「データの選択」→「編集」→【系列の編集」画面でXとYのデータ範囲を指定しなおしま す。 2. つぎに、データ分析ツールで回帰分析を行ってください. そして、分散分析表からこの回帰モデルの説明力を検討してください. 3. さて、同時に未発売「カモンちゃんビール」の「味」を調査をした ところ38%の人が「味がよい」と評価してくれました. 予想される購買動機を求めてください. カモンちゃん 20歳から回帰分析編
31
次のデータは首都圏と近畿圏の20歳から59歳までの消費者600人を対象 にしたビールの調査結果です. 補足 購買動機:そのビールを「買いたい」と答えた人の割合(複数回答) CMがよい:そのビールを飲んだことがある人の評価の割合(複数回答) 手と頭を使って単回帰分析の演習-2-銘柄名 購買動機(%) CMがよい(%) 1 モーニングスーパードライ 45 21 2 ジラフ一番搾り 38 23 3 ジラフラガービール 34 16 4 ダイコクビール 33 18 5 サホロ生ビール黒ラベル 25 12 6 ジラフ淡麗生ビール 23 12 7 トリスモルツ 20 28 8 モーニング黒生ビール 15 6 9 オリオンビール 7 0 10 サホロドラフトワン 7 6 ※上田太一郎著「EXCELでできるデータマイニング入門」より一部改変 演習問題 説明変数を「CMがよい」、目的変数を「購買動機」とします. 1. 散布図から回帰式を求めてください.そして、R2値からこの回帰モデルの説 明力を検討してください. 注意:X軸のデータとY軸のデータを入れ替えてください。 2. データ分析ツールで回帰分析をしてください.そして、分散分析表からこの 回帰モデルの説明力を検討してください. 3. 前ページの「味がよい」の調査結果38%から予想される「カモンちゃんビー ル」の「購買動機」を達成するためには、どのくらいの「CM」評価を獲得し ないといけないでしょうか. カモンちゃん 20歳から回帰分析編
32
説明変数 x が複数ある場合を
重回帰分析
といいます.
重回帰式
■分析手順
①回帰分析ツールの選択 データタブ →データ分析 →回帰分析 ②データの設定 目的変数のデータ範囲 (人気度) 説明変数のデータ範囲 (味とCM) ※ラベルを☑するとデータ範囲 に列見出しを含めることができ る. 結果を表示する 左上のセル番号分析ツールによる回帰分析
-重回帰分析-説明変数の有意性(役立っているか): 各説明変数のt-値とP-値によってその変数の有意性 を検定することができる. t-値は係数aj=0という帰無仮説を棄却する判断値で, 「|t|>棄却境界値(t分布表の自由度と有意水準で求 まる)」ならば,この帰無仮説は棄却される.すな わち,係数aj=0とはできない.このときの有意水準 は一般的に5%(1%) とする.P-値は検定された|t| 値に対する有意水準を示す.すなわち5%(1%)以下 であれば上記の条件が成立する.換言すると信頼率 95%(99%)で棄却できる. 味は1%以下で有意あるが、CMは5%を超えていて 有意とは言えない.残念ながらCMの効果はあまりな いと判断できる.また,P-値が小さい説明変数ほど 棄却できない.この例では,「CM」を回帰モデルに 加えない方がよい. ※t値=係数÷標準誤差.回帰分析編
33
重回帰分析の応用課題
次のデータを重回帰分析してみよう. →ファイル名:情報学への招待(量的データの回帰分析).xls 数量化Ⅰ類にチャレンジしてみよう。 →ファイル名:情報学への招待(質的データの回帰分析).xls 数量化Ⅰ類 表Aのようにアイスクリームの販売量を、質的データで予測する方法を数量化Ⅰ類 といいます。質的データをアイテムと呼び、予測する量的データ(この場合は販 売量)を外的基準と呼びます。 さて、エクセルの分析ツール(回帰分析)でこのような分析を行ためには、以下 のようにデータを加工します。 ① まず、表Bのように天気を「晴れ」、「曇り」、「雨」に分け、それぞれのセル に、該当=1、非該当=0と数値化する。気温と通行人も同様に数値化する。 これをダミー変数という。 ② つぎに、天気から「雨」の列を削除する。「晴れ」と「曇り」がわかれば 「雨」がわかる。 例えば、回帰式で予測するとき、明日の天気予報が雨ならば、回帰式の晴れの 項=0、曇りの項=0を代入する。どれを削除するかの決まりはない。 ※「雨」も分析対象にすると最小2乗法の計算エラーとなる。 ① 係数は回帰係数とは呼ばずカテゴリ・スコアと呼ぶ。 彦根城店のアイスクリーム販売量 日付 販売量(個) 天気 気温 通行人 7月1日 131 晴れ 高い 少ない 7月2日 96 晴れ 高い 少ない 7月3日 58 曇り 普通 少ない 7月4日 91 曇り 高い 多い 7月5日 132 曇り 高い 少ない 彦根城店のアイスクリーム販売量 天気 気温 通行人 日付 販売量(個) 天気 気温 通行人 晴れ 曇り 雨 高い 普通 低い 多い 少ない 7月1日 131 晴れ 高い 少ない 1 0 0 1 0 0 0 1 7月2日 96 晴れ 高い 少ない 1 0 0 1 0 0 0 1 7月3日 58 曇り 普通 少ない 0 1 0 0 1 0 0 1 7月4日 91 曇り 高い 多い 0 1 0 1 0 0 1 0 7月5日 132 曇り 高い 少ない 0 1 0 1 0 0 0 1 表A 表B IF関数を用いてダミー変 数へ変換する。各要因か らカテゴリデータを一つ 削除する 彦根店のアイスクリーム販売量 日付 販売量(個) 平均気温(℃) 平均湿度(%) 入店者数 7月1日 112 26.00 93.12 1179 7月2日 29 27.60 85.99 1787 7月3日 47 34.99 79.20 1997 7月4日 105 33.63 86.52 1150 7月5日 107 30.09 70.32 1641 7月6日 116 30.51 98.80 1660 7月7日 104 31.14 72.39 1067回帰分析編