情報基礎論Ⅱ(担当:二宮智子先生)
・後期最終課題
過去 5 年間のプロ野球勝利要因分析
~ どの指標の組み合わせが最も勝利に影響したのか ~
(1)はじめに(目的)
私は千葉出身という事もあって、小さい時から大の千葉ロッテマリーンズのファンで、 昨年は見事31 年ぶりの優勝を果たす事が出来、念願の勝利の美酒を味わう事が出来た。昨 年の千葉ロッテは「ボビー・マジック」と呼ばれるボビー・バレンタイン監督の采配の元、 優勝したわけだが、その裏で大活躍していたのが統計アナリストと言われている。その例 が128 種類にわたる日替わりオーダーである(昨年は 136 試合行われた)。このオーダーは どれも相手との相性やここ数試合の活躍を統計データに基づいて、研究し、決められたも のである。そこで、本稿では、実際に千葉ロッテの統計アナリストが行っていた分析まで とはいかないが、過去 5 年間のプロ野球の勝利要因を、プロ野球公式記録を使用すること によって導きたい。そして、最終的にはこれら数値的データ分析に基づいて、どの指標の 組み合わせが最も勝利に影響したのかを重回帰分析を使う事によって考察していきたい。(2)仮説と分析方法について(データについて)
野球の基本は「走・攻・守」と言われている。そこで、本稿では「盗塁数が多く、打率 が高く、防御率が低いチームが勝つ可能性が高い」という仮説を立てる事によって分析を進めていきたい。従属変数(目的変数)に「勝率」を置いた理由は年度ごとに試合数が違 うためである。そして、仮説を立てた後、その他の指標(例えば、「本塁打」など)に関し ても勝率とどのような影響があるのかを相関係数を求める事によって求めていきたい。 データは「日本野球機構公式記録」過去5 年分(2001-2005 年)の 12 球団の記録を使用 し、指標は以下のものを使用する。 【独立変数(説明変数)】 ・ 盗塁、打率、防御率 ・ 試合数 【打者】 得点、安打、二塁打、三塁打、本塁打、 打点、三振、四球、犠打、犠飛 【投手】 被安打、被本塁打、奪三振、与四球、失点 【チーム】 ● 2001-2005 年データ 千葉ロッテマリーンズ (千葉ロッテ) 北海道日本ハムファイターズ (日本ハム)…2004 年から本拠地が東京から北海道に。 西武ライオンズ (西武) 阪神タイガース (阪神) 中日ドラゴンズ (中日) 横浜ベイスターズ (横浜) ヤクルトスワローズ (ヤクルト) 読売ジャイアンツ (巨人) 広島カープ (広島) ● 2001-2004 年データ 福岡ダイエーホークス(ダイエー)…2005 年に球団名変更 オリックスブルーウェーブ(オリックス)、近鉄バッファローズ(近鉄)…2005 年に合併 ● 2005 年データ 福岡ソフトバンクホークス (ソフトバンク) オリックスバッファローズ (オリックス) 東北楽天ゴールデンイーグルス (東北楽天)
(3)分析のプロセスと結果
1. 基本統計量と分析
1.1. 勝率(図1参照)
【従属変数(目的変数)】勝 率
勝率は全試合に占める勝った試合の割合を示したものである。求め方は「シーズン勝数÷ (シーズン勝数+シーズン負数)」によって求められる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 0.499 0.798 0.281 0.664 0.5055 - - 2005 年 東北楽天 2005 年 ソフトバンク - 平均は0.499 と限りなく 5 割に近く、0.45~0.55 にほとんどのチームが固まっている。 また、標準偏差は 0.7980 とばらつきはものすごく小さく、かなり信頼出来る値と言える。 はずれ値も2003 年横浜ベイスターズの 0.324 と 2005 年東北楽天ゴールデンイーグルスの 0.281 だけである。最大値は 2005 年の福岡ソフトバンクホークスだが、千葉ロッテとのプ レーオフに敗れたため、惜しくも日本一にはなれなかった。
1.2. 盗塁数(図2参照)
サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 69.883 24.003 25 147 68.5 - - 2004 年 巨人 2003 年 ダイエー - 平均は 69.883 個で、ほとんどのチームが 50~75 個の間に固まっている。標準偏差は 4 つの指標(盗塁、打率、防御率、勝率)の中で最も大きい24.003 という値を示し、尐しば らつきがあると言える。はずれ値も2003 年福岡ダイエーホークスが記録した 147 個という 極端に多い値だけである。ちなみに、2003 年福岡ダイエーホークスは日本シリーズで阪神 タイガースを倒し、見事日本一になっている。つまり、2003 年のペナントレースは盗塁が 勝率に影響していると言えるかもしれない。0.30 0.40 0.50 0.60 0.70 勝率 0 5 10 15 20 度 数 Mean = 0.4998 Std. Dev. = 0.0798 N = 60 ヒストグラム 勝率 0.30 0.40 0.50 0.60 0.70 6 30 図1:勝率
25.00 50.00 75.00 100.00 125.00 150.00 盗塁 0 2 4 6 8 10 12 14 度 数 Mean = 69.8833 Std. Dev. = 24.0036 N = 60 ヒストグラム 盗塁 25.00 50.00 75.00 100.00 125.00 150.00 31 図2:盗塁数
1.3. 打率(図3参照)
打率は「安打÷打数」で導かれ、一般に3 割(0.3)以上だと一定の評価をされる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 0.264 0.012 0.235 0.297 0.269 - - 2002 年 オリックス 2003 年 ダイエー - 平均 0.264、標準偏差 0.012、はずれ値もなしとほとんどばらつきがなく、かなり信頼し た値と言える。最大値は先程の「盗塁数」と同じく、2003 年福岡ダイエーホークスが記録 した0.297 で、打率も 2003 年のペナントレースにおいて、勝率に影響していると言えるか もしれない。また、最小値は2002 年にオリックスブルーウェーブが記録した 0.235 で、こ の年は最下位に沈んだ。1.4. 防御率(図4参照)
9 回を投げた場合の投手の平均自責点を表し、求め方は「(自責点×9)÷ 投球回」で求 められる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 4.14 0.616 3.04 5.95 4.10 - - 2002 年 巨人 2003 年 オリックス - 平均値 4.14、標準偏差 0.616 とほとんどばらつきはなく、かなり信頼した値と言える。 「防御率」を見る上で注意しなければならないのは、「防御率は小さいほど良い」という事 である。したがって、2002 年の読売ジャイアンツが記録した 3.04 が過去 5 年間の中で最も 良い。ちなみに、2002 年の読売ジャイアンツは日本シリーズで西武を4勝 0 敗と一回も負 ける事なく、圧倒的な強さで日本一に輝いている。従って、2002 年ペナントレースは防御 率が勝率に影響していると言えるかもしれない。0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 0 2 4 6 8 10 度 数 Mean = 0.2674 Std. Dev. = 0.01244 N = 60 ヒストグラム 打率 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 図3:打率
3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 0 2 4 6 8 10 12 度 数 Mean = 4.144 Std. Dev. = 0.61684 N = 60 ヒストグラム 防御率 3.00 3.50 4.00 4.50 5.00 5.50 6.00 24 6 36 図4:防御率
2. 相関関係(図5、6)
次に、二変量間の相関関係(従属変数である「勝率」と独立変数「盗塁」、「打率」、「防 御率」の関係)について調べた(図5、6参照)。結果は以下の通りである。 相関係数 1 .294* .555** -.572** . .022 .000 .000 60 60 60 60 .294* 1 .235 -.167 .022 . .071 .203 60 60 60 60 .555** .235 1 .169 .000 .071 . .198 60 60 60 60 -.572** -.167 .169 1 .000 .203 .198 . 60 60 60 60 Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N 勝率 盗塁 打率 防御率 勝率 盗塁 打率 防御率 相関係数は 5% 水準で有意 (両側) です。 *. 相関係数は 1% 水準で有意 (両側) です。 **. 図5 二変量間の相関係数 勝率 盗塁 打率 防御率 防 御 率 打 率 盗 塁 勝 率 図6 仮説における二変量間の相関関係相関関係を調べた結果、「勝率」はどの指標に対してもある程度の相関関係を持っている 事がわかった。まず、「盗塁数」を見ると、「盗塁数」は「勝率」に対して 0.294 という相 関関係を持っており、弱い正の関係がある事と 5%水準で有意であることがわかった。次に、 「打率」を見ると、「打率」は「勝率」に対して 0.555 という相関関係を持っており、かな りの正の関係がある事と 1%水準で有意であることがわかった。最後に、「防御率」を見る と、「防御率」は「勝率」に対して-0.572 という相関関係を持っており、かなりの負の関係 がある事と 1%水準で有意であることがわかった。つまり、以上の事から「打率」と「防御 率」に関しては強い相関関係がありそうだが、「盗塁」に関してはそれほど強い相関関係は 言えなそうである。以下では、単回帰と重回帰分析をする事によって、もっと詳しく見て いきたい。
3. 単回帰分析
3.1. 「盗塁数は勝率に影響する。」
まず、有意確率は.022 であることから 1%有意基準で帰無仮説は棄却出来ない。つまり、 仮説は1%有意基準では成立しないと言える。また、R2乗値(決定係数)を調べると 0.071 である事から説明力は約7.1%と説明力がないことがわかる。 モ デ ル集計 .294a .087 .071 .07692 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、盗塁。 a. 分散分析b .033 1 .033 5.507 .022a .343 58 .006 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、盗塁。 a. 従属変数: 勝率 b. 係数a .431 .031 14.008 .000 .001 .000 .294 2.347 .022 (定数) 盗塁 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a.25.00 50.00 75.00 100.00 125.00 150.00 盗塁 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.087
3.2. 「打率は勝率に影響する。」
まず、有意確率は.000 であることから 1%有意基準で帰無仮説は棄却され、仮説は成立 する。次に、モデル係数より回帰方程式を求めると以下のようになる。453
.
0
3563
.
0
x
y
そして、R2乗値(決定係数)を調べると.297 である事から説明力は約 29.7%とまずまずの 説明力があることがわかる。 モ デ ル集計 .555a .309 .297 .06693 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、打率。 a.分散分析b .116 1 .116 25.880 .000a .260 58 .004 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、打率。 a. 従属変数: 勝率 b. 係数a -.453 .187 -2.416 .019 3.563 .700 .555 5.087 .000 (定数) 打率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a. 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.309
3.3. 「防御率は勝率に影響する。」
まず、有意確率は.000 であることから 1%有意基準で帰無仮説は棄却され、仮説は成立 する。次に、モデル係数より回帰方程式を求めると以下のようになる。806
.
0
704
.
0
x
y
そして、R2乗値(決定係数)を調べると.315 である事から説明力は約 31.5%とまずまずの 説明力があることがわかる。 3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.327モ デ ル集計 .572a .327 .315 .06603 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、防御率。 a.
分散分析b .123 1 .123 28.177 .000a .253 58 .004 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、防御率。 a. 従属変数: 勝率 b. 係数a .806 .058 13.814 .000 -.074 .014 -.572 -5.308 .000 (定数) 防御率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a.