• 検索結果がありません。

情報基礎論Ⅱ(担当:二宮智子先生)・後期最終課題

N/A
N/A
Protected

Academic year: 2021

シェア "情報基礎論Ⅱ(担当:二宮智子先生)・後期最終課題"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

情報基礎論Ⅱ(担当:二宮智子先生)

・後期最終課題

過去 5 年間のプロ野球勝利要因分析

~ どの指標の組み合わせが最も勝利に影響したのか ~

(1)はじめに(目的)

私は千葉出身という事もあって、小さい時から大の千葉ロッテマリーンズのファンで、 昨年は見事31 年ぶりの優勝を果たす事が出来、念願の勝利の美酒を味わう事が出来た。昨 年の千葉ロッテは「ボビー・マジック」と呼ばれるボビー・バレンタイン監督の采配の元、 優勝したわけだが、その裏で大活躍していたのが統計アナリストと言われている。その例 が128 種類にわたる日替わりオーダーである(昨年は 136 試合行われた)。このオーダーは どれも相手との相性やここ数試合の活躍を統計データに基づいて、研究し、決められたも のである。そこで、本稿では、実際に千葉ロッテの統計アナリストが行っていた分析まで とはいかないが、過去 5 年間のプロ野球の勝利要因を、プロ野球公式記録を使用すること によって導きたい。そして、最終的にはこれら数値的データ分析に基づいて、どの指標の 組み合わせが最も勝利に影響したのかを重回帰分析を使う事によって考察していきたい。

(2)仮説と分析方法について(データについて)

野球の基本は「走・攻・守」と言われている。そこで、本稿では「盗塁数が多く、打率 が高く、防御率が低いチームが勝つ可能性が高い」という仮説を立てる事によって分析を

(2)

進めていきたい。従属変数(目的変数)に「勝率」を置いた理由は年度ごとに試合数が違 うためである。そして、仮説を立てた後、その他の指標(例えば、「本塁打」など)に関し ても勝率とどのような影響があるのかを相関係数を求める事によって求めていきたい。 データは「日本野球機構公式記録」過去5 年分(2001-2005 年)の 12 球団の記録を使用 し、指標は以下のものを使用する。 【独立変数(説明変数)】 ・ 盗塁、打率、防御率 ・ 試合数 【打者】 得点、安打、二塁打、三塁打、本塁打、 打点、三振、四球、犠打、犠飛 【投手】 被安打、被本塁打、奪三振、与四球、失点 【チーム】 ● 2001-2005 年データ 千葉ロッテマリーンズ (千葉ロッテ) 北海道日本ハムファイターズ (日本ハム)…2004 年から本拠地が東京から北海道に。 西武ライオンズ (西武) 阪神タイガース (阪神) 中日ドラゴンズ (中日) 横浜ベイスターズ (横浜) ヤクルトスワローズ (ヤクルト) 読売ジャイアンツ (巨人) 広島カープ (広島) ● 2001-2004 年データ 福岡ダイエーホークス(ダイエー)…2005 年に球団名変更 オリックスブルーウェーブ(オリックス)、近鉄バッファローズ(近鉄)…2005 年に合併 ● 2005 年データ 福岡ソフトバンクホークス (ソフトバンク) オリックスバッファローズ (オリックス) 東北楽天ゴールデンイーグルス (東北楽天)

(3)分析のプロセスと結果

1. 基本統計量と分析

1.1. 勝率(図1参照)

【従属変数(目的変数)】

勝 率

(3)

勝率は全試合に占める勝った試合の割合を示したものである。求め方は「シーズン勝数÷ (シーズン勝数+シーズン負数)」によって求められる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 0.499 0.798 0.281 0.664 0.5055 - - 2005 年 東北楽天 2005 年 ソフトバンク - 平均は0.499 と限りなく 5 割に近く、0.45~0.55 にほとんどのチームが固まっている。 また、標準偏差は 0.7980 とばらつきはものすごく小さく、かなり信頼出来る値と言える。 はずれ値も2003 年横浜ベイスターズの 0.324 と 2005 年東北楽天ゴールデンイーグルスの 0.281 だけである。最大値は 2005 年の福岡ソフトバンクホークスだが、千葉ロッテとのプ レーオフに敗れたため、惜しくも日本一にはなれなかった。

1.2. 盗塁数(図2参照)

サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 69.883 24.003 25 147 68.5 - - 2004 年 巨人 2003 年 ダイエー - 平均は 69.883 個で、ほとんどのチームが 50~75 個の間に固まっている。標準偏差は 4 つの指標(盗塁、打率、防御率、勝率)の中で最も大きい24.003 という値を示し、尐しば らつきがあると言える。はずれ値も2003 年福岡ダイエーホークスが記録した 147 個という 極端に多い値だけである。ちなみに、2003 年福岡ダイエーホークスは日本シリーズで阪神 タイガースを倒し、見事日本一になっている。つまり、2003 年のペナントレースは盗塁が 勝率に影響していると言えるかもしれない。

(4)

0.30 0.40 0.50 0.60 0.70 勝率 0 5 10 15 20 度 数 Mean = 0.4998 Std. Dev. = 0.0798 N = 60 ヒストグラム 勝率 0.30 0.40 0.50 0.60 0.70 6 30 図1:勝率

(5)

25.00 50.00 75.00 100.00 125.00 150.00 盗塁 0 2 4 6 8 10 12 14 度 数 Mean = 69.8833 Std. Dev. = 24.0036 N = 60 ヒストグラム 盗塁 25.00 50.00 75.00 100.00 125.00 150.00 31 図2:盗塁数

(6)

1.3. 打率(図3参照)

打率は「安打÷打数」で導かれ、一般に3 割(0.3)以上だと一定の評価をされる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 0.264 0.012 0.235 0.297 0.269 - - 2002 年 オリックス 2003 年 ダイエー - 平均 0.264、標準偏差 0.012、はずれ値もなしとほとんどばらつきがなく、かなり信頼し た値と言える。最大値は先程の「盗塁数」と同じく、2003 年福岡ダイエーホークスが記録 した0.297 で、打率も 2003 年のペナントレースにおいて、勝率に影響していると言えるか もしれない。また、最小値は2002 年にオリックスブルーウェーブが記録した 0.235 で、こ の年は最下位に沈んだ。

1.4. 防御率(図4参照)

9 回を投げた場合の投手の平均自責点を表し、求め方は「(自責点×9)÷ 投球回」で求 められる。 サンプル数=60 平均値 標準偏差 最小値 最大値 中央値 4.14 0.616 3.04 5.95 4.10 - - 2002 年 巨人 2003 年 オリックス - 平均値 4.14、標準偏差 0.616 とほとんどばらつきはなく、かなり信頼した値と言える。 「防御率」を見る上で注意しなければならないのは、「防御率は小さいほど良い」という事 である。したがって、2002 年の読売ジャイアンツが記録した 3.04 が過去 5 年間の中で最も 良い。ちなみに、2002 年の読売ジャイアンツは日本シリーズで西武を4勝 0 敗と一回も負 ける事なく、圧倒的な強さで日本一に輝いている。従って、2002 年ペナントレースは防御 率が勝率に影響していると言えるかもしれない。

(7)

0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 0 2 4 6 8 10 度 数 Mean = 0.2674 Std. Dev. = 0.01244 N = 60 ヒストグラム 打率 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 図3:打率

(8)

3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 0 2 4 6 8 10 12 度 数 Mean = 4.144 Std. Dev. = 0.61684 N = 60 ヒストグラム 防御率 3.00 3.50 4.00 4.50 5.00 5.50 6.00 24 6 36 図4:防御率

(9)

2. 相関関係(図5、6)

次に、二変量間の相関関係(従属変数である「勝率」と独立変数「盗塁」、「打率」、「防 御率」の関係)について調べた(図5、6参照)。結果は以下の通りである。 相関係数 1 .294* .555** -.572** . .022 .000 .000 60 60 60 60 .294* 1 .235 -.167 .022 . .071 .203 60 60 60 60 .555** .235 1 .169 .000 .071 . .198 60 60 60 60 -.572** -.167 .169 1 .000 .203 .198 . 60 60 60 60 Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N Pearson の相関係数 有意確率 (両側) N 勝率 盗塁 打率 防御率 勝率 盗塁 打率 防御率 相関係数は 5% 水準で有意 (両側) です。 *. 相関係数は 1% 水準で有意 (両側) です。 **. 図5 二変量間の相関係数 勝率 盗塁 打率 防御率 防 御 率 打 率 盗 塁 勝 率 図6 仮説における二変量間の相関関係

(10)

相関関係を調べた結果、「勝率」はどの指標に対してもある程度の相関関係を持っている 事がわかった。まず、「盗塁数」を見ると、「盗塁数」は「勝率」に対して 0.294 という相 関関係を持っており、弱い正の関係がある事と 5%水準で有意であることがわかった。次に、 「打率」を見ると、「打率」は「勝率」に対して 0.555 という相関関係を持っており、かな りの正の関係がある事と 1%水準で有意であることがわかった。最後に、「防御率」を見る と、「防御率」は「勝率」に対して-0.572 という相関関係を持っており、かなりの負の関係 がある事と 1%水準で有意であることがわかった。つまり、以上の事から「打率」と「防御 率」に関しては強い相関関係がありそうだが、「盗塁」に関してはそれほど強い相関関係は 言えなそうである。以下では、単回帰と重回帰分析をする事によって、もっと詳しく見て いきたい。

3. 単回帰分析

3.1. 「盗塁数は勝率に影響する。」

まず、有意確率は.022 であることから 1%有意基準で帰無仮説は棄却出来ない。つまり、 仮説は1%有意基準では成立しないと言える。また、R2乗値(決定係数)を調べると 0.071 である事から説明力は約7.1%と説明力がないことがわかる。 モ デ ル集計 .294a .087 .071 .07692 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、盗塁。 a. 分散分析b .033 1 .033 5.507 .022a .343 58 .006 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、盗塁。 a. 従属変数: 勝率 b. 係数a .431 .031 14.008 .000 .001 .000 .294 2.347 .022 (定数) 盗塁 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a.

(11)

25.00 50.00 75.00 100.00 125.00 150.00 盗塁 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.087

3.2. 「打率は勝率に影響する。」

まず、有意確率は.000 であることから 1%有意基準で帰無仮説は棄却され、仮説は成立 する。次に、モデル係数より回帰方程式を求めると以下のようになる。

453

.

0

3563

.

0

x

y

そして、R2乗値(決定係数)を調べると.297 である事から説明力は約 29.7%とまずまずの 説明力があることがわかる。 モ デ ル集計 .555a .309 .297 .06693 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、打率。 a.

(12)

分散分析b .116 1 .116 25.880 .000a .260 58 .004 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、打率。 a. 従属変数: 勝率 b. 係数a -.453 .187 -2.416 .019 3.563 .700 .555 5.087 .000 (定数) 打率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a. 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.309

(13)

3.3. 「防御率は勝率に影響する。」

まず、有意確率は.000 であることから 1%有意基準で帰無仮説は棄却され、仮説は成立 する。次に、モデル係数より回帰方程式を求めると以下のようになる。

806

.

0

704

.

0

x

y

そして、R2乗値(決定係数)を調べると.315 である事から説明力は約 31.5%とまずまずの 説明力があることがわかる。 3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 0.30 0.40 0.50 0.60 0.70 勝 率 R Sq Linear = 0.327

モ デ ル集計 .572a .327 .315 .06603 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、防御率。 a.

(14)

分散分析b .123 1 .123 28.177 .000a .253 58 .004 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、防御率。 a. 従属変数: 勝率 b. 係数a .806 .058 13.814 .000 -.074 .014 -.572 -5.308 .000 (定数) 防御率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a.

4. 重回帰分析

4.1.「盗塁数が多く、打率が高く、防御率が低いチームが勝つ可能性が高い」

まず、決定係数を見ると、0.752(説明力約 75.2%)とかなり説明力は上昇したものの、 「盗塁数」の有意確率が 0.713 である事から「盗塁数」を回帰に使用するのは適切ではな いと言える。次は「盗塁数」を除いて、分析する。 モ デ ル集計 .875a .765 .752 .03971 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、防御率, 盗塁, 打率。 a. 係数a -.281 .113 -2.492 .016 .000 .000 .025 .369 .713 4.261 .438 .664 9.730 .000 -.088 .009 -.680 -10.099 .000 (定数) 盗塁 打率 防御率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a. 分散分析b .287 3 .096 60.767 .000a .088 56 .002 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、防御率, 盗塁, 打率。 a. b.

(15)

4.2.「打率が高く、防御率が低いチームが勝つ可能性が高い」

有意確率を見ると2 つとも 0.000 である事と決定係数が 0.756(説明力 75.6%)である事 からこのモデルが最適のモデルと言える。また、モデル係数より回帰方程式を求めると以 ①のようになり、標準化係数によって改めて求められる回帰式は②のようになる。

2.84

-0.89

-4.305

(

勝率)=

(打率)

(防御率)

… ①

(防御率)

(打率)

勝率)=

0.671

-

0.681

(

… ② モ デ ル集計 .874a .764 .756 .03941 モデル 1 R R2 乗 調整済み R2 乗 推定値の 標準誤差 予測値: (定数)、防御率, 打率。 a. 係数a -.284 .112 -2.545 .014 4.305 .418 .671 10.288 .000 -.089 .008 -.685 -10.503 .000 (定数) 打率 防御率 モデル 1 B 標準誤差 非標準化係数 ベータ 標準化係 数 t 有意確率 従属変数: 勝率 a. 分散分析b .287 2 .144 92.484 .000a .089 57 .002 .376 59 回帰 残差 全体 モデル 1 平方和 自由度 平均平方 F 値 有意確率 予測値: (定数)、防御率, 打率。 a. 従属変数: 勝率 b.

(16)

5.その他の指標はどうか

その他の指標はどうなのかを勝率との相関係数を求める事によって示したい。結果は以 下の通りである。 得点 安打 二塁打 三塁打 本塁打 打点 三振 四球 勝率 0.631 0.513 0.321 0.402 0.31 0.632 -0.268 0.336 犠打 犠飛 被安打 被本塁打 奪三振 与四球 失点 勝率 0.026 0.374 -0.524 -0.373 0.364 -0.27 -0.593 1%水準で有意だったのは「得点」、「安打」、「三塁打」、「打点」、「四球」、「犠 飛」、「被安打」、「被本塁打」、「奪三振」、「失点」である。従って、勝利を高める ためには「得点を多く取り、失点を極力尐なくする」のは当たり前だが、玉数を多く投げ させて「四球」を選んだり、ランナーが塁にいる時に確実に外野にフライを打って(犠飛)、 ランナーを確実に進めたりするのが重要であると言えるだろう。その他には、めったに出 ない「三塁打」を打った時や「奪三振」を多く奪った時は勝つ傾向にある。そして、意外 にも「本塁打(5%水準で有意)」や「犠打」が多い時や「四球」が尐ない時(5%水準で 有意)はそれ程、勝利には影響を与えない事がわかった。

(4)結論と考察

今回の結果から勝率は「打率」が高い時と「防御率」が低い時に高まる事がわかり、「盗 塁数」はそれほど重要ではないことがわかった。また、先程も述べたように、「得点を多 く取り、失点を極力尐なくする」のは当たり前だが、玉数を多く投げさせて「四球」を選 んだり、ランナーが塁にいる時に確実に外野にフライを打って(犠飛)、ランナーを確実 に進めたりという確実な戦略が野球では重要な事がわかった。従って、野球で勝利するに は「本塁打を打って派手に勝つチーム」よりも「確実に、粘り強く相手を攻めるチーム」 の方が良く、投手は「極力、四球を出さず、三振を多く奪って、最小失点で乗り切る事の 出来る能力」が求められている。この傾向は昨年優勝した千葉ロッテマリーンズの戦術で あり、この分析は正しいのではないかと私は思う。まもなく、2006年シーズンが開幕する が、今年はどこのチームがどのような戦術で優勝するか楽しみである。しかし、今年もぜ ひチーム一丸となって、千葉ロッテマリーンズに優勝してもらいたいと私は願っている。 ※ 今回の分析は前期に比べて、上手く出来たのではないかと思います。もし、機会が あったら、今度は年度ごとでどのように違うのかも自分なりに調べてみたいと思いま す。1年間という短い期間でしたが、何とかSPSS に対しての知識が深められました。 これから卒業論文を書く際に生かしたいと思います。1 年間ありがとうございました。

参照

関連したドキュメント

 音楽は古くから親しまれ,私たちの生活に密着したも

  BCI は脳から得られる情報を利用して,思考によりコ

それでは,従来一般的であった見方はどのように正されるべきか。焦点を

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

バックスイングの小さい ことはミートの不安がある からで初心者の時には小さ い。その構えもスマッシュ

本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根

艮の膀示は、紀伊・山本・坂本 3 郷と当荘と の四つ辻に当たる刈田郡 5 条 7 里 1 坪に打た