卒業研究論文
プロ野球選手のタイプ別成長衰退モデル
学籍番号 12D8101008D
垣内 翔太
中央大学理工学部情報工学科 田口研究室
2016 年 3 月
i
概要
プロ野球選手は様々な選手がいて,それぞれ能力に特徴があり,多様なタイプが存在 する.
本研究では,その選手タイプに着目する.そして,選手登録してから引退に至るまで の成長の予想をする.成長とは,主に 1 年間の成績と,出場試合数で判断する.
キーワード:プロ野球,クラスター分析,マルコフモデル
ii
目次
第1章 序論 ... 1
第2章 使用データの概要 ... 2
2.1 日本プロ野球機構オフィシャルサイトのデータ ... 2
第 3 章 クラスター分析(理論) ... 3
3.1 クラスター分析の概要 ... 3
3.1.1 類似性と距離 ... 3
3.1.2 クラスター分析の手法 ... 4
3.2 選手のタイプ別分類 ... 6
第4章 選手成長曲線 ... 11
4.1.1 年齢と選手タイプ ... 11
4.1.2 クラスタ変遷 ... 16
第 5 章 選手寿命 ... 21
5.1.1 マルコフモデルの利用 ... 21
5.1.2 推移行列 ... 22
5.2 推移確率グラフ ... 25
5.3 タイプ別の引退までの年数 ... 27
第 6 章 成長衰退モデル ... 30
6.1 年齢分布グラフ ... 30
6.2 タイプ別成長衰退モデルまとめ ... 31
第 7 章 結論 ... 32
7.1 まとめ ... 32
7.2 今後の課題 ... 32
iii
謝辞 ... 33 参考文献 ... 33
1
第1章 序論
プロ野球界は,選手はもちろん監督,コーチ,マネージャー,首脳陣ひいては観客と,
多くの人間が一体となって運営されている.当然,選手は活躍したいと思いながらプレ ーし,見る者は活躍してほしいと思いながら観戦する.しかし,プロ野球界は毎年 100 人以上の選手が入退団する非常に競争の激しい世界だ.17万人以上の高校球児と,1 2万人以上のアマチュア球児のうち,上澄みの 100 人がプロに入ることができる.さら に,1 軍のレギュラーとなり何年にもわたってプレイし続けられるような,1 流プレイ ヤーはその中でもごく一部である.プロ野球選手を指揮する立場の人―監督や首脳陣―
はそのようなごく一部の一流プレイヤーを探し出さなければならない.将来活躍する選
手や長い間の活躍が期待できる選手を発見したり能力の推移を予測する必要がある.そ
こで,本研究では,選手の成長衰退を客観的に予測できるかどうかを考察する.手法と
して,打者の成績データをクラスタ分析を用いてタイプ別に分類し,そのタイプをもと
にしたマルコフモデルで選手寿命を推定,そこから成長する選手タイプを導出する.
2
第2章 使用データの概要
2.1 日本プロ野球機構オフィシャルサイトのデータ
日本プロ野球機構オフィシャルサイトとは日本プロ野球の公式なデータを扱うウェブ サイトであり,以下のものが詳しく載っている
.
・球団ごとの選手のデータ(成績・出身地・経歴・ドラフト年度・タイトルなど)
・プロ野球の試合日程 ・チームでの成績
・個人成績 ・タイトル表彰選手
・ドラフト選手・入退団選手一覧 ・個人年度別成績
・セリーグ・パリーグの回顧 ・セリーグ・パリーグの公式戦全記録
・交流戦全記録 ・オールスターゲーム
・イースタン・ウエスタン公式戦全記録 ・ファーム交流戦全記録
・クライマックスシリーズ
・日本シリーズ
スコアブックの例を図 2 に示す .
図 2 日本プロ野球機構オフィシャルサイトのデータの例
3
第 3 章 クラスター分析(理論)
本論文では,多変量解析の一つ,クラスター分析を利用したて選手タイプ分類を行う.
この分類は,選手群の成績の特徴に注目した成績変遷予想に利用する.
3.1 クラスター分析の概要
クラスター分析とは,異なる性質のものが混ざり合った集団から,互いに似た性質を持 つものを集め,クラスターを作る方法.対象となるサンプル(人,行)や変数(項目,
列)をいくつかのグループに分ける,簡単にいえば「似たもの集めの手法」である.
3.1.1 類似性と距離
あるデータが与えられている場合,ここに類似の度合を与える指標を定義する必要があ る.類似性を表す指標は多く,距離のように,対象となる 2 つの個体の各要素の値の差 が小さいほど類似性が高いことを表す場合,非類似性と呼ぶ.距離の種類には,ユーク リッド距離,マンハッタン距離(図 2)などがある.
図2,マンハッタン距離のイメージ.基盤の目状に配置されたどの道を通っても等しい 距離となる.この距離がマンハッタン距離である.
また,相関関数のように大きな値ほど類似性が高いことを表す場合,これを類似性と呼 ぶ.
類似度の測度として多く用いられているのには,ピアソン相関係数(r)などがある.
4
ピアソン相関係数の式
r の絶対値が大きいほど,相関も高いと判断できる.おおよそ,0.7 を超えると,強い 相関だと考えることができる.
3.1.2 クラスター分析の手法
クラスター分析法の手法群は 2 つの種類に大別される.1 つはグループの形成状態を樹 形図で示す,階層的クラスター分析手法である.この手法の特徴としてクラスタ数が不 定であることがあげられる.また,2 つ目には,どの個体がどのグループに属するかを 設定する非階層的クラスター分析方法がある.これはあらかじめクラスタ数を設定し,
各クラスタの重心間の距離が最少になるようなクラスタを得る手法である.本研究では,
R を使用してクラスタ解析を行う.
1)階層的手法
最も似ている組み合わせから順番にまとまり(クラスター)にしていく方法で,途中 過程を階層のように表すことができ,最終的に図 3 のような樹形図(デンドログラム)
ができる.
図 3,階層クラスタのイメージ 0
1 2 3 4 5 6 7 8
0 2 4 6 8
5 3 4 1 2
0 2 4 6 8
Cluster Dendrogram
hclust (*, "complete") dist(ALL)
H e ig h t
5
クラスタの階層構造を得る手順は,まず N 個の個体が与えられ,それぞれの間に非類似 度 D ij (i ≤ i, j ≤ N)が与えられているとする.まず要素を 1 つずつ含む N 個のクラスタを 初期状態として定める.次に,クラスタ間の非類似度がもっとも近い 2 つのクラスタ u と v を統合し,新しいクラスタ w を生成する.この新たなクラスタ w と他のクラスタ t との間の非類似度 D wt は下の(a)~(d)のようなさまざまな方法で設定する.そして再び クラスタ間の非類似度が最も近い 2 つのクラスタを統合する.これをすべてのクラスタ が 1 つに統合されるまで繰り返し,階層構造を得る.
(a)最近隣法
D wt = min (D ut , D vt )
2 つのクラスターのそれぞれの中から 1 個づつ個体を選んで最も近い個体間の距離を 2 つのクラスター間の距離とする方法.
(b)最遠隣法
D wt = max (D ut , D vt )
最近隣法と逆に,2 つのクラスターのそれぞれの中から 1 個づつ個体を選んで最も遠い 個体間の距離を 2 つのクラスター間の距離とする方法.
(c)群平均法
D wt = n u D ut + n v D vt n u + n v
最近隣法と最遠隣法の折衷案で,2 つのクラスターの個体の平均距離を 2 つのクラスタ ー間の距離とする方法. n u はクラスタ u に含まれる個体数である. n v も同様である.
(d)重心法
D wt = n u
n u + n v D ut + n v
n u + n v D vt − n uv
(n u + n v ) 2 D uv
クラスターの重心を求め,その重心間の距離を 2 つのクラスター間の距離とする方法.
重心を求める際にはクラスターに含まれる個体数が反映されるように,個体数を重みと して用いる.
2)非階層的手法
階層的手法は,対象となる個体数の増加に伴い,計算量や記憶容量が膨大となり,実
行不可能に陥る.そのため,対象個体が多く存在する場合には,非階層的手法が用いら
れる.代表的な手法として K-平均法があげられる.
6
3.2 選手のタイプ別分類
本章では,2006 年から 2015 年のセ・リーグ打者の打撃成績をもとにタイプの分類を以 下のように行う.
1) 対象
2006 年から 2015 年のセ・リーグのチームに所属する全プロ野球選手 435 人のうち,
公式戦に 50 試合以上出場した選手をクラスタ分析の対象にする.出場試合数が 50 試合 に満たない選手はグループ 0 と呼称し,0 番目のクラスタと扱う.
2) 変量
打者のタイプ分類に重要だと思われる安打数・本塁打数・犠打数・盗塁数・失策数の 5 項目で評価する.この項目は各選手がそれぞれ記録した 1 年間の累計総数を指す.し かし,そのままの値では比較が困難なため,成績を 0 点~100 点で評価する指標を使用 する.これは,各成績の最大数を 100 点,最少数を 0 点とする簡易指標である.計算式 は,
100/(最大値-最小値)*(対象者成績-最小値) 100 点の選手は,その項目で最も優れている成績だということになる.
なお,失策数については
100-100/(最大値-最小値)*(対象者得点-最小値) という式を用いることで,失策が少ない選手が高得点になるようにした.
3) 距離および手法
データ同士の類似性には,ユークリッド距離を採用する.また,使用データが大量で
はないため,階層的構造を得る階層的手法を用いた.そして,3.1.2 節で説明した手法
のうち,タイプ分けの際特徴が出やすい最遠隣法を採用した.図 3.1 は分析されたクラ
スタ別の選手特徴とレーダーチャートである.
7
図 3.1 クラスタ別レーダーチャート.数値は各クラスタの平均
8 各クラスタの特徴を説明する.
a) クラスタ 1:控え選手群
特徴:能力が低い選手群,出場試合数も平均以下,母数が最も多い,主に控え選手
b) クラスタ 2:下位打線選手群
特徴:出場試合数は 100 を超えている選手が多い,エラー数が少ない,主に下位打線を 担う.母数が 2 番目に多い
c) クラスタ 3:主軸選手群
特徴:平均出場試合数が最も多い,安打,本塁打が最も多いチームの主力選手,主にク リーナップを担う,
d) クラスタ 4:上位打線選手群
特徴:平均出場試合数が多い,盗塁数が最も高い選手群,主に上位打線を担う,母数が 最も少ない
e) クラスタ 5:安定成績選手群
特徴:平均出場試合数が二番目に高い,各項目が安定して高いバランスタイプ,エラー 数がやや多い,
f) クラスタ 0:二軍選手群
特徴:出場試合数が 50 試合未満の選手群.
9
また,全人数に対する人数比だと,全体人数 1658 に対して,
クラスタ 0(二軍選手群):785 人…47%
クラスタ 1(控え選手群):548 人…33%
クラスタ 2(下位打線選手群):120 人…7%
クラスタ 3(主軸選手群):103 人…6%
クラスタ 4(上位打線選手群):30 人…2%
クラスタ 5(安定成績選手群):72 人…4%
となっており,二軍選手群,控え選手群の合計が全体の 8 割を占める結果となっている
88 596642 415507 348411 209718848 535180 248719 815737 114181319 488536 154585 750827 476814688 656845 360751 262274 36 702767 140844 532610 552828 261780701 221503 139316 330796 19 812 35 317669 34
112 206684 764
7
428 811195 504 85 125729 778456 45
714166 164409 137547 858462636
5
220 842 73 191863 314860177 699 71 502 2
548410 856271178 245423 667793 1 32 857386580
3
328 500475 530344 457861862 486668 528501 730345 72 777272 165315 427459
6 426 18 259150 193634 424473 855565 698682635 111746 302685 733233 608329779 59 357 86
100 655273 566554286 460865 207359 372443 567441594 440485 531715 138 84 425474825 3117 98
515 498301 563549795 621683 713607 840454 472808579 622516 285546 846847 505569599 304102 833 87 800506 236570292 705534 556 74 51
830 156491445 834141 294720 5048 783318717 263 63
587352 227521 363836819 447466 117626 224182 660869305 142393 721277 492 89 588293518 586197 769 20
401103816 747342 807 33 545792 192578810 700809 385343 794623 458499194 841749 859463 99
653 609866287 568 4 461864 60 151 813429670 843346 260781 373347 533196412 716 47
179223 414289 331766782 641654 291431 487798 303375687 152358 430765 10 249 735598707 332115 689128 208517 247374734 49
361 624799 153167 639650529 763748 46 442 761455 564550867 62
657 376584 387581 130600519 416537 673168 390392 686553651 349464 127 75 129250 362831489 597736 413797 116752 155704829 246389 371731 826222 234595762 637551 638101 388399 290732113 126652 671275 768432 703738739 640235 288210 849 61
868381169 644239 614417 559784 787 12 560 295658 659741 788449 335477 91
382616 510541 494212 53 677323 436 21 722143 589661 251278493 13
591 131 24 199434 558118238 351186 674 90
723802 627646754 538786 76 334 321628 573771297 65
664 170276 252
9
391265468 629676 25 820 446508 601662770 400557 444571 663402 740785211 832237 612817 379542 665613509 757672 582465 555333 691433583 593806 231337 619680266 23
187 225 41 230312 776648870 745384 404110 712 70
205527854 744513 605313 421759 853632218 451 42 726242 407 83
268484728 148369 398149 760366 758258135 219666 365175 340 92 93 267 26 355 16 606174 136256 511 1567 367 68 97
241 29 681 82 338163 270 58 356257 370269 341339 95
189244 124603 755253 743173309 403 77 772108 353147 481283255 576693 803336 327838 471188325 6944 204 56 871821 27 620420 40 592 81
711 161383 852526822 104120 818228 692419 789 79 380 171308 522479 201478 66
405158 543850 28 524 39 107 216469215 742 80
280214 306133 774264185 378254 298496 645172 281279467 773 78 121350 324435 157801 37
311202 577226 240625 708200724 562643 322368 617695 320 5264 296307 572 8 520 11
490690706 775631 872396 709791 618694437 615647 539835 106243 14 394119 756418 159132 448574 679 38
602 198753 183184 22 675 611590229 540213 377649 839397 232450364 145482 495523 561146 326134604 697544 438725 804823 630452633 43
837 422203 453354 512144480 525310 575 30 96 217 300 57 470 678 54 790176 805395122 439123 160282 94
109 190 55 483 696851 299497 162408 727873514 284824 710105 406
0 50 100 150 200 250
Cluster Dendrogram
hclust (*, "complete") dist(ALL)
H e ig h t
グ ルー プ
1
10 48%
33%
7%
6% 2% 4%
クラスタ0(二軍選手群) クラスタ
1(
控え選手群)
クラスタ2(下位打線選手群) クラスタ3(主軸選手群) クラスタ4(上位打線選手群) クラスタ5(安定成績選手群)11
第4章 選手成長曲線
本章では,選手の成長曲線を考察する.どのような選手がどんな成績を残しやすいのか,
また,どんな年齢で成績を変動させるのか.それを選手タイプと年齢で考察していく.
4.1.1 年齢と選手タイプ
まず,タイプ別の年齢分布から,年齢によるタイプの傾向が見られるかどうか考察する.
ここでいう年齢とは,2006 年から 2015 年のプロ野球シーズン開幕時点での年齢を指す.
各クラスタの年齢分布を以下の図 4.1~図 4.7 に記す.横軸が年齢,縦軸が人数である.
図 4.1 :全体の年齢分布.26 歳を頂点とする釣鐘型になっている.プロ野球選手の中 心は 20 代から 30 前半の選手で構成されていることが見て取れる.
0 20 40 60 80 100 120 140 160
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
12 図 4.2 :クラスタ 1:控え選手群
釣鐘型のグラフになっている.選手全体の年齢分布より山がなだらかで,選手全体と比 較すると高年齢の選手の割合が多い.
図 4.3 :クラスタ 2:下位打線選手群
クラスタ1と同様に釣鐘型だが,30 代の選手層がやや厚い分布であることが見て取れ る.
0 5 10 15 20 25 30 35 40 45
18 20 22 24 26 28 30 32 34 36 38 40 42 44
0 2 4 6 8 10 12 14
18 20 22 24 26 28 30 32 34 36 38 40 42 44
13 図 4.4 :クラスタ 3:主軸選手群
クラスタ1,2と違い,年齢分布の頂点が後半にある.ある程度のキャリアを積んだ選 手が中心である.
図 4.5 :クラスタ 4:上位打線選手群
30 歳を超えると人数が大幅に減っている.若い選手が中心である.
0 2 4 6 8 10 12 14
18 20 22 24 26 28 30 32 34 36 38 40 42 44
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
18 20 22 24 26 28 30 32 34 36 38 40 42 44
14 図 4.6 :クラスタ 5:安定成績選手群
きれいな釣鐘型.30 歳を頂点に対象な年齢分布となっている.
図 4.7 :クラスタ 0:二軍選手群
若手が中心.30 代後半でこのクラスタに分類される選手は引退が近い.
0 1 2 3 4 5 6 7 8
18 20 22 24 26 28 30 32 34 36 38 40 42 44
0 10 20 30 40 50 60 70 80
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 44
15
クラスタ 3(主軸選手群)と,クラスタ 4(上位打線選手群)の,年齢分布は特徴的である.
主軸選手群は 20 代後半から 30 代前半に人数が集中している.上位打線選手群はそのほ とんどが 20 代である.逆に,クラスタ 1(控え選手群),クラスタ 2(下位打線選手群),
クラスタ 0(二軍選手群)は,選手全体の年齢分布グラフと同じような形状になってる.
16
4.1.2 クラスタ変遷
本研究でのクラスタ推移とは,ある一人の選手が歳を重ねるごとの,クラスタの変化を 指す.例として,2005 年に入団した中日ドラゴンズ平田選手,2006 年から 2015 年現在 まで現役を続けている阪神タイガース鳥谷選手,2015 年に引退した読売ジャイアンツ 高橋選手の図表を記す.表は左から,年_所属チーム・名前・年齢・分類されたクラス タである
表1.中日ドラゴンズ平田選手の例
2006 中日 平田良介 18 0 2007 中日 平田良介 19 0 2008 中日 平田良介 20 1 2009 中日 平田良介 21 0 2010 中日 平田良介 22 0 2011 中日 平田良介 23 1 2012 中日 平田良介 24 1 2013 中日 平田良介 25 2 2014 中日 平田良介 26 2 2015 中日 平田良介 27 3
表 2.阪神タイガース鳥谷選手の例
2006 阪神 鳥谷敬 24 3
2007 阪神 鳥谷敬 25 5
2008 阪神 鳥谷敬 26 5
2009 阪神 鳥谷敬 27 3
2010 阪神 鳥谷敬 28 3
2011 阪神 鳥谷敬 29 5
2012 阪神 鳥谷敬 30 5
2013 阪神 鳥谷敬 31 5
2014 阪神 鳥谷敬 32 3
2015 阪神 鳥谷敬 33 5
17 表 3.読売ジャイアンツ高橋選手の例
2006 巨人 高橋由伸 31 2 2007 巨人 高橋由伸 32 3 2008 巨人 高橋由伸 33 1 2009 巨人 高橋由伸 34 0 2010 巨人 高橋由伸 35 1 2011 巨人 高橋由伸 36 1 2012 巨人 高橋由伸 37 1 2013 巨人 高橋由伸 38 1 2014 巨人 高橋由伸 39 1 2015 巨人 高橋由伸 40 1
このようなクラスタ推移を可視化するため,一つのグラフにまとめる.(図 4.8)
図 4.8 三者のクラスタ推移
クラスタごとの特徴をさぐるため,クラスタ0,1を除いた 4 つのクラスタについてグ ラフを作成する.
図 4.9~図 4.12 はクラスタ 2,3,4,5 にそれぞれ属した経験のある選手のクラスタ推 移である.縦軸の数字がクラスタ番号,横軸が年齢である.また,線が繋がってる場合 はそれが同じ選手であることを表す.
0 1 2 3 4 5 6
181920212223242526272829303132333435363738394041424344
高橋由伸 鳥谷敬 平田良介
18 図 4.9 クラスタ 2 経験者の推移
図 4.10 クラスタ 3 経験者の推移 0
1 2 3 4 5 6
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
0 1 2 3 4 5 6
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
19 図 4.11 クラスタ4経験者の推移
図 4.12 クラスタ 5 経験者の推移 0
1 2 3 4 5 6
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
0 1 2 3 4 5 6
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
20
これらのグラフを見ると,ほとんどの選手のキャリアは,クラスタ 0 からはじまり,ク ラスタ1で終わっている.つまり,少ない試合数で信頼を得ることからキャリアがスタ ートし,クラスター1に属するまで衰えるとそのキャリアを終えるということだ.また,
一度クラスタ1やクラスタ 0 にまで落ちてしまうと,そこからの再起は困難であること がデータから見て取れた.
ただ,各クラスタ経験者のグラフでは,どのグループにも特徴は見られなかった.つま り,選手は多くのクラスターを経験しながらキャリアを積んでいくことがわかる.では,
クラスターごとに引退時期の差はあるのだろうか.
次章で,衰退,選手寿命についてモデルを作っていく.
21
第 5 章 選手寿命
本章では,先に解析したクラスタ間の推移がマルコフ性を持つと仮定し,選手の衰退過 程や引退までの年度推測をマルコフモデルを使用して行う.なお,マルコフ性とは確率 論における確率過程の持つ特性の一種で,その過程の将来状態の条件付き確率分布が現 在状態のみに依存し,過去のいかなる状態にも依存しない特性を持つことをいう.
5.1.1 マルコフモデルの利用
マルコフ性を利用し,各クラスタに状態する選手のクラスタ推移確率と引退までの年齢
を考察する.マルコフモデルでは,まず推移行列を作成する.P jk を状態jから状態k
への(1 ステップでの)推移確率といい,この推移確率を行列の形に表現したものを推移
確率行列という.この推移確率行列は,P jk ≥ 0で,各行の和は∑ s k=1 P jk = 1 となる.推
移確率行列が与えられれば,そのマルコフ連鎖の情報はすべてわかったこととなり,将
来の予測が可能となる.また,クラスタ 0 は吸収状態,つまり 1 度クラスタ 0 に推移し
たものは他のクラスタに移動しないものとして扱う.
22
5.1.2 推移行列
まず,各クラスタ状態からの推移行列P ij を求める.i,j は表5.1に示す i 行 j 列を示 す.たとえば,P 34 は1年後にクラスタ 3 からクラスタ 4 に移動する確率を指す.
表 5.1 推移行列
クラスタ 0 クラスタ 1 クラスタ 2 クラスタ 3 クラスタ 4 クラスタ 5
クラスタ 0 1 0 0 0 0 0
クラスタ 1 0.46 0.443 0.046 0.018 0.007 0.022 クラスタ 2 0.2 0.4 0.175 0.117 0.025 0.083 クラスタ 3 0.175 0.165 0.107 0.369 0.039 0.146 クラスタ 4 0.133 0.2 0.1 0.133 0.3 0.133 クラスタ 5 0.181 0.139 0.25 0.111 0.056 0.264
この表から,1 年後の引退確率(選手寿命)はクラスタ 1:控え選手群<クラスタ 2:下 位打線選手群<クラスタ 5:安定成績選手群<クラスタ 3:主軸選手群<クラスタ 4:
上位打線選手群の順であるといえる.
次に,m年後の推移確率 P m を計算していく.mステップでの推移確率は P (m) ≡ (p jk (m) ) = P m = P m−1 ・P
の式で求めることができる.計算すると以下のようになる.
23 P 1 =
(
1 0 0 0 0 0
0.46 0.443 0.046 0.018 0.007 0.022 0.2 0.4 0.175 0.117 0.025 0.083 0.175 0.165 0.107 0.369 0.039 0.146 0.133 0.2 0.1 0.133 0.3 0.133 0.181 0.139 0.25 0.111 0.056 0.264)
P 2 = (
1 0 0 0 0 0
0.681 0.222 0.036 0.024 0.008 0.023 0.458 0.283 0.085 0.083 0.024 0.066 0.368 0.205 0.106 0.173 0.038 0.11 0.333 0.229 0.104 0.119 0.107 0.107 0.369 0.228 0.133 0.109 0.043 0.117)
P 5 = (
1 0 0 0 0 0
0.912 0.044 0.012 0.011 0.004 0.01 0.831 0.083 0.025 0.026 0.009 0.021 0.772 0.106 0.036 0.039 0.013 0.032 0.76 0.112 0.038 0.04 0.015 0.033 0.781 0.105 0.034 0.036 0.013 0.029)
P 10 = (
1 0 0 0 0 0
0.982 0.006 0.002 0.002 0.001 0.001 0.972 0.012 0.004 0.004 0.001 0.003 0.963 0.017 0.005 0.005 0.002 0.004 0.961 0.017 0.005 0.006 0.002 0.005 0.965 0.016 0.005 0.005 0.002 0.004)
P 20 = (
1 0 0 0 0 0 0.993 0 0 0 0 0 0.995 0 0 0 0 0 0.996 0 0 0 0 0 0.995 0 0 0 0 0 0.996 0 0 0 0 0)
(小数点第 4 位四捨五入)
24
上の結果をみると,P m の各要素は年度を重ねるごとに収束し,最終的にはおおよそす
べてのクラスタグループがクラスタ 0 に吸収されることがわかる.
25
5.2 推移確率グラフ
各クラスタの推移はクラスタ 0 に吸収されることがわかった,その収束の各クラスタご との特徴を図 5.1 にグラフ化した.クラスタ1は飛びぬけて引退確率が高く,選手寿命 が短いことがわかる.クラスタ3,4,5はどれも大差は見えない.また,各クラスタ が 0 に吸収される確率は 8 年後に 9 割を超える.
図 5.1 m年後のクラスタ 0 への移動確率 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
K1
K2
K3
K4
K5
26
次に, 上のグラフの差分(各年のクラスタ 0 への移動確率の前年との差)を図 5.2 に示す.
このグラフの 2 年目に注目すると,クラスタ1は,2 年目<1 年目という特徴を持ってい る.これは,1 年目と比べ 2 年目に引退する確率が低いということを表す.これはクラ スタ 1 の選手は,引退が近い選手とキャリア初めの成長前段階に分かれているためであ ると考えられる.逆にクラスタ 2 や4は,2 年目>1 年目という特徴を持っているため,
引退に近づきやすいクラスタであるといえる.
図 5.2 各年ごとの移動確率の変化
この 2 つのグラフから,引退までの期間はクラスタ 1,2 が短く,クラスタ 3,4,5 は やや離れている,つまりクラスタ 3,4,5 に属することが選手の目標の一つ(選手寿命 が長い選手)となる.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
1
年後2
年後3
年後4
年後5
年後6
年後7
年後8
年後9
年後10
年後11
年後12
年後13
年後14
年後15
年後16
年後17
年後18
年後19
年後20
年後K1
K2
K3
K4
K5
27
5.3 タイプ別の引退までの年数
5.2 節で,選手が引退する(クラスタ 0 に吸収される)までの年数が,タイプごとに異な っていることがわかった.そこで,各クラスタ(クラスタ 1 からクラスタ 5)の選手が引 退する確率が 80%を超える年数を選手限界として,各クラスタの選手寿命を設定する.
クラスタ 1(控え選手群):4 年後
(3 年後引退確率 79.9%・4 年後引退確率 87%)
クラスタ 2(下位打線選手群): 5 年後
(4 年後引退確率 75%・5 年後引退確率 83%) 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
クラスタ1 選手限界
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
クラスタ2 選手限界
28 クラスタ 3(主軸選手群):6 年後
(5 年後引退確率 77%・6 年後引退確率 84%)
クラスタ 4(上位打線選手群):6 年後
(5 年後引退確率 76%・6 年後引退確率 83%) 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
クラスタ3 選手限界
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
クラスタ4 選手限界
29 クラスタ 5(安定成績選手群):6 年後
(5 年後引退確率 78%・6 年後引退確率 85%)
最も引退時期が遅いクラスタは3,4,5であることがわかった.
今後,この 3 つのグループをまとめて主力選手群,他のグループをまとめて非主力選手 群と呼称し,選手の成長衰退モデルをまとめることとする.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
クラスタ5 選手限界
30
第 6 章 成長衰退モデル
6.1 年齢分布グラフ
第 4 章と第 5 章により,選手の成長と衰退に関わるポイントは,主力選手群か非主力選 手群のどちらに所属するかがポイントであることがわかった.このことを踏まえた上で 年齢分布とクラスタ推移を改めて行う.
図 6 は,全体と非主力選手群の年齢分布グラフである.
2 つのグラフに差が見え始めるのは 22 歳からで,25 歳になるとその差大きくなる.つ まり,20 代後半にさしかかるあたりで選手能力が判明する.また,30 歳からは人数の 差が小さくなり始める.このことから,選手能力や選手寿命はこの 25 歳から 30 歳で主 力選手群に属することができるかどうかで決まることがわかる.
図6.1全選手と非主力選手群の年齢分布グラフ.青が全選手で赤が非主力選手群 0
20 40 60 80 100 120 140 160
18 20 22 24 26 28 30 32 34 36 38 40 42 44
31
6.2 タイプ別成長衰退モデルまとめ
①選手は各タイプを経験しながらキャリアを積む.
②引退確率はタイプ別に異なり,主軸選手群・上位打線選手群・安定成績選手群は選手 生命が長い傾向にある.
③成長する選手のポイントは 25 歳から 30 歳の年齢帯で主力選手群に属していることで あり,その選手がプロ野球界を長く続けられる選手である.
最後に,主力選手群はほとんどの試合に出場していることが図 6.2 のグラフで確認でき た.縦軸が平均出場試合数で,横軸がクラスタ番号と年齢である.
図 6.2 平均出場試合数とクラスタのグラフ 0
20 40 60 80 100 120 140 160
クラスタ
0
クラスタ1
クラスタ2
クラスタ3
クラスタ4
クラスタ5
25歳 26
歳27歳 28歳 29歳 30歳
主力選手群