EPA

 以前、こちらのエントリーで、Expected Points Added(EPA)とQBのキャップヒットとの関係を調べたツイートを紹介した。そこでEPAの算出にnflscrapRを使っていることが記されている。さて、このnflscrapRとは何だろうか。
 ツイートのプロフィール欄にあるリンクをクリックするとこちらのページに飛ぶ。どうやらNFLのデータについて、統計処理用のフリーソフトRを使っていろいろ分析しようとする取り組みのようだ。特に興味深いのが、彼らがモデル化したEPAやWin Probability Added(WPA)を使って具体的な分析作業ができる点にあるという。
 こうした分析手法は色々なところで実用化されている。EPAについてはnflscrapRのもの以外にこちらでつかったPro-Football-Referenceのものもあるし、Burkeが使っているものはおそらくESPNが作成しているものだろう。WPAになると、こちらの記事にあるように6種類ものWPAが存在する。
 この記事では全てのWPAモデルは間違っていると見出して宣言している。理由は簡単で、WPAの算出に際して使用される過去のデータが、必ずノイズを含んでいるからだ。1シーズンにNFLでは約4万回のプレイが行われるのだが、4万回コイントスをしたとして実際の結果は期待値(つまり表が2万回)から平均0.2%ずれることになる。記事中では同じプレイがモデルによってWPAをプラスに評価されたり、逆にマイナスに評価されたりしている例が載っている。どのデータを使うかによって、モデルに違いが出てくるのだ。
 もちろん同じことはEPAについても言える。実際、QBのキャップヒットとプレイオフのEPAとの関係についてPro-Football-Referenceのモデルを使った場合の結果はこちらで紹介しているが、nflscrapRのモデルを使って調べたところ異なる結果が出た。
 使ったのはこちらにあるplay by playのデータ。Excelのcountifsやsumifsといった関数を使ってデータを集め、QBのキャップヒットとの相関を調べたところ、オフェンス全体のEPA/Pとの相関は+0.100となった。PFRのモデルを使った時の+0.115と微妙にずれている。オフェンスのパスEPA/Pも前者が+0.182だったのに対し、後者は+0.172とこれまた少しとはいえ違いが生じている。
 ランオフェンスとQBキャップヒットとの相関はnflscrapRを使うと-0.224となった。PFRのデータ(-0.243)より少し絶対値が小さいが、引き続き弱い相関はある。ディフェンス全体のEPA/Pの相関は-0.098(PFRモデルだと-0.093)、パスディフェンスの相関は-0.086(同-0.119)となる。見ての通り、いずれもやはり微妙に数字が違っている。
 それでもこのエントリーで出した結論、つまりQBのキャップヒットは「プレイオフになるとパスオフェンスやオフェンス全体にもたらすプラス効果が薄れる一方、ランオフェンスやディフェンスに与えるマイナス効果がよりはっきりと見えてくる」という部分を訂正しなければならないほどの違いではない。その意味では誤差の範囲とも言える。
 扱うデータの数が多いほど、こうした問題は誤差で済む可能性が高まる。だが上に紹介した「個別のプレイのWPA」といったような少ない事例を取り上げた場合、そうは問屋が卸さない。WPAのように「次にどのようなプレイをコールすべきか」を判断するうえで役立つとされる指標の場合、モデルごとにプラスとマイナスが違うのでは「このプレイコールは正しかったかどうか」を個別に判断するのは難しくなる。
 上で紹介した「全てのWPAは間違っている」という記事では、あまり細かい数字にこだわらず、不確実性の存在を理解し、さらにモデルのアップデートに努めるべきだと指摘している。WPAにせよEPAにせよ、弱点を理解したうえで使えば役に立つという理屈だろう。

 逆にそうした弱点を理解したうえでEPAから何が分かるかを調べるのはいい手だろう。実際、nflscrapRではモデル作成について述べた論文の中で、EPAやWPAを使って「控えレベルの選手」の能力を導き出し、個別の選手のWAR(説明はこちらを参照)を算出する方法を提示している。p31には2017シーズンのプレイヤーたちのWARが載っており、ポジションごとに5人ずつのデータを棒グラフで示している。X軸を見れば分かるが、QBのWARの大きさに比べてRBが極めて小さいことが窺える。
 MLBではFAを評価する際に$/WARという考えを使っているようで、もしそうした方法が使えるのなら、NFLでも同じ取り組みが始まる可能性はあるだろう。実際、Pro Football FocusのライターがWARを使ってどのタイプの選手がコスト高かを調べている。前に紹介した説とは異なり、こちらは「UFAが最も割高」という結論になっているようだ。PFFはAIを使ってサラリーを計算する方法も開発したそうで、その背景にはこうしたデータ分析があるのだろう。
 そういった生臭い話でなくても、ファンが楽しむうえでEPAのようなデータを使う方法はある。nflscrapRを使った取り組みとしては、こちらの一連のツイートなどが面白い。最近10年間の各チームのオフェンスEPA/Pについて、QBとそれ以外とに分けて分析したものだが、どのチームのQBがどのような位置にあるかが分かる。
 最初に出てくる2004ドラフト組を見ると、やはりEliが最も冴えないQBであることが分かる(10年のうち6年で最下位)。RoethlisbergerとRiversはどちらも比較的いい成績なのだが、トータルで見ればRiversの方が上にいることが多い。この3人のQBの中で一般の評価を聞くとおそらくRiversを最も低く見る人が大勢いるだろうが、データを見る限り彼こそが本当は「花の2004年組」の筆頭であることは間違いない。ちなみにRANY/Aで見てもトップはRivers(+1.06)で以下Roethlisberger(+0.85)、Eli(+0.06)の順番だ。
 最近MVPに選ばれたRodgers、Newton、Ryanの3人を比較した2つ目のグラフも興味深い。Ryanの高い水準での安定ぶり、Newtonの平凡な水準での安定ぶり、そしてRodgersの低落傾向が分かる。次に載っている2012年ドラフト組を見れば、Luckが引退する以前の段階から彼とWilsonの両者間に明白な差がついてしまっていたこともくっきりと浮かび上がっている。
 次のグラフはこの10年間のAFC東を象徴するものだ。Patriotsが10年連続で地区優勝しているのだが、とにかくQBの差がそのまま成績の差になってしまっていることが分かる。残る3チームはほとんどの期間においてNFLの平均にすら届かないQBでプレイを続けており、おまけに足元では3チームとも低下傾向にある。その次は2016年組の3人。まだそれぞれキャリアが短いのだが、見た限りMcVayはRamsの救世主と呼んでいいだけのことはしている。
 EPAが便利なのはランとパス、さらにはスペシャルチームのプレイやペナルティに至るまで、あらゆるプレイを同じ土俵に乗せられることだ。QBのパスとランの両方を足し合わせてどのくらい得点に貢献しているかを算出できる点は大きい。モデルごとの細かい差という問題は残るが、全体の傾向を分析するうえでは役に立つツールだろう。
スポンサーサイト



コメント

非公開コメント