EPAの使い方

 前回はExpected Points Added(EPA)について紹介した。EPAと呼ばれるものにはいくつもの種類があること、それぞれ微妙に数字が違っているが、極端な違いまではいかないこと、そしてEPAを使った分析が様々な形で行われ、NFL界隈でも次第に広まっていることなどについて触れた。
 EPAの最大のメリットは、あらゆるプレイを同じ物差しで測れることにある。パスやランのみならず、STのプレイからペナルティに至るまで、全て同じEPAという基準で比較するのが可能なのだ。例えば1つのフォルススタートについて、それがゲームの結果に対してどのくらいの影響を及ぼすかといった分析をしたければ、ペナルティの数とヤードそれぞれと勝敗との相関係数を見るといった方法がある。だがそれがランプレイと比べてどのくらいの影響を及ぼすかといったことを知りたければ、話はもっとややこしくなる。そういう時に使えるのがEPAだ。
 EPAはプレイ前のExpected Points(EP)とプレイ後のEPを比較することで算出する。ペナルティの場合はダウン数は変わらないまま、フィールドポジションが変わることでEPが変化する。パス失敗だとフィールドポジションは変わらないままダウン数が変わる。それぞれ過去の事例から「この局面ならこのくらいの得点が期待できる」という数字を算出し、プレイ前後の変化からそのプレイがチームの得点にどのくらい寄与したかを調べることができるわけだ。
 EPAは単なるScoringスタッツで表せない「得点への寄与度」を示したものだ。Scoringでは最後に点を入れた選手のみが評価対象となる。そうすると、例えばゴール前1ヤードでボールを持ったRBのみが6点分の評価を獲得し、そこまでドライブを進めてきた他のオフェンス選手たち、あるいは敵陣深くでの攻撃チャンスを奪ったディフェンス選手たちの寄与は全て評価外となる。もちろんEPAは「TDランに対して寄与したOLの貢献度」まで算出することはできないが、少なくとも得点したプレイ以前の様々なプレイについてはその寄与度を数値化して示すことができる。
 一方、Win Probability Added(WPA)は、得点期待値ではなく勝利の期待度の変化を数値化したものだ。もともと野球のSABRmetricsで使われていたものでもあるのだが、野球のWPAがそうであるように選手の能力とは関係ない状況まで考慮に入れた指標となっているため、選手の能力を直接評価するのには向いていない。そして能力評価でない以上、それを予測に使うのは困難が伴う。足元でEPAに基づく選手評価が増えているのは、EPAならそうした懸念なく選手評価に活用できるからだろう。

 だがEPAは実際にどのくらい勝ち負けの予想に役立つのだろうか。2002-18シーズンを対象に、それぞれのチームの勝率とEPA(Pro-Football-Reference算出)との相関係数を調べてみた。するとオフェンスのEPAと勝率との相関は+0.510、ディフェンスは+0.331とかなり地味な数字が出てきている。これはオフェンスのANY/A(+0.664)、ディフェンスのANY/A(-0.536)といったものと比べても低い水準だ。
 EPAは合計値なのに対しANY/Aは平均値だから単純比較するのは拙いのかもしれない。というわけでオフェンスの1プレイ当たりEPA(EPA/P)と勝率との相関を出すとその数値は+0.516。ただのEPAよりは高いとはいえ、差は僅かだ。ディフェンスのEPA/Pの相関も+0.336とほとんど違いはない。やはりパスプレイのみを基準に算出するANY/Aの方が高くなっている。
 パスのみのEPAだとどうなるだろうか。オフェンスのパスEPAと勝率の相関は+0.617、パスEPA/Pもほぼ同じ+0.617となり、オフェンス全体のEPAやEPA/Pよりは高いものの、ANY/Aよりは低い。ディフェンスだとこの数値はパスEPAが+0.417、パスEPA/Pが+0.422となり、やはり全体の数字よりはいいがANY/Aよりは冴えない。単にパス以外の相関性が悪いからEPAの数字が悪いとは言い難い数字だ。
 もう一つ、ANY/Aもそうなのだが、EPAは時代によってかなり違っている。例えば2002シーズンのディフェンスEPAは平均して+29.2だったのに、それが2018シーズンは-68.5まで大幅に落ち込んでいる。昔に比べてディフェンスのEPAはかなり悪化していると見るべきなのだ。時代の違いを無視して単純に勝率との比較だけしても、間違った結果を導く可能性はある。
 というわけで各チームのEPAとANY/Aについてシーズンごとにstandardizeし、そちらのデータを使って勝率との相関を調べてみた。するとオフェンスEPAと勝率との相関は+0.643に、ディフェンスEPAは+0.467に、それぞれ上昇した。絶対値ではなく時代の変化を踏まえた修正を加えれば、EPAと勝ち負けとの相関が高くなったのだ。とはいえ同じように修正したオフェンスANY/Aと勝率の相関(+0.690)、及びディフェンスANY/Aとの相関(-0.571)に比べればやはり低いことに変わりはない。
 興味深いのが、オフェンスからディフェンスの数字を差し引いたデータと勝率との相関だ。EPAの差と勝率の相関は+0.814あるのに対し、標準化したEPAの差と勝率の相関は+0.801とむしろ低くなる。攻守の差に着目してデータを見るのなら、むしろ標準化しない方がチームの実力を調べやすいということになる(これまた僅かな差ではあるが)。同じ傾向はANY/Aにもある。単純にオフェンスとディフェンスのANY/Aの差と勝率の相関を見れば+0.831になるのに対し、標準化したANY/Aの差と勝率の相関は+0.822に下がる。なおパスEPAの差と勝率の相関は+0.824、パスEPA/Pの差と勝率の相関は+0.819となり、やはりANY/Aには劣る。
 結論から言うと、少なくとも2002シーズン以降のデータで見る限り、EPAはANY/Aより優れた予測指標とは言い難い。パスの効率に絞ってみた方がチームの勝敗予測をする上では精度が高まるわけで、だとするとQBの能力評価に際してANY/Aではなく例えばEPA/Pのような指標を使うのが本当に望ましいのかどうかは分からない。オフェンスEPAや標準化したオフェンスEPAより、結局のところANY/Aの方が勝率との相関は高いのだ。

 それでもEPAに魅力があることは間違いない。例えばESPNのQBRはEPAベースの評価値であるが、その評価に際してはパスだけでなくランやペナルティといったものも含めて数値化している。ANY/AではQBのランは評価対象からは完全に外れるし、またQBのパスがDPIを引っ張り出したとしても、それで数値が向上することはない。
 Trubiskyのように、昨シーズンの価値の4分の1を自分の足で稼いだQBについて、ANY/Aはその価値の一部しか表現できない。だとすれば、少しばかり勝率との相関が低くてもEPAを使う方が望ましい、という考え方はあるだろう。
 そもそも勝率との相関にとことんこだわるなら、ANY/Aではなくもっと単純に得失点差を使えばいい。得失点差と勝率との相関は+0.918と極めて高い水準に達している。チームの実力を最もよく表しているのが勝率なのだとしたら、それに次ぐ「頼りになる指標」は得失点差であることに間違いない。残念ながら、得失点差では「パスとランの寄与度」どころか「オフェンスとディフェンスの寄与度」ですら推し量ることが難しいのだが。
 逆にパスとラン、オフェンスとディフェンスを切り分けやすい獲得ヤード差と勝率の相関は+0.669とあまり高くない数字しか出てこない。これが平均獲得ヤード差なら+0.704まで上昇するし、あるいは全プレイに占めるFD更新率の差であれば+0.725ともう少し数値が高くなる。それでもANY/Aはもとより、EPAと比べてもまだ冴えない数字にとどまるのは事実だ。
 相関度が比較的高く、それでいて細かい分析にも使えそうな指標、それがEPAなんだろう。これを使えばオフェンスとディフェンスの寄与度、ランとパスの寄与度だけでなく、ペナルティやターンオーバー、さらにはSTたちのプレイまで、ある程度の評価を下すことができる。ANY/Aはパスオフェンスとパスディフェンスしか分からないし、またパスを投げる距離といった切り口での分析も容易ではない。EPAを使えば、例えばこんな指摘も可能となる。
 実際、EPA分析が目立つようになって以来、ディープへのパスを推奨するような指摘が増えてきた。Air Yardsの長いパスの方がEPAが高めに出るという傾向が見られるからだろう。ただし、Air Yardsの長いパスは当然のようにパス成功率が下がる。キャリアの短い選手なら母数の少なさゆえに距離が長い方が通りやすくなる場合もあるし、そもそも滅多にないほどのロングパスであればこれまた母数の小ささが影響して長いほど成功率が上がるケースも考えられるが、いずれも統計的な誤差にすぎない。
 本当にロングパスの方が望ましいのかどうかは、EPA以外にSuccess Rateも見る必要があるだろう。そういった部分も含め、EPAを使った分析は「色々楽しめる余地が大きい」と同時に「簡単に結論には飛びつかない方がいい」分野のように見える。
スポンサーサイト



コメント

非公開コメント