ANY/A見直し

 さて、前に紹介した「インターセプトはサックより過大に忌避されているのではないか」問題について、さらに考えてみるとしよう。前にも指摘したが、よく使われているANY/Aというパス評価システムは、必ずしも各要素を適切な割合で反映しているとは言い難い可能性がある。
 ANY/A、つまりAdjusted Net Yards per Pass Attemptの計算式は以下の通りだ。

(Pass Yards + (Touchdown * 20) - (Intercept * 45) - (Sack Yards)) / (Pass Attempts + Sack)

 パスによる獲得ヤードとサックによる喪失ヤードはそのまま計算し、TDは20倍して加算、Intは45倍して減算。この合計数を分子とし、ドロップバック数で割る。プラス要因となるのがパス獲得ヤードとTDで、マイナスに働くのがIntとサック。このうち、後者においては1つのIntが1つのサックより6.7倍も大きく評価されていることは既に指摘した。
 一方、プラスに働く要因を見ると、TDは見ての通り20倍に評価されている。一方、パスヤードをドロップバック数で割った数字は2019シーズンだと6.29となる。それがTDになった場合は1回につき20ヤードのボーナスが付くわけで、つまりTDはパス1回の3.2倍の評価となる。だがもしサックとインターセプトの評価付けを見直す必要があるのなら、TDについても同じことをする必要があるだろう。
 具体的にどうするか。以前EPAとANY/Aとの比較をした際に述べたが、EPAよりもANY/Aの方が勝率との相関が高い。ANY/Aの大きなメリットはここにある。試合結果をかなりよく説明できる指標なのだ。だからANY/Aを見直す場合も、より説明度合いを高めるような、つまり試合結果との相関が高くなるような修正を施したいところ。
 手っ取り早いのは重回帰分析を使う方法なのだろう。しかしそれではANY/Aの大きな特徴である簡易さが失われそうだ。多少手間はかかるが、TDやIntに掛ける係数はできるだけ丸めた数字にする方向で作業してみる。
 まずやってみるのは得点とオフェンスのANY/A。具体的には10年間(2010-19シーズン)についてチームのシーズン総得点とANY/Aとの相関を出し、続いてサック、Int、TDに掛ける係数を変更してより高い相関係数が出やすくなるのはどの係数かを調べてみた。例えばサックについてはヤード数をそのまま使うのではなく、1.5倍、2倍、2.5倍に変えて相関係数を見る。すると10年間で平均して最も高い相関係数となったのはサックヤードを2倍にしてANY/Aを算出した時だった。
 同様にInt、TDについても計算すると、Intは45倍ではなく30倍が、そしてTDは20倍ではなく実に75倍にして計算した方が、相関係数は上昇した。この新しい算出方法を使った新ANY/Aの得点との相関係数は10年平均で+0.872。従来の計算方法(旧ANY/Aと呼ぶ)だと+0.844なので明らかにそれよりは高い。個別のシーズンごとに見ても全シーズンで旧ANY/Aを上回る相関係数を叩きだした。
 もちろんこのままではHARKingになる恐れがある。というわけでこの数字を使って時期が重ならない2002-09シーズンの8年分について改めて得点との相関を調べてみた。すると旧ANY/Aの+0.836に対して新ANY/Aは+0.868と、こちらもやはり高くなった。個別のシーズンでも新ANY/Aの方が相関が高く、このデータが「使える」ものであることが分かる。
 だがこの同じ計算式を使ってチームのシーズン勝率と攻守ANY/Aの差との相関を見ると、逆に旧ANY/Aの方が相関が高くなる。勝率との相関でより高い数値を出すには、係数をサック1.5倍、Intで55倍、そしてTDを40倍にしなければならないのだ。それによって平均の相関係数は旧ANY/Aの+0.828から新ANY/Aでは+0.833となる。あまり大きな上昇ではなく、またシーズンごとにみると2つのシーズンではむしろ相関が下がっているという問題はあるが、それでもこの係数の方が相関は高い。さらに2002-09シーズンで調べなおしたところ、相関係数は+0.845から+0.849に上昇し、個別シーズンでも6回は上昇した。
 以上の結果について別の切り口から見てみよう。ANY/Aの分子に当たる4つのファクター、即ちパス獲得ヤードと、TD、Int、サック(それぞれ係数を掛けた数字)が分子全体の何%を占めているかを調べてみるのだ。まずは旧ANY/Aについて、2019シーズンの数字を基に算出すると、それぞれのパーセンテージは以下のようになる。

 パスヤード:TD:Int:サック=109.4:13.5:-15.7:-7.3

 それに対し「得点」との相関が高いANY/Aは以下の通りだ。

 81.0:37.6:-7.7:-10.8

 そして「勝率」との相関が高いANY/Aは以下のようになる。

 102.9:25.4:-18.0:-10.3

 それぞれ最も割合が大きいのはパス獲得ヤードで一致しているが、得点との相関の分はその割合がかなり低い。残る3つはそれぞれのデータによって順番が違う。旧ANY/AではIntの影響が最も大きく、以下TD、サックと続いている。これが「得点」になると順番はTD、サック、Intとなり、「勝率」だとTD、Int、サックの順番になる。
 旧ANY/Aの各係数がどのような基準で定められたかについて私は詳しくは知らない。元はThe Hidden Game of Footballという1988年出版の本で提案され、後にPro-Football-Referenceが修正を施した指数だった。このデータを見る限り、ANY/AはあくまでY/Aの拡大版といった以上の意味は持っていなかったようだ。圧倒的にパスヤードのウェートが高く、それ以外では最も影響の大きいIntですらパスヤードの7分の1程度のインパクトしかない。
 しかし「得点」や「勝率」との相関重視で作ったANY/Aではパスヤードの比重が他に比べて低くなっている。特に「得点」に与えるTDの影響はすさまじく、パスヤードの2分の1弱に達している。逆に「得点」におけるIntの存在感のなさもすさまじく、影響力の下がっているパスヤードのさらに10分の1未満しかない。旧ANY/Aにおけるサックに次いでインパクトに乏しいわけだ。「勝率」で見るとパスヤード以外の3要素はいずれも少なくとも1割以上の割合を占めており、インパクトが増している。TDはパスヤードの4分の1ほど、Intは6分の1強、サックは10分の1強だ。
 「得点」「勝率」のいずれにおいてもTDの重要性は遥かに増している。サックもしかり。しかしIntについては「得点」のウェートは旧ANY/Aより低く、逆に「勝率」でのウェートは3種類のANY/Aの中で最も高くなっている。こうした違いがなぜ出てくるかは、正直よく分からない。
 「得点」においてIntよりサックの方がマイナスが大きくなっているのは、Football Perspectiveが指摘している「サックの方がインターセプトよりオフェンスを損なっている」という指摘と平仄があっている。あちらはEPAを使ってそのような推測をしたわけだが、得点期待値であるEPAと同じ結果が「得点」との相関の高いANY/Aでも出てきているところは興味深いと言える。
 一方「勝率」はそうは見てない。勝率の観点で見るとなおオフェンスを損なっている度合いはIntの方がサックより高く、そしてTDパスという具体的な得点につながる出来事の評価は「得点」よりは低めに出ている。この違いは「得点」と「勝利」のそれぞれに何が影響を及ぼすかを知るうえで、何かヒントになりそうに見えるのだが、どう解釈すればいいのは難しいところだ。
 それに、「得点」や「勝率」との相関を高める取り組み(特に後者)は、もしかしたらノイズへの過剰適応になっているかもしれない。要素の割合がどう変わったかに注目しすぎるのは、実はノイズに惑わされていただけだった、というオチも考えられる。調べるとしても慎重に進めたいところだ。
スポンサーサイト



コメント

非公開コメント