inpredictableに面白い記事("
http://www.inpredictable.com/2013/10/early-season-power-rankings.html"と"
http://www.inpredictable.com/2013/10/early-season-power-rankings-follow-up.html")が載っていた。シーズン序盤や中盤におけるパワーランキングが、その後の成績をどれだけ予想しているかについてまとめたものだ。取り上げたランキングは、評論家による一般的なもの(ESPN)、数量的で中身がブラックボックスのもの(DVOA)、同じく数量的でオープンソースのもの(Advanced NFL StatsのGWP)、数量的で簡単なもの(Pro-Football-ReferenceのSRS)、そしてブックメーカー基準のもの(inpredictableの数字)だ。
ESPNのように評価値を数字で出していないランキングもあるため、一般的なピアソンの積率相関係数"
http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient"ではなくスピアマンの順位相関係数"
http://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient"で相関性を調べている。その結果がなかなか興味深い。
第4週時点のランキングを元に、第5週から16週まで(最終週は意味のない試合も多いため省いているようだ)の成績をどこまで予想できるかを見ると、実は一番低いのはGWPを使ったAdvanced NFL StatsのTeam Efficiency Rankingだ。40%という表記になっているが、要するに相関係数+0.40ってことだろう。ESPNのランキング(+0.47)を下回り最も予想能力に乏しい。2007年から12年までの平均だが、個別の年を取り上げてもGWPが最下位になったのが6年中3年を占めており、またいい時でも+0.51までしか記録しないなど、その実績は振るわない。
もっともこれは当然な面もある。そもそもGWP計算の元になっているWPAはpredictiveというよりretrospectiveなスタッツだ(クラッチな局面の存在を計算に入れているから)。リーグ平均という敵を相手に中立地でチームが勝利する確率を示すのがGWP"
http://www.advancednflstats.com/2010/08/glossary.html"であり、元になるデータ数が少ない時点ではクラッチ局面でたまたまいい成績を残したチームの率が実態以上に高く出てもおかしくない。データ数が増えたとしてもWPAを使っている以上、他の指標より予想性能が下がるのはやむを得ないだろう。
おそらくAdvanced NFL Statsのランキングは予測のためではなく、これまでの実績を客観的に評価するために作成されているのだろう。そんなランキングに意味があるのかと言われると難しいところだが、別にそういうランキングがあってはいけない、ということはない。
GWPと逆に最も高いのはマーケット準拠のもの、要するにinpredictableのランキング(+0.54)である。6年のうちトップになったのは1回しかないが、+0.5以上が4回に達するなどコンスタントに高い数値を出せるのが強みだろう。それに次ぐのはSRSで、その次がDVOA。両ランキングが似た傾向を示すのは私も常日頃感じているところだが、計算方法の簡単なSRSの方が少し高いのは面白い。
さらに第8週が終わった時点のランキングとその後の成績の相関係数も調べている。スタッツ系各種ランキングは(GWPも含めて)第4週時点より相関係数が上昇。並びはほとんど同じだが、いずれもデータが増えれば予測性能が増している。やはりスタッツ系ランキングはある程度のデータ量が積みあがったところで本格的に強みを発揮するようになっている。
それに対し、評論家ランキングはむしろデータが増えると相関係数が下がるという奇妙な現象が生じている。第4週時点では+0.47だったのが第8週になると+0.46。微妙な誤差の範囲なので決め付けることはできないが、少なくともスタッツ系ランキングのように相関係数が明確に上がる傾向がないのは確かだろう。6年のうち係数が上がったのが2回、下がったのが2回、変わらなかったのが2回。例えばGWPが6年のうち5回上昇しているのに比べると差は明らかだ。
inpredictableが説明原理として持ち出しているのはこちら"
http://kenpom.com/blog/index.php/weblog/entry/the_pre-season_ap_poll_is_great"の話。評論家のランキングは、データが増えるに従い「将来の勝利を作り出す能力を判断するより、過去の勝利を評価しがち」になる。過去の勝利数の多いチームほど上位に並び、少ないチームが下位に来るのは、この手のランキングでよく見られる傾向。だがそれは確かに未来の勝利と完全に一致するものではない。主観的ランキングが抱える課題を、ある意味浮き彫りにしたエントリーだ。
コメント