統計と検証

 学術論文の世界で統計がらみの不適切な処理がなされている、という指摘を最近見かける。具体的に問題視されているのはHARKing、p-hacking、asterisk-seekingといったもので、個別にはこちらのblog記事を参照。研究者に成果を出すよう求める仕組みが、こうした統計的な不正処理の増加をもたらしているそうだ。
 中でもHARKingについてはそもそもそれが不正であることに研究者自身があまり気づいていないという指摘がある。HARKingとはこの一連のツイートに書かれているように「データを分析してみて結果を見てから、それにフィットするように仮説を作」る行為だ。これをやってしまうとノイズをシグナルと間違えてしまうリスクが高まる。データを調べて仮説を見つけ出したなら、その仮説を別のデータで検証しなければならないのに、それをしていないわけだ。
 このツイートではその背景に「実現した出来事(データ)に対して、偶然やノイズの影響を低く見積もる認知バイアス」が働いているのではないかと推測している。そういうバイアスがあるのは、例えばSuper Bowlの勝者に対する評価が異常に高くなる(単に幸運で勝ったチームであってもそれを実力だと見てしまう)ことからも窺えるのだが、実際には世の中、偶然もノイズも人間が思っているよりは多いのだろう。
 データマイニングなども仮説を持たないまま行うとHARKingにつながるリスクがある。その失敗例を多数紹介しているのがこちらの記事だ。ベストセラー本、グーグルの人工知能、ウェブマーケティング、そしていくつかの論文。データを調べれば、そこにはほぼ確実に何かのパターンが見つかる。だがそのパターンがただの偶然、ただのノイズであるかどうかは、別のデータで検証しなければ分からない。
 にもかかわらずデータマイニング(先入観も予備知識もない状態からビッグデータを解析すること)が盛んになっているのは、それをやっているのが研究者ではなくビジネス関係者だからだろう。ビジネス上は他人に先駆けてシグナルを見つけ出すことが最優先であり、そのために効率のいい方法が「ノイズ・シグナル関係なくパターンを見つけ、あとは実践して当たれば大儲け」なのだと思われる。NFL絡みのアナリティクスなど、論文を書く人もいればそれでビジネスをする人もいる分野になると、両方の倫理が混在する状態になる。

 というわけで今回はNFLのスタッツについて仮説を立てたうえで統計を使って検証する、という手順の真似事をする。あくまで真似事なのでやり方はかなりいい加減。厳密さなどは求めないでほしいし、結果が有意になる保証もないが、ちょっとした暇つぶしと思ってもらえればありがたい。
 取り上げるのはNext Gen StatsのxCOMP% +/-だ。xCOMP%は10以上の指標を使って算出された「期待パス成功率」であり、それと現実との差を+/-で示している。例えば今シーズンのPrescottはxCOMP%が62.4であるのに対し、実際のCOMP%は69.6に達しており、+/-は7.2のプラスだ。逆にGoffなどは-5.5とかなり悪い数字である。
 期待パス成功率はリーグ全体の動向に基づいて算出しているものであり、個々のQBごとにその数字とずれが生じるということは、その差(つまり+/-)は個々のQBが持つパスの正確性を示している可能性がある。パスが正確なQBほどリーグ全体より高いパス成功率を、逆に不正確なQBは低い成功率を記録することは十分に考えられるだろう。
 ではこの仮説はどうやって証明すればいいのだろうか。ここでは単純に、n年とn+1年の+/-を比較するという手法で行く。パスの正確なQBはある年も次の年も同じように正確なパスを投げる可能性が高いし、逆に不正確なQBが翌年に急に正確になるとは考え難い。n年とn+1年のデータを比較すれば、両者の間には高い相関が出てくると考えられる。
 だが実際に、シーズンデータが出そろっている2016-18年のデータで調べたところ、+/-のn年とn+1年の相関は+0.287とあまり高くない水準にとどまった。確かに正の相関はあるのだが、例えばTime to Throw(+0.596)やAverage Intended Air Yards(+0.463)などに比べれば低い。いやそれどころかxCOMP%そのものの相関(+0.455)すら下回っている状態だ。
 QBのパスの正確性は年ごとに大きくぶれる、という解釈もできるが、そうではなくパスの正確性以外の要因(偶然やレシーバーの能力など)が+/-には大きく影響を及ぼすとも考えられる。少なくとも+/-を見ただけでパスの正確性について語るのはやめておいた方がいいだろう。そもそも今シーズン、この数値が最も高いのがTannehill(+9.5)である時点で、慎重になるべきであることは一目瞭然なのだが。

 むしろこのデータを調べていると、別の相関係数が高いデータが見つかった。個人的に「プレイコールの能力を示しているのではないか」と思って調べたデータだ。以前「レシーブとパレート」で紹介したレシーバーのcatch rateとyards per catchから近似線を使って各レシーバーのランキング化をしたが、それと同じことをパスを投げる側でやってみようとしたのだ。
 ただし見たいのはQB自身ではなくプレイコール。なので使ったのはIAY(Average Intended Air Yards)と、実際の成功率ではなくxCOMP%。シーズンごとにこの2つのデータの散布図から近似線を見つけ出し、個々のQBのxCOMP%が近似線から求められる数値をどのくらい上回る(もしくは下回る)かを調べた。その数字についてチームごとにn年とn+1年の相関を見ると、結果は+0.489。実際には途中でプレイコーラーが変わっているチームがある(Ramsなど)ことまで踏まえるなら、そう悪くない数字だ。
 だが同じデータをチームごとではなく選手ごとに見ると、+0.526とさらに高い相関が出た。もちろん数字としてはそれほど差があるわけではないし、調べた母数もそれほど多くないため、誤差の範囲と見ることもできる。それでもこのデータで見てチーム単位より選手単位の方が高い相関を示したことには、正直驚いた。
 IAYは投げるパスの長さを、xCOMP%は期待成功率を示す。投げるパスが長いほど期待成功率は下がる。リーグ全体の近似線よりいい期待成功率を出せるチームは、同じ長さのパスを投げてもそれが通る可能性が他チームより高いわけで、それだけうまいプレイコールをしているのだろうと思っていた。だがチーム単位よりQB単位で見た方が相関が高いということは、プレイを作ってコールするコーチ陣よりも、実際にどのレシーバーに投げるかを決めるQBの方が、効率的なパス構築には必要であることを示している。
 パスプレイを作るに際して、1人のレシーバーに決め打ちでパスを投げるケースももちろんあるだろうが、複数のレシーバーを候補としてその選択をQBに任せるケースは珍しくない。敵のカバーを外せるようなうまいパスプレイをコールするのもさることながら、プレイの中でレシーバーを見つけ出し、彼に効率のいいパス、つまりできるだけ距離が長く、成功率の高いパスを投げるQBの役目がかなり大きい。そういうことを、このデータは示しているのではなかろうか。
 そういう観点でこのデータを見ると、今シーズンの上位に来るのはRyan(+3.57)やBrees(+3.18)、Watson(+2.79)といった面々であり、逆に低いのはMariota(-4.08)、Jones(-2.81)、Dalton(-2.15)などだ。個人的には割と納得感のある名前が並んでいるようにも思うのだが、しかし他の年を見ると必ずしもそうとは言い切れないのが悩み。例えばMariotaは2018シーズンには+2.21と逆にかなり高い数字を出しており、しかし昨シーズンと今シーズンの彼がそんなに急変したQBには見えない。
 確かに相関係数は高かったが、このデータがどこまで使えるものであるかは結局のところよく分からなかった。ただ1つ言えるのは、パスを投げる側から見てもIAYとxCOMP%の逆相関ははっきり見えたという点だ。2016シーズンの相関こそ-0.645だったが、17シーズンは-0.782、18シーズンも-0.707と強い逆相関が出たし、19シーズンも現時点で-0.765の逆相関となっている。「長いパスほど成功率が低い」という仮説については、おそらく間違っていないと言ってもいいだろう。

スポンサーサイト



コメント

おかべさせ
オチよw
結局、ごく当たり前と思えることしか言えないとなると、マネーボール的選手評価は難しいということでしょうか。
まだまだ勘と運の領域?

desaixjp
おそらくQBの能力とコーチ陣の寄与とを、特定の指標に切り分けることが難しいのだと思います。
QBの成績全体を示す指標(ANY/Aなど)のうち、何割がQB個人のおかげで、何割がコーチのおかげなのかを調べることはできそうな気もしますが、その寄与は様々な経路をたどって結果につながっているのではないかと。
「この指標はQBのもの」「この指標はコーチのもの」と単純に割り切るのは、少なくとも今のところは控えておいた方がよさそうだ、というのが私の考えです。
非公開コメント