相関関係

 コリレーション(相関関係)という概念がある。二つのデータがどのような関係にあるかを調べる手法の一つで、0だと無関係、プラスは正の相関、マイナスは負の相関(逆相関)となる。プラス1あるいはマイナス1は完全な相関関係にあることを示す。
 たとえばある高校アメフト部の部員たち(ネットで適当に見繕ったもの)について身長と体重のコリレーションを調べてみた。するとコリレーションの数値は0.637。明らかに正の相関、つまり身長が高い者ほど体重も多いという傾向が見られることが分かる。もちろんコリレーションは1ではないため、例外も存在するが、比較的相関関係が強いことは間違いなさそうだ。
 コリレーションはエクセルを使えば簡単に計算できる。それを使ってNFLのスタッツについて、どれほど勝敗との関連性があるかを調べてみよう。具体的にはパスプレイの影響を見たい。パッサーレーティングという、一般的に使われている手法が妥当かどうかを調べるのが目的だ。
 以下ではチームごとにパス成功率、平均獲得ヤード、タッチダウン率、インターセプト率、パッサーレーティングについて、どれだけ勝敗との相関関係があるかを調べてみた。nfl.comでデータの入手しやすい時期を対象としたため、残念ながら2003、04、05年シーズンの3年分しかないが、参考にはなるだろう。

2005年シーズン
パス成功率     0.309
平均獲得ヤード   0.588
タッチダウン率   0.693
インターセプト率 -0.549
パッサーレート   0.677

2004年シーズン
パス成功率     0.388
平均獲得ヤード   0.562
タッチダウン率   0.579
インターセプト率 -0.439
パッサーレート   0.601

2003年シーズン
パス成功率     0.500
平均獲得ヤード   0.665
タッチダウン率   0.525
インターセプト率 -0.330
パッサーレート   0.596

 見ての通り、3年間でパッサーレーティングのコリレーションがもっとも高かったのは実は2004年のみ。05年はタッチダウン率の方が、03年は平均獲得ヤードの方がいずれも勝敗との相関関係は強かった。たった3年間のデータではあるが、パッサーレーティングが勝敗との関連性がもっとも深いと断言できるほどの数値ではない。
 また、見て分かるのはパス成功率とインターセプト率(負の相関)のコリレーションの低さである。そこで、パッサーレーティングを計算する際に4つの指標の占める比率を1:1:1:1ではなく1:2:2:1(平均獲得ヤードとタッチダウン率が2、パス成功率とインターセプト率が1)として算出してみた。この修正パッサーレーティングと勝敗とのコリレーションは以下の通りだ。

2005年シーズン
修正パッサーレート 0.694

2004年シーズン
修正パッサーレート 0.607

2003年シーズン
修正パッサーレート 0.612

 いずれも修正前パッサーレーティングより高い相関関係を示している。少なくともこの3年間に関しては既存のパッサーレーティングよりもこちらの修正パッサーレーティングの方が実力を示すに適当なスタッツだといえるだろう。
 だが、実はもっと相関関係の高いスタッツがある。Bud GoodeのKiller Stats、つまりオフェンスのパス平均獲得ヤードからディフェンスのパス平均喪失ヤードを差し引いた数値がそれだ。このKiller Statsをチームの勝敗と比べてみよう。

2005年シーズン
Killer Stats    0.723

2004年シーズン
Killer Stats    0.673

2003年シーズン
Killer Stats    0.796

 あきれたことにどの年でも相関関係は他のスタッツよりかなり高い。オフェンスとディフェンス双方の数値を反映しているのだから当然ではあるが、こんなに簡単な計算式でこれだけ高いコリレーションが得られるのであれば、面倒なパッサーレーティングの計算をする必要はないように思える。

(6月24日、数字など修正)

スポンサーサイト



コメント

非公開コメント

トラックバック