統計ソフトR

 フリーソフトのR"http://cran.r-project.org/"をダウンロードした。スタッツ関連の分析をやっているとやはり重回帰分析がやりたくなってくるのだが、私が使っているOpenOffice"http://www.openoffice.org/"はexcelと違って重回帰分析できる機能が搭載されていない。ならばいっそのこと、という理由だ。
 で、まずは勉強から。いつものように1978年から2012年までに224試投以上を記録したQBを対象に調べてみる。彼らのANY/Aをパス成功率、Y/C、TD率、Int率及びサック率(分母はパス試投+サック数)から計算してみよう。まずは個別の指標とANY/AとのR自乗を調べた。
 
成功率  0.5016
Y/C   0.1259
TD率   0.5602
Int率  0.3407
サック率 0.1649
 
 以前、n年とn+1年の相関性について調べた"http://blogs.yahoo.co.jp/desaixjp/54361847.html"が、その時はパス成功率>サック率>Y/C>TD率>Int率だった。今回はTD率>パス成功率>Int率>サック率>Y/Cとなっている。年ごとの安定性が低いTD率やInt率だが、ANY/Aとの相関は高く、逆に安定性の高いサック率などは相関性が低くなっている。そして重回帰分析によるANY/Aと関連5指標の計算式は次のようになる。
 
ANY/A=-6.15840+パス成功率*12.11052+Y/C*0.50871+TD率*20.59709-Int率*47.55033-サック率*6.33144
 
 TD率の係数が約20、Int率が45に近い点を見ても、この計算結果はおそらく間違っていないであろうと推定できる。またパス成功率の係数はY/Cの平均値(12.02)に近いし、サック率の係数は1回のサック当たり平均喪失ヤード(6.87)と似ている。最もかけ離れているのがY/Cの係数とパス成功率(0.542)なのだが、そうした誤差は5指標に含まれていない要素(具体的にはサック喪失ヤード)の影響だろう。
 以上の計算式で算出できる擬似ANY/Aと実際のANY/Aとの相関はR自乗で0.993と極めて高い。まあ当然の結果なんだが、ソフトの使い方を勉強するのが狙いなのでこれでOKである。
 
 次にやってみたいのはこれ"http://www.advancednflstats.com/2007/07/what-makes-teams-win-3.html"と同じ取り組み。Advanced NFL Statsでは勝利との相関を計算していたが、同じことをANY/Aと関連5指標で計算してみるのだ。まずは1978年から2012年までの全データを標準偏差を使ってstandardize(いわば偏差値化)して計算する。結果は以下の通りだ。
 
切片   17.066433
成功率  0.503006
Y/C    0.497227
TD率   0.211677
Int率  -0.427575
サック率 -0.125663
 
 R自乗は0.993となるが、何とも奇妙な並びに見える。ANY/Aとの相関性が高かったはずのTD率の係数が低く、逆に相関性はやたら低かったY/Cの係数が高くなっている。もしかしたら今とANY/Aの数値が全然違っていた20世紀の数値をまとめてstandardizeした結果、時期とともに大きく変化した指標(成功率、Y/C、インターセプトが代表的)の係数が大きく出るようになってしまったのかもしれない。だとしたら、まとめてではなく年ごとにstandardizeしたうえで重回帰分析する必要がある。
 で、面倒だったがやってみた。平均なら0、1標準偏差プラスなら+1という数式で、まずはANY/Aと関連5指標のR自乗から。
 
成功率  0.4901
Y/C   0.2481
TD率   0.6016
Int率  0.305
サック率 0.1514
 
 生データでやった時と大きな差はない。Y/Cの数値が良くなり、サック率を上回ったのが目立つくらいだ。そしていよいよ重回帰分析をしてみる。
 
切片   1.068e-12
成功率  0.4483
Y/C    0.4516
TD率   0.2412
Int率  -0.3678
サック率 -0.1219
 
 R自乗は0.977だ。切片がほとんど無視していい数字になっているのはともかく、後は1978年から2012年までまとめてstandardizeした時と似た傾向になっている。Y/Cがパス成功率を抜いて係数トップになっているものの、これは以前もほとんど横並びだったので同じようなものと言っていいだろう。以下Int率、TD率、サック率と続く並びは最初の計算と同じ。数字にはズレが生じているものの、影響度としては似たようなものだと言えるだろう。
 
 結論。ANY/Aへの影響が大きいのはまずパス成功率とY/Cだが、両者の影響度は似たようなものである。つまりトータルのY/Aが上がらなければ成功率やY/Cの一方だけを上げても効果はない。後はInt、TD、サックの順番に影響度は下がっていく。得点力を上げるにはまずY/Aを上げ、インターセプトを減らすことが優先されると見ていいだろう。とはいえInt率はランダム性が高いので減るかどうかは運次第の面もある。一方Y/Aを構成する要素の中ではパス成功率の方が安定性が高いので、大雑把にパス成功率が高いQBは今後も活躍が期待できると見ることは可能。最初のLCFが先発試合数とパス成功率でQBの将来を予想していたのも、そう考えると辻褄が合っている。
スポンサーサイト



コメント

非公開コメント

トラックバック