フリーソフトのR"
http://cran.r-project.org/"をダウンロードした。スタッツ関連の分析をやっているとやはり重回帰分析がやりたくなってくるのだが、私が使っているOpenOffice"
http://www.openoffice.org/"はexcelと違って重回帰分析できる機能が搭載されていない。ならばいっそのこと、という理由だ。
で、まずは勉強から。いつものように1978年から2012年までに224試投以上を記録したQBを対象に調べてみる。彼らのANY/Aをパス成功率、Y/C、TD率、Int率及びサック率(分母はパス試投+サック数)から計算してみよう。まずは個別の指標とANY/AとのR自乗を調べた。
成功率 0.5016
Y/C 0.1259
TD率 0.5602
Int率 0.3407
サック率 0.1649
ANY/A=-6.15840+パス成功率*12.11052+Y/C*0.50871+TD率*20.59709-Int率*47.55033-サック率*6.33144
TD率の係数が約20、Int率が45に近い点を見ても、この計算結果はおそらく間違っていないであろうと推定できる。またパス成功率の係数はY/Cの平均値(12.02)に近いし、サック率の係数は1回のサック当たり平均喪失ヤード(6.87)と似ている。最もかけ離れているのがY/Cの係数とパス成功率(0.542)なのだが、そうした誤差は5指標に含まれていない要素(具体的にはサック喪失ヤード)の影響だろう。
以上の計算式で算出できる擬似ANY/Aと実際のANY/Aとの相関はR自乗で0.993と極めて高い。まあ当然の結果なんだが、ソフトの使い方を勉強するのが狙いなのでこれでOKである。
切片 17.066433
成功率 0.503006
Y/C 0.497227
TD率 0.211677
Int率 -0.427575
サック率 -0.125663
R自乗は0.993となるが、何とも奇妙な並びに見える。ANY/Aとの相関性が高かったはずのTD率の係数が低く、逆に相関性はやたら低かったY/Cの係数が高くなっている。もしかしたら今とANY/Aの数値が全然違っていた20世紀の数値をまとめてstandardizeした結果、時期とともに大きく変化した指標(成功率、Y/C、インターセプトが代表的)の係数が大きく出るようになってしまったのかもしれない。だとしたら、まとめてではなく年ごとにstandardizeしたうえで重回帰分析する必要がある。
で、面倒だったがやってみた。平均なら0、1標準偏差プラスなら+1という数式で、まずはANY/Aと関連5指標のR自乗から。
成功率 0.4901
Y/C 0.2481
TD率 0.6016
Int率 0.305
サック率 0.1514
生データでやった時と大きな差はない。Y/Cの数値が良くなり、サック率を上回ったのが目立つくらいだ。そしていよいよ重回帰分析をしてみる。
切片 1.068e-12
成功率 0.4483
Y/C 0.4516
TD率 0.2412
Int率 -0.3678
サック率 -0.1219
R自乗は0.977だ。切片がほとんど無視していい数字になっているのはともかく、後は1978年から2012年までまとめてstandardizeした時と似た傾向になっている。Y/Cがパス成功率を抜いて係数トップになっているものの、これは以前もほとんど横並びだったので同じようなものと言っていいだろう。以下Int率、TD率、サック率と続く並びは最初の計算と同じ。数字にはズレが生じているものの、影響度としては似たようなものだと言えるだろう。
結論。ANY/Aへの影響が大きいのはまずパス成功率とY/Cだが、両者の影響度は似たようなものである。つまりトータルのY/Aが上がらなければ成功率やY/Cの一方だけを上げても効果はない。後はInt、TD、サックの順番に影響度は下がっていく。得点力を上げるにはまずY/Aを上げ、インターセプトを減らすことが優先されると見ていいだろう。とはいえInt率はランダム性が高いので減るかどうかは運次第の面もある。一方Y/Aを構成する要素の中ではパス成功率の方が安定性が高いので、大雑把にパス成功率が高いQBは今後も活躍が期待できると見ることは可能。最初のLCFが先発試合数とパス成功率でQBの将来を予想していたのも、そう考えると辻褄が合っている。
コメント