一致率問題

 将棋ソフトの件について、不正の有無自体には興味がないと書いたが、不正があったかどうかの「確率」を調べることには興味がある。以前こちら"http://blogs.yahoo.co.jp/desaixjp/54496738.html"でやったようなベイズ推定ができるかもしれないのだ。
 そこで材料の1つになりそうなのが、こちら"http://i2chmeijin.blog.fc2.com/blog-entry-4583.html"で紹介されている「6月以前と7月以降のスマホアプリとの一致率」だ。ではこれを使って推定してみようと思ったが、実はコメント433が既にそれに類したことをやっている。ただしその際に利用した数値がおかしい。excelで標準偏差などを計算したところ、違う数字が出てくる。
 データが違うと思われるのは、疑惑前の数字の平均(62.7%)、SD=標準偏差(9.7%)、SE=標準誤差(3.7%)と、疑惑後のSD(3.6%)、SE(1.6%)だ。後者については単にSDとSEを書き間違えたとも考えられるが、前者がどうしてこのような数字になったのかは分からない。
 とりあえず正しい数値に従ってexcelを使ったt検定"http://www.geisya.or.jp/~mwm48961/statistics/bunsan1.htm"をやってみた。2つのデータについて最初にF検定をしたところ両側確率が0.0728、片側確率だと0.0364となり、5%水準なら有意差があり、1%水準ならないことになる。前者なら不等分散、後者なら等分散だ。
 続いて行ったt検定(両側検定、不等分散)の結果は0.00235となって1%水準で帰無仮説が棄却される。等分散の場合でも結果は0.00347で、やはり1%水準で帰無仮説は棄却される。
 さらにコメント欄と同じくZ検定"https://ja.wikipedia.org/wiki/Z%E6%A4%9C%E5%AE%9A"をしてみると、Z値は4.03となる。このZ値を導く両側確率は0.0000566、つまり約17700分の1となり、コメント欄の数値(17000分の1)とほとんど変わらない。数値は違うが結論はほぼ同じ、ということになる。
 要するに統計的に言えば、この6月以前の一致率と7月以降の一致率の違いが偶然に生じる確率はほとんど皆無に等しい。コメント433にある通り「何らかの原因がなくては偶然とは言えない」レベルの違いである。
 加えて(コメントでは間違った数値に基づいた指摘となっているが)SDが9.7%から3.6%に低下したのも問題だ。疑惑後の方が母数が小さいのだからSDが大きくなっても不思議はないのに、一致率のばらつきが奇妙なほどに少ない。この点についても「黒のベイズ確率が上がる」という指摘の通りだ。
 もちろん母数が少ない点は問題となる。疑惑後は仕方ないとはいえ、疑惑前については実際にはもっと多く、できれば30~40程度の母数がほしいところだ。
 一方、こちら"http://i2chmeijin.blog.fc2.com/blog-entry-4598.html"では「10分以上長考した手と将棋ソフトとの一致」のみをピックアップし、疑問手をどのくらい指しているかを調べている。調査した本人は「カンニングと断じることができるだろうか?」と疑問を抱いているようだ。
 ただ中身を良く見ると、対象となった36回のうち、疑問手を指しているのは6回(16.7%)。負けた竜王戦挑戦者決定戦第1局を除けば31回中4回(12.9%)となり、一致している手(17回)に比べれば圧倒的に少ない。一致しないが推奨3番手までに上がっている手を0.5勝0.5敗と考えれば、勝った試合における一致率は71%と疑惑前の一致率より高くなる。
 正直、「この手順におけるこの手が怪しい/怪しくない」という議論について素人が判断するのは難しいと思う。10分以上という基準についても同様で、だからベイズ推定するならそれ以外のデータを取り上げた方がよさそうだ。

 さて以上のデータを元にベイズ推定してみよう。まず事前確率だが、正直バレれば人生が狂うような行為だけに、普通は容易に踏み切れるものではないだろう。それでも魔が差す人はいるだろうと考えて、一応黒の確率を1%としておく。
 問題は一致率の変化だ。ここでいきなり99%以上、もしくは17700分の17699の確率で黒になる。とりあえずt検定の数字を使い、ソフトを使った結果として一致した確率が99.6%、偶然の確率は0.3%だとすると、ソフト使用の確率は77%まで高まる。本当ならここにSDの急激な縮小が偶然に起きる確率も加える方がよさそうだが、同じデータに基づく推定になるので適用するのはやめておこう。
 その他の材料としては、まず夏以降に離席が増え、また離席している時間が長くなったという指摘がある。1回の対局でそういう現象が起きても体調の悪化などの確率が高いと思われるが、何回も繰り返されればやはり怪しい。全部の対局で体調不良だった確率は2割ほど、逆に隠れてソフトを使っていた確率は5割ほどだと考える。するとソフト使用確率は89%になる。
 さらに5人前後の棋士が連盟に調査を求めるほどの疑惑を抱いたという。これはかなり黒っぽい。ソフト使用が8割、単なる勘繰りである可能性が2割だとすれば、黒の確率は実に97%まで高まってしまう。
 ちなみに最初の一致率がらみの推定でt検定の結果ではなくZ検定で出てきた「17700分の1」を適用するなら、その時点で黒確率は1%から99.4%まで跳ね上がる。それ以降のベイズ推定を入れれば、実に黒の確率99.9%となってしまう。ただし、こちら"http://oshiete.goo.ne.jp/qa/1181046.html"によればZ検定は「母集団の分散が分かっている」時に使うものだそうなので、今回の場合はt検定の方がいいだろう。
 一方、ベイズ推定で白の確率を増やすデータはあるのか。擁護している人たちは主に「この手が怪しいとは言い切れない」「一致率だけでは黒と断言できない」といった切り口が中心で、「こういうことをしているから白の可能性が高い」という主張が見つからなかった。
 主観的な「あの人がそんなことをするなんて信じられない」といったレベルの感想はある。それを無理に採用するとどうなるか。白確率8割、黒確率1割だとすれば、t検定計算だと黒確率は80%、Z検定だと99.6%。やはり黒の確率の方が高い。
 実際にはこれに「疑惑を指摘された後で竜王戦の休場を申し出た」問題が入る。白であれば堂々と出ればいいのに、なぜ休むと言い出したのか。白だけど連盟の行動に不満を抱いて休むと言い出した確率よりは、実は黒なので出るのを避けようとした確率の方が高いと考えれば、さらにベイズ推定の黒度合いが増していく。

 要するに一致率問題がベイズ推定に及ぼす影響がとてもでかく、他の材料をいじっても大まかな傾向は変わらないってことだ。これはかなり厳しい。一致率だけで黒と断言できないのは確かだが、一致率のせいで「かなり黒に近い灰色」と見られてしまうのは、統計的には避けられないのではなかろうか。
スポンサーサイト



コメント

非公開コメント

トラックバック