テーマとしているのはビッグデータ。この言葉もそろそろ使われすぎて手垢がついてきた感があるが、一方でその中身についてきちんと理解している人がそれほど増えたわけでもない。この本では著者なりの「ビッグデータの威力」について、極めて卑近なものを中心に山ほどの事例が示されている。読み進めれば否が応でもビッグデータについて理解が進むというわけだ。もちろん著者の考えが本当に正しいのかは吟味しなければならないのだが、そんな難しいことを考えなくても事例紹介を読むだけで面白い。
著者によればビッグデータの持つ力は4つある。まずはそれまで手に入ることなどないと思われていた「新種のデータ」がもたらされること。次に新しいだけでなく「正直なデータ」が手に入ることで、著者はこれをデジタル自白剤と呼んでいる。3つ目はデータの規模が大きいため「小さな部分集合に絞り込める」というメリットがある。そして最後に、手軽に検証作業ができるため相関関係だけでなく因果関係も調べやすい。そしてこれらの力を生かせば社会科学が真の科学になる、というのが著者の描く未来像である。
それぞれの力について紹介しておこう。まず新種のデータとして著者が最初の方で紹介しているのがポルノサイトのデータだ。曰く男性による検索フレーズ上位100を調べてみると、実はそのうち近親相姦絡みのものが16もあったという。さらにその過半は母と息子の絡みのある動画を探すものだったそうで、著者は皮肉交じりに「母は強し」と書いている。なお女性による検索数上位のうち近親相姦絡みは9件だが性別は逆、つまりその検索の過半は父親と娘という組み合わせになる。
google検索でも「私はXXXとセックスがしたい」という検索結果を調べると最も多いのが「母」で月間720件、次が「息子」と「姉妹」で590件になるという。さらに妻が夫について検索した結果の分析によれば、成人男性のフェティッシュ願望のトップ級に「おむつをしたい」「授乳されたい」などが並ぶそうだ。加えて成人男性がポルノ動画で最も検索しているジャンルは「ベビーシッター」ということになる。米国では12歳以下の子供だけで留守番をさせることは違法になるそうで、そのため多くの子供はベビーシッターと一緒に過ごした経験があるということになる。
そこから著者は成人の性衝動について、「幼少期がとても大切なのだ。そして母親も」という結論を出している。確かに男性にとって人気のポルノジャンルは、子供のころの経験と何らかの関係を持っていそうなものが多い。著者はフロイトの理論のうち一部については「偽」だと指摘しているが、幼少期の重要性という点ではフロイトを肯定的に見ているようだ。お手軽に自分の性的嗜好を検索できる場の存在とその検索データというビッグデータの登場によって、フロイトの妥当性が検証できるようになったというわけだ。
興味深いのは差別意識がよく言われる「南北」ではなく「東西」で違っている点。南北戦争時に州として存在していた地域の方が、その後に合衆国に組み込まれ州になっていった地域よりも差別意識が強く残っているのである(Tyrod TaylorのいたBuffalo周辺などはトップクラスに高い)。歴史が古い方が昔の差別をそのまま引きずっているという点は、もしかしたら日本でも当てはまるかもしれない問題だ。
そして同時に世論調査の問題をどうカバーしていくかのヒントもここから得られる。人々はサーベイに対しては嘘をつくが、グーグル検索のときにまで嘘をつく可能性は低い。次の大統領選ではNate Silverもグーグル検索を利用して予測の精度を上げてくる可能性がある。
そこからさらに著者は暴力的な映画が公開された週末と犯罪との関係について時間単位の分析を行い、さらにNate Silverが生み出したMLBの指標PECOTAに言及するなど、様々な話題を手広く取り上げている。さらには脚注で、MLBの中に時々出てくる「一度衰えたが復活したパワーヒッター」たちが、実は一度ステロイドをやめてその後でまた使用を再開しただけではないかという推測も述べている。
そして最後の「相関と因果」ではA/Bテストの話を述べ、また有力校に紙一重で入った人と入れなかった人のその後の収入が変わらないことなどを指摘している。特にA/Bテストなどは実際に仕事で必要に追われて取り組んでいる人も多いだろう。デジタルデータのように簡単にテストをできるものだからこそ、この手法がここまで広まっていることは確かだ。
かように本の大半においてデータの力を強調している著者だが、その弱点も最後に触れている。特に株式市場を予測する試みのところで出てくる「多くの変数」の問題点は重要。変数が増えすぎると、偶然の結果として統計的に有意な結果が出てくる確率が増える。統計はあくまで蓋然性を論じるものであり、そこからわかるのは「因果関係がある可能性」が上がったか下がったかという話でしかない。A/Bテストは万能ではないのだ。
さらに著者は倫理的にビッグデータを使うべきでない局面もあると指摘する。テロの可能性が高まっていることをグーグル検索で察知したとしても、「テロ」について検索した人間すべてを予防拘束するのはおかしい。テロが起きそうな地域で警備を増やすという対応ならまだしも、それが人権に反するような行為であればビッグデータを使うべきでないという考えだ。
以上、本の流れをざっと紹介したが、読む人の関心によっていろいろな切り口で味わうことができる本だと言えよう。単純に「そんなデータがあったのか」と驚きながら読むのもよし、まじめにビッグデータの使い方や注意点を把握するのもよし。いい読書体験だった。
コメント