みんな嘘つき

 「誰もが嘘をついている」"https://www.kobunsha.com/shelf/book/isbn/9784334962166"読了。いや楽しい本だった。350ページほどあるが、面白おかしくかつ読みやすく書いているのであっという間に読める。一方でまじめに考えると色々と示唆があるという、なかなか出会うことがないタイプの書籍。このように最新分野について面白く紹介してくれる本がもっとたくさん出てくれると嬉しいのだが、ないものねだりかな。
 このblogでも以前にgoogle trendsを使った分析みたいなのをちょっとやってみたことがある"https://blogs.yahoo.co.jp/desaixjp/54732533.html"のだが、それをより幅広い分野で本格的にやったという内容の本だ。著者が最初にそうした取り組みをやったのは学生時代だが、その後で本当にgoogleに就職してデータアナリストの仕事もしていたらしい。
 テーマとしているのはビッグデータ。この言葉もそろそろ使われすぎて手垢がついてきた感があるが、一方でその中身についてきちんと理解している人がそれほど増えたわけでもない。この本では著者なりの「ビッグデータの威力」について、極めて卑近なものを中心に山ほどの事例が示されている。読み進めれば否が応でもビッグデータについて理解が進むというわけだ。もちろん著者の考えが本当に正しいのかは吟味しなければならないのだが、そんな難しいことを考えなくても事例紹介を読むだけで面白い。
 著者によればビッグデータの持つ力は4つある。まずはそれまで手に入ることなどないと思われていた「新種のデータ」がもたらされること。次に新しいだけでなく「正直なデータ」が手に入ることで、著者はこれをデジタル自白剤と呼んでいる。3つ目はデータの規模が大きいため「小さな部分集合に絞り込める」というメリットがある。そして最後に、手軽に検証作業ができるため相関関係だけでなく因果関係も調べやすい。そしてこれらの力を生かせば社会科学が真の科学になる、というのが著者の描く未来像である。

 それぞれの力について紹介しておこう。まず新種のデータとして著者が最初の方で紹介しているのがポルノサイトのデータだ。曰く男性による検索フレーズ上位100を調べてみると、実はそのうち近親相姦絡みのものが16もあったという。さらにその過半は母と息子の絡みのある動画を探すものだったそうで、著者は皮肉交じりに「母は強し」と書いている。なお女性による検索数上位のうち近親相姦絡みは9件だが性別は逆、つまりその検索の過半は父親と娘という組み合わせになる。
 google検索でも「私はXXXとセックスがしたい」という検索結果を調べると最も多いのが「母」で月間720件、次が「息子」と「姉妹」で590件になるという。さらに妻が夫について検索した結果の分析によれば、成人男性のフェティッシュ願望のトップ級に「おむつをしたい」「授乳されたい」などが並ぶそうだ。加えて成人男性がポルノ動画で最も検索しているジャンルは「ベビーシッター」ということになる。米国では12歳以下の子供だけで留守番をさせることは違法になるそうで、そのため多くの子供はベビーシッターと一緒に過ごした経験があるということになる。
 そこから著者は成人の性衝動について、「幼少期がとても大切なのだ。そして母親も」という結論を出している。確かに男性にとって人気のポルノジャンルは、子供のころの経験と何らかの関係を持っていそうなものが多い。著者はフロイトの理論のうち一部については「偽」だと指摘しているが、幼少期の重要性という点ではフロイトを肯定的に見ているようだ。お手軽に自分の性的嗜好を検索できる場の存在とその検索データというビッグデータの登場によって、フロイトの妥当性が検証できるようになったというわけだ。
 続いて正直なデータだが、これは米大統領選について書いた時の問題と密接に関係している"https://blogs.yahoo.co.jp/desaixjp/56105187.html"。予想屋たちがトランプ当選を予測しそこねたのは世論調査の敗北だと指摘したが、著者はむしろ世論調査のようなサーベイには必ず嘘が混じると指摘している(だから本の題名がEverybody Liesになっている)。その嘘を暴くのがデジタル自白剤ことグーグル検索である。
 トランプ当選を完全には予想できなかったNate Silverは、共和党予備選でトランプが予想外の勝利を収めていくのを見て、それと相関の高いデータを探し回ったそうだ。そして彼が発見したのが、著者が見つけて2015年に報じられていたこちらの記事中にある地図"https://gizmodo.com/use-google-searches-to-figure-out-how-racist-your-neigh-1709200937"。見ての通り特に東の方が赤くなっており、西は大半が緑となっている。
 これはグーグルでniggerという言葉で検索した人の割合がどの程度だったかを示す地図である。赤い地域の米国人は黒人に対する人種差別的なジョークといったものを検索する頻度が緑の地域に比べてずっと高かったのである。奴隷解放から150年、公民権運動から50年、黒人QBが珍しくなくなってから十数年が経過してもなお、これだけの差別意識が根強く存在している。Football PerspectiveがQBのスタッツを基に「いまだ人種が問題だ」"http://www.footballperspective.com/tyrod-taylor-and-whether-race-still-matters-part-i/"と指摘するのは、実は裏付けとなるデータがある話なのだ。
 興味深いのは差別意識がよく言われる「南北」ではなく「東西」で違っている点。南北戦争時に州として存在していた地域の方が、その後に合衆国に組み込まれ州になっていった地域よりも差別意識が強く残っているのである(Tyrod TaylorのいたBuffalo周辺などはトップクラスに高い)。歴史が古い方が昔の差別をそのまま引きずっているという点は、もしかしたら日本でも当てはまるかもしれない問題だ。
 そして同時に世論調査の問題をどうカバーしていくかのヒントもここから得られる。人々はサーベイに対しては嘘をつくが、グーグル検索のときにまで嘘をつく可能性は低い。次の大統領選ではNate Silverもグーグル検索を利用して予測の精度を上げてくる可能性がある。
 絞り込みの例として紹介されているのは米国社会の流動性だ。貧しい家庭に生まれ育った人が豊かになる可能性は、米国内であってもサンノゼ(12.9%)とシャーロット(4.4%)では3倍ほども違う。こうしたデータはビッグデータになったからこそ分析できるようになったのだし、また「富裕層が多く住んでいる都市では貧困層も長生きしやすい」というったデータ分析も可能になる。平均寿命に関するデータ"https://www.businessinsider.com/life-expectancy-in-the-us-disparities-map-2017-5"もビッグだからこそできた分析だろう。
 そこからさらに著者は暴力的な映画が公開された週末と犯罪との関係について時間単位の分析を行い、さらにNate Silverが生み出したMLBの指標PECOTAに言及するなど、様々な話題を手広く取り上げている。さらには脚注で、MLBの中に時々出てくる「一度衰えたが復活したパワーヒッター」たちが、実は一度ステロイドをやめてその後でまた使用を再開しただけではないかという推測も述べている。
 そして最後の「相関と因果」ではA/Bテストの話を述べ、また有力校に紙一重で入った人と入れなかった人のその後の収入が変わらないことなどを指摘している。特にA/Bテストなどは実際に仕事で必要に追われて取り組んでいる人も多いだろう。デジタルデータのように簡単にテストをできるものだからこそ、この手法がここまで広まっていることは確かだ。

 かように本の大半においてデータの力を強調している著者だが、その弱点も最後に触れている。特に株式市場を予測する試みのところで出てくる「多くの変数」の問題点は重要。変数が増えすぎると、偶然の結果として統計的に有意な結果が出てくる確率が増える。統計はあくまで蓋然性を論じるものであり、そこからわかるのは「因果関係がある可能性」が上がったか下がったかという話でしかない。A/Bテストは万能ではないのだ。
 さらに著者は倫理的にビッグデータを使うべきでない局面もあると指摘する。テロの可能性が高まっていることをグーグル検索で察知したとしても、「テロ」について検索した人間すべてを予防拘束するのはおかしい。テロが起きそうな地域で警備を増やすという対応ならまだしも、それが人権に反するような行為であればビッグデータを使うべきでないという考えだ。
 しかし皮肉なことにビッグデータが人権にまで影響を及ぼしていそうな国がある。中国だ。以前にも紹介した"https://blogs.yahoo.co.jp/desaixjp/56721311.html"ように、中国では信用スコアによって国民に対するサービスに格差が生じる事態が既に起きているという。このシステム運用に国家が絡んでくれば、西洋的な価値観からすれば間違いなく問題だろう。ただ中国人がどう感じているのかは分からない。
 以上、本の流れをざっと紹介したが、読む人の関心によっていろいろな切り口で味わうことができる本だと言えよう。単純に「そんなデータがあったのか」と驚きながら読むのもよし、まじめにビッグデータの使い方や注意点を把握するのもよし。いい読書体験だった。
スポンサーサイト



コメント

非公開コメント

トラックバック