予測トーナメントは2022年5月と11月の計2回行われた。それぞれ米国民を対象に生活上の満足度、ポジティブな感情、ネガティブな感情、民主党支持、共和党支持、政治的二極化、アジア系アメリカ人への暗示的及び明示的な態度、アフリカ系アメリカ人への暗示的及び明示的な態度、ジェンダーと経歴に関する暗示的及び明示的な態度の計12項目(Fig. 2参照)について、今後どう変化するかを参加者に質問している。参加者に対しては事前に少なくとも3年分の月次データを示しているが、それを使って予測するかどうかは参加者に任せている。また12項目のうちどれの予測を行なうかは参加者に任せたそうだ。
参加したのは1回目が86チームで、計359の予測が行われた。2回目は120チームに参加数が増え、546の予測が行われている。どのような方法で予測したかも調べられており、データ活用を優先したものが1回目は51%、2回目は53%と最も多く、洞察や理論に基づくものがそれぞれ42%と39%、両者を組み合わせたハイブリッドが7%と8%だった(Fig. 5)。時期がちょうどCovid-19による影響が大きく出ていた時期であり、そういうタイミングで社会科学の各種理論がどのくらい予測能力があるかを調べた格好になっている。
だが結論からすると、まず同時期に行われた一般大衆向けの調査(802人)と比べてもいい予測はできていなかった。さらに人種やジェンダーと経歴に関する項目を除き、過去のデータから算出した単純な予測モデル3種類(歴史的平均、線形回帰、ランダムウォークから算出)と比べてもよくなかったそうで、社会学者による各項目のトップ5つの予測結果と比べても線形回帰モデルはおよそ半分でより少ないエラーを示したそうだ。つまりexcelで計算できる程度の予測モデルが専門家トップクラスの能力とあまり変わらない結果になってしまっている。
もちろん項目により予測の難易度が異なっている点などが影響したとは考えられる。論文によるとポジティブな感情、ジェンダーと経歴に関するステロタイプは他の項目よりは予測しやすく、逆にネガティブな感情やアフリカ系アメリカ人に対するバイアスは予測が難しかったとしている。ネガティブな感情はCovid-19下での特殊な社会情勢が、またアフリカ系アメリカ人に対するバイアスはBlack Lives Matter運動が盛り上がったことが、それぞれ歴史的に見ても大きな数値の変動をもたらし、それだけ予測を難しくした可能性がある。
興味深いのは理論のみに基づいた予測より、データに基づく予測を行った社会学者の方が、結果的にいい数字を残したことだ。アルゴリズムを使う方が人間の直観よりも優れているという点は、最近になって統計重視の思考が強まっている理由でもあるし、今回の研究もその裏付けの1つになるんだろう。実際、データを使った研究者たちは大衆向けに行なった調査結果よりは優れた予測を出していたし、トーナメントの勝者にも数多く顔を並べたという。
また予測した項目に関する専門性が高い者ほど、いい結果をもたらしたことも指摘されている。さらにこの論文ではトーナメント参加者たちが自らの予測に抱いている自信についても調べたようだが、そうした個人的自信より該当分野での論文数といった専門性を示す指標の方が予測の正確性に貢献していたという。自信過剰な人間の言い分は正確かどうかとは無関係(というかむしろ負の相関)であり、逆に専門性が高ければ一般大衆よりは正確な予想が期待できる、という結論だ。
予測モデルの何が予測の正確さに貢献したかについても、論文では分析している(Fig. 6)。チームが学際的に構成されており、行動科学/社会科学者がおり、かつデータサイエンティストがいる場合などは予測の正確さがそれだけ向上する可能性が高い。逆に最も正確性に対するマイナスの影響が大きいのは統計モデルの複雑さだ。
前にも書いた アインシュタインの言葉、というかオッカムの剃刀の威力が改めて示されたと解釈できる。
もしかしたらモデルの複雑性が効果を持つのは、ボードゲームのような
「完全情報ゲーム」 に限られるのかもしれない。今回のトーナメントのように多様な条件が影響を及ぼす事象について予測したいのなら、多少は正確さが犠牲になってもいいから大雑把でシンプルなモデルを使う方が結果的に正確になるということだろうか。データを扱うのが簡単になってきている結果としてデータへの信頼度が全体に増してきている感じはあるが、だからといって複雑なモデルにすればより正確さが増すとは限らないようだ。
論文ではさらにいくつもの推測や検討課題を示している。例えばトーナメントのインセンティブが不十分だったために社会科学者が予測の際に手を抜いた可能性についても言及しているし、実際このトーナメントでは資金的なインセンティブは与えず、単に優秀者上位を発表するのみにとどめたという。ただ1回目の参加者がほとんど脱落することなく2回目に参加していたのを見ても、インセンティブにはそれほど問題はなかったと論文筆者は考えている。
社会科学者の予想があまり当たらなかった理由としては、小さな効果しかない物事を実験室内で過大評価している可能性や、個人やグループを対象とした研究は社会全体までスケールアップした状態をうまく捉えられていない可能性、社会科学者の多くは予測のためではなくすでに起きた出来事を説明するために研究をしている可能性、さらには1世紀に1度のレベルのパンデミックのため、平常時の分析に使われていた社会科学的手法が通じなかった可能性など、色々な理由を想定している。
いずれが正解なのかは分からないが、筆者は社会科学の将来については割と楽観的だ。気象学の世界では20世紀の後半に予測モデルの精度が急速に向上したわけで、同様に社会科学の世界でも今後の取り組みによって社会的な傾向を正確に予測する能力は上向くだろう、と述べている。
今回、槍玉に挙がったのは社会科学者だったが、実のところ同様に「素人や単純なモデルに比べて必ずしも有能とは言えない」専門家は他にもいる。論文の冒頭ではポートフォリオ・マネジャーの資産運用成績が株式市場の平均にしばしば負けていること、地政学の分野で専門家が特定の政治的出来事の発生を予測するのが、単なる偶然のレベルと同じであることなどが紹介されている。要するに専門家と自称してはいるが、その予測能力は決して高いとは言えない者が結構いるんだろう。
ただし、だからと言って専門家は当てにならないという結論に飛びつくのは間違いであることも分かる。少なくとも社会科学者の中には高い予測的中率を出している者がいるし、しかも彼らには一定の特徴があることも分かる。そうした専門分野に関する業績(論文数)の多さと、データを生かした予測への取り組みだ。もちろんデータを使っていてもモデルが複雑すぎる場合には予測的中度は低下してしまうという問題があるので、できればモデルそのものまで確認した方がいいが、そもそもデータを使っているかどうかだけでもある程度は判断できる。
逆に言えば、色々な物事について「こういうタイプの人間が言うことはあまり的中しない」と予測をすることも可能だ。一番分かりやすいのはネット上のどこの馬の骨とも分からない人間による専門家批判。事例は腐るほどあるのでいちいち紹介しないが、その馬の骨が実はさらに能力の高い専門家であったという事態でも起きない限り、そうした言説には耳を傾ける必要はない。なおこのエントリーを書いているblog主自身も大多数から見ればどこの馬の骨とも分からない人物だろう。だからその言い分を丸呑みせず。常に注意深く読んでもらいたい。
閑話休題。肩書が専門家っぽくても(例えば教授とか)、専門分野以外に言及している場合は、同じく要注意だ。実際にその人物がどんな専門分野について研究してきたかを把握したうえで、その言い分に耳を傾けるかどうか判断するくらいでいいだろう。
こちら でも書いた通り、本当の専門家は担当分野で常に知識をアップデートしているが、別の分野についてそうした作業をしている保証はない。またこれはタレント教授のようにマスコミに出るのに忙しくて論文を書いていない者にも当てはまる。論文数と予測の的中度が相関しているのが理由だ。
自信過剰も問題らしい、ということが今回の研究から窺える。昔だったらその研究者が自信過剰かどうかなど、直接の知り合いでもないとなかなか知る機会はなかっただろう。だが最近はSNSなどで研究者の性格がかなり露骨に浮かび上がるようになっている。謙虚な物言いをする研究者に比べ、ネット上でイキっているタイプの研究者の言い分はあまり当てにならない、という判断くらいはできそうだ。
頭に血が上るとまともな判断ができなくなる 問題については前にも触れたが、自信過剰なタイプはそういう陥穽に嵌りやすいのかもしれない。
そして足元で信頼すべき対象から外されるようになっているのが、
データをないがしろにする連中 。人間のヒューリスティックよりも、データを駆使したアルゴリズムの方が信頼性が高いことは、今回の論文からも明らかになった。もちろんデータは常に信用できるわけではない。例えば以前、問題点を指摘した
米国の歴史上の身長に関するデータ については、Our World in Dataにも
同様の指摘が載っている 。それでも、データを無視するよりはデータに頼る方が的中する確率が高い、くらいは言えるだろう。人間の持つバイアスを補正する意味でも、データを粗略に扱ってはならない。
スポンサーサイト
コメント