データと歴史

 Turchinが久しぶりにblogを更新していた。How We Can Learn from Historyというこのエントリーは、こちらの一連のツイートをきっかけに書いたものらしい。データが増えてきた時代において、そのデータを使ってどのように分析を行なうかに関する異なる見方が提示されているという点で、ちょっと興味深い話だった。
 ツイートの方ではファインマンの講義から、複数の物理システムの間で驚くべき類似性があることを紹介。それと似たようなことが歴史でもできるのではないかとのアイデアを提示している。ミクロヒストリー(個人のやり取りやコミュニケーションの記録)がマクロヒストリー(文明の歴史)と同じになるとして、そこから似たようなパターンを見つけ出せば、それが歴史を理解するうえでの手段として使えるのではないか、という考えのようだ。
 例えばツイート主は、歴史的な時代について「繁栄」とか「混沌」といったラベルをつけ、そして最近になって集められている生データと主観的なラベルとの関係を調べる、といった手法を考えているもよう。そうしたデータを積み重ね、機械学習を活用してパターンを見つけ出したい、と考えているように思える。
 これに対するTurchinの反論だが、まずはツイートの中で自分の主張がRay Dalioの主張と並べて批判されていることに異論を唱えている。ツイートではDalioのグラフを示し、Y軸が明確でないと批判している(TurchinもDalioの主張を調べようとしてデータを探したが見つからなかったことは認めている)。しかしTurchin自身のデータには全部学術論文の裏付けがあるし、それを使えば誰が計算しても同じ結果が出てくるはずだと主張している。
 さらに彼はこちらのページを改めて作り直し、データをもっと確認できるようにしたいとしている。Ages of Discordを読めばおそらく脚注などから確認できるのだろうが、書籍の出版から6年が経過したところでもっと閲覧しやすくするつもりなんだろう。ちなみにこのページに載っているグラフのうち、一番最後にある構造的人口動態圧力と政治的暴力の散布図については私は前に見た記憶がなかったのだが、構造的な問題と社会政治的不安定性との間に一定の相関があることを示す図となっている。
 以上、Turchinの反論はどこまで妥当なのだろうか。元データが見つかるはずだという彼の主張はその通りだと思うが、さらにそこから各種の指標を算出する際に、元データをどのような論拠に基づいて組み合わせているのかについては、十分な説明がなされているかどうか微妙だと思う。前にこちらで指摘した通り、TurchinがやってみせたようなPSIの算出法を他国に適用した場合、管理通貨制度を採用している現代国家ではSFDの影響が大きく出すぎるという問題もある。
 そもそもPSIを算出するうえで、MMPとEMPとSFDを同じ比率で掛け合わせるのが本当に正解なのか、といった問題まで踏み込んだ議論は、TurchinにせよGoldstoneにせよ、やっているのを見たことがない。実際に計算している事例自体それほど多くないため、それらの計算が間違っているとも正しいとも判断しかねるのが実情だ。もしかしたら3要素のうちのどれかにもっと大きな重みを置いた方がより正確な予測に役立てられるかもしれないが、そのあたりはあまり明確ではない。だからTurchinのグラフにしても、物によってはY軸がこれでいいのか疑問を抱く人がいても不思議はない。
 次にツイートに対してTurchinが反論しているのは、データさえ集めればパターンを見つけ出せるという考え方だ。数多くのデータを投入しても、そのうち役に立つデータを選ぶ「仮説」がなければ、単にデータの海に溺れてしまう懸念がある。それに社会はしばしば複雑系的な動きを見せるため、初期条件が似ていても僅かな違いのためにその行く末が大きく変わってしまい、似ても似つかない結果に至ることがある。ツイートが提案しているパターンマッチングの取り組みは、こうした歴史の複雑系的性格を考えると難しいのではないか、との見解だ。
 この点については私はTurchinの指摘がかなり正しいと思う。そもそもツイートでの提案は、一歩間違えれば「HARKingのすゝめ」だ。集められることが可能なデータの量は、特に足元に注目するならものすごく大量になるだろう。となると選び方次第でいくらでもパターンを見つけ出すことはできそうだし、おそらくはどんな仮説でも成立させるだけのデータを揃えられそうに思う。もちろんパターンを見つけた後で別のデータと照らし合わせればいいのだが、例えば数百年のタームで観察できるパターンを検証したければそれだけの時間を待つ必要が生じてしまうわけで、本当にデータの大量調査が望ましいかと言われると疑問だ。
 おそらくツイート主はAlphaGoのような取り組みを想定していたんだろう。ただこうした手法が通用するのは、二人零和有限確定完全情報ゲームでないと難しいんじゃなかろうか。少なくとも、現時点ではゲームのような特殊な条件を除き、データをすべて使ってパターンを見つけ出し、そのパターンを説明するための仮説を作り上げる方法は「禁じ手」となっている。必ずしも妥当とは言えないパターンを見つけ出す恐れが残っているからだろう。
 今はTurchinの言う通り、「先に仮説を立て、それを実証するためにデータを使う」という方法を守る方が望ましい。もしかしたら将来、ラプラスの悪魔並みにすべてをデータとして把握できる時代が来て、それに伴ってAlphaGo方式で歴史のパターンを探す方法が成立する時代がやってくるかもしれないが、少なくとも現状ではそれが可能な条件は揃っていない。Turchinの言うように「社会をブラックボックスとして見るのではなく、仮説を立ててその機能を調べる」方法こそが正道だろう。
 もちろんTurchinはデータを集めること自体には反対していない。またこうした問題に対するTurchinならではの解決策として、以前も紹介した「多数経路予測」を使ったモデルの存在にも言及している。アカデミックな方法として信頼性を確保しつつ取り組むのなら、Turchin的な取り組み方が必要だと思う。
 一方で個人的には、とにかくデータを集めてパターンを探すという方法を全面否定する気もない。というか可能なら誰か取り組んでみてほしい。実際にはかなりのマシンパワーを必要とするだろうし、その経費を考えると言うほど簡単にできるとは思えないが、それでもやってみたらどんな結果が出てくるのかには興味がある。結論に同意するかどうかは別として、結果はおそらく面白いものになるだろうから。

 なお米国では共和党の予備選でLiz Cheneyがトランプの刺客候補に敗北。これでトランプの訴追に賛成した共和党下院議員のうち、11月の本選に臨むことができるのはたったの2人になってしまったという。Turchinの言う「不和の時代」がここまで進んでいることを示す1つの事例と言えるだろう。
 Cheneyといえば共和党内で本人が占めるポジションもさることながら、父親がブッシュ政権下で副大統領を務めていたことでも知られる。要するにバリバリの共和党エスタブリッシュメントだ。それがこうもあっさり排除されるということは、それだけ共和党が非主流派に乗っ取られていることを示しているんだろう。Cheneyは予備選で敗れた後に2024年の大統領選出馬を検討すると発表したそうだが、今の米国を見る限りトランプを追い落とせる共和党候補は正直見当たらない。
 一方、共和党ではなく米国全体で見るとトランプに逆風が吹いている。FBIによる家宅捜索が大きなきっかけになったようで、彼が機密文書を隠蔽していた疑惑が広まったことにトランプ支持者が苛立っているという話もある。実際、FiveThirtyEightの中間選挙予想を見ても、足元で急速に民主党への追い風が吹いている状態だ。それでも下院は共和党有利と見られているが、上院は民主党が過半数を抑える可能性が高くなっている。トランプ自身が出馬する選挙を除くと世論調査の的中率が高いという経験則が当てはまるなら、今選挙が行われれば議会選は痛み分けになる格好。とはいえ両派がこれで仲良くなる、というわけにはいかないだろうが。
 米国における不和については政治家たちも当然ながら気づいており、2020年に民主党の大統領予備選に立候補したAndrew YangのようにTurchinの主張を紹介している人もいる。もちろん、だからと言って事態が改善に向かっているようには見えない。中には二大政党ではなくもっと政党を増やせばいいと主張する人もいるが、南北戦争前に多数の政党が乱立したことを考えるなら本当にそうなのかは怪しいところだ。トライバリズムの激化が続く限り、Turchinの議論に対するニーズは衰えないだろう。
スポンサーサイト



コメント

非公開コメント