This is a Japanese translation of “Superforecasting in a nutshell”
By lukeprog 2021年2月25日
以下のような事象の発生確率を知りたいとしましょう。例えば、ある革新的な新製品が成功する可能性はどの程度か、今後10年間に中国が台湾を侵略する可能性はどの程度か、世界的なパンデミックが世界を席巻してしまう可能性はどの程度かなど、基本的に「予測分析」を用いることができない質問です。これらの問題に関しては大きなデータセットを持ち合わせていないため、(例えば)Amazonが商品の到着時間を予測する時に行うような、巨大なデータセットを統計モデルに組み込む、というようなことはできません。
このような質問に対して、信頼できて正確な予測を行うことは可能なのでしょうか?
少し驚かれるかもしれませんが、答えは「イエス、うまくやればね」のようです。
予測市場はこのような予測を行うための有望な方法の一つではありますが、アメリカでは原則として違法であり、様々な実装の問題が今のところその精度を妨げています。幸いなことに、別の方法として「超予測」というものがあり、こちらは完全に合法かつ非常に効果的です。
どのように機能するのでしょうか?基本的なアイディアはいたってシンプルです。手順はこうです。
- 最初に、とにかく予測精度を測定します。中には、ヘッジファンドのように予測精度を重要視し、測定を行っている業界もあります。しかし、予測に重点が置かれる業界のほとんどは、予測精度をわざわざ測定していません[1]。例えば、米国の情報機関や慈善団体が後者に当てはまります[2]。
- 第二に、誰よりも常に正確な予測を行う人たちを特定します。例えば、複数年連続で上位0.1%の精度を誇る人たちです。この人たちが、あなたの「超予測者」です。
- 最後に、この超予測者に予測質問を投げかけ、彼らの予測を集計したものを利用します。
厳密には、通常の方法はもう少し複雑なのですが[3]、この3つのシンプルなステップが超予測法の核となります。
では、この方法はどの程度有効なのでしょうか?
数年前、大規模かつ厳格な予測大会において、米国の情報機関がこの方法の検証を行いました。大会では、複数のランダム化比較試験が行われ、「2013年に南シナ海で少なくとも1人が死亡する暴力事件が発生するか?」といった500以上の地政学的な予測質問について100万以上の予測がなされました。以下がこの研究より明らかになったことです。
- この方法は、信頼度20%の予測が20%の確率で当たり、信頼度80%の予測が80%の確率で当たるというように、非常によく調整された予測をすることができました。この方法は、いわゆる水晶玉のように、未来を正確に予測できるものではありません。つまり、今後10年間に中国が台湾を侵略するかどうかを確実に当てることはできませんが、その可能性が10%であると判断されれば、その確率は本当に10%に近いと確信でき、そのリスクレベルを考慮して適切な政策を決定することができるというわけです[4]。
- ¥この方法は、一般的な予測者や他のアプローチよりもはるかに正確で、(超予測者とは異なる[5])情報機関のアナリストよりも30%以上正確でした(このアナリストたちは収集コストが高い機密情報を利用でき、予測した地政学の問題に関して何年もの訓練を受けていました)[6]。これは非常に驚くべき結果です!しかも、非常に注意深く、厳密に設計された調査によって発覚したのです[7]!
この結果から、米国情報機関は超予測法を積極的に採用していると思われるかもしれません。とりわけこの研究が、米国の国家情報評価の正確性を向上させる方法を見つけ、政策立案者が難しい決断を下す際に役立てるという目的で、米国情報機関によって出資されたものであることを鑑みれば、なおさらです。しかし、残念ながら、私の経験上では米国の情報機関や国家安全保障機関で、この結果や「超予測」という言葉さえ聞いたことがある人はほとんどいません[8]。
CIAや国防総省のような大規模な組織では、十分な人材がおり、十分な予測を行うことができるので、その気になれば超予測法のすべてのステップを組織で実施することができます。小規模の組織であっても、幸いなことに、すでに検証済みの超予測者と契約して、意思決定にとって最も重要な問題について、十分に調整された予測を行うことができます。具体的には、
- 上記の予測大会において、情報機関のアナリストの予測をしのいだ超予測者とは、グッド・ジャッジメント社を通じて契約することができます。
- 別の会社であるハイパーマインド社は、「チャンピオン予測者」から集めた予測を提供しています。この「チャンピオン予測者」は、企業顧客に対して(場合によっては)20年近く前にさかのぼり、数千の予測質問において最も正確な予測を行った予測者です[9]。
- 他のいくつかのプロジェクト、例えばMetaculusも、数百の質問にわたって異常に高い精度を記録している予測者を確認し始めています。
これらの企業にはそれぞれ強みと弱みがあり、オープン・フィランソロピーは過去数年にわたりこれら3社に予測を依頼してきました。もしあなたが小さな組織に勤めていて、その組織の意思決定が、あなたの行う意思決定に伴って起こることや、あなたが将来起こると予想することに基づいて行われているのあれば、これらの会社を試してみることをお勧めします。(3社とも「条件付き」の質問を提供しています。例えば、「私が意思決定Aをした場合に、結果Xが起きる確率はどのくらいか、代わりに私が意思決定Bをした場合、同じ結果が起きる確率はどのくらいか」)
もしあなたが、CIAのような非常に大きな組織や機密性の高い情報を扱う組織に勤めているのであれば、超予測の全プロセスを社内で実施することを検討すべきでしょう。(上記の組織の1つ以上と契約することで、超予測を全面的に実施する前に各モデルを安くテストすることができるかもしれません。)
- ^
Except to the extent they’re able to use predictive analytics for particular questions for which they have rich data sets, which isn’t the subject of this post. I’m focused here on “general-purpose” forecasting methods, i.e. methods that can generate forecasts for any reasonably well-specified forecasting questions, and not just for those conducive to predictive analytics. ↩︎
- ^
In both example industries, there are a few exceptions, for example the intelligence community prediction market in the US intelligence community, or Open Philanthropy in philanthropy. ↩︎
- ^
E.g. for higher accuracy you might want to “team” the superforecasters in a certain way. See Superforecasting for details. ↩︎
- ^
By saying the odds “really are” close to 10%, I just mean that the 10%-confident predictions from this process are well-calibrated; I don’t mean to imply an interpretation of probability other than standard subjective Bayesianism. ↩︎
- ^
A few superforecasters had a geopolitics background of some kind, but most did not. ↩︎
- ^
For various accuracy comparisons, see Superforecasting, Mellers et al. (2014), and Goldstein et al. (2015). For high-level summaries of some of these results, see this page from Good Judgment Inc. and also AI Impacts (2019). ↩︎
- ^
One limitation of the currently available evidence is that we don’t know how effective superforecasting (or really, any judgment-based forecasting technique) is on longer-range forecasting questions (see here). I have a hunch that superforecasting is capable of producing forecasts on well-specified long-range questions that are well-calibrated even if they’re not very strong on “resolution” (explained here), but that’s just a hunch. ↩︎
- ^
- ^
Technically, Hypermind’s usual aggregation algorithm also includes forecasts from other forecasters too, but gives much greater weight to the forecasts of the “champion forecasters.” ↩︎