我们如何跑 1 万次世界杯模拟:用大白话讲清楚我们的蒙特卡洛模型

一句话版本: wc2026.cool 上的每一个数字,都是同一届世界杯被打了 1 万遍之后的平均结果。我们先给每支球队一个 Elo 量纲上的实力评分,把每场比赛换算成期望进球,用泊松模型搭出一张完整的比分概率表,再把所有剩余的小组赛和淘汰赛模拟 1 万次,数一数每支球队活到最后的次数有多少。目前阿根廷以 21.5% 居首,西班牙 18.9% 紧随其后,法国 13.0% 排第三。这些都不是对"一定会发生什么"的断言——而是在一万个平行的六月里,各种结果各自出现了多少次的计数。

这篇文章把引擎盖掀开。任何聚合站都抄不走它,因为这个模型不是一份可以转售的数据源——它是生成数据源的那台机器本身。

四步链路

第一步——给每支球队一个实力数字

每支球队有一个 Elo 量纲上的实力评分,并融合公开预测共识。它只是模型的输入,不是官方排名,我们也不转售任何人的专有评分。眼下这把尺子的顶端是这样的:阿根廷 2144,西班牙 2134,巴西 1986。

请记住前两个数字,因为它们讲清了整个模型最重要的一课。阿根廷夺冠概率 21.5%,西班牙 18.9%——差距不小——可两队 Elo 只差了整整十分(2144 对 2134)。10 分的微弱优势怎么就变成了 2.6 个百分点的夺冠差距?因为这点优势会在大约六轮淘汰赛里层层叠加。每场比赛领先一丝,放到完整的晋级之路上连乘,再对 1 万次模拟取平均,微小的评分差就是这样滚成了肉眼可见的概率差。这个模型本质上是一台"复利机器"。

第二步——评分换算成期望进球

对任何一场比赛,双方的评分——再加上美国、墨西哥、加拿大三个东道主的主场修正——会被换算成各自的期望进球。它指的是:如果这场比赛能重打很多遍,每队平均能进几个球。更强的一方期望进球更高;两个数字之间的差距,就是评分差买到的东西。

第三步——泊松模型搭出完整比分矩阵

期望进球本身不是一个比分——"法国平均进 1.8 球"永远不会真的出现在记分牌上。所以我们把双方的期望进球喂进泊松模型,这是统计学里专门用来计数"以已知平均速率到来的独立事件(进球)"的标准工具。它的输出是一张包含所有合理比分的矩阵,每个比分都带一个概率:1-0、2-0、2-1、1-1、0-0,全都在里面。把 A 队进球多于 B 队的那些格子加起来,就是它的取胜概率;把对角线加起来,就是平局概率。

第四步——把整届赛事模拟 1 万次

这里是大多数人会漏掉的一跳。我们不是只算一场。我们从那张比分矩阵里为每一场剩余的小组赛和淘汰赛各抽一个结果,把整届赛事一直打到底,套用 2026 官方判据,记下谁出线、谁捧杯。然后再来一遍。再来一遍——一共 1 万次。一支球队的"出线概率",就是这 1 万次模拟赛事里它活下来的那部分比例。整个过程每小时重算一次,每出一个结果也重算一次。

完整演算一场:法国对伊拉克

我们直接从模型里拿一场真实比赛。法国的 Elo 实力远高于伊拉克,所以第二步给了法国高得多的期望进球。把它过一遍泊松模型(第三步),出来的比分矩阵明显一边倒。单个最可能的比分是法国 2-0,占 15%,紧随其后是 1-0 占 14%,3-0 占 10% 排第三。

现在把这张矩阵收拢成对积分榜真正重要的三种结果:

| 结果 | 模型概率 | |---|---| | 法国胜 | 69% | | 平局 | 21% | | 伊拉克胜 | 10% |

注意:最可能的*单个比分*(2-0,15%)远小于最可能的*结果*(法国胜,69%)。这是因为"法国胜"分散在很多格子里——1-0、2-0、2-1、3-0、3-1 等等全都汇入那 69%。这是整个模型里最有用的一条直觉:一个高把握的结果,和一个偏低的最可能比分,完全可以并存。谁要是把"最高比分才 15%"读成"这场五五开",那就是把矩阵看反了。

这个 69%/21%/10% 只是一场比赛。第四步会把它和 I 组其余每一场串起来——真正反直觉的结果就在这儿冒出来了。塞内加尔目前在 I 组积 0 分,模型却给它 63% 的出线概率。怎么做到的?因为 I 组两个领头羊挪威(99%)和法国(99%)实在太强,塞内加尔的出线之路根本不从它们身上走——它走的是最佳第三名这条通道。在 1 万次模拟里,塞内加尔以八个最佳第三名之一的身份完赛的次数足够多,以至于其中 63% 的平行赛事把它带进了 32 强。积分榜说"已埋",模型说"还活着"。两句话都对;它们回答的是不同的问题。

积分榜和模型为什么(故意)不一致

塞内加尔不是孤例。最佳第三名这条赛道里满是积分榜排序和模型排序分道扬镳的情况,而这道缝隙恰恰是模型产出的最诚实的东西。最清楚的例子是克罗地亚:在 L 组积 0 分,出线概率却有 78%——和积 3 分的加纳一样高。比利时是另一例:在 G 组与伊朗同积 2 分,模型仍给比利时 87%、给伊朗 70%,因为比利时的剩余对手和实力评分就是更好。积分衡量的是*已经*发生的事;模型衡量的是在所有未踢的比赛里*可能*发生的事。当两者打架时,那是信号,不是错误。

同一套机器也会暴露脆弱。捷克目前还排在出线区里,模型却只给它 20%——是占着出线位的球队里最岌岌可危的一个。积分榜告诉你今晚站在哪;模型告诉你这个位置有多稳。

模型看不到什么(我们不会假装看得到)

透明意味着把缺口讲明白。模型看不到伤病、停赛、首发阵容或比赛中的临场事件——一张红牌、一名被摁在替补席的前锋、一记战术奇兵,它都看不到。国际足联真正的公平竞赛判据用的是黄牌和红牌数;我们没有这份牌的数据,所以用实力评分来近似(最后的兜底是随机抽签),整体遵循 2026 官方顺序:积分 → 相互战绩 → 净胜球 → 进球数。所以当我们的数字和你的直觉打架时,你的直觉里可能握着模型根本喂不进去的信息。这是诚实建模的一个特征,不是藏起来的短板。

结论

请把这里的每一个数字都当作模型估计,而不是确定结果。一个跑 1 万次的模拟,强项不在于它知道未来——它不知道——而在于它一致、透明、每小时更新。它会很坦然地告诉你一支 0 分球队有 78% 还活着,因为它真的数过了那些"成立的未来"。把概率读成"在一万个平行赛事里,这种情况出现了多少次",整个网站一下子就说得通了。