关于扑克机器人Pluribus的分析：对6人桌无限德州扑克的威胁？

作者：菲比2025年07月13日

正如我们最近所写，一群此前制造了NLHE HU的Libratus机器人的科学家，教会了一个新程序击败6人桌扑克。Pluribus通过在64核服务器上独自玩了八天，然后进行了实验。在测试过程中，Pluribus击败了一群职业选手，其中包括莱纳斯·勒里格、尼克·佩特兰杰罗、达伦·埃利亚斯、格雷格·默森等人。重要的一点是，该程序不是在超级计算机上运行的，而是在两个14核处理器上运行，内存为128 GB。

当然，这个消息让许多扑克职业选手感到非常不安，我们咨询了专家，以了解新版本的机器人对6人桌无限德州扑克的常客构成了多大的威胁。

Simple Poker的观点

Simple Poker——流行专业求解器（Simple Preflop Holdem，Simple Postflop Holdem等）的开发团队。

– 让我们从一个传统的问题开始：扑克还能持续两年吗？

– 我们认为，Pluribus机器人的创建不会影响扑克的生存能力。

首先，该机器人没有使用任何突破性或封闭的不可复制技术，因此类似的机器人可能早就存在，而扑克至今仍然存在。

其次，该机器人目前的版本仅适用于100 BB的静态筹码，而在真实游戏中，筹码的变化很大。此外，在某些情况下，机器人需要很长时间才能行动——也就是说，为了使其适应真实游戏，需要做大量的工作，而且它不一定能够在真实游戏及其限制条件下高质量地玩。

第三，扑克的生存能力在很大程度上取决于娱乐玩家的存在和流入、政府机构的关注、房间条件的改变——我们很难预测这些方面。总的来说，预测是，在未来两年内，扑克将继续存在。

不应忘记的是，房间有能力添加新游戏并更改现有游戏的规则，从而增加其解决方案的复杂性。此外，大型房间运营着先进的安全部门，他们不太可能允许机器人接管游戏。

– 扑克玩家的主要担忧之一是降低对机器人的技术要求，并提高几乎任何人都能负担得起的可能性。真的有这么简单吗？

– 在这里，应该向计算机硬件的发展及其可获得性致敬。为了计算机器人（blueprint strategy）的基本策略，使用了MCCFR算法，该算法还允许简化正在解决的游戏，从而降低计算资源的要求。

这种算法已经广为人知，并用于公共求解器，每个人都可以使用，特别是Simple Preflop Holdem。此类程序需要相对较少的计算资源来计算带有多个参与者的翻牌前位置，许多用户已经在他们先进的家用电脑上执行此操作，也就是说，在我们看来，此类计算的可获得性并不是什么新鲜事物，也不是什么令人惊讶的事情。它们的主要问题在于，它们可以获得相当好的翻牌前决策，但在翻牌后，简化的策略很可能会输给人类。

因此，为了计算翻牌后的策略，最好使用单独的求解器，它们非常擅长解决此问题，但这些计算已经足够耗费资源，无法实时执行，尤其是在翻牌圈之后。根据Pluribus的创建者的说法，他们的主要突破在于，他们找到了一种实时改进在翻牌前求解器中预先计算的翻牌后策略的方法。但根据他们的其他文章，可以得出结论，Pluribus在单挑时会比他们的前一个机器人Libratus玩得更差。

– 机器人是如何计算结果的？

– 为了降低方差，使用了AIVAT算法，要使用该算法，需要评估每个动作的EV，并且某些有争议的时刻可能与此评估本质上是机器人互相博弈的EV有关。此外，在摊牌时，使用了针对机器人所有可能范围的EV。在人与五个机器人对战时，还比较了人手的总结果和机器人完全参与游戏后的总结果。

– 是否可以使用Pluribus来寻找其他机器人？

– 确切地说，Pluribus在这方面帮不上什么忙。对于翻牌前，早就有在翻牌前求解器中计算出的图表，而Pluribus和其他机器人在翻牌后的策略可能离真实平衡还很远，因此无法自信地比较它们。此外，不要忘记，可能现有的6人桌机器人正在以利用方式进行游戏，适应场上的趋势。这样的策略原则上与GTO不太一致。

– 如果莱纳斯·勒里格和Pluribus对彼此都有相同的大量牌局库，你会押注谁获胜？

– 我们没有关于莱纳斯策略的详细知识，因此在我们的回答中，我们仅基于他是一位顶尖扑克玩家。需要了解的是，在真实条件下，如果桌上有娱乐玩家，莱纳斯将根据他调整自己的策略，以最大限度地提高他的EV，而机器人的策略对所有玩家都是一样的。因此，即使莱纳斯略微输给机器人，他也应该凭借娱乐玩家的剥削优势，轻松弥补他的损失，并且最终拥有比Pluribus更高的胜率。

很有可能，莱纳斯在两路对抗中对机器人毫无机会，因为它们可以被精确解决——人无法抵抗计算出的平衡策略。保持理想的平衡相当困难——人会简化他们的策略，从而失去EV。但是，由于Pluribus对部分决策使用了固定的游戏树，莱纳斯可能会通过非标准的大小来剥削机器人。对于有多个参与者的底池，很难评估人和机器的游戏水平差异。Pluribus在翻牌后计算的策略，在这些位置将远非平衡，但人在多路对抗中的游戏通常也比在单挑中弱。

friendlykam的观点

高额6人桌无限德州扑克的常客伊利亚·friendlykam应我们的要求研究了Pluribus在实验第二部分中的10,000手牌局库，在该部分中，机器人与五个人对战，并分享了他对游戏的发现。

Pluribus在6人桌的3-bet和挤压率较低。它使用混合策略，并用部分坚果牌进行跟注。但我不能原谅的是，它在77%的时间里面对3-bet时选择弃牌。什么鬼？与此同时，在翻牌后，它的总侵略性相当高：Total AFq 52.4%。

让我们开始牌局吧！准备好开战！

用看似荒谬的手牌进行诈唬

Pluribus读心。感觉机器人可以看到别人的牌，或者在河牌圈“诈唬”。我记得这些想法来自常客，当我在离线时玩牌时:) 唯一可以解释机器人跟注转牌和河牌的原因是——它认为在这种牌面结构中价值很小。

在河牌圈用中等摊牌价值进行非典型诈唬

乍一看也觉得荒谬。为什么要将这样的手牌变成诈唬？但是，在我看来，对手的check-raise范围由full house和54s同花组成。如果对手的范围里有54s同花，甚至54o同花，那这是一个很好的诈唬，因为我们阻止了顶级的full house，而我们的手牌属于下限范围。

在这里，机器人试图用KK阻止对手的5x+牌，但在实践中看起来很糟糕。这里没有人会因为SB是狭窄范围而放弃5x牌，而且5x+牌在那里的数量极其少。它只呈现了一些A5s和65s，并且部分地它们会在3-bet的范围里。这是一个很好的诈唬牌，但不是用来诈唬，在我看来，这很谦虚。

常客对抗Pluribus也有一些不好的表现

显然，这是试图利用它77%的3-bet弃牌率（如果他们有任何统计数据），因为常客选择的手牌与3-bet完全不典型。

将死，皮革包！ :)

Pluribus的过度游戏

在这里，很难再补充什么，只是过度游戏了。

我对这些手牌很难评判，这是糟糕的牌局还是令人难以置信的强大

皮革包输掉了这场升级战 :)

人类获胜！从旁观者的角度来看，感觉就像在某个知名网站上阅读了一篇“白银”级别的文章，其中写道，当你all-in NL2时，在低牌面上对业余玩家进行过度游戏。

感觉好像在机器人面前设置了一个任务——不惜一切代价不让诈唬实现底池权益！在我看来，这只是过度游戏和对对手坚果牌的孤立，因为从表面上看，有更差底池权益的手牌，人们不会跟注。这类似于底池权益的概念，OhHeyCindy在她的采访中对此略有阐述。但我也可能错了，也许这是一款非常棒的游戏，它的积极性只能由NL5k+常客，一些世界前10-20名的人来解释。