关于扑克机器人Pluribus的分析:对6人桌无限德州扑克的威胁?

作者:菲比2025年07月13日
关于扑克机器人Pluribus的分析:对6人桌无限德州扑克的威胁?

正如我们最近所写,一群此前制造了NLHE HU的Libratus机器人的科学家,教会了一个新程序击败6人桌扑克。Pluribus通过在64核服务器上独自玩了八天,然后进行了实验。在测试过程中,Pluribus击败了一群职业选手,其中包括莱纳斯·勒里格、尼克·佩特兰杰罗、达伦·埃利亚斯、格雷格·默森等人。重要的一点是,该程序不是在超级计算机上运行的,而是在两个14核处理器上运行,内存为128 GB。

当然,这个消息让许多扑克职业选手感到非常不安,我们咨询了专家,以了解新版本的机器人对6人桌无限德州扑克的常客构成了多大的威胁。

Simple Poker的观点

Simple Poker——流行专业求解器(Simple Preflop Holdem,Simple Postflop Holdem等)的开发团队。

– 让我们从一个传统的问题开始:扑克还能持续两年吗?

– 我们认为,Pluribus机器人的创建不会影响扑克的生存能力。

首先,该机器人没有使用任何突破性或封闭的不可复制技术,因此类似的机器人可能早就存在,而扑克至今仍然存在。

其次,该机器人目前的版本仅适用于100 BB的静态筹码,而在真实游戏中,筹码的变化很大。此外,在某些情况下,机器人需要很长时间才能行动——也就是说,为了使其适应真实游戏,需要做大量的工作,而且它不一定能够在真实游戏及其限制条件下高质量地玩。

第三,扑克的生存能力在很大程度上取决于娱乐玩家的存在和流入、政府机构的关注、房间条件的改变——我们很难预测这些方面。总的来说,预测是,在未来两年内,扑克将继续存在。

不应忘记的是,房间有能力添加新游戏并更改现有游戏的规则,从而增加其解决方案的复杂性。此外,大型房间运营着先进的安全部门,他们不太可能允许机器人接管游戏。

– 扑克玩家的主要担忧之一是降低对机器人的技术要求,并提高几乎任何人都能负担得起的可能性。真的有这么简单吗?

– 在这里,应该向计算机硬件的发展及其可获得性致敬。为了计算机器人(blueprint strategy)的基本策略,使用了MCCFR算法,该算法还允许简化正在解决的游戏,从而降低计算资源的要求。

这种算法已经广为人知,并用于公共求解器,每个人都可以使用,特别是Simple Preflop Holdem。此类程序需要相对较少的计算资源来计算带有多个参与者的翻牌前位置,许多用户已经在他们先进的家用电脑上执行此操作,也就是说,在我们看来,此类计算的可获得性并不是什么新鲜事物,也不是什么令人惊讶的事情。它们的主要问题在于,它们可以获得相当好的翻牌前决策,但在翻牌后,简化的策略很可能会输给人类。

因此,为了计算翻牌后的策略,最好使用单独的求解器,它们非常擅长解决此问题,但这些计算已经足够耗费资源,无法实时执行,尤其是在翻牌圈之后。根据Pluribus的创建者的说法,他们的主要突破在于,他们找到了一种实时改进在翻牌前求解器中预先计算的翻牌后策略的方法。但根据他们的其他文章,可以得出结论,Pluribus在单挑时会比他们的前一个机器人Libratus玩得更差。

– 机器人是如何计算结果的?

– 为了降低方差,使用了AIVAT算法,要使用该算法,需要评估每个动作的EV,并且某些有争议的时刻可能与此评估本质上是机器人互相博弈的EV有关。此外,在摊牌时,使用了针对机器人所有可能范围的EV。在人与五个机器人对战时,还比较了人手的总结果和机器人完全参与游戏后的总结果。

– 是否可以使用Pluribus来寻找其他机器人?

– 确切地说,Pluribus在这方面帮不上什么忙。对于翻牌前,早就有在翻牌前求解器中计算出的图表,而Pluribus和其他机器人在翻牌后的策略可能离真实平衡还很远,因此无法自信地比较它们。此外,不要忘记,可能现有的6人桌机器人正在以利用方式进行游戏,适应场上的趋势。这样的策略原则上与GTO不太一致。

– 如果莱纳斯·勒里格和Pluribus对彼此都有相同的大量牌局库,你会押注谁获胜?

– 我们没有关于莱纳斯策略的详细知识,因此在我们的回答中,我们仅基于他是一位顶尖扑克玩家。需要了解的是,在真实条件下,如果桌上有娱乐玩家,莱纳斯将根据他调整自己的策略,以最大限度地提高他的EV,而机器人的策略对所有玩家都是一样的。因此,即使莱纳斯略微输给机器人,他也应该凭借娱乐玩家的剥削优势,轻松弥补他的损失,并且最终拥有比Pluribus更高的胜率。

很有可能,莱纳斯在两路对抗中对机器人毫无机会,因为它们可以被精确解决——人无法抵抗计算出的平衡策略。保持理想的平衡相当困难——人会简化他们的策略,从而失去EV。但是,由于Pluribus对部分决策使用了固定的游戏树,莱纳斯可能会通过非标准的大小来剥削机器人。对于有多个参与者的底池,很难评估人和机器的游戏水平差异。Pluribus在翻牌后计算的策略,在这些位置将远非平衡,但人在多路对抗中的游戏通常也比在单挑中弱。

friendlykam的观点

高额6人桌无限德州扑克的常客伊利亚·friendlykam应我们的要求研究了Pluribus在实验第二部分中的10,000手牌局库,在该部分中,机器人与五个人对战,并分享了他对游戏的发现。

Pluribus在6人桌的3-bet和挤压率较低。它使用混合策略,并用部分坚果牌进行跟注。但我不能原谅的是,它在77%的时间里面对3-bet时选择弃牌。什么鬼?与此同时,在翻牌后,它的总侵略性相当高:Total AFq 52.4%。

让我们开始牌局吧!准备好开战!

用看似荒谬的手牌进行诈唬

Pluribus读心。感觉机器人可以看到别人的牌,或者在河牌圈“诈唬”。我记得这些想法来自常客,当我在离线时玩牌时:) 唯一可以解释机器人跟注转牌和河牌的原因是——它认为在这种牌面结构中价值很小。

在河牌圈用中等摊牌价值进行非典型诈唬

乍一看也觉得荒谬。为什么要将这样的手牌变成诈唬?但是,在我看来,对手的check-raise范围由full house和54s同花组成。如果对手的范围里有54s同花,甚至54o同花,那这是一个很好的诈唬,因为我们阻止了顶级的full house,而我们的手牌属于下限范围。

在这里,机器人试图用KK阻止对手的5x+牌,但在实践中看起来很糟糕。这里没有人会因为SB是狭窄范围而放弃5x牌,而且5x+牌在那里的数量极其少。它只呈现了一些A5s和65s,并且部分地它们会在3-bet的范围里。这是一个很好的诈唬牌,但不是用来诈唬,在我看来,这很谦虚。

常客对抗Pluribus也有一些不好的表现

显然,这是试图利用它77%的3-bet弃牌率(如果他们有任何统计数据),因为常客选择的手牌与3-bet完全不典型。

将死,皮革包! :)

Pluribus的过度游戏

在这里,很难再补充什么,只是过度游戏了。

我对这些手牌很难评判,这是糟糕的牌局还是令人难以置信的强大

皮革包输掉了这场升级战 :)

人类获胜!从旁观者的角度来看,感觉就像在某个知名网站上阅读了一篇“白银”级别的文章,其中写道,当你all-in NL2时,在低牌面上对业余玩家进行过度游戏。

感觉好像在机器人面前设置了一个任务——不惜一切代价不让诈唬实现底池权益!在我看来,这只是过度游戏和对对手坚果牌的孤立,因为从表面上看,有更差底池权益的手牌,人们不会跟注。这类似于底池权益的概念,OhHeyCindy在她的采访中对此略有阐述。但我也可能错了,也许这是一款非常棒的游戏,它的积极性只能由NL5k+常客,一些世界前10-20名的人来解释。

有趣的诈唬,对人类来说绝对不典型

我们来到了最后一点。

在3-bet底池中,你几乎永远不会在这样的牌面结构中看到转牌和河牌的大小组合。

通过阻挡者诈唬。来自人类,这种诈唬每五年才会出现一次。

没有底池权益的诈唬,只有求解器才能做到。拥有这种手牌的人几乎不会诈唬。

翻牌前和翻牌圈默认。在我看来,转牌圈的想法是,我们在河牌圈击败对手的Ax。但在这种牌局中,似乎是莱纳斯在按钮位,他展示了谁是桌上的巴迪(父亲):) 从旁观者的角度来看,这看起来非常奇怪。

在这里,这个人只会用他的三条跟注,但Pluribus不会。巨大的加注尺度和...全押跟注。什么鬼?机器人呈现出A7和A10的full house。部分KQ,它们在翻牌圈进行了check。此外,它还用Ax击败了三条,并进行了分割。

昵称为Eddy的玩家显然已经了解了机器人的特殊性,因为在这样的位置,人类对抗人类时几乎不会用AK推全押。而蛋糕上的樱桃是Pluribus在河牌圈跟注全押。据我所知,按照这样的赔率,机器人永远不会放弃阻挡坚果牌的牌。

从选定的牌局来看,可能会对机器人的游戏产生错误的印象。尽管存在一些缺点,但我认为Pluribus仍然表现不错。有很多牌局,它玩得很好,但它们对我来说并不有趣,因为它们相当默认。

但有些事情告诉我,如果有可能,NL5-10k常客会立即聚集在它周围。