1月12日消息,加拿大与捷克研究人员开发了扑克机器人,它已经在一对一比赛和无限下注德州扑克比赛中打败了人类职业玩家,扑克机器人的胜利标志着AI取得了新的突破。
研究人员称,程序用“逼近法”打败了人类对手,“逼近法”与直觉有点相似。密歇根大学游戏理论与AI教授迈克尔·韦尔曼(Michael Wellman)认为:“如果真是这样,意味着游戏AI取得了明显进步。首先,它是一个里程碑,AI在游戏中打败了扑克职业玩家。其次,它将一些新创意结合在一起,开创了激动人心的新方法,我们可以用这种方法应付信息不完全的游戏。”
本周晚些时候,匹兹堡赌场将会举办扑克锦标赛,到时几名世界级扑克玩家将会与卡内基梅隆大学开发的程序对决。卡内基梅隆大学计算机教授图奥马斯·桑德赫尔(Tuomas Sandholm)是程序的主要开发者,他说参赛的选手比之前测试时的选手强很多,在20多天的比赛中,玩家将会打出12万手扑克,研究人员可以统计数据,为开发工作提供帮助。一直以来,人们认为扑克对于电脑来说过于复杂,锦标赛也许可以向我们证明AI已经可以在扑克上超越人类了。
扑克软件DeepStack曾经打败过职业玩家,它是加拿大阿尔伯塔大学计算机教授迈克尔·保林(Michael Bowling)领导开发的,查尔斯特大学和捷克理工大学的研究人员也参与了研发。网上刊发了一份研究报告,研究人员在报告中表示,DeepStack与几名人类玩家比赛,打了4.5万手扑克,轻松获胜。
人类也曾与AI在其它游戏中对决,相比而言扑克更加复杂。扑克不确定因素很多,比如对手可能会欺骗,在现实世界中到处都是欺骗,AI还不懂得怎样欺骗。扑克玩家看不到对手的牌,但在西洋棋、国际象棋和围棋中,大家可以看清对方的棋子。今年年初时,Alphabet子公司DeepMind开发的AI程序打败了李世石,他是韩国知名职业围棋高手。
对于机器来说,不限注德州扑克太难了,每一手牌都有10的160次方种(10的后面跟160个0)可能。DeepStack通过自己与自己打扑克不断学习。每打完一局,系统就会修改优化策略,让技能更上层楼。由于不限注扑克很复杂,系统通过玩限注扑克来提高技巧。为了处理复杂性问题,研究人员使用了快速逼近技术,他们将之前的扑克比赛资料输入深度学习算法,不断优化精炼。
密歇根大学韦尔曼认为,扑克是一种复杂的游戏,采用新技术之后,系统碰到各种情况都可以有效应对,这是新的突破;以前要绘制整个树,将各种可能性找出来。
研究人员将DeepStack的逼近技术与人类玩家的直觉类比,当对手欺骗或者拿到一手可以获胜的牌时,人类会用直觉判断,比如根据对手的语言来判断,机器不同,它根据对手的下注模式来判断。研究人员称:“我们可以将这种估计看成是DeepStack的直觉。”
通过观察扑克玩家在多次对决中赢得的金额,系统可以评估玩家的表现,而不是根据桌面上的下注额判断。与优秀的职业选手相比,DeepStack的胜率高了大约9倍。
2015年,保林与阿尔伯塔大学的同事找到了解决方案,他们开发的扑克机器可以玩限注德州扑克,表现很完美。参加匹兹堡锦标赛的机器人名叫“Libratus”,它是图奥马斯·桑德赫尔(Tuomas Sandholm)与学生诺姆·布朗(Noam Brown)合作开发的,Libratus用匹兹堡超级计算中心的强大硬件运行。