Покер еще далек от настоящего решения

Несколько месяцев назад покерное сообщество было заинтригованно новостью о том, что команде программистов из университета Альберты удалось создать программу, «решившую» лимитный Холдем - простейший из всех видов покера. Однако даже несмотря на его простую природу (два игрока, две карты и фиксированные размеры ставок), программисты проделали невероятный объем работы.

Если вспомнить, что для обучения бота понадобилось более 260 терабайт, скачивать которые при обычном интернет-соединении придется около пяти лет, становится спокойно за другие более сложные виды покера. В этой статье мы попробуем разобраться, действительно ли нам нет нужды беспокоиться.

Если вместо хедз-апа мы захотим решить игру для трех игроков, наша задача усложняется не в два раза, а на порядок выше. И что уж говорить о 6-макс или фулл-ринг играх. Чтобы иметь хоть какое-то представление о том, какими цифрами там оперируют, вам придется скачать специальный калькулятор.

В настоящее время решение безлимитной 10-макс игре находится за пределами возможностей современного компьютера. Одни только размеры ставок требуют невообразимого объема памяти, рассчитать который даже примерно практически невозможно.

Но что, если игра все-таки будет решена? Перестанем ли мы играть? И что понимать под этим «решением»?

Давайте разберем пример самой простой игры, которая покажет нам возможность нескольких решений и то, как одно из них может быть лучше другого.

Возможно, многие из вас играли в такую игру в детстве. В ней участвуют два игрока, каждый из которых вслепую достает из своей колоды карту и переворачивает её. Побеждает тот, чья карта окажется старше. Разница лишь в том, что в нашей игре оба игрока записывают на лицевой стороне каждой карты сумму в долларах от $1 до $5. И проигравший платит меньшую из указанных на двух картах сумм.

Допустим, в нашу игру играют Стив и Даг. Оба они пишут на каждой карте своей колоды цифру от 1 до 5. Если Стив переворачивает короля, а Даг валета, то Даг будет должен Стиву наименьшую сумму, из указанных на обеих картах. Если Стив написал на своем короле $4, а Даг написал на валете $2, то Даг будет должен Стиву $2.

Давайте подумаем, как же выигрывать в этой игре. Здесь есть только два неэксплуатируемых решения, известные как решения по Нэшу, так как они максимально приближены к Равновесию Нэша. Это значит, что они не могут быть минусовыми.

Первое решение заключается в написании $1 на каждой карте. Независимо от того, что делает наш оппонент, каждая рука будет стоить один доллар, и в долгосрочной перспективе две колоды будут играть в ноль против друг друга. Никто не будет выигрывать. Это решение нельзя победить, и компьютер может найти его очень быстро. Но с ним он не будет выигрывать, а лишь играть в ноль. Против худших из возможных стратегий эта стратегия будет лишь безубыточна. Неэксплуатируемая, но и не эксплуатирующая.

Однако мы играем в покер не для того, чтобы не проигрывать, а чтобы выигрывать. Поэтому нам нужно решение, которое также будет эксплуатировать более слабые стратегии. Есть ли такая стратегия, которая не только не может проигрывать, но еще и будет иногда выигрывать? Лучшее решение?

Как выяснилось, такое решение есть. Если мы напишем $5 на всех тузах и $1 на остальных картах, мы будем выигрывать против каждой стратегии, за исключением двух решений. Если Стив поймет это, а Даг подпишет свои карты в произвольном порядке, Стив будет выигрывать в долгосрочной перспективе. Есть еще несколько эксплуатирующих вариантов решения, которые лучше однодолларовой стратегии, но хуже, чем $5/$1.

Этими решениями будут $2/$1, $3/$1 и $ 4/$1. Все они не могут быть в минусе, но менее прибыльны против других стратегий, нежели $5/$1, которая будет самой эксплуатационной из неэксплуатируемых стратегий. Но является ли она самой лучшей?

Решение лимитного Холдема, скорее всего, схоже со стратегией $5/$1. Она не может проигрывать, но и не будет выигрывать столько дeнeг, сколько опытный и умелый игрок будет выигрывать при игре против плохого игрока. Все потому, что неэксплуатируемая программа не сможет подстроиться под него и использовать эксплуатационную стратегию, распознавая его слабые места.

Сколько дeнeг можно выиграть у оппонента, который никогда не рейзит и не фолдит? Вы быстро подстроитесь и начнете бетить руки, с которыми у вас будет больше 50% эквити против случайной руки, и чекать, когда у вас будет меньше 50% эквити. С такой стратегией вы быстро заберете дeньги автоответчика. На самом деле, вы заберете их гораздо быстрее, чем это бы сделала машина с неэксплуатируемой стратегией, потому что компьютер будет продолжать играть так, как будто играет против идеального игрока.

Каждый раз, когда компьютер будет блефовать в автоответчика, вам будет казаться это забавным, но он никогда не изменит свою стратегию, пока программисты сами ее не изменят. И как только это произойдет, компьютер больше не будет идеальным игроком, он станет эксплуатируемым.

Именно эта способность изменять наши стратегии и подстраиваться под плохих игроков и отличает нас от машин. Если вашей целью является быть непревзойденным в хедз-апах, то идеальной стратегией будет компьютерная. Если вы хотите выигрывать дeньги, то разработанная программа вряд ли вам поможет, так как после новости о решении лимитного хедз-апа эти матчи стали большой редкостью, ведь никто не захочет играть против компьютера теперь, зная, что игра уже решена.

Иногда мы можем с точностью назвать карты оппонента по его линии розыгрыша или реакции на нашу линию, но мы понятия не имеем, как спрограммировать такой вид мышления. Единственная возможность заставить компьютер понять его с нашими нынешними моделями, это использовать всю ту же контрфактуальную минимизацию сожаления, которая использовалась для 260-терабайтного решения лимитного покера. И вполне возможно, что для хранения всех возможных вариантов решения не хватит всей доступной памяти на земле.

Так что не паникуйте, когда слышите, что игра "решена". Ученные достигли хороших результатов, но они не угрожают исчезновением игры, которую мы все любим. Покер самая сложная игра, из когда-либо изобретенных человечеством, и она останется таковой еще долгое время. Вспомним эти слова, когда компьютер сможет идеально играть фулл рунг ПЛО с разницей в стеках от 40 до 300 больших блайндов.