На этой неделе человечество сделало огромный технологический шаг вперёд и по совместительству «убило» 6-макс по безлимитному холдему. В этом материале расскажу, как покерный бот Pluribus от разрабочиков Facebook и университета Carnegie Mellon безоговорочно обыграл лучших профессионалов мира.
Экскурс в историю
Начну с небольшой истории, чтобы картина была полнее. В 2015 году на свет появился покерный бот Claudico от специалистов университета Карнеги-Меллона (Carnegie Mellon), что находится в Пенсильвании, США. Проектом руководил Туомас Сандхольм (Tuomas Sandholm) и его творение потерпело сокрушительное поражение от сильнейших покеристов из плоти и крови.
Спустя пару лет, в 2017, Туомас Сандхольм и его помощник Ноам Браун (Noam Brown) выпускают очередное творение — покерного бота Libratus, который умеет играть хедз-ап NLHE. Он первый обыграл людей на длинной дистанции с разгромным винрейтом почти 15bb/100.
Мы много писали об этом. Повторяться не хочется, поэтому лучше почитайте:
- Лучшие профессионалы против нового NLHU-бота Libratus
- Профессионалы проиграли покерному боту Libratus $1’766’250
- Разработчики бота Libratus и игроки ответили на вопросы Reddit
Когда Либратус победил команду Дугласа Полка в 2017 году, люди разделились на два лагеря. Кто-то кричал, что покеру пришёл конец, а кто-то крутил у виска и успокаивал себя тем, что бот смог решить только хедз-ап, да и то при использовании суперкомпьютера за несколько миллионов долларов.
И в 2019 году учёные создали ЕГО...
Рождение нового терминатора
Pluribus был создан для решения безлимитного холдема в формате 6-макс. И у него получилось. Против бота играли добровольцы из онлайна и офлайна, у каждого из которых как минимум миллион долларов профита, а у отдельных $10,000,000+.
Полный список добровольцев:
- Линус Лёлигер (Linus Loeliger)
- Крис Фергюсон (Chris Ferguson)
- Грег Мерсон (Greg Merson)
- Даррен Элиас (Darren Elias)
- Джейсон Лес (Jason Les)
- Майкл Гаглиано (Michael Gagliano)
- Сэт Дэйвис (Seth Davies)
- Тревор Севедж (Trevor Savage)
- Джимми Чау (Jimmy Chou)
- Энтони Грэг (Anthony Gregg)
- Донг Ким (Dong Kim)
- Ник Петранжело (Nick Petrangelo)
- Шон Руане (Sean Ruane)
- Джейк Туле (Jake Toole)
- Дэниел МакОлей (Daniel McAulay)
Особенно обращаю ваше внимание на первое имя, так как LLinusLLove считается одним из сильнейших, если не сильнейшим 6-макс игроком в NLHE. Все без исключения игроки сыграли в минус против бота.
Как проходило соревнование
Каждый из добровольцев сыграл по 10,000 раздач против Pluribus-a в двух ситуациях (итого 20,000 раздач):
- 1 бот + 5 людей за игровым столом
- 1 человек + 5 ботов за игровым столом
Стеки всегда были по 10,000 фишек, блайнды 50/100. В первом случае бот играл с результатом 5bb/100 (!), а во втором эксперименте ни один из испытуемых не вышел в плюсе. Лучший результат показал Линус Лёлигер — он играл минус 0,5bb/100, у остальных было значительно хуже. По результату тестов учёные посчитали это победой Pluribus-а.
Идеальный бот, который учит сам себя
Гениальность Pluribus-a заключается в трёх вещах.
Во-первых, он победил в игре с неполной информацией и несколькими (!) оппонентами, а не один на один. До этого боты могли обыграть человека только в так называемых "нулевых" играх (zero-sum game или проще говоря один на один) или в играх с полной информацией. Pluribus сделал качественный шаг вперёд.
Во-вторых, вычислительная мощность, которая требуется для Pluribus-a составляет всего 128 GB RAM и 2 процессора. Это максимально близко к бытовому ПК. Для сравнения, алгоритм Google AlphaGo, который обыграл лучшего игрока в мире по Го в 2016 году, использовал суперкомпьютер из 2200 процессоров (!).
В-третьих, Pluribus сам себя обучил покеру. В него не загружали стратегии, базу рук, VODы Инвокера на NL200. За 6-макс стол посадили шесть ботов, поставили им правила игры и они сами себя обучили оптимальной игре в покер. Поначалу все их действия и размеры ставок были случайными, но спустя несколько дней непрерывной игры и шлифовки стратегий, они приблизились к совершенству. К слову, обучается бот крайне быстро — если Pluribus играет с копиями самого себя, то одна раздача занимает всего 20 секунд.
По словам разрабочиков, за 7 часов обучения бот научится играть на уровне обычного любителя, за 20 часов встанет на уровень топ-игрока среди людей, а через 60 часов он... перестанет лимпить. Да, всё верно — бот Pluribus, который обыграл лучших в мире покеристов вообще не использует лимпы.
Почему бот Pluribus настолько эффективный?
Технологический прорыв бота Pluribus произошёл благодаря качественному улучшению алгоритмов, которыми он пользуется. Насколько я смог понять, все предыдущие покерные боты нуждались в супер-компьютерах, чтобы обрабатывать миллионы вариаций, как может завершиться раздача. То есть, в любой момент раздачи, бот анализировал её до самого конца. Поиск и анализ оптимального и полного древа решений занимал много времени и был около нереальным для игры в 6-максе.
У Pluribus-а разработчики упростили анализ раздачи до ближайших шагов, тем самым упростив жизнь боту. То есть, основываясь на результативности миллионов сыгранных ранее раздач, боту проще понять, какое действие оптимальнее в конкретной ситуации.
Одним из самых важных моментов в работе любого игрового бота является выдача решения. То есть, в программе всегда есть готовая «база решений», но для выдачи самого оптимального в реальном времени требуется много времени, ведь в том же покере вариаций миллиарды. Pluribus игнорирует отдельные решения, а также группирует схожие, чтобы впоследствии ему было проще искать среди них оптимальное.
Отзывы испытуемых о Pluribus
Крис Фергюсон: «Pluribus — очень сложный оппонент. Невероятно трудно положить его на какую-то руку. Он также очень хорошо умеет делать тонкие вельюбеты на ривере. Да и в целом, он отлично собирает велью с хороших рук»
Джейсон Лес: «Это просто монстр блефа. Я могу сказать, что он блефует куда эффективнее большинства людей, именно из-за этого против него так трудно играть. На тебя постоянно оказывается сильное давление от AI, хотя ты знаешь, что сейчас он может блефовать»
Джимми Чау: «Каждый раз, когда играю против ботов, выношу что-то новое для себя. Мы, люди, стремимся к упрощению игры для её лучшего понимания, а также эффективного использования стратегий и запоминания информации. Бот себе такого не позволяет — у него невероятно сложное и сбалансированное древо решений на каждую игровую ситуацию»
Зачем создали этого бота?
Само собой, ради светлого будущего человечества. Разработчики не собираются выкладывать его в открытый доступ, чтобы онлайн покер потерял весь смысл. Просто покер в его 6-макс формате является отличным плацдармом для решения ситуаций с несколькими участниками и неполной информацией.
В дальнейшем разработки на основе Pluribus могут применяться в сфере кибербезопасности, против мошеннических схем, в поиске и удалении «вредного» контента, а также во многих других.
Подписывайтесь на телеграм @pokeroffru, чтобы следить за новостями покера.
Читайте далее: