На этой неделе человечество сделало огромный технологический шаг вперёд и по совместительству «убило» 6-макс по безлимитному холдему. В этом материале расскажу, как покерный бот Pluribus от разрабочиков Facebook и университета Carnegie Mellon безоговорочно обыграл лучших профессионалов мира.

Экскурс в историю

Начну с небольшой истории, чтобы картина была полнее. В 2015 году на свет появился покерный бот Claudico от специалистов университета Карнеги-Меллона (Carnegie Mellon), что находится в Пенсильвании, США. Проектом руководил Туомас Сандхольм (Tuomas Sandholm) и его творение потерпело сокрушительное поражение от сильнейших покеристов из плоти и крови.

Ноам Браун и Туомас Сандхольм

Спустя пару лет, в 2017, Туомас Сандхольм и его помощник Ноам Браун (Noam Brown) выпускают очередное творение — покерного бота Libratus, который умеет играть хедз-ап NLHE. Он первый обыграл людей на длинной дистанции с разгромным винрейтом почти 15bb/100.

Мы много писали об этом. Повторяться не хочется, поэтому лучше почитайте:

Когда Либратус победил команду Дугласа Полка в 2017 году, люди разделились на два лагеря. Кто-то кричал, что покеру пришёл конец, а кто-то крутил у виска и успокаивал себя тем, что бот смог решить только хедз-ап, да и то при использовании суперкомпьютера за несколько миллионов долларов.

И в 2019 году учёные создали ЕГО...

Рождение нового терминатора

Pluribus был создан для решения безлимитного холдема в формате 6-макс. И у него получилось. Против бота играли добровольцы из онлайна и офлайна, у каждого из которых как минимум миллион долларов профита, а у отдельных $10,000,000+.

Полный список добровольцев:

  • Линус Лёлигер (Linus Loeliger)
  • Крис Фергюсон (Chris Ferguson)
  • Грег Мерсон (Greg Merson)
  • Даррен Элиас (Darren Elias)
  • Джейсон Лес (Jason Les)
  • Майкл Гаглиано (Michael Gagliano)
  • Сэт Дэйвис (Seth Davies)
  • Тревор Севедж (Trevor Savage)
  • Джимми Чау (Jimmy Chou)
  • Энтони Грэг (Anthony Gregg)
  • Донг Ким (Dong Kim)
  • Ник Петранжело (Nick Petrangelo)
  • Шон Руане (Sean Ruane)
  • Джейк Туле (Jake Toole)
  • Дэниел МакОлей (Daniel McAulay)

Особенно обращаю ваше внимание на первое имя, так как LLinusLLove считается одним из сильнейших, если не сильнейшим 6-макс игроком в NLHE. Все без исключения игроки сыграли в минус против бота.

Как проходило соревнование

Каждый из добровольцев сыграл по 10,000 раздач против Pluribus-a в двух ситуациях (итого 20,000 раздач):

  • 1 бот + 5 людей за игровым столом
  • 1 человек + 5 ботов за игровым столом

Стеки всегда были по 10,000 фишек, блайнды 50/100. В первом случае бот играл с результатом 5bb/100 (!), а во втором эксперименте ни один из испытуемых не вышел в плюсе. Лучший результат показал Линус Лёлигер — он играл минус 0,5bb/100, у остальных было значительно хуже. По результату тестов учёные посчитали это победой Pluribus-а.

Игровой интерфейс

Идеальный бот, который учит сам себя

Гениальность Pluribus-a заключается в трёх вещах.

Во-первых, он победил в игре с неполной информацией и несколькими (!) оппонентами, а не один на один. До этого боты могли обыграть человека только в так называемых "нулевых" играх (zero-sum game или проще говоря один на один) или в играх с полной информацией. Pluribus сделал качественный шаг вперёд.

Во-вторых, вычислительная мощность, которая требуется для Pluribus-a составляет всего 128 GB RAM и 2 процессора. Это максимально близко к бытовому ПК. Для сравнения, алгоритм Google AlphaGo, который обыграл лучшего игрока в мире по Го в 2016 году, использовал суперкомпьютер из 2200 процессоров (!).

В-третьих, Pluribus сам себя обучил покеру. В него не загружали стратегии, базу рук, VODы Инвокера на NL200. За 6-макс стол посадили шесть ботов, поставили им правила игры и они сами себя обучили оптимальной игре в покер. Поначалу все их действия и размеры ставок были случайными, но спустя несколько дней непрерывной игры и шлифовки стратегий, они приблизились к совершенству. К слову, обучается бот крайне быстро — если Pluribus играет с копиями самого себя, то одна раздача занимает всего 20 секунд.

По словам разрабочиков, за 7 часов обучения бот научится играть на уровне обычного любителя, за 20 часов встанет на уровень топ-игрока среди людей, а через 60 часов он... перестанет лимпить. Да, всё верно — бот Pluribus, который обыграл лучших в мире покеристов вообще не использует лимпы.

Почему бот Pluribus настолько эффективный?

Технологический прорыв бота Pluribus произошёл благодаря качественному улучшению алгоритмов, которыми он пользуется. Насколько я смог понять, все предыдущие покерные боты нуждались в супер-компьютерах, чтобы обрабатывать миллионы вариаций, как может завершиться раздача. То есть, в любой момент раздачи, бот анализировал её до самого конца. Поиск и анализ оптимального и полного древа решений занимал много времени и был около нереальным для игры в 6-максе.

У Pluribus-а разработчики упростили анализ раздачи до ближайших шагов, тем самым упростив жизнь боту. То есть, основываясь на результативности миллионов сыгранных ранее раздач, боту проще понять, какое действие оптимальнее в конкретной ситуации.

Одним из самых важных моментов в работе любого игрового бота является выдача решения. То есть, в программе всегда есть готовая «база решений», но для выдачи самого оптимального в реальном времени требуется много времени, ведь в том же покере вариаций миллиарды. Pluribus игнорирует отдельные решения, а также группирует схожие, чтобы впоследствии ему было проще искать среди них оптимальное.

Отзывы испытуемых о Pluribus

Крис Фергюсон

Крис Фергюсон: «Pluribus — очень сложный оппонент. Невероятно трудно положить его на какую-то руку. Он также очень хорошо умеет делать тонкие вельюбеты на ривере. Да и в целом, он отлично собирает велью с хороших рук»

Джейсон Лес

Джейсон Лес: «Это просто монстр блефа. Я могу сказать, что он блефует куда эффективнее большинства людей, именно из-за этого против него так трудно играть. На тебя постоянно оказывается сильное давление от AI, хотя ты знаешь, что сейчас он может блефовать» 

Джимми Чау

Джимми Чау: «Каждый раз, когда играю против ботов, выношу что-то новое для себя. Мы, люди, стремимся к упрощению игры для её лучшего понимания, а также эффективного использования стратегий и запоминания информации. Бот себе такого не позволяет — у него невероятно сложное и сбалансированное древо решений на каждую игровую ситуацию»

Зачем создали этого бота?

Само собой, ради светлого будущего человечества. Разработчики не собираются выкладывать его в открытый доступ, чтобы онлайн покер потерял весь смысл. Просто покер в его 6-макс формате является отличным плацдармом для решения ситуаций с несколькими участниками и неполной информацией.

В дальнейшем разработки на основе Pluribus могут применяться в сфере кибербезопасности, против мошеннических схем, в поиске и удалении «вредного» контента, а также во многих других.

Подписывайтесь на телеграм @pokeroffru, чтобы следить за новостями покера.

Читайте далее: