Изкуствен интелект (ИИ) категорично победи хората в друга от любимите ни игри.
Покер бот, разработен от изследователи от института по изкуствен интелект на Facebook и университета "Карнеги Мелън" (CMU), надмина някои от най-добрите играчи в света в поредица от игри на Texas Hold ‘em покер между шест души без лимити.
В рамките на 12 дни и 10 000 ръце, ИИ системата, наречена Pluribus, се изправи срещу 12 професионалисти в две различни ситуации. В едната, изкуственият интелект е играл наравно с пет живи играчи; в другата, пет версии на ИИ са играли срещу един жив играч (компютърните програми в този случай не са можели да си сътрудничат).
Pluribus е печелил средно 5 долара на ръка, със средни печалби на час около 1000 долара — "решаващ марж на победа", твърдят изследователите.
Ноам Браун, учен от Facebook AI Research и един от създателите на Pluribus, коментира, че със сигурност може да се говори за „свръхчовешко ниво".
Шесткратният шампион в Световните покер серии Крис Фъргюсън от своя страна обяснява, че "Pluribus е много тежък противник, срещу който да играеш", и е трудно е да надделееш над него с каквато и да е ръка. Фъргюсън е един от дванадесетте професионалисти, поканени да играят срещу ИИ.
В доклад, публикуван в сп. Science, учените зад Pluribus казват, че победата е значима крачка напред в изследванията на ИИ. Въпреки че машинното обучение вече е достигнало свръхчовешки нива в настолни игри като шах и го, както и компютърни игри като Starcraft II и Dota, Texas Hold ‘em с шестима играчи без лимити в някои аспекти представлява нещо с по-висока степен на трудност.
Първо, информацията, необходима за печелене на турнира, е скрита от играчите (което прави турнира т.нар. "игра с несъвършена информация"). Второ, покерът включва многобройни играчи и сложни варианти за печеливша игра.
Играта го, например, е прочута с това, че има повече възможни комбинации на дъската, отколкото атоми има в наблюдаваната вселена, което я прави огромно предизвикателство за ИИ от гледна точка на анализ какъв да е следващият ход. Но всичката информация е достъпна и видима, и играта има само два възможни завършека за играчите: или печелят, или губят. Това я прави по-лесна в някои отношения за обучение на изкуствен интелект.
Kрис Фъргюсън е един от професионалните играчи, победени от ИИ. Снимка: Getty
През 2015 г., система за машинно обучение победи професионални състезатели в Texas Hold ’em турнир с двама играчи, но увеличаването на броя опоненти до пет сериозно увеличава сложността. За да разработят програма, способна да устои на такова предизвикателство, Браун и колегата му Туомас Сандхолм, професор в CMU, са приложили няколко важни стратегии.
Първо, те са научили Pluribus да играе покер, като са го карали да играе срещу копия на самия себе си.
Това е разпространена техника за обучение на изкуствен интелект, в която системата може да научи играта чрез проби и грешки, чрез изиграване на стотици хиляди ръце срещу самата себе си. Този процес на обучение също така е бил забележително ефективен: Pluribus е бил създаден само за осем дни на 64-ядрен сървър с под 512GB RAM. Обучението на тази програма в облачни сървъри би струвало само 150 долара, което я прави много изгодна в сравнение с цената от стотици хиляди долари за други системи от най-висок клас.
После, за да се справят с допълнителната сложност от шест играчи, Браун и Сандхолм са измислили ефективен начин за ИИ да планира в аванс играта и да решава какъв ход да предприеме - механизъм, известен като "търсеща функция". Вместо да се опитва да предвиди как опонентите му ще играят през цялото време до края на играта (изчисление, което би станало невероятно сложно само след няколко стъпки), Pluribus е бил проектиран да мисли само две-три стъпки напред. Този накъсан подход е бил "реалният пробив", казва Браун.
Може да смятате, че в този случай Pluribus жертва дългосрочната стратегия в името на краткосрочната изгода, но в покера се оказва, че краткосрочната проницателност е всичко, което ви е нужно.
Например, Pluribus е бил забележително добър в блъфирането на опонентите, като професионалистите, играли срещу него, хвалят неговата "неумолима последователност" и начина, по който е извличал печалби от относително слаби ръце. Той е бил предсказуемо непредсказуем: фантастично качество за играч на покер. И го е правил само като е разигравал картите; не е имало например елемент на машинно наблюдение или разпознаване на лица, включен в Pluribus, който да се опитва да анализира израженията на другите играчи.
Браун коментира, че това е напълно естествено. Често мислим за блъфирането като за уникално човешка черта; нещо, което разчита на способността ни да лъжем и мамим. Но това е изкуство, което все пак може да бъде сведено до математически оптимални стратегии, казва разработчикът.
"Изкуственият интелект не възприема блъфирането като измама. Той просто вижда решението, което ще му донесе най-много пари в тази конкретна ситуация. Това, което показваме, е че ИИ може да блъфира, и всъщност може да блъфира по-добре от всеки човек", обяснява Браун.
За ИИ блъфирането не е измама. Снимка: Getty
Какво означава тогава фактът, че ИИ категорично е надминал хората в най-популярната в света игра на покер? Както сме виждали и при предишни победи на ИИ, хората със сигурност могат да се учат от компютрите. Някои стратегии, към които играчите като цяло подхождат с подозрение (като "донк залози"), са възприети от ИИ, което показва, че те може да са по-полезни, отколкото се е смятало досега.
"Когато играя срещу бота, имам чувството, че усвоявам нещо ново, което да включа в стила си на игра", казва професионалният покер играч Джими Чу.
Също така има надежди техниките, използвани за създаване на Pluribus, да са съотносими и към други ситуации. Много ситуации в реалността наподобяват в най-общия смисъл Texas Hold ‘em покера — което означава, че включват многобройни играчи, скрита информация и многобройни варианти за печеливш изход.
Браун и Сандхолм се надяват методите, които са демонстрирали, да могат съответно да бъдат приложени в области като киберсигурността, превенцията на измами и воденето на финансови преговори. Дори за подпомагане на навигацията на самоуправляващи се автомобили, например.
Можем ли при това положение да считаме покера за "победена" игра?
Браун не отговаря директно на въпроса, но казва, че си заслужава да отбележим, че Pluribus е статична програма. След първоначалния си 8-дневен период на обучение, ИИ никога не е бил обновяван или усъвършенстван, така че по-добре да отговаря на стратегиите на опонентите си. И през 12-те дни, които той е прекарал в компанията на професионалисти, те никога не са успели да открият възпроизводима слабост в стила му на игра. Не е имало никакви уязвимости, от които да се възползват.
От момента, в който е започнал да залага, Pluribus е бил победител.