Исследователи используют Super Mario в качестве эталона для тестирования искусственного интеллекта

Является ли покемон жестким ориентиром для искусственного интеллекта? Команда исследователей считает, что Super Mario Bros. является более сложной задачей. Исследователи из Лаборатории искусственного интеллекта Хао (HaoAILab) Калифорнийского университета в Сан-Диего в пятницу внедрили искусственный интеллект в прямую трансляцию игры Super Mario Bros. Лучше всего показал себя Claude3.7 от Anthropic, за ним следует Claude3.5. Gemini1.5Pro от Google и GPT-4o от OpenAI показали плохие результаты.

Знаете, версия Super Mario Bros. не совсем такая же, как оригинальная версия, выпущенная в 1985 году. Игра запускается в эмуляторе и интегрируется с платформой GamingAgent, что позволяет искусственному интеллекту управлять Марио.

GamingAgent, разработанный HaoAILab, предоставляет базовые инструкции для искусственного интеллекта, такие как «Если есть препятствие или приближается враг, двигайтесь влево/прыгните, чтобы избежать его», а также скриншоты игры. Затем ИИ генерирует входные данные, которые управляют Марио, в виде кода Python.

Однако, по словам Хао, игра заставляет каждую модель «научиться» планировать сложные операции и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели на основе логического вывода (такие как модель o1 OpenAI, которая шаг за шагом «думает» о проблеме, чтобы прийти к решению) работают хуже, чем «не логические» модели, хотя в целом они были лучше в большинстве тестов.

Исследователи говорят, что одна из основных причин, почему моделям вывода трудно играть в такие игры в реальном времени, заключается в том, что им требуется время — часто секунды — для принятия решения о действии. В Super Mario Bros время решает все. Секунда может означать разницу между безопасным прыжком или падением в пропасть.

Игры десятилетиями использовались в качестве эталона искусственного интеллекта. Но некоторые эксперты сомневаются в целесообразности связывания игровых навыков ИИ с технологическими достижениями. В отличие от реального мира, игры, как правило, абстрактны, относительно просты и теоретически предоставляют неограниченное количество данных для тренировки искусственного интеллекта.

Недавние яркие игровые тесты показывают, что учёный-исследователь и один из основателей OpenAI Андрей Карпати сталкивается с «кризисом оценки».

«Я действительно не знаю, на какие показатели [ИИ] смотреть прямо сейчас. TLDR, моя реакция такова, что я действительно не знаю, насколько хороши эти модели сейчас», — написал он в сообщении на X.

Но, по крайней мере, мы можем наблюдать, как ИИ играет в Марио.