Является ли покемон жестким ориентиром для искусственного интеллекта? Команда исследователей считает, что Super Mario Bros. является более сложной задачей. Исследователи из Лаборатории искусственного интеллекта Хао (HaoAILab) Калифорнийского университета в Сан-Диего в пятницу внедрили искусственный интеллект в прямую трансляцию игры Super Mario Bros. Лучше всего показал себя Claude3.7 от Anthropic, за ним следует Claude3.5. Gemini1.5Pro от Google и GPT-4o от OpenAI показали плохие результаты.
Знаете, версия Super Mario Bros. не совсем такая же, как оригинальная версия, выпущенная в 1985 году. Игра запускается в эмуляторе и интегрируется с платформой GamingAgent, что позволяет искусственному интеллекту управлять Марио.
GamingAgent, разработанный HaoAILab, предоставляет базовые инструкции для искусственного интеллекта, такие как «Если есть препятствие или приближается враг, двигайтесь влево/прыгните, чтобы избежать его», а также скриншоты игры. Затем ИИ генерирует входные данные, которые управляют Марио, в виде кода Python.
Однако, по словам Хао, игра заставляет каждую модель «научиться» планировать сложные операции и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели на основе логического вывода (такие как модель o1 OpenAI, которая шаг за шагом «думает» о проблеме, чтобы прийти к решению) работают хуже, чем «не логические» модели, хотя в целом они были лучше в большинстве тестов.
Исследователи говорят, что одна из основных причин, почему моделям вывода трудно играть в такие игры в реальном времени, заключается в том, что им требуется время — часто секунды — для принятия решения о действии. В Super Mario Bros время решает все. Секунда может означать разницу между безопасным прыжком или падением в пропасть.
Игры десятилетиями использовались в качестве эталона искусственного интеллекта. Но некоторые эксперты сомневаются в целесообразности связывания игровых навыков ИИ с технологическими достижениями. В отличие от реального мира, игры, как правило, абстрактны, относительно просты и теоретически предоставляют неограниченное количество данных для тренировки искусственного интеллекта.
Недавние яркие игровые тесты показывают, что учёный-исследователь и один из основателей OpenAI Андрей Карпати сталкивается с «кризисом оценки».
«Я действительно не знаю, на какие показатели [ИИ] смотреть прямо сейчас. TLDR, моя реакция такова, что я действительно не знаю, насколько хороши эти модели сейчас», — написал он в сообщении на X.
Но, по крайней мере, мы можем наблюдать, как ИИ играет в Марио.