Новый ИИ-агент NVIDIA на основе модели GPT-4 можно использовать для обучения сложным навыкам роботов

Компания NVIDIA Research объявила сегодня, что разработала нового агента искусственного интеллекта под названием «Эврика», который работает на базе OpenAI GPT-4 и может автономно обучать роботов сложным навыкам.

Посетите страницу покупки:

Обзор продуктов серии NVIDIA на JD.com

В своем блоге компания сообщила, что Eureka, которая может писать свои собственные алгоритмы вознаграждения, первой научила руку робота выполнять навыки быстрого поворота ручки, как люди. Эврика также научила робота почти 30 задачам, таким как открытие ящиков и шкафов, бросание и ловля мяча, а также работа с ножницами.

«Обучение с подкреплением добилось впечатляющих побед за последнее десятилетие, но остается еще много проблем, таких как дизайн вознаграждений, который остается процессом проб и ошибок», — сказала в своем блоге Анима Анандкумар, старший директор по исследованиям искусственного интеллекта в NVIDIA и автор статьи Eureka. «Эврика» — это первый шаг в разработке новых алгоритмов, которые объединяют методы генеративного обучения и обучения с подкреплением для решения сложных задач».

NVIDIA Research также выпустила библиотеку алгоритмов искусственного интеллекта Eureka, позволяющую людям проводить эксперименты с использованием NVIDIA AIsaacGym, справочного приложения по физическому моделированию для исследований в области обучения с подкреплением. IsaacGym построен на NVIDIA Omniverse, платформе разработки для создания 3D-инструментов и приложений на основе платформы OpenUSD.

Увлечение агентами искусственного интеллекта продолжается уже несколько месяцев, включая появление в апреле этого года автономных агентов искусственного интеллекта, таких как Auto-GPT, BabyAGI и AgentGPT.

Текущая работа NVIDIA Research основана на предыдущих работах, в том числе на последней работе Voyager, агенте искусственного интеллекта, созданном с использованием GPT-4, который может играть в Minecraft автономно. На этой неделе газета New York Times опубликовала статью о превращении чат-ботов в онлайн-агентов. Джефф Клюн, профессор информатики Университета Британской Колумбии и бывший исследователь OpenAI, сказал: «Это огромная бизнес-возможность с потенциалом принести триллионы долларов дохода. Это имеет огромный потенциал роста и огромное влияние на общество».

В новой исследовательской работе под названием «Эврика: дизайн вознаграждений на человеческом уровне путем кодирования больших языковых моделей» авторы говорят: «Эврика использует исключительные возможности генерации нулевой точки, написания кода и улучшения контекста современных LLM, таких как GPT-4, для разработки кода вознаграждения».

Полученные награды можно использовать для приобретения сложных навыков посредством обучения с подкреплением. «В отсутствие каких-либо подсказок для конкретных задач или предопределенных шаблонов вознаграждений функции вознаграждения, генерируемые Eureka, превосходят награды экспертов, разработанные человеком. В наборе из 29 сред RL с открытым исходным кодом, содержащих 10 различных морфологий роботов, Eureka превзошла экспертов-людей в 83% задач со средним нормализованным улучшением 52%».

«Эврика — это уникальное сочетание больших языковых моделей и технологии моделирования NVIDIA с ускорением на графическом процессоре», — сказал Джим Фан, старший научный сотрудник NVIDIA и участник проекта, в своем блоге. «Мы верим, что Eureka обеспечит ловкое управление роботами и предоставит художникам новый способ создания физически реалистичной анимации».