Существует ли Стэнфордский робот с «живыми глазами»? Десятки работ по дому по системе «все включено» стоят всего около 30 000 долларов США

Продемонстрировав свои кулинарные навыки, робот, разработанный китайской командой из Стэнфорда, сегодня рано утром по пекинскому времени выпустил новое видео «Один день из жизни мобильного ALOHA», демонстрируя десятки навыков работы по дому, таких как полив цветов, уборка комнаты, приготовление кофе, бритье хозяина, мытье посуды, игры с кошками, выбрасывание мусора, стирка одежды, смена пододеяльников и хранение одежды. Ее можно назвать «универсальной домработницей».

Пользователи сети прокомментировали: «Самое редкое — это то, что в глазах есть жизнь».

Людей уже давно беспокоит «парадокс Моравца» — парадоксальное явление, заключающееся в том, что «задачи, которые людям кажутся легкими, чрезвычайно сложны для искусственного интеллекта, и наоборот».

Другими словами, робот, который может выполнять работу по дому, встречается очень редко.

Но не стоит слишком радоваться. Хотя MobileALOHA имеет «живые глаза», его движениями по-прежнему управляют люди (см. рисунок ниже), и он не является полностью интеллектуальным автономным устройством.

Один из руководителей команды сказал, что человеческий контроль носит временный характер, и они уже изучают, как преодолеть разрыв между человеческим контролем и самоконтролем роботов. Тони З. Чжао, еще один руководитель команды, оптимистично заявил: «2024 год станет годом робота, и этот (робот-уборщик) — только начало!»

Большую значимость MobileALOHA заключается в том, что ее возможности управления движением более мощные, чем у аналогичных систем, которые стоят в 5-10 раз дороже, что демонстрирует возможность создания универсальных роботов. Вскоре может появиться дешевый и простой в использовании домашний робот.

ALOHA, недорогая аппаратная система с открытым исходным кодом для двуручного телеуправления, представляет собой недорогую аппаратную систему с открытым исходным кодом для дистанционного управления двумя руками, то есть роботизированную руку с открытым исходным кодом. Его алгоритм ActionChunkingwithTransformers (ACT) использует модель нейронной сети Transformers, поэтому он обладает возможностями имитационного обучения. Всего за 15 минут демонстрации роботизированная рука может научиться действию, выполняя сквозное имитационное обучение непосредственно на реальных демонстрациях, собранных через специальный интерфейс удаленного управления.

По словам вышеупомянутой китайской команды, MobileALOHA может выполнить различные сложные задачи всего за 50 демонстраций. Стоимость составляет всего 32 000 долларов США (около 220 000 юаней), а программное и аппаратное обеспечение имеют открытый исходный код.

В статье команда подробно представила аппаратную конфигурацию MobileALOHA: самыми дорогими являются роботизированная рука и мобильная база, из которых мобильная база является относительно дешевой среди аналогичных продуктов; датчик оснащен 2 наручными камерами и 1 верхней камерой; оснащен бортовым блоком питания и расчетами, т.е. аккумулятором емкостью 1,26 кВтч весом 14 кг. Все расчеты во время сбора данных и вывода выполнялись на ноутбуке потребительского уровня с графическим процессором Nvidia 3070ti (8 ГБ видеопамяти) и процессором Intel i7-12800H.

Высокоценные детали в спецификации

Джим Фан, «исследователь интернет-знаменитостей» в Nvidia и первый стажер в OpenAI, ранее оптимистично предсказал, что 2024 год станет первым годом, когда сообщество искусственного интеллекта полностью поднимется, чтобы противостоять парадоксу Моравеца. «Мы не победим сразу, но мы будем на пути к победе».

Это не просто момент волнения. Различные разработки в отрасли появляются бесконечным потоком. Джим перечислил разработку базовых моделей и платформ для будущих роботов в 2023 году:

1. Крупные мультимодальные модели, использующие роботизированные руки в качестве физических устройств ввода/вывода: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU) и др.;

2. Алгоритмы, устраняющие разрыв между Системой 1 (отвечающей за низкоуровневый контроль) и Системой 2 (ответственной за высокоуровневые рассуждения) (позволяя системе использовать высокоуровневые рассуждения для принятия решений, понимания и преобразования этих решений в реальные операции и контроль): Eureka (NVIDIA), CodeasPolicies (Google) и т. д.;

3. Потрясающий прогресс в мощном железе: Tesla Optimus Prime, Рисунок, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree и т. д.;

4. Данные всегда были ахиллесовой пятой робототехники. Исследовательское сообщество совместно планирует следующий ImageNet (ключевой проект для прорыва в глубоком обучении искусственного интеллекта), например, открытие набора данных OpenX-Embodiment (RT-X). Хотя набор данных еще недостаточно разнообразен, это важный шаг;

5. Моделирование и синтетические данные будут играть ключевую роль в решении проблем ловкости роботов и даже проблем компьютерного зрения в целом;

Фундамент закладывается шаг за шагом. В начале 2024 года у нас есть основания ожидать потрясающего дебюта более мощных роботов.