Команда Вашингтонского университета создает камерные гарнитуры VueBuds, чтобы описывать все, что вы видите в реальном времени

Согласно новостям от 21 апреля, команда Вашингтонского университета в США продемонстрировала новый прототип гарнитуры под названием VueBuds. Он встраивает миниатюрную камеру в обычную настоящую беспроводную гарнитуру и объединяет ее с моделью визуального языка (VLM). Он может описывать сцену в поле зрения пользователя в реальном времени, идентифицировать объекты и переводить ее посредством голосового взаимодействия. Исследователи описывают его как «мобильную голосовую версию обратного поиска изображений».

Прототип VueBuds основан на беспроводных наушниках Sony с шумоподавлением WF-1000XM3. В корпус наушников встроена черно-белая камера размером с рисовое зернышко. Локальная обработка или обработка с низкой пропускной способностью выполняется с помощью встроенной модели визуального языка. Пользователям нужно только задавать вопросы, чтобы получить объяснения и переводы голосовых описаний, названий объектов или текстового содержимого сцены перед ними. Исследовательская группа опубликовала доклад на CHI 2026, важной конференции в области взаимодействия человека и компьютера, в котором подробно описаны конструкция и экспериментальные результаты этой системы.

Один из руководителей проекта, Шьям Голлакота, профессор Школы компьютерных наук и инженерии Пола Аллена при Вашингтонском университете, сказал, что команда полностью извлекла уроки из уроков Google Glass при проектировании — последний был высмеян общественностью как «Стеклянные дыры» из-за его резкого внешнего вида и огромных споров о конфиденциальности, и в конечном итоге потерпел неудачу. Голлакота отметил, что по сравнению с очками многие люди не любят добавлять на лицо видимые устройства, а наушники уже являются очень популярной и социально приемлемой формой ношения. Таким образом, ожидается, что «скрытие» визуальных функций в наушниках позволит достичь лучшего баланса между удобством использования и конфиденциальностью.

На аппаратном уровне VueBuds использует черно-белую камеру с низким разрешением и передачу с низкой пропускной способностью для контроля энергопотребления ниже 5 мВт и автоматически отключается, когда он не используется, для экономии энергии. Исследователи заявили, что в тесте с участием 90 пользователей и 17 визуальных задач с вопросами и ответами качество ответов VueBuds было сопоставимо с качеством ответов умных очков Ray-Ban Meta со встроенными камерами и большими моделями, что демонстрирует потенциал внедрения быстро развивающихся возможностей модели визуального языка в популярную форму наушников.

В демонстрационном видео мужчина в VueBuds стоял на кухне квартиры и просил: «Опишите, пожалуйста, сцену передо мной». Примерно через секунду из гарнитуры вышел ИИ с расслабленным тоном, имитирующий человеческий женский голос, и ответил: «Я вижу кухонную зону с окном, через которое много света. На столешнице несколько бутылок и книга. На окне жалюзи и раковина слева». Позже, когда он посмотрел на обложку пластинки и спросил название альбома, система быстро распознала, что это «Abbey» группы «Битлз». Дорога» обложка альбома.

Согласно экспериментальным данным, раскрытым в статье, в тесте с участием 16 участников VueBuds достиг точности примерно 83% в задачах распознавания и перевода объектов и точности примерно 93% в таких задачах, как определение названий книг и авторов. Например, исследовательская группа заявила, что в будущем пользователи, как ожидается, будут использовать эту систему для чтения корейских комиксов, которые еще не переведены, или для заказа скрытых блюд, которые «доступны только в китайском меню» в китайском ресторане, не ограничиваясь собственными языковыми способностями.

В ответ на распространенный вопрос «если камеры гарнитуры расположены по обе стороны лица, не будет ли обзор загораживаться собственной головой пользователя?» Исследователи объяснили, что VueBuds опирается на принцип человеческого бинокулярного параллакса и использует разные углы обзора двух камер для объединения «стереоскопического зрения», тем самым получая возможность понимать сцену впереди. Однако из-за того, что в настоящее время VueBuds поддерживает только черно-белые изображения, он не может отвечать на вопросы, связанные с цветом; навигация и высокоточный перевод сложных сцен по-прежнему требуют цветных камер с более высоким разрешением и более мощных вычислительных мощностей.

Ограничения мощности и вычислительной мощности также означают, что VueBuds в настоящее время не может собирать и обрабатывать видеопотоки непрерывно и с высокой пропускной способностью и подходит только для периодического использования «фото + вопросы и ответы». Несмотря на это, исследовательская группа считает, что ее баланса между энергопотреблением, громкостью и скоростью отклика достаточно, чтобы доказать целесообразность этой формы в качестве «платформы визуального интеллекта» и обеспечить новое направление для функционального расширения будущих устройств-гарнитур.

В то же время риски конфиденциальности и безопасности также стали неизбежными темами. В статье указывалось, что несколько лет назад компания предложила приложение, которое могло бы «идентифицировать имена незнакомцев по фотографии». В то время в Интернете популярным ироничным ответом было: «В таком случае из-за этого женщины умрут». На этом этапе VueBuds обеспечивает лишь ограниченные меры безопасности, такие как небольшой «индикатор работы» на наушниках, но наблюдатели часто не осознают, что пара наушников захватывает изображения. В сочетании со сбором аудио, соединением Bluetooth и сторонними службами распознавания лиц, злоупотребление этим типом устройства может представлять собой серьезную угрозу конфиденциальности, поскольку «низкое разрешение по-прежнему фатально».

В статье указывается, что, если регулирующие органы смогут сформулировать и внедрить эффективные правила, гарантирующие, что общественная безопасность и неприкосновенность личной жизни не будут нарушены, такие «читающие» устройства для наушников, как ожидается, принесут значительное удобство слабовидящим и другим группам, значительно улучшая качество их жизни и свободу в путешествиях, учебе, развлечениях и т. д. В официальном пресс-релизе Вашингтонского университета подчеркнули, что VueBuds все еще находится на стадии научного исследования прототипа, но уже продемонстрировал перспективу интеграции моделей визуального языка в повседневные носимые устройства. В будущем это может привести к появлению нового поколения «слышимых и видимых» форм интеллектуальных наушников.