Руководители MetaPlatforms рассказали Reuters в интервью, что компания использовала публичные публикации в Facebook и Instagram для обучения некоторым функциям своего нового виртуального помощника Meta с искусственным интеллектом, но исключила частные публикации, которыми делятся только с семьей и друзьями, чтобы уважать конфиденциальность потребителей.
Meta также не использует приватные чаты в своей службе обмена сообщениями в качестве данных для обучения своих моделей и предприняла шаги по фильтрации личных данных из общедоступного набора данных, используемого для обучения, заявил Ник Клегг, президент Meta по глобальным вопросам, в кулуарах ежегодной конференции Connect компании на этой неделе.
«Мы попытались исключить наборы данных, в которых в подавляющем большинстве присутствует личная информация», — сказал Клегг, добавив, что «подавляющее большинство» данных, которые Meta использует для обучения, общедоступны.
Приведя в пример LinkedIn, он отметил, что Meta намеренно не использует контент сайта из соображений конфиденциальности.
Комментарии Клегга прозвучали в связи с тем, что технологические компании, в том числе Meta, OpenAI и Google Alphabet, подверглись критике за использование информации, полученной из Интернета, для обучения своих моделей искусственного интеллекта без разрешения.
Обе компании обдумывают, как поступить с частными материалами или материалами, защищенными авторским правом, которые их системы искусственного интеллекта могут скопировать в процессе, а также сталкиваются с судебными исками со стороны авторов, обвиняющих их в нарушении авторских прав.
Генеральный директор Марк Цукерберг представил первую партию инструментов искусственного интеллекта, ориентированных на потребителя, на ежегодной конференции по продуктам Meta «Connect» в среду, причем MetaAI является наиболее важным продуктом. В этом году конференция была посвящена искусственному интеллекту, в отличие от предыдущих конференций, посвященных дополненной реальности и виртуальной реальности.
Мета утверждает, что помощник использует собственную модель, основанную на мощной крупномасштабной языковой модели Llama2, которая была доступна для коммерческого использования в июле этого года, а также новую модель под названием Emu, которая генерирует изображения на основе текстовых подсказок.
Продукт сможет генерировать текст, аудио и изображения, а также сможет получать доступ к информации в реальном времени благодаря сотрудничеству с поисковой системой Microsoft Bing. Публичные публикации в Facebook и Instagram, используемые для обучения MetaAI, также включают текст и фотографии.
Представитель Meta сообщил Reuters, что сообщения использовались для тренировки возможностей генерации изображений Emu, а функция чата была основана на Llama2 с добавлением общедоступных наборов аннотированных данных.
По словам представителя, взаимодействие с MetaAI также может быть использовано для улучшения будущих функций. Meta накладывает ограничения безопасности на то, что могут генерировать инструменты MetaAI, например, запрещает создание реалистичных изображений общественных деятелей.
Что касается материалов, защищенных авторским правом, Клегг сказал, что он ожидает «значительного количества судебных разбирательств» по поводу того, «подпадает ли творческий контент под существующую доктрину добросовестного использования», которая допускает ограниченное использование защищенных произведений для таких целей, как комментарии, исследования и пародия.
Некоторые компании, располагающие инструментами для создания изображений, позволяют легко воспроизводить таких знаковых персонажей, как Микки Маус, в то время как другие платят за отснятый материал или намеренно избегают включения его в свои обучающие данные.
OpenAI, например, этим летом подписала шестилетний контракт с поставщиком контента Shutterstock на использование библиотеки изображений, видео и музыки компании для обучения.
На вопрос, предприняла ли Meta какие-либо подобные шаги, чтобы избежать копирования изображений, защищенных авторским правом, представитель Meta отметил, что новые условия обслуживания запрещают пользовательский контент, который нарушает права конфиденциальности и интеллектуальной собственности.