Функциональность создания изображений ChatGPT была обновлена

Во время прямой трансляции во вторник генеральный директор OpenAI Сэм Альтман объявил о первом крупном обновлении возможностей генерации изображений ChatGPT за более чем год. ChatGPT теперь может использовать модель GPT-4o компании для создания и изменения изображений и фотографий. GPT-4o уже давно является основой платформ чат-ботов с искусственным интеллектом, но до сих пор модель могла генерировать и редактировать только текст, а не изображения.

Альтман сказал, что собственная генерация изображений GPT-4o теперь доступна в ChatGPT и продукте OpenAI для генерации видео с использованием искусственного интеллекта Sora, доступном подписчикам плана Pro компании за 200 долларов в месяц. OpenAI заявила, что эта функция скоро будет доступна для Plus и бесплатных пользователей ChatGPT, а также разработчиков, использующих сервисы API компании.

GPT-4o с выводом изображения «думает» дольше, чем модель генерации изображений, которую он эффективно заменяет, DALL-E3, создавая то, что OpenAI описывает как более точные и детальные изображения. GPT-4o может редактировать существующие изображения, в том числе изображения с людьми, преобразуя их или «исправляя» детали, такие как объекты переднего плана и фона.

OpenAI не раскрыла, какие данные изображения она использовала для реализации новой функции генерации изображений. Многие поставщики генеративного ИИ рассматривают данные обучения как конкурентное преимущество и поэтому скрывают их и информацию, окружающую их. Но подробности данных обучения могут также спровоцировать судебные разбирательства, связанные с интеллектуальной собственностью, и это еще одна причина, по которой компании не хотят раскрывать слишком много информации.

OpenAI предоставляет форму отказа, которая позволяет авторам запросить удаление их работ из наборов обучающих данных. Компания также заявила, что уважает просьбы запретить ее веб-ботам собирать обучающие данные, включая изображения, с веб-сайтов.

Обновленные возможности генерации изображений ChatGPT следуют за экспериментальным собственным выводом изображений Google для одной из его флагманских моделей — Gemini 2.0 Flash. Эта мощная функция становится вирусной в социальных сетях — и не обязательно по уважительным причинам. Графический компонент Gemini2.0 Flash имеет мало средств защиты, что позволяет людям удалять водяные знаки и создавать изображения, изображающие персонажей, защищенных авторским правом.