OpenAI запускает три модели речи в реальном времени, которые могут «думать», переводить и расшифровывать во время прослушивания

OpenAI сегодня выпустила три новые модели речи в реальном времени, стремясь «открыть новое поколение форм речевых приложений» для разработчиков. Эти три модели речевого интеллекта ориентированы на различные сценарии, такие как логический диалог, перевод в реальном времени и транскрипция в реальном времени.

Согласно информации, опубликованной OpenAI, в новую серию входят три модели: GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper. Среди них GPT‑Realtime‑2 позиционируется как первая речевая модель с возможностями рассуждения уровня GPT‑5, которая может лучше обрабатывать сложные запросы и продолжать вести разговор более естественным образом. Согласно официальному описанию, эта модель специально создана для голосового взаимодействия в реальном времени. Когда пользователи задают вопросы или дают инструкции, они могут рассуждать, сохраняя при этом связный разговор. В то же время они также могут вызывать инструменты, обрабатывать вмешательства пользователя и вносить исправления, а также принимать более адекватные ответы в зависимости от текущей ситуации.

Вторая модель, GPT‑Realtime‑Translate, ориентирована на возможности перевода в реальном времени, поддерживает «более 70 языков ввода и 13 языков вывода» и пытается не отставать от скорости речи говорящего во время процесса перевода. Эта функция означает, что в таких сценариях, как межъязыковые звонки, встречи или прямые трансляции, ожидается, что эта модель обеспечит качество, близкое к «синхронному переводу».

Третий GPT‑Realtime‑Whisper — это модель потоковой транскрипции речи в реальном времени, ориентированная на возможности преобразования речи в текст с малой задержкой. OpenAI заявила, что модель может мгновенно завершить транскрипцию, пока говорящий говорит, благодаря чему различные продукты в реальном времени будут выглядеть быстрее, более отзывчивыми и более естественными. От живых субтитров, «говорящих во время разговора», до записей встреч, которые могут идти в ногу с темпом обсуждений, такие сценарии применения считаются основным направлением GPT‑Realtime‑Whisper.

Что касается методов доступа и цен, OpenAI сообщила, что три новые речевые модели были включены в ее систему API реального времени. GPT‑Realtime‑2 стоит 32 доллара США за 1 миллион токенов аудиовхода (0,40 доллара США за кэшированные токены ввода) и 64 доллара США за 1 миллион токенов аудиовыхода. GPT‑Realtime‑Translate стоит 0,034 доллара США за минуту, а GPT‑Realtime‑Whisper — 0,017 доллара США за минуту.

OpenAI заявила, что разработчики могут напрямую тестировать эти новые модели речи в реальном времени через игровую площадку. Если у вас уже установлен Кодекс, просто нажмите «Отправить» в соответствующем запросе, чтобы добавить GPT‑Realtime‑2 к существующему приложению или быстро создать новое приложение на основе модели. Чиновник также представил на своем веб-сайте технические подробности этих трех моделей голоса и рассказал о том, как некоторые компании-партнеры использовали их в реальных продуктах.

В контексте продолжающегося развития генеративного ИИ в сторону мультимодальности и взаимодействия в реальном времени три речевые модели, выпущенные OpenAI, считаются еще одним важным макетом в направлении «голосового интеллекта». Благодаря унифицированной интеграции возможностей рассуждения, перевода и транскрипции разработчики смогут с большей легкостью предоставлять пользователям возможности голосового искусственного интеллекта, которые «доступны в любой момент». Ожидается, что от вспомогательных инструментов до приложений для повышения производительности, создания контента и услуг обеспечения доступности он откроет новый виток исследований и инноваций.