OpenAI разрабатывает модель двусторонней речи: он может реагировать мгновенно, даже если его прерывают, делая звонки более естественными и плавными

По сообщениям СМИ,OpenAI разрабатывает новую речевую модель, призванную сделать общение пользователей с ChatGPT более естественным и плавным. Основной прорыв этой технологии заключается в том, что когда пользователь прерывает систему во время разговора ИИ, ИИ может корректировать ответ в реальном времени, а не внезапно останавливаться, как сейчас.

В настоящее время расширенный голосовой режим ChatGPT использует механизм пошагового диалога. Пользователь должен закончить говорить, прежде чем ИИ обработает голос и сгенерирует ответ. Если пользователь вставляет короткий ответ, например «хорошо» или «хм», когда говорит ИИ, система обычно немедленно останавливается и не может продолжать общение, как обычный разговор.

Чтобы решить эту проблему,BiDi (модель двунаправленной речи), разрабатываемая OpenAI, непрерывно обрабатывает речевой ввод говорящего, поэтому он может немедленно скорректировать свою реакцию в случае прерывания.Напротив, как только существующие речевые модели начинают генерировать ответы, выходной контент в основном фиксирован и не может меняться в зависимости от новых входных данных.

Эта технология все еще находится на стадии разработки. По словам людей, знакомых с ситуацией, прототип модели был склонен к сбоям и иногда даже издавал неестественные звуки после нескольких минут продолжительного разговора. Исследователи OpenAI изначально надеялись выпустить BiDi в первом квартале этого года, но последний выпуск может быть перенесен на второй квартал или позже.

В OpenAI считают, что если речевая модель сможет приблизиться по производительности к текстовой модели, сфера использования ИИ еще больше расширится, ведь большинство людей больше привыкли к голосовому общению с ИИ, а не к вводу текста. Модель BiDi может быть особенно ценной в сценариях обслуживания клиентов.

Например, когда клиент разговаривает со службой поддержки клиентов ИИ розничного продавца, если клиент временно решает обменять продукт вместо того, чтобы вернуть его во время разговора, модель BiDi теоретически может позволить службе поддержки клиентов ИИ плавно корректировать разговор без внезапных остановок или путаницы.

Люди, знакомые с этим вопросом, также сообщили, что модель BiDi также более гибка при вызове внешних инструментов и приложений.Ранее OpenAI заявляла, что компания планирует улучшить голосовую модель для будущего устройства искусственного интеллекта, которое в основном взаимодействует посредством голоса, и рассматривает возможность разработки интеллектуального динамика, который сможет проверять электронную почту или заказывать услуги с помощью голосовых команд.