9 апреля ByteDance запустила Seeduplex, крупномасштабную полнодуплексную голосовую модель, которая теперь полностью запущена в приложении Doubao. Эта модель основана на новой концепции «слушать и говорить одновременно». По сравнению с полудуплексной сквозной речевой моделью предыдущего поколения она обеспечивает одновременное взаимодействие слушания и речи в реальном времени, а также улучшает ритм разговора, естественность и способность защиты от помех.

Согласно официальному представлению, Seeduplex преодолел инженерные проблемы, такие как задержка и стабильность при высоком уровне параллелизма, благодаря инновациям в архитектуре модели и оптимизации обучения. Что касается точной защиты от помех, модель обладает способностью постоянно «слушать», понимать акустическую среду, в которой находится пользователь, и точно игнорировать фоновый шум и не относящиеся к делу разговоры. В сложных сценариях частота ложных ответов и частота ложных прерываний снижаются на 50 % по сравнению с полудуплексной моделью. С точки зрения динамического принятия решений модель сочетает в себе речевые и семантические функции для всестороннего определения намерений пользователя. Он может терпеливо выслушивать, когда пользователь колеблется, и быстро реагировать после того, как пользователь закончил говорить. Доля упреждающих вызовов снижается на 40% по сравнению с полудуплексной моделью, а производительность принятия решений повышается на 8%.

Многомерная оценка показывает, что Seeduplex значительно превосходит традиционное полудуплексное решение и функцию голосового вызова основных приложений в отрасли с точки зрения плавности и ритма разговора. Эта модель стала первой в отрасли, которая достигла широкомасштабного внедрения и может обеспечить непрерывное высококачественное голосовое взаимодействие в реальном времени для сотен миллионов пользователей.