DeepL, компания, занимающаяся искусственным интеллектом, известная своими инструментами для перевода текста, сегодня выпустила портфель продуктов для перевода речи в речь, чтобы выйти на рынок перевода речи в режиме реального времени, охватывая различные сценарии, такие как онлайн-встречи, мобильные и веб-разговоры, а также групповое общение с участием сотрудников, работающих на переднем крае, с помощью специализированных приложений. В то же время DeepL также запустила API для разработчиков и предприятий для поддержки индивидуальных решений голосового перевода для колл-центров и других предприятий на основе своей технологии.

Генеральный директор DeepL Ярек Кутыловски заявил в интервью, что после многих лет работы над переводом текста речь стала «естественным следующим шагом компании». Он подчеркнул, что DeepL прошла долгий путь в переводе текста и документов, но в сфере перевода речи в реальном времени «по-прежнему отсутствует по-настоящему выдающийся продукт», поэтому компания решила войти.

Кутловский отметил, что основная трудность при создании продукта для перевода в реальном времени заключается в том, как найти баланс между сокращением задержек и сохранением точности. Так называемая задержка относится к разнице во времени между тем, когда пользователь говорит, и когда воспроизводится переведенный голос. В сценариях конференции и диалога, чем меньше разница, тем ближе опыт общения пользователя к «одновременному диалогу».

В этом выпуске DeepL запускает плагины для Zoom и Microsoft Teams, позволяющие слушателям на удаленных собраниях слушать всех участников, говорящих на их родных языках, слышать переведенные голоса в реальном времени или читать переведенные субтитры в реальном времени на экране. Программа все еще находится на ранней стадии тестирования, и DeepL приглашает компании присоединиться к списку ожидания, чтобы первыми опробовать эту функцию. Кроме того, компания также предоставляет продукты для общения для мобильных терминалов и веб-страниц, позволяющие пользователям общаться на разных языках лично или удаленно.

Для сценариев с участием нескольких человек в автономном режиме или онлайн-группах, таких как обучение и семинары, DeepL позволяет участникам присоединиться к одному сеансу, отсканировав QR-код, и каждый может получить переведенный контент на соответствующем языке на своем устройстве. DeepL заявила, что ее технология преобразования речи в речь также может изучать и адаптировать специальную лексику, такую ​​​​как вертикальные отраслевые термины, названия компаний и личные имена, чтобы улучшить ее использование в профессиональных сценариях.

Кутловский считает, что искусственный интеллект изменит облик индустрии обслуживания клиентов в ближайшие несколько лет. Высококачественный уровень перевода может помочь компаниям по-прежнему предоставлять многоязычную сервисную поддержку на рынке, где не хватает специалистов, владеющих местным языком, а затраты на подбор персонала высоки. В соответствии с этим видением DeepL надеется, что ее голосовая технология не только будет использоваться в сценариях конференций, но и станет одной из основных языковых инфраструктур для центров обслуживания клиентов и глобальных предприятий.

Что касается технической дорожной карты, DeepL заявила, что ее текущие продукты основаны на полностью разработанном стеке технологий преобразования речи в речь, но на данном этапе она все еще использует трехэтапный процесс «речь в текст – перевод текста – текст в речь». Компания считает, что ее долгосрочная ориентация на перевод текста дает ей преимущество в общем качестве перевода. В дальнейшем DeepL планирует разработать сквозную модель перевода речи, которая исключает промежуточные этапы текста, чтобы добиться дальнейшего улучшения задержки и естественности.

В области речи и перевода DeepL сталкивается с конкуренцией со стороны множества стартапов. Среди них Sanas в прошлом году привлек $65 млн от Quadrille Capital и Tele Performance. Основное внимание уделяется технологии, которая изменяет акцент говорящих в режиме реального времени, в основном для операторов колл-центра. Camb.AI со штаб-квартирой в Дубае предоставляет услуги синтеза и перевода речи для медиа- и развлекательных компаний, помогая клиентам выполнять дубляж и локализацию крупномасштабного контента. Компания Palabra, финансируемая фондом Seven Seven Six соучредителя Reddit Алексиса Оганяна, создает механизм перевода речи в реальном времени, который делает упор на сохранение исходных характеристик голоса говорящего во время процесса перевода, образуя более прямую конкурентную связь с возможностями, создаваемыми DeepL.

Закрепившись на рынке перевода текста, DeepL пытается расширить свои границы за счет голосовых продуктов, распространяя эту технологию на совместную конференцию, обслуживание клиентов и сценарии работы на переднем крае. Поскольку все больше компаний стремятся использовать ИИ для снижения затрат на межъязыковое общение, ожидается, что перевод речи в реальном времени станет предметом нового раунда конкуренции, и DeepL ускоряет свое внедрение на этом направлении.