Google объявила о выпуске новой модели преобразования текста в речь Gemini‑TTS в серии Gemini 3.1, которая официально описывается как «самое выразительное решение для преобразования текста в речь на сегодняшний день». Новая модель может генерировать естественную и высококачественную речь, позволяя разработчикам контролировать эмоции, ритм и стиль речи с помощью подсказок, таких как точная настройка тона, пауз и эмоциональных изменений в повествовании или диалоге.

Что касается многоязычной поддержки, Gemini‑TTS охватывает около 70 языков, включая китайский (мандаринский диалект), английский, испанский, немецкий, японский и другие основные языки. Модель может автоматически определять язык входного текста и генерировать соответствующую речь без ручного указания типа языка. Эта возможность позволяет разработчикам и предприятиям использовать унифицированный набор API-интерфейсов для предоставления многоязычного голосового контента пользователям по всему миру в таких сценариях, как аудиокниги, подкасты, голосовые помощники, роботы для обслуживания клиентов и образовательные приложения.

Google также подчеркнул, что Gemini‑TTS сотрудничает с другими аудиомоделями серии Gemini 3.1 (такими как Gemini 3.1 Flash Live) для дальнейшего расширения возможностей «голосового опыта в реальном времени». При диалоге в реальном времени, переводе голоса и мультимодальном взаимодействии система может поддерживать низкую задержку, одновременно точно контролируя вывод голоса с помощью текстовых подсказок и аудиомаркеров, что позволяет агентам ИИ быть ближе к естественному человеческому голосовому взаимодействию в таких сценариях, как телефонные звонки, встречи и навигация.