Google анонсувала нову функцію Gemini 3.5 Live Translate, яка забезпечує переклад більше ніж 70 мов у режимі реального часу.

Нова модель зберігає інтонацію співрозмовника та працює із затримкою лише кілька секунд.

Компанія Google оголосила про запуск Gemini 3.5 Live Translate — нової аудіомоделі штучного інтелекту для голосового перекладу в режимі реального часу. Система автоматично розпізнає понад 70 мов і здійснює переклад мовлення майже без затримок, зберігаючи інтонацію, темп і висоту голосу співрозмовника.

Розробники вважають новинку важливим кроком у розвитку технологій машинного перекладу. Якщо традиційні системи зазвичай чекають завершення фрази або речення перед початком перекладу, Gemini 3.5 Live Translate функціонує безперервно, генеруючи перекладений голос паралельно з мовленням спікера.

Згідно з інформацією Google, модель підтримує понад 2000 мовних комбінацій і здатна працювати навіть у шумному середовищі. Вона також автоматично визначає мову співрозмовників без потреби в ручному налаштуванні.

Одним із основних сценаріїв використання стануть міжнародні відеодзвінки та зустрічі. У Google Meet нова система значно розширить можливості функції перекладу мовлення. Якщо раніше сервіс підтримував лише п’ять мов і переважно працював через англійську, то тепер користувачі зможуть спілкуватися десятками мов без посередництва єдиної базової мови.

Закрите тестування вдосконаленого голосового перекладу в Google Meet розпочнеться наприкінці червня для частини бізнес-клієнтів Workspace. Розробники вже отримали доступ до Gemini 3.5 Live Translate через Gemini Live API та Google AI Studio. Протягом року планується розширити доступ до функції для більшої кількості користувачів.

Технологію вже тестують зовнішні партнери. Зокрема, компанія Grab використовує модель для багатомовного спілкування між водіями та пасажирами під час поїздок. За словами компанії, сервіс обслуговує понад 10 мільйонів голосових дзвінків щомісяця.

Новий переклад також з’явився у додатку Google Translate. Користувачі можуть під’єднати навушники та отримувати синхронний переклад розмови. Для Android додатково запустили режим Listening Mode, який дозволяє слухати переклад без навушників, приклавши смартфон до вуха, наче під час телефонної розмови.

У Google також зазначили, що весь аудіоконтент, створений Gemini 3.5 Live Translate, маркується цифровим водяним знаком SynthID. Він непомітний для слухача, але дозволяє визначати контент, згенерований ШІ, що має допомогти у боротьбі з дезінформацією та фейковими аудіозаписами.

Раніше Google без гучних анонсів запустив застосунок для перетворення мовлення на текст під назвою Google AI Edge Eloquent, який працює без підключення до інтернету. Додаток, що використовує моделі автоматичного розпізнавання мовлення Gemma, вже доступний для безкоштовного завантаження на iOS.

Google