Переклад понад 70 мов у реальному часі - Google представила Gemini 3.5 Live Translate - новини технологій

Нова модель зберігає інтонацію співрозмовника та працює із затримкою лише кілька секунд.

Компанія Google оголосила про запуск Gemini 3.5 Live Translate — нової аудіомоделі штучного інтелекту для голосового перекладу в режимі реального часу. Система автоматично розпізнає понад 70 мов і здійснює переклад мовлення майже без затримок, зберігаючи інтонацію, темп і висоту голосу співрозмовника.

Розробники вважають новинку важливим кроком у розвитку технологій машинного перекладу. Якщо традиційні системи зазвичай чекають завершення фрази або речення перед початком перекладу, Gemini 3.5 Live Translate функціонує безперервно, генеруючи перекладений голос паралельно з мовленням спікера.

Згідно з інформацією Google, модель підтримує понад 2000 мовних комбінацій і здатна працювати навіть у шумному середовищі. Вона також автоматично визначає мову співрозмовників без потреби в ручному налаштуванні.

Одним із основних сценаріїв використання стануть міжнародні відеодзвінки та зустрічі. У Google Meet нова система значно розширить можливості функції перекладу мовлення. Якщо раніше сервіс підтримував лише п’ять мов і переважно працював через англійську, то тепер користувачі зможуть спілкуватися десятками мов без посередництва єдиної базової мови.

Закрите тестування вдосконаленого голосового перекладу в Google Meet розпочнеться наприкінці червня для частини бізнес-клієнтів Workspace. Розробники вже отримали доступ до Gemini 3.5 Live Translate через Gemini Live API та Google AI Studio. Протягом року планується розширити доступ до функції для більшої кількості користувачів.

Технологію вже тестують зовнішні партнери. Зокрема, компанія Grab використовує модель для багатомовного спілкування між водіями та пасажирами під час поїздок. За словами компанії, сервіс обслуговує понад 10 мільйонів голосових дзвінків щомісяця.

Новий переклад також з’явився у додатку Google Translate. Користувачі можуть під’єднати навушники та отримувати синхронний переклад розмови. Для Android додатково запустили режим Listening Mode, який дозволяє слухати переклад без навушників, приклавши смартфон до вуха, наче під час телефонної розмови.

У Google також зазначили, що весь аудіоконтент, створений Gemini 3.5 Live Translate, маркується цифровим водяним знаком SynthID. Він непомітний для слухача, але дозволяє визначати контент, згенерований ШІ, що має допомогти у боротьбі з дезінформацією та фейковими аудіозаписами.

Раніше Google без гучних анонсів запустив застосунок для перетворення мовлення на текст під назвою Google AI Edge Eloquent, який працює без підключення до інтернету. Додаток, що використовує моделі автоматичного розпізнавання мовлення Gemma, вже доступний для безкоштовного завантаження на iOS.

Google анонсувала нову функцію Gemini 3.5 Live Translate, яка забезпечує переклад більше ніж 70 мов у режимі реального часу.

Схожі публікації

Археологи провели дослідження 2000-річних залишків жінки, виявивши поховання з видаленим мозком та кістяними інструментами.

На людях протестували вакцину, розроблену за допомогою штучного інтелекту. Цей препарат має забезпечити захист від усіх відомих сарбековірусів.

У Словаччині виявили 77 безголових скелетів, які датуються 7000 роками. Черепи були усунуті навмисно в рамках незрозумілого ритуалу.

NASA представило команду астронавтів для місії Artemis III, запуск якої заплановано на 2027 рік.