Forklog
April 17, 2026 11:15 AM UTC

Новые релизы Google: ИИ-модели для озвучки текста, роботов и Gemini на macOS

Корпорация Google выпустила Gemini 3.1 Flash TTS — обновленную модель синтеза речи на базе поколения Gemini 3. Она отличается улучшенным качеством звука, выразительностью и более точным управлением, а также поддерживает более 70 языков. Нейросеть позволяет разработчикам, компаниям и рядовым пользователям создавать приложения с голосовым ИИ-интерфейсом.  Gemini 3.1 Flash TTS уже доступна: для разработчиков — в режиме предварительного доступа через Gemini API и Google AI Studio; для предприятий — в Vertex AI; для пользователей Workspace — через сервис Google Vids. Улучшенное качество речи и управляемость Модель набрала 1211 баллов в рейтинге Artificial Analysis TTS. Этот показатель сформирован на основе предпочтений тысяч респондентов, принимавших участие в слепом тестировании качества аудио. Источник: Google. Компания Artificial Analysis отнесла модель к группе наиболее привлекательных решений благодаря сочетанию высококачественного синтеза речи и низкой стоимости. LLM выделяется способностью генерировать естественные диалоги с участием нескольких спикеров. Новые аудио-теги В версии 3.1 Flash TTS появились аудио-теги — инструмент для управления стилем, темпом и манерой речи. «Первые разработчики и корпоративные тестировщики уже видят результаты работы 3.1 Flash TTS, отмечая ее впечатляющую управляемость и выразительность. Они рассказали нам, как аудио-теги обеспечивают новый уровень творческой точности, превращая простой текст в высококачественное голосовое исполнение», — говорится в блоге компании. ИИ-модель для робототехники Параллельно с Gemini 3.1 Flash TTS корпорация представила Gemini Robotics-ER 1.6. Эта ИИ-модель призвана обеспечить роботов возможностью выполнять сложные задачи в реальных условиях за счет улучшенных когнитивных функций и «воплощенного» мышления. Нейросеть специализируется на пространственном восприятии, планировании действий и оценке их успешности. Она демонстрирует заметные улучшения по сравнению со своей предшественницей и Gemini 3.0 Flash при выполнении заданий, связанных с пространственным и физическим мышлением. Gemini Robotics-ER 1.6 может интерпретировать данные со сложных измерительных приборов и наблюдать показатели через смотровые стекла. Эту возможность специалисты Google DeepMind разработали совместно с Boston Dynamics для нужд промышленного сектора. «Такие возможности позволяют автономно видеть, понимать и реагировать на реальные вызовы», — прокомментировал вице-президент проекта Spot в Boston Dynamics Марко да Сильва. В тестах на выявление угроз безопасности новинка превзошла Gemini 3.0 Flash на 6% в текстовых сценариях и на 10% при анализе видео. Интеграция LLM в реальные рабочие процессы уже началось: Boston Dynamics интегрировала Gemini и Gemini Robotics-ER 1.6 в собственную платформу Orbit AIVI-Learning. Gemini на macOS Кроме того, Google выпустила нативное приложение Gemini для macOS. Оно доступно по нажатию Option + Пробел. Среди функционала — возможность поделиться окном для мгновенной передачи контекста. Приложение поддерживает генерацию изображений с помощью Nano Banana, создание видео с Veo и другие привычные инструменты. Напомним, в апреле Google представила Gemma 4 — новое семейство открытых ИИ-моделей для продвинутых рассуждений и агентных рабочих процессов.

ChartModo Newsletter
阅读免责声明 : 此处提供的所有内容我们的网站,超链接网站,相关应用程序,论坛,博客,社交媒体帐户和其他平台(“网站”)仅供您提供一般信息,从第三方采购。 我们不对与我们的内容有任何形式的保证,包括但不限于准确性和更新性。 我们提供的内容中没有任何内容构成财务建议,法律建议或任何其他形式的建议,以满足您对任何目的的特定依赖。 任何使用或依赖我们的内容完全由您自行承担风险和自由裁量权。 在依赖它们之前,您应该进行自己的研究,审查,分析和验证我们的内容。 交易是一项高风险的活动,可能导致重大损失,因此请在做出任何决定之前咨询您的财务顾问。 我们网站上的任何内容均不构成招揽或要约