O Google anunciou o Gemini 3.1 Flash TTS, novo modelo de conversão de texto em fala focado em baixa latência, expressividade e controle fino por comandos em linguagem natural.
Voltado para desenvolvedores que criam assistentes de voz, dublagens automáticas e experiências imersivas de áudio, o modelo chega como o sistema de fala mais natural da empresa até agora.
Fala mais natural e expressiva
De acordo com análises técnicas, o Gemini 3.1 Flash TTS alcança pontuações de referência elevadas em testes de naturalidade de voz e permite controlar fatores como ritmo, tom, emoção e estilo diretamente via tags de áudio ou prompts descritivos.
Isso significa que desenvolvedores podem pedir, em texto, uma leitura “mais empolgada”, “mais calma” ou “com sotaque específico” sem ajustes manuais complexos.
Suporte a dezenas de idiomas e múltiplos locutores
O modelo foi projetado para operar em mais de 70 idiomas, com foco em cenários em que um mesmo conteúdo precisa ser distribuído globalmente com vozes naturais.
Outra novidade é o suporte nativo a diálogos com múltiplos locutores, o que facilita a criação de podcasts, roteiros dramáticos e experiências interativas com vários personagens falando em sequência.
Integração com Gemini API, Vertex AI e Google Vids
O Gemini 3.1 Flash TTS está disponível em preview por meio da Gemini API, do AI Studio e da plataforma corporativa Vertex AI, além de integrar fluxos de produção de áudio e vídeo no Google Vids.
Com isso, empresas podem usar o mesmo modelo para desde mensagens de atendimento telefônico até experiências multimodais complexas.
Foco em custo, velocidade e segurança
O modelo foi otimizado para baixa latência e uso em grande escala, mirando aplicações de alto volume, como assistentes virtuais e bots de atendimento.
Entre os recursos de segurança, o Google destaca a marca d’água SynthID, que permite identificar áudios gerados por IA e reduzir riscos de uso malicioso.
Disputa acirrada no mercado de voz generativa
Com o lançamento do Gemini 3.1 Flash TTS, o Google entra com mais força na competição com outras big techs e startups que oferecem síntese de voz avançada para jogos, educação, publicidade e criadores de conteúdo.
Você gostaria de usar um narrador de IA para produzir podcasts, vídeos ou aulas online? Compartilhe esta notícia com quem trabalha com criação de conteúdo digital.