Google Gemini passa a criar clipes musicais de até 30 segundos
O Google libera em 19 de fevereiro de 2026 um recurso que transforma o Gemini em estúdio musical de bolso. O chatbot agora gera clipes de até 30 segundos, com voz e instrumentos, a partir de simples comandos de texto, imagem ou vídeo.
Chatbot ganha função de estúdio musical
O novo recurso fica disponível diretamente na interface online do Google Gemini, sem necessidade de qualquer software extra. Em poucos segundos, o usuário descreve o estilo, o clima e os instrumentos desejados e recebe uma faixa curta, pronta para uso em vídeos, redes sociais ou projetos pessoais. A criação roda sobre o modelo musical Lyria 3, da própria gigante de tecnologia, e nasce já sob a lógica de evitar problemas de direitos autorais.
A mudança altera o papel do chatbot na rotina digital. Até aqui, o Gemini se destaca por responder perguntas, resumir textos e gerar imagens. A partir de agora, também compõe, canta e produz bases instrumentais, inclusive em português do Brasil. Para quem produz conteúdo, o serviço elimina etapas inteiras de trabalho que antes dependiam de editores de áudio e bancos de trilhas pagas.
Como funciona a criação de faixas pelo Gemini
O funcionamento parte de um princípio simples: quanto mais detalhado o comando, melhor o resultado. Em vez de pedir apenas “faça uma música animada”, o usuário consegue especificar vertente musical, instrumentos, andamento e atmosfera. Um pedido como “Crie um ska tradicional com linha de baixo marcante, metais enérgicos e guitarra no contratempo” produz uma faixa muito mais precisa do que descrições genéricas.
O sistema também interpreta emoções e ritmos com precisão. Termos como “melancólico”, “eufórico”, “relaxante” ou “cinemático” ajudam a moldar o clima dos 30 segundos de áudio. Na prática, o Gemini combina essas pistas com informações de gênero e andamento para montar arranjos coerentes, com introdução, desenvolvimento e encerramento condensados no curto espaço de tempo disponível.
A IA vai além dos instrumentos. O modelo gera performances vocais bastante realistas, inclusive em português. O usuário define se quer um “vocal feminino suave e sussurrado” ou um “rap rápido com voz grave”, por exemplo. Caso prefira apenas uma base instrumental, basta indicar explicitamente que deseja uma “faixa 100% instrumental”. A letra não precisa ser escrita verso a verso, mas o sistema exige um norte dramático. Uma instrução como “A letra deve falar sobre a sensação de superar um obstáculo em um dia de sol” já orienta o conteúdo.
O Google mantém filtros rígidos para evitar cópias de artistas conhecidos. Pedidos para “imitar o estilo” de cantores ou bandas famosos tendem a ser barrados pelos sistemas de proteção, que bloqueiam a geração do áudio. O usuário, então, precisa reformular o comando e apostar em descrições mais abertas de clima, gênero e instrumentos, sem vincular a criação a uma figura específica.
O recurso também conversa com outras capacidades multimodais do Gemini. Em vez de digitar longas descrições, é possível enviar uma foto ou um trecho de vídeo e pedir: “Analise esta imagem e crie uma trilha sonora de 30 segundos que combine com a emoção desta cena”. O modelo lê o conteúdo visual, identifica contexto e emoção e devolve uma trilha sob medida. Em paralelo, o Nano Banana, modelo voltado à geração de imagens, cria uma capa exclusiva inspirada no mesmo arquivo.
Na prática, o usuário passa a contar com um pacote completo: composição, performance vocal, arranjo instrumental e identidade visual. Tudo nasce em uma única conversa com o chatbot, em questão de minutos, com liberdade para refazer pedidos, ajustar o tom da voz, trocar o gênero ou mudar o foco da letra sem custo adicional por tentativa.
Democratização da composição e impacto na indústria
A possibilidade de gerar clipes musicais sob encomenda, em 30 segundos, amplia o alcance da criação musical. Amadores que nunca pisaram em um estúdio agora desenham faixas personalizadas apenas descrevendo o que imaginam. Pequenos criadores de conteúdo, que antes dependiam de trilhas prontas ou de músicas de domínio público, passam a produzir sons exclusivos para cada vídeo, anúncio ou postagem.
Para profissionais, o Gemini funciona como bloco de rascunho acelerado. Um compositor testa ideias de clima e arranjo em minutos, sem contratar músicos ou reservar um estúdio. Produtores independentes montam referências sonoras para apresentar a clientes, antes de entrar em gravações de maior custo. A limitação dos 30 segundos, pensada para clipes curtos, combina com o formato dominante de vídeos nas redes sociais, que raramente ultrapassam um minuto.
Esse avanço pressiona concorrentes diretos na corrida da inteligência artificial generativa. Plataformas rivais, que hoje oferecem geração de texto e imagem, tendem a acelerar o lançamento de ferramentas equivalentes de áudio para não perder espaço no mercado criativo. O movimento também desloca o debate jurídico. Ao bloquear comandos que tentam copiar artistas específicos, o Google sinaliza uma estratégia de convivência com a indústria musical, mas deixa em aberto qual é a fronteira entre “influência” e “imitação” na prática.
Editores de áudio tradicionais e bancos de trilhas pagas sentem o impacto de forma mais imediata. Parte da demanda por vinhetas simples e trilhas de fundo migra para soluções automáticas, de custo muito menor. Ao mesmo tempo, cresce o peso do trabalho humano em etapas mais sofisticadas, como mixagem profissional, masterização e criação de músicas longas para shows, filmes ou álbuns completos, áreas em que os 30 segundos do Gemini ainda não concorrem diretamente.
Um exemplo ilustra o potencial criativo da nova função. Em um único comando, é possível pedir “uma música de piseiro alternativo e forró eletrônico com forte influência de dream pop, com sanfona sintetizada suave, baixo eletrônico profundo e batida cadenciada, clima romântico e etéreo, vocal feminino doce e sussurrado em português e letra sobre a saudade de um chamego”. A IA entrega um clipe pronto nesse exato espírito, algo que, em um fluxo tradicional, exigiria músicos, arranjador e horas de estúdio.
Próximos passos e novas disputas criativas
A estreia do recurso musical do Gemini marca apenas o primeiro movimento de uma tendência mais ampla. À medida que o modelo evolui, a expectativa é que a duração dos áudios aumente, que os controles de produção fiquem mais finos e que o usuário possa editar trechos específicos, como se operasse uma estação de trabalho de áudio profissional diretamente no navegador.
Nos bastidores, a indústria cultural observa com atenção. Gravadoras, plataformas de streaming e sociedades de gestão coletiva devem pressionar por regras mais claras sobre crédito, remuneração e limites de uso comercial dessas faixas geradas por IA. Do outro lado, criadores independentes enxergam uma chance rara de ampliar catálogo e experimentação sem grandes investimentos. O que começa em 2026 com clipes de 30 segundos pode, em poucos anos, redesenhar o próprio conceito de autoria musical.
