O modelo de geração de imagens de código aberto recém-lançado da Z.ai, GLM-Image, demonstrou um desempenho superior na renderização de texto complexo em imagens em comparação com o Nano Banana Pro proprietário do Google, também conhecido como Gemini 3 Pro Image. O modelo de 16 bilhões de parâmetros da startup chinesa recém-tornada pública utiliza um novo design híbrido de difusão auto-regressiva (AR), afastando-se da arquitetura de difusão pura comumente usada nos principais geradores de imagens.
O desenvolvimento surge em meio a um aumento na popularidade de modelos de IA capazes de gerar imagens com texto integrado, impulsionado pela crescente demanda por aplicações empresariais, como materiais de marketing, materiais de treinamento e comunicações internas. Carl Franzen, da VentureBeat, relatou em 14 de janeiro de 2026 que o Nano Banana Pro do Google, parte da família de modelos de IA Gemini 3 lançada no final do ano passado, ganhou força significativa por sua velocidade e precisão na renderização de infográficos com muito texto.
Os modelos de difusão tradicionais geram imagens refinando progressivamente o ruído aleatório, um processo que pode ter dificuldades com o posicionamento preciso e a clareza necessários para a renderização de texto. A abordagem de difusão AR híbrida do GLM-Image combina essa técnica com métodos auto-regressivos, que preveem o próximo elemento em uma sequência com base nos elementos precedentes. Isso permite um maior controle sobre o processo de geração de imagens, particularmente em áreas que envolvem texto.
As implicações desse desenvolvimento vão além da mera superioridade técnica. A natureza de código aberto do GLM-Image oferece acessibilidade e opções de personalização não disponíveis com modelos proprietários como o Nano Banana Pro. Isso pode promover a inovação e uma adoção mais ampla da geração de imagens com tecnologia de IA em vários setores, especialmente para organizações que buscam soluções econômicas e adaptáveis.
"A capacidade de renderizar com precisão o texto dentro das imagens é crucial para muitas aplicações do mundo real", observou Franzen. "O desempenho do GLM-Image sugere que os modelos de código aberto estão rapidamente alcançando e, em alguns casos, superando seus equivalentes proprietários."
A ascensão de modelos de geração de imagens proprietários e de código aberto destaca os rápidos avanços na tecnologia de IA e seu potencial para transformar fluxos de trabalho criativos. Embora a família Gemini 3 do Google e o Claude Code da Anthropic tenham recebido considerável atenção, o surgimento do GLM-Image sinaliza um cenário competitivo crescente e a crescente viabilidade de alternativas de código aberto.
A Z.ai ainda não divulgou especificações técnicas detalhadas ou benchmarks comparando o GLM-Image diretamente ao Nano Banana Pro. No entanto, relatórios iniciais e feedback dos usuários sugerem uma melhoria notável na precisão e coerência da renderização de texto. O modelo está atualmente disponível para download e experimentação em plataformas como Fal.ai, permitindo que pesquisadores e desenvolvedores avaliem ainda mais suas capacidades e contribuam para seu desenvolvimento contínuo. A empresa planeja lançar novas atualizações e melhorias no GLM-Image com base no feedback da comunidade nos próximos meses.
Discussion
Join the conversation
Be the first to comment