El modelo de generación de imágenes de código abierto recientemente lanzado por Z.ai, GLM-Image, ha demostrado un rendimiento superior en la representación de texto complejo dentro de las imágenes en comparación con Nano Banana Pro, propiedad de Google, también conocido como Gemini 3 Pro Image. El modelo de 16 mil millones de parámetros de la startup china recientemente pública utiliza un novedoso diseño híbrido de difusión auto-regresiva (AR), que se aparta de la arquitectura de difusión pura comúnmente utilizada en los principales generadores de imágenes.
El desarrollo se produce en medio de un aumento en la popularidad de los modelos de IA capaces de generar imágenes con texto integrado, impulsado por la creciente demanda de aplicaciones empresariales como material de marketing, materiales de capacitación y comunicaciones internas. Carl Franzen de VentureBeat informó el 14 de enero de 2026 que Nano Banana Pro de Google, parte de la familia de modelos de IA Gemini 3 lanzada a finales del año pasado, había ganado una tracción significativa por su velocidad y precisión en la representación de infografías con mucho texto.
Los modelos de difusión tradicionales generan imágenes refinando progresivamente el ruido aleatorio, un proceso que puede tener dificultades con la ubicación precisa y la claridad requeridas para la representación de texto. El enfoque de difusión AR híbrido de GLM-Image combina esta técnica con métodos auto-regresivos, que predicen el siguiente elemento en una secuencia basándose en los elementos precedentes. Esto permite un mayor control sobre el proceso de generación de imágenes, particularmente en áreas que involucran texto.
Las implicaciones de este desarrollo se extienden más allá de la mera superioridad técnica. La naturaleza de código abierto de GLM-Image proporciona opciones de accesibilidad y personalización no disponibles con modelos propietarios como Nano Banana Pro. Esto podría fomentar la innovación y una adopción más amplia de la generación de imágenes impulsada por IA en varios sectores, especialmente para las organizaciones que buscan soluciones rentables y adaptables.
"La capacidad de representar con precisión el texto dentro de las imágenes es crucial para muchas aplicaciones del mundo real", señaló Franzen. "El rendimiento de GLM-Image sugiere que los modelos de código abierto están alcanzando rápidamente, y en algunos casos superando, a sus contrapartes propietarias".
El auge de los modelos de generación de imágenes tanto propietarios como de código abierto destaca los rápidos avances en la tecnología de IA y su potencial para transformar los flujos de trabajo creativos. Si bien la familia Gemini 3 de Google y Claude Code de Anthropic han atraído una atención considerable, el surgimiento de GLM-Image señala un panorama competitivo creciente y la viabilidad cada vez mayor de las alternativas de código abierto.
Z.ai aún no ha publicado especificaciones técnicas detalladas o puntos de referencia que comparen GLM-Image directamente con Nano Banana Pro. Sin embargo, los informes iniciales y los comentarios de los usuarios sugieren una mejora notable en la precisión y coherencia de la representación del texto. El modelo está actualmente disponible para su descarga y experimentación en plataformas como Fal.ai, lo que permite a los investigadores y desarrolladores evaluar aún más sus capacidades y contribuir a su desarrollo continuo. La compañía planea lanzar más actualizaciones y mejoras a GLM-Image basadas en los comentarios de la comunidad en los próximos meses.
Discussion
Join the conversation
Be the first to comment