Новая модель генерации изображений с открытым исходным кодом GLM-Image от Z.ai продемонстрировала превосходную производительность в рендеринге сложного текста в изображениях по сравнению с проприетарной моделью Nano Banana Pro от Google, также известной как Gemini 3 Pro Image. Модель с 16 миллиардами параметров от недавно вышедшего на рынок китайского стартапа использует новую гибридную авторегрессионную (AR) диффузионную архитектуру, отходя от чистой диффузионной архитектуры, обычно используемой в ведущих генераторах изображений.
Разработка появилась на фоне роста популярности моделей ИИ, способных генерировать изображения со встроенным текстом, что обусловлено растущим спросом на корпоративные приложения, такие как маркетинговые материалы, учебные материалы и внутренние коммуникации. Карл Франзен из VentureBeat сообщил 14 января 2026 года, что Nano Banana Pro от Google, часть семейства моделей ИИ Gemini 3, выпущенного в конце прошлого года, приобрела значительную популярность благодаря своей скорости и точности в рендеринге инфографики с большим количеством текста.
Традиционные диффузионные модели генерируют изображения путем последовательного уточнения случайного шума, процесс, который может испытывать трудности с точным размещением и четкостью, необходимыми для рендеринга текста. Гибридный AR-диффузионный подход GLM-Image сочетает в себе этот метод с авторегрессионными методами, которые предсказывают следующий элемент в последовательности на основе предыдущих элементов. Это обеспечивает больший контроль над процессом генерации изображений, особенно в областях, связанных с текстом.
Последствия этой разработки выходят за рамки простого технического превосходства. Открытый исходный код GLM-Image предоставляет возможности доступа и настройки, недоступные для проприетарных моделей, таких как Nano Banana Pro. Это может способствовать инновациям и более широкому внедрению генерации изображений на основе ИИ в различных секторах, особенно для организаций, стремящихся к экономически эффективным и адаптируемым решениям.
"Возможность точно отображать текст в изображениях имеет решающее значение для многих реальных приложений", - отметил Франзен. "Производительность GLM-Image предполагает, что модели с открытым исходным кодом быстро догоняют, а в некоторых случаях и превосходят свои проприетарные аналоги".
Рост как проприетарных, так и моделей генерации изображений с открытым исходным кодом подчеркивает быстрый прогресс в технологии ИИ и ее потенциал для преобразования творческих рабочих процессов. В то время как семейство Gemini 3 от Google и Claude Code от Anthropic привлекли значительное внимание, появление GLM-Image сигнализирует о растущей конкурентной среде и растущей жизнеспособности альтернатив с открытым исходным кодом.
Z.ai еще не опубликовала подробные технические характеристики или тесты, сравнивающие GLM-Image напрямую с Nano Banana Pro. Однако первоначальные отчеты и отзывы пользователей свидетельствуют о заметном улучшении точности и согласованности рендеринга текста. Модель в настоящее время доступна для загрузки и экспериментов на таких платформах, как Fal.ai, что позволяет исследователям и разработчикам дополнительно оценить ее возможности и внести свой вклад в ее дальнейшее развитие. Компания планирует выпустить дальнейшие обновления и улучшения GLM-Image на основе отзывов сообщества в ближайшие месяцы.
Discussion
Join the conversation
Be the first to comment