Согласно VentureBeat, недавно выпущенная модель генерации изображений с открытым исходным кодом GLM-Image от Z.ai превзошла проприетарную Nano Banana Pro от Google в рендеринге сложного текста внутри изображений, что знаменует собой значительный прогресс для ИИ с открытым исходным кодом. Модель с 16 миллиардами параметров от недавно вышедшего на биржу китайского стартапа использует гибридную авторегрессионную (AR) диффузионную конструкцию, что является отходом от чистой диффузионной архитектуры, обычно используемой в ведущих генераторах изображений.
Разработка появилась на фоне растущего внедрения моделей ИИ для генерации изображений, особенно для корпоративных приложений. Nano Banana Pro от Google (также известная как Gemini 3 Pro Image), часть семейства моделей ИИ Gemini 3, выпущенного в конце прошлого года, приобрела популярность благодаря своей скорости и точности при создании инфографики с большим количеством текста, подходящей для сопутствующих материалов, учебных материалов и канцелярских товаров. Claude Code от Anthropic также переживает всплеск популярности.
Карл Франзен из VentureBeat сообщил 14 января 2026 года, что успех GLM-Image ставит под сомнение представление о том, что проприетарные модели по своей сути превосходят в конкретных задачах, таких как рендеринг сложного текста. Модель была создана с помощью GLM-Image на Fal.ai.
Переход к гибридной AR диффузионной конструкции является ключевым фактором в производительности GLM-Image. Традиционные диффузионные модели постепенно уточняют изображение из шума, в то время как AR модели предсказывают следующий элемент в последовательности. Комбинируя эти подходы, GLM-Image, по-видимому, достигла большей точности в размещении текста и четкости внутри изображений.
Последствия этой разработки выходят за рамки простых технических спецификаций. Доступность высокопроизводительной альтернативы с открытым исходным кодом проприетарным моделям, таким как Nano Banana Pro, может демократизировать доступ к расширенным возможностям генерации изображений. Предприятия и частные лица, которые, возможно, не могли позволить себе использовать проприетарные сервисы, теперь имеют жизнеспособный вариант.
Рост ИИ с открытым исходным кодом также поднимает вопросы о будущем развития ИИ. В то время как проприетарные модели часто выигрывают от значительных инвестиций и ресурсов, проекты с открытым исходным кодом полагаются на вклад и сотрудничество сообщества. Успех GLM-Image предполагает, что этот совместный подход может дать конкурентоспособные результаты.
Текущий статус GLM-Image включает в себя текущую оценку и доработку сообществом. По мере того, как все больше разработчиков и пользователей экспериментируют с моделью, ее возможности и ограничения станут более ясными. Будущие разработки могут включать дальнейшую оптимизацию архитектуры, расширение данных для обучения и интеграцию с другими инструментами с открытым исходным кодом.
Discussion
Join the conversation
Be the first to comment