Z.ai가 새롭게 공개한 오픈 소스 이미지 생성 모델인 GLM-Image는 이미지 내 복잡한 텍스트 렌더링 성능에서 Google의 독점 모델인 Nano Banana Pro(Gemini 3 Pro Image라고도 함)보다 우수한 성능을 입증했습니다. 최근 공개된 중국 스타트업에서 개발한 160억 개의 파라미터를 가진 이 모델은 기존 이미지 생성기에서 흔히 사용되는 순수 확산 아키텍처에서 벗어나 새로운 하이브리드 자기 회귀(AR) 확산 설계를 활용합니다.
이번 개발은 마케팅 자료, 교육 자료, 내부 커뮤니케이션과 같은 엔터프라이즈 애플리케이션에 대한 수요 증가에 힘입어 텍스트가 통합된 이미지를 생성할 수 있는 AI 모델의 인기가 급증하는 가운데 이루어졌습니다. VentureBeat의 Carl Franzen은 2026년 1월 14일에 Google의 Nano Banana Pro가 작년 말에 출시된 Gemini 3 AI 모델 제품군의 일부로서 텍스트가 많은 인포그래픽을 렌더링하는 속도와 정확성으로 상당한 인기를 얻었다고 보도했습니다.
기존 확산 모델은 무작위 노이즈를 점진적으로 개선하여 이미지를 생성하는데, 이 과정은 텍스트 렌더링에 필요한 정확한 배치와 선명도에 어려움을 겪을 수 있습니다. GLM-Image의 하이브리드 AR 확산 방식은 이러한 기술과 자기 회귀 방식을 결합하여 이전 요소를 기반으로 시퀀스의 다음 요소를 예측합니다. 이를 통해 특히 텍스트와 관련된 영역에서 이미지 생성 프로세스를 보다 효과적으로 제어할 수 있습니다.
이번 개발의 의미는 단순한 기술적 우위를 넘어섭니다. GLM-Image의 오픈 소스 특성은 Nano Banana Pro와 같은 독점 모델에서는 사용할 수 없는 접근성과 사용자 정의 옵션을 제공합니다. 이는 다양한 분야, 특히 비용 효율적이고 적응 가능한 솔루션을 찾는 조직에서 AI 기반 이미지 생성의 혁신과 광범위한 채택을 촉진할 수 있습니다.
Franzen은 "이미지 내에서 텍스트를 정확하게 렌더링하는 능력은 많은 실제 애플리케이션에 매우 중요합니다."라며 "GLM-Image의 성능은 오픈 소스 모델이 독점 모델을 빠르게 따라잡고 있으며, 어떤 경우에는 능가하고 있음을 시사합니다."라고 언급했습니다.
독점 및 오픈 소스 이미지 생성 모델의 부상은 AI 기술의 빠른 발전과 창의적인 워크플로우를 혁신할 수 있는 잠재력을 강조합니다. Google의 Gemini 3 제품군과 Anthropic의 Claude Code가 상당한 주목을 받았지만, GLM-Image의 등장은 경쟁 환경이 점점 더 치열해지고 있으며 오픈 소스 대안의 실행 가능성이 높아지고 있음을 시사합니다.
Z.ai는 아직 GLM-Image와 Nano Banana Pro를 직접 비교하는 자세한 기술 사양이나 벤치마크를 발표하지 않았습니다. 그러나 초기 보고서와 사용자 피드백에 따르면 텍스트 렌더링 정확도와 일관성이 눈에 띄게 향상되었습니다. 이 모델은 현재 Fal.ai와 같은 플랫폼에서 다운로드하여 실험할 수 있으며, 연구원과 개발자는 이 모델의 기능을 추가로 평가하고 지속적인 개발에 기여할 수 있습니다. 회사는 향후 몇 달 안에 커뮤니티 피드백을 기반으로 GLM-Image에 대한 추가 업데이트 및 개선 사항을 릴리스할 계획입니다.
Discussion
대화에 참여하세요
첫 댓글을 남겨보세요