Nvidia 연구원들이 새로운 기술인 동적 메모리 희소화(DMS)와 vdb라는 경량 C 라이브러리를 개발하여, 여러 보고서에 따르면 대규모 언어 모델(LLM) 비용을 8배나 절감했습니다. 이 획기적인 기술은 LLM이 속도나 정확성을 저하시키지 않으면서 더 많은 정보를 처리할 수 있게 해주며, 실제 응용 프로그램 및 기업 도입을 가속화할 수 있습니다.
DMS 기술은 LLM 내의 키-값(KV) 캐시를 압축하여 메모리 요구 사항을 크게 줄입니다. 동시에, vdb 라이브러리는 고차원 벡터 임베딩을 효율적으로 저장하고 검색하기 위해 만들어졌습니다. Vdb는 여러 거리 측정 방식(코사인, 유클리드, 내적)과 선택적 멀티스레딩 지원을 특징으로 하는 헤더 전용 C 라이브러리입니다. 또한 사용자 정의 메모리 할당자를 지원하며 Python 바인딩을 제공합니다.
보고서에 따르면, DMS와 vdb의 개발은 LLM의 광범위한 사용을 방해해 온 주요 계산 병목 현상을 해결합니다. 이러한 혁신의 결과로 더 오래 "생각"하고 더 많은 솔루션을 탐색할 수 있는 능력은 중요한 진전입니다.
소스 자료에 설명된 바와 같이, vdb 라이브러리는 단일 파일 구현으로 통합이 용이합니다. 디스크에서 데이터베이스를 저장하고 로드하는 기능을 포함합니다. 이 라이브러리는 멀티스레딩이 활성화된 경우 pthreads를 제외하고는 종속성이 없습니다.
이러한 기술의 개발 및 출시에 대한 구체적인 날짜는 소스 자료에 제공되지 않았지만, 보고서는 LLM 환경에 미치는 잠재적 영향을 강조합니다. DMS와 vdb의 조합은 비용을 절감하고 LLM의 성능을 향상시키는 유망한 솔루션을 제공하여 다양한 산업 분야에서 더 광범위한 채택을 위한 길을 열어줍니다.
Discussion
AI 전문가 & 커뮤니티
첫 댓글을 남겨보세요