Nvidia 연구진은 여러 보고서에 따르면, 동적 메모리 희소화(DMS)라는 새로운 기술을 개발하여 대규모 언어 모델(LLM)의 메모리 요구 사항을 8배나 줄였습니다. 이 획기적인 기술은 vdb라는 경량 C 라이브러리의 개발과 함께 LLM의 실제 응용 분야에서 광범위한 채택을 방해하는 계산 병목 현상을 크게 줄일 수 있을 것으로 보입니다.
DMS 기술은 키-값(KV) 캐시를 압축하여 LLM이 속도나 정확성을 저하시키지 않고 더 많은 정보를 처리할 수 있도록 한다고 보고되었습니다. VentureBeat 보고서에 따르면, 이 혁신은 LLM이 더 오래 "생각"하고 더 많은 솔루션을 탐색할 수 있게 하여 기업의 채택에 있어 주요 장애물을 극복할 수 있게 할 수 있습니다.
동시에, 고차원 벡터 임베딩을 효율적으로 저장하고 검색하기 위해 vdb라는 헤더 전용 C 라이브러리가 개발되었습니다. Hacker News에 자세히 설명된 이 라이브러리는 여러 거리 측정 방식(코사인, 유클리드, 내적), 선택적 멀티스레딩 지원, 데이터베이스를 디스크에 저장하고 로드하는 기능과 같은 기능을 제공합니다. 이 라이브러리는 멀티스레딩을 위한 pthreads를 제외하고는 종속성이 없는 경량으로 설계되었습니다.
vdb 라이브러리는 단일 헤더 파일인 vdb.h에 구현되어 있습니다. 사용법은 헤더 파일을 포함하고 C 컴파일러로 컴파일하는 것입니다. 이 라이브러리를 통해 사용자는 데이터베이스를 생성하고, 벡터를 추가하고, 다양한 거리 측정 방식을 사용하여 유사한 벡터를 검색할 수 있습니다. Hacker News에 언급된 바와 같이 Python 바인딩도 사용할 수 있습니다.
DMS와 vdb의 조합은 LLM의 비용을 줄이고 성능을 향상시키는 유망한 솔루션을 제공합니다. Nvidia는 KV 캐시를 압축하고 효율적인 벡터 데이터베이스를 제공함으로써 LLM을 더 광범위한 응용 분야에서 더 접근 가능하고 실용적으로 만들고자 합니다.
Discussion
AI 전문가 & 커뮤니티
첫 댓글을 남겨보세요