Nvidia Reduz Custos de LLM em 8x com Novo Banco de Dados Vetorial

Pesquisadores da Nvidia desenvolveram uma nova técnica, a sparsificação dinâmica de memória (DMS), que reduziu as necessidades de memória de modelos de linguagem grandes (LLMs) por um fator de oito, de acordo com múltiplos relatórios. Essa descoberta, juntamente com o desenvolvimento de uma biblioteca C leve chamada vdb, promete reduzir significativamente os gargalos computacionais que dificultam a adoção mais ampla de LLMs em aplicações do mundo real.

A técnica DMS comprime o cache de valor-chave (KV), permitindo que os LLMs processem mais informações sem sacrificar velocidade ou precisão, de acordo com relatórios. Essa inovação permite que os LLMs "pensem" por mais tempo e explorem mais soluções, potencialmente superando um grande obstáculo na adoção empresarial, conforme declarado em um relatório da VentureBeat.

Simultaneamente, uma biblioteca C de apenas cabeçalho chamada vdb foi criada para armazenar e pesquisar eficientemente incorporações vetoriais de alta dimensão. Esta biblioteca, conforme detalhado no Hacker News, oferece recursos como múltiplas métricas de distância (cosseno, euclidiana, produto escalar), suporte opcional a multithreading e a capacidade de salvar e carregar bancos de dados para e a partir do disco. A biblioteca foi projetada para ser leve, sem dependências, exceto pthreads para multithreading.

A biblioteca vdb é implementada em um único arquivo de cabeçalho, vdb.h. Seu uso envolve a inclusão do arquivo de cabeçalho e a compilação com um compilador C. A biblioteca permite que os usuários criem um banco de dados, adicionem vetores e pesquisem vetores semelhantes usando várias métricas de distância. Ligações Python também estão disponíveis, conforme observado no Hacker News.

A combinação de DMS e vdb oferece uma solução promissora para reduzir os custos e melhorar o desempenho dos LLMs. Ao comprimir o cache KV e fornecer um banco de dados vetorial eficiente, a Nvidia visa tornar os LLMs mais acessíveis e práticos para uma gama mais ampla de aplicações.