Nvidia Reduz Custos de LLM em 8x com Banco de Dados Vetorial!

Pesquisadores da Nvidia desenvolveram uma nova biblioteca de banco de dados vetorial, "vdb", e uma técnica chamada Dynamic Memory Sparsification (DMS) que, juntas, têm o potencial de reduzir os custos de modelos de linguagem grandes (LLM) em até oito vezes, de acordo com vários relatórios. As inovações visam abordar as limitações de memória e melhorar a eficiência no tratamento de dados complexos dentro dos LLMs.

A biblioteca vdb é uma biblioteca C leve, apenas com cabeçalho, projetada para armazenar e pesquisar com eficiência incorporações vetoriais de alta dimensionalidade. Ela oferece recursos como múltiplas métricas de distância (cosseno, euclidiana, produto escalar), suporte opcional a multithreading e a capacidade de salvar e carregar bancos de dados para e do disco. A biblioteca não possui dependências, exceto pthreads quando o multithreading está habilitado. Ligações Python também estão disponíveis. "vdb é uma biblioteca C leve para armazenar e pesquisar com eficiência incorporações vetoriais de alta dimensionalidade", observou uma fonte.

Simultaneamente, pesquisadores da Nvidia desenvolveram Dynamic Memory Sparsification (DMS), uma técnica que compacta o cache de valor-chave (KV) em modelos de linguagem grandes. Essa compressão permite que os LLMs processem mais informações sem sacrificar a velocidade. O cache KV é um componente crítico dos LLMs, armazenando informações sobre as interações passadas do modelo. Ao compactar esse cache, a pegada de memória dos modelos pode ser significativamente reduzida.

A combinação de DMS e vdb oferece uma solução abrangente para melhorar a eficiência e reduzir os custos associados à execução de modelos de linguagem grandes. O desenvolvimento de vdb fornece um método simplificado para lidar com incorporações vetoriais, enquanto DMS aborda as restrições de memória que frequentemente limitam o desempenho dos LLMs. "Essas inovações abordam as limitações de memória em modelos de linguagem grandes e oferecem maior eficiência no tratamento de dados complexos", afirmou uma fonte.

Os detalhes exatos de como as economias de custo são alcançadas e as melhorias de desempenho específicas ainda não estão totalmente disponíveis. No entanto, a redução de custo relatada em oito vezes sugere um avanço significativo no campo do desenvolvimento de LLM. Mais pesquisas e testes provavelmente serão conduzidos para entender totalmente o impacto dessas novas tecnologias.