Nvidia Reduz Custos de LLM em 8x com Novo Banco de Dados Vetorial

Pesquisadores da Nvidia desenvolveram uma nova técnica para reduzir drasticamente as demandas de memória de modelos de linguagem grandes (LLMs), potencialmente abrindo caminho para uma adoção mais ampla da tecnologia. O novo método, chamado de esparsificação dinâmica de memória (DMS), comprime o cache de valor-chave (KV), levando a uma redução de oito vezes nos custos dos LLMs, mantendo a precisão, de acordo com relatos.

A técnica DMS permite que os LLMs processem informações de forma mais eficiente, permitindo que eles "pensem" por mais tempo e explorem mais soluções sem sacrificar velocidade ou inteligência. Isso aborda um gargalo computacional significativo que tem dificultado a aplicação no mundo real e a adoção empresarial de LLMs. A inovação pode levar a soluções de LLM mais acessíveis e econômicas para várias aplicações.

Em notícias relacionadas, o desenvolvimento de ferramentas leves continua a apoiar o avanço das tecnologias de IA. Uma biblioteca C de apenas cabeçalho chamada "vdb" foi lançada no GitHub. A biblioteca, criada por abdimoallim, foi projetada para armazenar e pesquisar incorporações vetoriais de alta dimensão. Ela oferece recursos como múltiplas métricas de distância, suporte opcional a multithreading e suporte a alocador de memória personalizado. A biblioteca é uma implementação de arquivo único, facilitando a integração em projetos.

A biblioteca vdb permite que os desenvolvedores construam bancos de dados vetoriais, que são cruciais para tarefas como pesquisa de similaridade e sistemas de recomendação. A natureza de apenas cabeçalho da biblioteca simplifica a integração, e seus recursos opcionais de multithreading podem melhorar o desempenho. A biblioteca suporta métricas de distância cosseno, euclidiana e produto escalar.

A combinação da técnica DMS da Nvidia e a disponibilidade de ferramentas como vdb destaca os esforços contínuos para otimizar e democratizar a tecnologia de IA. Enquanto o DMS da Nvidia se concentra em reduzir o custo computacional da execução de LLMs, o vdb fornece uma solução leve para gerenciar incorporações vetoriais, um componente central de muitas aplicações de IA.