Pesquisadores da Nvidia desenvolveram uma nova técnica, a sparsificação dinâmica de memória (DMS), e uma biblioteca C leve chamada vdb, que juntas reduziram os custos de modelos de linguagem grandes (LLM) em um fator de oito, de acordo com múltiplos relatórios. Essa descoberta permite que os LLMs processem mais informações sem sacrificar velocidade ou precisão, potencialmente acelerando aplicações do mundo real e a adoção empresarial.
A técnica DMS comprime o cache de valor-chave (KV) dentro dos LLMs, reduzindo significativamente suas demandas de memória. Simultaneamente, a biblioteca vdb foi criada para armazenar e pesquisar eficientemente embeddings vetoriais de alta dimensionalidade. Vdb é uma biblioteca C de apenas cabeçalho, apresentando múltiplas métricas de distância (cosseno, euclidiana, produto escalar) e suporte opcional a multithreading. Ela também suporta alocadores de memória personalizados e oferece bindings Python.
De acordo com relatórios, o desenvolvimento de DMS e vdb aborda um importante gargalo computacional que tem dificultado o uso generalizado de LLMs. A capacidade de "pensar" por mais tempo e explorar mais soluções, como resultado dessas inovações, é um passo significativo.
A biblioteca vdb, conforme descrito no material de origem, é uma implementação de arquivo único, tornando-a fácil de integrar. Seus recursos incluem a capacidade de salvar e carregar bancos de dados de e para o disco. A biblioteca não possui dependências, exceto pthreads quando o multithreading está habilitado.
Embora datas específicas para o desenvolvimento e lançamento dessas tecnologias não tenham sido fornecidas no material de origem, os relatórios destacam o impacto potencial no cenário dos LLMs. A combinação de DMS e vdb oferece uma solução promissora para reduzir custos e melhorar o desempenho dos LLMs, abrindo caminho para uma adoção mais ampla em várias indústrias.
Discussion
AI Experts & Community
Be the first to comment