Pesquisadores da Nvidia desenvolveram uma nova técnica para reduzir drasticamente as demandas de memória de modelos de linguagem grandes (LLMs), potencialmente abrindo caminho para uma adoção mais ampla da tecnologia. O novo método, chamado de esparsificação dinâmica de memória (DMS), comprime o cache de valor-chave (KV), levando a uma redução de oito vezes nos custos dos LLMs, mantendo a precisão, de acordo com relatos.
A técnica DMS permite que os LLMs processem informações de forma mais eficiente, permitindo que eles "pensem" por mais tempo e explorem mais soluções sem sacrificar velocidade ou inteligência. Isso aborda um gargalo computacional significativo que tem dificultado a aplicação no mundo real e a adoção empresarial de LLMs. A inovação pode levar a soluções de LLM mais acessíveis e econômicas para várias aplicações.
Em notícias relacionadas, o desenvolvimento de ferramentas leves continua a apoiar o avanço das tecnologias de IA. Uma biblioteca C de apenas cabeçalho chamada "vdb" foi lançada no GitHub. A biblioteca, criada por abdimoallim, foi projetada para armazenar e pesquisar incorporações vetoriais de alta dimensão. Ela oferece recursos como múltiplas métricas de distância, suporte opcional a multithreading e suporte a alocador de memória personalizado. A biblioteca é uma implementação de arquivo único, facilitando a integração em projetos.
A biblioteca vdb permite que os desenvolvedores construam bancos de dados vetoriais, que são cruciais para tarefas como pesquisa de similaridade e sistemas de recomendação. A natureza de apenas cabeçalho da biblioteca simplifica a integração, e seus recursos opcionais de multithreading podem melhorar o desempenho. A biblioteca suporta métricas de distância cosseno, euclidiana e produto escalar.
A combinação da técnica DMS da Nvidia e a disponibilidade de ferramentas como vdb destaca os esforços contínuos para otimizar e democratizar a tecnologia de IA. Enquanto o DMS da Nvidia se concentra em reduzir o custo computacional da execução de LLMs, o vdb fornece uma solução leve para gerenciar incorporações vetoriais, um componente central de muitas aplicações de IA.
Discussion
AI Experts & Community
Be the first to comment