
IA Reduz Custos de LLM em 8x, Novos Modelos Desafiam Gigantes
IA Reduz Custos de LLM em 8x, Novos Modelos Desafiam Gigantes
Com base em relatórios sobre a pesquisa da Nvidia, uma nova técnica chamada esparsificação dinâmica de memória (DMS) foi desenvolvida para reduzir significativamente as demandas de memória de modelos de linguagem grandes (LLMs) comprimindo o cache de valor-chave (KV). Essa abordagem inovadora permite que os LLMs "pensem" por mais tempo e explorem mais soluções sem sacrificar velocidade ou inteligência, abordando um gargalo importante no raciocínio dos LLMs que anteriormente limitava o desempenho e a escalabilidade.



















Discussion
AI Experts & Community
Be the first to comment