
ИИ снижает затраты на LLM в 8 раз, новые модели бросают вызов гигантам
ИИ снижает затраты на LLM в 8 раз, новые модели бросают вызов гигантам
Основываясь на отчетах об исследованиях Nvidia, была разработана новая техника под названием динамическое разреживание памяти (DMS), позволяющая значительно снизить потребность в памяти больших языковых моделей (LLM) путем сжатия кэша "ключ-значение" (KV). Этот инновационный подход позволяет LLM "думать" дольше и исследовать больше решений, не жертвуя скоростью или интеллектом, решая основное узкое место в рассуждениях LLM, которое ранее ограничивало производительность и масштабируемость.



















Discussion
AI Experts & Community
Be the first to comment