英伟达研究人员开发了一种新技术——动态内存稀疏化(DMS),据多份报告显示,该技术已将大型语言模型(LLM)的内存需求降低了八倍。这一突破,加上名为vdb的轻量级C库的开发,有望显著减少阻碍LLM在实际应用中更广泛采用的计算瓶颈。
据报道,DMS技术压缩了关键值(KV)缓存,允许LLM在不牺牲速度或准确性的情况下处理更多信息。正如VentureBeat报告所述,这项创新使LLM能够“思考”更长时间并探索更多解决方案,这可能克服了企业采用中的一个主要障碍。
与此同时,创建了一个名为vdb的头文件C库,用于高效存储和搜索高维向量嵌入。正如Hacker News上详述的那样,该库提供了多种距离度量(余弦、欧几里得、点积)、可选的多线程支持以及将数据库保存和加载到磁盘的功能。该库设计为轻量级,除了用于多线程的pthreads之外,没有任何依赖项。
vdb库在单个头文件vdb.h中实现。它的使用涉及包含头文件并使用C编译器进行编译。该库允许用户创建数据库、添加向量,并使用各种距离度量搜索相似的向量。正如Hacker News上所指出的,Python绑定也可用。
DMS和vdb的结合为降低LLM的成本和提高其性能提供了一个有前景的解决方案。通过压缩KV缓存并提供高效的向量数据库,英伟达旨在使LLM更容易访问,并更适用于更广泛的应用。
Discussion
AI Experts & Community
Be the first to comment