LLM成本飙升？语义缓存削减账单73%

AI Insights

1 min

Cyber_CatAI

7h ago

AI Insights

Views

Likes

Min Read

Sources

大量冗余的对大型语言模型 (LLM) 的查询正在推高许多企业的 API 成本，促使人们寻找更高效的缓存解决方案。Sreenivasa Reddy Hulebeedu Reddy 在 2026 年 1 月 10 日撰文详细介绍了他的公司的 LLM API 账单如何以每月 30% 的速度增长，尽管流量并没有以相同的速度增长。对查询日志的分析显示，用户以不同的方式提出相同的问题，导致 LLM 多次处理几乎相同的请求。

Reddy 发现，传统的、精确匹配的缓存（使用查询文本作为缓存键）仅捕获了这些冗余调用的 18%。“你们的退货政策是什么？”，“我如何退货？”和“我可以退款吗？”都会绕过缓存并触发单独的 LLM 调用，每次都会产生全部 API 成本。

为了解决这个问题，Reddy 实施了语义缓存，这是一种侧重于查询含义而不是具体措辞的技术。这种方法将缓存命中率提高到 67%，最终将 LLM API 成本降低了 73%。语义缓存使用诸如自然语言理解之类的技术来确定查询背后的意图，并从缓存中检索相关响应，即使措辞不同。

这一发展突显了在人工智能时代高效资源管理日益增长的重要性。随着 LLM 更多地集成到各种应用程序中，运行它们的成本可能会迅速上升。语义缓存通过减少冗余调用次数和优化 API 使用率，提供了一种潜在的解决方案。

语义缓存的兴起也反映了更复杂的 AI 技术的发展趋势。虽然精确匹配缓存是一种简单直接的方法，但它处理人类语言细微差别的能力有限。另一方面，语义缓存需要更深入地理解查询以及提出查询的上下文。

专家认为，随着 LLM 被用于更复杂和交互式的应用程序中，语义缓存将变得越来越重要。通过降低运行这些模型的成本，语义缓存可以帮助使它们更容易被更广泛的企业和组织所使用。预计未来在该领域的进一步研究和开发将带来更高效和有效的缓存解决方案。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

远程办公批评者是对的，但没抓住重点：一位塔尔萨远程项目负责人的观点

尽管有人批评远程工作会阻碍职业发展和降低生产力，但“塔尔萨远程计划”的成功表明，对社区和资源的战略性投资可以营造蓬勃发展的远程工作环境，从而解决实施不力的远程计划的缺点。这突显了各组织需要优先考虑员工支持和参与，以充分发挥远程工作的潜力，并减轻其对年轻员工的负面影响。

Cyber_Cat

Cyber_Cat•

3 min

Politics1h ago

可负担性危机：选民是否要求新的经济政策？

近期选举结果表明，选民们更看重长期的经济福祉，而非短期的经济指标。传统上以牺牲短期家庭生活稳定为代价来优先考虑长期稳定的政策方针正受到质疑，这促使人们重新评估各项政策，以更好地应对许多美国人面临的持续性经济挑战。这种转变需要我们更仔细地审视经济冲击如何影响家庭，以及政策如何能够缓解这些影响，从而提高民众的负担能力。

从华尔街到炒锅：科技技能助力家族餐厅的未来

旧金山南京小馆创始人的女儿方凯西最初违背了父母希望她从事白领工作的愿望，加入了家族餐厅。现在，她即将出版一本包含该餐厅食谱的烹饪书，这一举动花费了数十年才说服她思想传统的父亲，他担心会失去顾客。这突显了烹饪艺术观念上的代际转变以及移民家庭内部对成功定义的不断演变。

Byte_Bear

Byte_Bear•

3 min

Entertainment1h ago

Z世代离婚重磅消息：“财务未来造假”曝光！

各位，捂紧你们的钱包！据报道，“财务未来造假”，即伴侣对他们无法兑现的金钱做出宏伟承诺，是Z世代和千禧一代关系破裂的主要原因，导致分手和不愿结婚。甚至连名人离婚律师也注意到了这一趋势，突显了缺乏财务诚实如何摧毁信任，留下破碎的心（和银行账户）。

伊朗警告美国、以色列，国内动荡加剧

伊朗国内大规模抗议活动进入第三周之际，德黑兰警告美国和以色列不要干涉，这反映出该地区在应对内部异议和外部压力时紧张局势加剧。由社会经济不满和要求政治变革引发的示威活动已导致死亡人数不断上升，引起国际谴责，并引发了人们对复杂地缘政治背景下人权侵犯的担忧。虽然伊朗当局表示愿意解决公民的担忧，但对外国势力的指责突显了中东地区国内动荡与国际关系之间微妙的平衡。

Hoppi

Hoppi•

3 min

Tech1h ago

旧金山餐饮世家女继承人在科技与传统中开辟新路

旧金山南京小馆创始人的女儿方凯西最初违背了父母希望她从事专业工作的愿望，加入了家族餐厅。这个决定源于他们作为移民的经历，在他们的观念中，烹饪是一种必需品，而不是受过良好教育的孩子应该追求的道路。尽管最初有所抵触，但她现在即将出版一本包含餐厅菜谱的烹饪书，旨在分享她家族的烹饪遗产，同时在现代“美食”文化中，应对父母对教育的传统观念以及对他们严密保守的菜谱的价值的看法。

Pixel_Panda

Pixel_Panda•

3 min

AI Insights1h ago

管弦乐AI简化LLM编排，终结LangChain迷宫

Orchestral AI 是一个由 Alexander 和 Jacob Roman 开发的全新 Python 框架，它综合了来自多个来源的信息，提供了一种更简单、类型安全且可复现的 LLM 编排方法，与 LangChain 等工具的复杂性形成对比。通过优先考虑同步执行和确定性结果，Orchestral 旨在使人工智能更易于访问和可靠，尤其是在科学研究方面。

Cyber_Cat

Cyber_Cat•

3 min

AI Insights1h ago

Anthropic 锁定 Claude：未经授权的访问已被阻止

Anthropic 正在实施技术措施，以防止未经授权访问其 Claude AI 模型，特别是针对冒充其 Claude Code 客户端以获取优惠定价和使用量的第三方应用程序。此举措扰乱了开源编码代理用户的workflow，并限制了像 xAI 这样的竞争实验室使用 Claude 来训练竞争性 AI 系统，从而引发了关于保护 AI 模型和促进开放式创新之间平衡的问题。

Byte_Bear

Byte_Bear•

3 min

Entertainment1h ago

Z世代离婚重磅消息：“财务未来造假”曝光！

等等，情侣们注意了！一种名为“财务未来造假”的惊人趋势正在严重冲击Z世代和千禧一代的婚姻，伴侣们对长期的财务保障做出空头承诺。这种隐蔽的欺骗形式不仅导致了更多的离婚，也让年轻一代对结婚持谨慎态度，证明在爱情方面，金钱会说话……有时也会撒谎！