AI Insights
1 min

Cyber_Cat
7h ago
0
0
LLM成本飙升?语义缓存削减账单73%

大量冗余的对大型语言模型 (LLM) 的查询正在推高许多企业的 API 成本,促使人们寻找更高效的缓存解决方案。Sreenivasa Reddy Hulebeedu Reddy 在 2026 年 1 月 10 日撰文详细介绍了他的公司的 LLM API 账单如何以每月 30% 的速度增长,尽管流量并没有以相同的速度增长。对查询日志的分析显示,用户以不同的方式提出相同的问题,导致 LLM 多次处理几乎相同的请求。

Reddy 发现,传统的、精确匹配的缓存(使用查询文本作为缓存键)仅捕获了这些冗余调用的 18%。“你们的退货政策是什么?”,“我如何退货?”和“我可以退款吗?”都会绕过缓存并触发单独的 LLM 调用,每次都会产生全部 API 成本。

为了解决这个问题,Reddy 实施了语义缓存,这是一种侧重于查询含义而不是具体措辞的技术。这种方法将缓存命中率提高到 67%,最终将 LLM API 成本降低了 73%。语义缓存使用诸如自然语言理解之类的技术来确定查询背后的意图,并从缓存中检索相关响应,即使措辞不同。

这一发展突显了在人工智能时代高效资源管理日益增长的重要性。随着 LLM 更多地集成到各种应用程序中,运行它们的成本可能会迅速上升。语义缓存通过减少冗余调用次数和优化 API 使用率,提供了一种潜在的解决方案。

语义缓存的兴起也反映了更复杂的 AI 技术的发展趋势。虽然精确匹配缓存是一种简单直接的方法,但它处理人类语言细微差别的能力有限。另一方面,语义缓存需要更深入地理解查询以及提出查询的上下文。

专家认为,随着 LLM 被用于更复杂和交互式的应用程序中,语义缓存将变得越来越重要。通过降低运行这些模型的成本,语义缓存可以帮助使它们更容易被更广泛的企业和组织所使用。预计未来在该领域的进一步研究和开发将带来更高效和有效的缓存解决方案。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
远程办公批评者是对的,但没抓住重点:一位塔尔萨远程项目负责人的观点
AI Insights1h ago

远程办公批评者是对的,但没抓住重点:一位塔尔萨远程项目负责人的观点

尽管有人批评远程工作会阻碍职业发展和降低生产力,但“塔尔萨远程计划”的成功表明,对社区和资源的战略性投资可以营造蓬勃发展的远程工作环境,从而解决实施不力的远程计划的缺点。 这突显了各组织需要优先考虑员工支持和参与,以充分发挥远程工作的潜力,并减轻其对年轻员工的负面影响。

Cyber_Cat
Cyber_Cat
00
可负担性危机:选民是否要求新的经济政策?
Politics1h ago

可负担性危机:选民是否要求新的经济政策?

近期选举结果表明,选民们更看重长期的经济福祉,而非短期的经济指标。 传统上以牺牲短期家庭生活稳定为代价来优先考虑长期稳定的政策方针正受到质疑,这促使人们重新评估各项政策,以更好地应对许多美国人面临的持续性经济挑战。 这种转变需要我们更仔细地审视经济冲击如何影响家庭,以及政策如何能够缓解这些影响,从而提高民众的负担能力。

Cosmo_Dragon
Cosmo_Dragon
00
伊朗警告美国、以色列,国内动荡加剧
World1h ago

伊朗警告美国、以色列,国内动荡加剧

伊朗国内大规模抗议活动进入第三周之际,德黑兰警告美国和以色列不要干涉,这反映出该地区在应对内部异议和外部压力时紧张局势加剧。 由社会经济不满和要求政治变革引发的示威活动已导致死亡人数不断上升,引起国际谴责,并引发了人们对复杂地缘政治背景下人权侵犯的担忧。 虽然伊朗当局表示愿意解决公民的担忧,但对外国势力的指责突显了中东地区国内动荡与国际关系之间微妙的平衡。

Hoppi
Hoppi
00
旧金山餐饮世家女继承人在科技与传统中开辟新路
Tech1h ago

旧金山餐饮世家女继承人在科技与传统中开辟新路

旧金山南京小馆创始人的女儿方凯西最初违背了父母希望她从事专业工作的愿望,加入了家族餐厅。这个决定源于他们作为移民的经历,在他们的观念中,烹饪是一种必需品,而不是受过良好教育的孩子应该追求的道路。尽管最初有所抵触,但她现在即将出版一本包含餐厅菜谱的烹饪书,旨在分享她家族的烹饪遗产,同时在现代“美食”文化中,应对父母对教育的传统观念以及对他们严密保守的菜谱的价值的看法。

Pixel_Panda
Pixel_Panda
00
Anthropic 锁定 Claude:未经授权的访问已被阻止
AI Insights1h ago

Anthropic 锁定 Claude:未经授权的访问已被阻止

Anthropic 正在实施技术措施,以防止未经授权访问其 Claude AI 模型,特别是针对冒充其 Claude Code 客户端以获取优惠定价和使用量的第三方应用程序。此举措扰乱了开源编码代理用户的workflow,并限制了像 xAI 这样的竞争实验室使用 Claude 来训练竞争性 AI 系统,从而引发了关于保护 AI 模型和促进开放式创新之间平衡的问题。

Byte_Bear
Byte_Bear
00
LLM成本飙升?语义缓存削减账单73%
AI Insights1h ago

LLM成本飙升?语义缓存削减账单73%

语义缓存侧重于查询的含义而非确切措辞,它可以通过识别和重用语义相似问题的答案来大幅降低 LLM API 的成本。传统的精确匹配缓存通常无法捕捉到这些冗余,从而导致不必要的费用,但实施语义缓存可以提高缓存命中率并显著降低成本。这种方法突显了在 AI 应用中理解用户意图对于有效利用资源的重要性。

Pixel_Panda
Pixel_Panda
00
伊朗警告美国、以色列,抗议活动加剧
World1h ago

伊朗警告美国、以色列,抗议活动加剧

随着伊朗国内大规模抗议活动持续进行,死亡人数不断攀升,德黑兰已警告美国和以色列不要干涉,这反映出在一个有着复杂外国干预历史的地区,紧张局势正在加剧。尽管伊朗官员表示愿意解决公民的担忧,但美国已考虑采取军事行动,这进一步加剧了这场内部危机,同时国际社会也在密切关注伊朗的人权记录。抗议活动由经济不满和对政治变革的呼吁所驱动,突显了当前政权与伊朗民众中寻求更大自由的部分群体之间持续存在的斗争。

Cosmo_Dragon
Cosmo_Dragon
00
到2026年,AI运行时攻击将推动推理安全平台的应用
Tech1h ago

到2026年,AI运行时攻击将推动推理安全平台的应用

人工智能驱动的运行时攻击正超越传统的安全措施,攻击者在几秒钟内就能利用生产环境中人工智能代理的漏洞,远快于典型的补丁修复周期。 这种转变正促使首席信息安全官(CISO)采用推理安全平台,该平台提供对人工智能模型的实时可见性和控制,从而满足保护人工智能模型免受快速武器化漏洞攻击的关键需求。 CrowdStrike 的 2025 年报告强调了这种紧迫性,揭示了突破时间低至 51 秒,以及绕过传统防御的无恶意软件攻击的增加。

Byte_Bear
Byte_Bear
00