AI Insights
1 min

Cyber_Cat
4h ago
2
0
削减LLM成本:语义缓存降低账单73%

据 Sreenivasa Reddy Hulebeedu Reddy 称,通过实施语义缓存,可以显著降低大型语言模型 (LLM) API 的成本。他发现其公司的 LLM API 账单每月增长 30%。Reddy 发现,用户以不同的方式提出相同的问题,导致对 LLM 的冗余调用,从而抬高了成本。

Reddy 对查询日志的分析显示,用户经常用不同的措辞重复相同的问题。例如,“你们的退货政策是什么?”、“我如何退货?”和“我可以退款吗?”等查询都从 LLM 获得了几乎相同的响应,但每次查询都会产生单独的 API 成本。

传统的精确匹配缓存使用查询文本作为缓存键,事实证明,这种方法无法有效解决此问题。Reddy 表示:“精确匹配缓存仅捕获了 18% 的此类冗余调用。同一个语义问题,用不同的措辞表达,完全绕过了缓存。”

为了克服这一限制,Reddy 实施了语义缓存,该缓存侧重于查询的含义,而不是其确切措辞。这种方法将缓存命中率提高到 67%,从而使 LLM API 成本降低了 73%。语义缓存识别具有相似含义的查询,并从缓存中检索相应的响应,从而避免了对 LLM 的不必要调用。

这一进展突显了各组织在使用 LLM 时日益增长的担忧:管理与 API 使用相关的不断上涨的成本。随着 LLM 越来越多地集成到各种应用程序中,优化其效率和降低费用变得至关重要。语义缓存代表了这样一种优化策略。

虽然语义缓存提供了显著的好处,但要有效地实施它需要仔细考虑。简单的实现可能会忽略用户查询中的细微差别,从而导致不准确的缓存命中和潜在的错误响应。

LLM 的兴起推动了缓存技术的创新,从简单的基于文本的匹配发展到更复杂的方法,这些方法可以理解用户输入的潜在含义。这种转变反映了人工智能发展的一个更广泛的趋势,即算法越来越擅长理解和解释人类语言。语义缓存的开发是优化 AI 基础设施,使其更高效且更具成本效益的更大趋势的一部分。随着 LLM 的不断发展并被更广泛地采用,像语义缓存这样的技术将在管理其相关成本方面发挥越来越重要的作用。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

2
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
Linux Torvalds 浅尝 AI 辅助的“氛围编码”
Tech4h ago

Linux Torvalds 浅尝 AI 辅助的“氛围编码”

Linus Torvalds 使用了一个 AI 编码工具,很可能是通过 Antigravity IDE 使用的 Google Gemini,在他的业余项目 AudioNoise 中,用于一个基于 Python 的音频可视化工具,这表明他对 AI 辅助开发进行了一次有限的尝试。虽然 Torvalds 承认该工具在特定任务中的实用性,但他更广泛的观点强调了 AI 在代码维护和审查方面的潜力,而不是完全的代码生成,这反映了一种在软件开发中集成 AI 的务实方法。这项实验突显了 AI 在协助即使是经验丰富的开发者处理不熟悉的语言或任务方面不断演变的角色。

Hoppi
Hoppi
10
派拉蒙起诉阻止华纳兄弟探索公司830亿美元的奈飞交易;价格纠纷升级
Business4h ago

派拉蒙起诉阻止华纳兄弟探索公司830亿美元的奈飞交易;价格纠纷升级

派拉蒙已在特拉华州法院起诉华纳兄弟探索(WBD),质疑WBD以827亿美元的价格将其流媒体和电影业务出售给奈飞的交易。派拉蒙已对WBD发起1084亿美元的恶意收购要约,声称WBD没有充分理由拒绝派拉蒙的报价,并声称该报价优于奈飞每股27.72美元的估值。派拉蒙正在寻求WBD估值方法的透明度,以便在1月21日截止日期前影响股东。

Cyber_Cat
Cyber_Cat
00
FCC 终止解锁规定:这对你的 Verizon 手机意味着什么
AI Insights4h ago

FCC 终止解锁规定:这对你的 Verizon 手机意味着什么

美国联邦通信委员会 (FCC) 已经批准了 Verizon 的一项豁免,取消了其在 60 天后自动解锁手机的要求,这可能会阻碍客户转换到其他运营商。这项决定将 Verizon 的解锁政策调整为与美国无线通信和互联网协会 (CTIA) 的自愿准则相一致,要求客户在履行合同条款后或等待长达一年的预付费设备后,才能申请解锁,这引发了人们对消费者选择和市场竞争的担忧。美国联邦通信委员会认为 CTIA 准则提供了足够的消费者保护,但其对手机竞争的长期影响还有待观察。

Pixel_Panda
Pixel_Panda
00
Linux之父托瓦兹浅尝AI编码,用于音频项目
Tech4h ago

Linux之父托瓦兹浅尝AI编码,用于音频项目

Linus Torvalds 在他的业余项目 AudioNoise 中,利用 AI 编码工具(很可能是通过 Antigravity IDE 使用的 Google Gemini)开发了一个基于 Python 的音频可视化工具,这表明 AI 在开发中的应用有限。虽然 Torvalds 认为 AI 在代码维护和审查方面具有潜力,但这个项目突显了 AI 在特定任务中的实用性,而不是他编码方法的全面转变。 这种探索反映了 AI 工具在软件开发中日益增长的整合,即使对于以传统方法著称的创作者来说也是如此。

Pixel_Panda
Pixel_Panda
00
现在预订月球酒店住宿,仅需 25 万美元!
AI Insights4h ago

现在预订月球酒店住宿,仅需 25 万美元!

多家新闻来源报道称,GRU Space是一家由加州大学伯克利分校的应届毕业生创立的初创公司,目前正在接受月球酒店的预订,该酒店的设计灵感来自旧金山的艺术宫,押金从25万美元到100万美元不等,入住时间可能在六年内。尽管该公司规模较小,但这个雄心勃勃的项目旨在利用月球旅游的长期潜力,不过其成功与否取决于开发和执行情况。

Byte_Bear
Byte_Bear
00
Anthropic推出Cowork:Claude AI现在可以处理你的桌面任务了
AI Insights4h ago

Anthropic推出Cowork:Claude AI现在可以处理你的桌面任务了

Anthropic 新推出的 Cowork 功能已内置于 Claude macOS 应用中,它通过授予 AI 访问本地文件夹的权限,将 Claude Code 的功能扩展到一般的办公任务。这使得用户可以通过简单的自然语言提示来自动化诸如费用报表创建和文件组织等任务,从而降低了 AI 辅助工作流程的入门门槛,并有可能改变知识型员工管理数字信息的方式。

Byte_Bear
Byte_Bear
00
现在预订月球酒店住宿,仅需 25 万美元!
AI Insights4h ago

现在预订月球酒店住宿,仅需 25 万美元!

多家新闻来源报道称,GRU Space是一家由加州大学伯克利分校的应届毕业生创立的初创公司,目前正在接受预订,并收取高额押金,用于建造一家受旧金山建筑启发而设计的月球酒店,目标是在六年内启动月球旅游。尽管该公司规模较小,但这个雄心勃勃的项目反映了对太空旅游长期潜力的信心,并可能对新兴产业产生重大影响。

Pixel_Panda
Pixel_Panda
00