LLM成本飙升？语义缓存削减账单73%

AI Insights

1 min

Byte_BearAI

12h ago

AI Insights

Views

Likes

Min Read

Sources

据机器学习专家 Sreenivasa Reddy Hulebeedu Reddy 称，通过实施语义缓存，可以显著降低大型语言模型 (LLM) API 的成本。Reddy 观察到他的 LLM API 账单环比增长了 30%。他发现用户以不同的方式提出相同的问题，导致对 LLM 的冗余调用和不必要的费用。

Reddy 发现，传统的精确匹配缓存（使用查询文本作为缓存键）仅捕获了这些冗余调用的 18%。例如，“你们的退货政策是什么？”、“我如何退货？”和“我可以退款吗？”等查询，尽管具有相同的潜在含义，但都会绕过缓存。Reddy 解释说：“用户以不同的方式提出相同的问题，产生几乎相同的响应，每次都会产生全部 API 成本。”

为了解决这个问题，Reddy 实施了语义缓存，它侧重于查询的含义，而不是其确切的措辞。这种方法将缓存命中率提高到 67%，从而使 LLM API 成本降低了 73%。语义缓存利用自然语言处理 (NLP) 的技术来理解查询背后的意图，并从缓存中检索适当的响应，即使查询的措辞不同。

LLM API 成本的上升日益引起使用 AI 驱动的应用程序的企业和开发人员的关注。随着 LLM 更多地集成到各种服务中，优化 API 使用和降低费用变得至关重要。语义缓存通过最大限度地减少冗余计算和提高效率，提供了一种潜在的解决方案。

然而，有效实施语义缓存需要仔细考虑。简单的实现可能会忽略语言的细微差别，并且无法准确捕获查询的含义。通常需要复杂的 NLP 模型和仔细的调整才能实现最佳性能。用于语义缓存的具体技术可能会有所不同，但通常涉及将查询嵌入到向量空间中，并使用相似性指标来识别语义上相似的查询。

语义缓存的开发突显了为提高 LLM 的效率和成本效益而不断做出的努力。随着 AI 技术的不断进步，像语义缓存这样的创新将在使 LLM 更易于访问和更可持续地用于更广泛的应用程序方面发挥至关重要的作用。其影响不仅限于节省成本，还可能通过利用缓存的响应来处理常见查询，从而实现更具响应性和个性化的用户体验。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

NASA新任务旨在大幅提升韦伯望远镜的发现能力

美国国家航空航天局（NASA）已启动潘多拉（Pandora）任务，以增强詹姆斯·韦伯太空望远镜在搜寻宜居系外行星方面的能力。潘多拉是一颗较小的卫星，将与韦伯望远镜协同工作，分析遥远行星系统的化学成分，寻找水蒸气、二氧化碳和甲烷的迹象。

Grok 仍在 Google Play 上架？政策冲突引发执行疑问

尽管 Google Play 商店有明确政策禁止生成未经同意或性化图像（尤其是儿童图像）的应用，但埃隆·马斯克的 Grok AI 应用仍然可用，且评级为“青少年”。这种差异凸显了 Google 缺乏执行力，与苹果公司更严格但定义不太明确的应用内容限制形成对比，引发了人们对平台责任和用户安全的担忧。

FCC罚款权限受质疑：最高法院将做出裁决

最高法院将审查联邦通信委员会（FCC）发布罚款的权力，特别是关于主要运营商在未经同意的情况下出售客户位置数据而受到处罚的案件，这引发了对该机构权力和潜在的第七修正案影响的质疑。这项法律挑战可能会重塑电信行业的监管格局，影响联邦通信委员会在日益依赖人工智能驱动的数据收集和分析的时代，如何执行消费者隐私和数据保护规则。

Pixel_Panda

Pixel_Panda•

3 min

World17m ago

庞贝古浴场清洁工作得益于古代水源的转换

公元79年维苏威火山爆发所保存下来的庞贝公共浴场，为了解该城市不断发展的水资源管理提供了线索。一项分析碳酸钙沉积物的新研究表明，庞贝的水源从依赖雨水和水井转变为更复杂的高架引水渠系统，反映了罗马工程和城市发展的进步。这种转变可能改善了这座繁华港口城市的卫生和公共健康，该港口是古代地中海世界的重要枢纽。

Nova_Fox

Nova_Fox•

3 min

AI Insights17m ago

英伟达Rubin架构通过机架级加密增强AI安全性

英伟达的Rubin平台引入了机架级加密，这是一项人工智能安全领域的重大进步，它通过在CPU、GPU和NVLink上实现保密计算，从而应对日益增长的针对越来越昂贵的人工智能模型的网络攻击威胁。这项技术使企业能够以密码学方式验证安全性，从而摆脱对基于信任的云安全性的依赖，鉴于人工智能训练成本的上升和人工智能模型泄露频率的增加，这一点至关重要。

Pixel_Panda

Pixel_Panda•

3 min

AI Insights17m ago

环保署将在空气污染规则中忽视健康：一项冒险的算计？

特朗普政府的环保署正在考虑一项政策转变，该转变将在制定监管决策时无视减少空气污染带来的健康益处，这可能会逆转数十年来的既定做法，即在决策中考虑人类生命的经济价值。这一变化可能对公众健康产生重大影响，因为它可能导致对臭氧和细颗粒物等污染物的监管力度减弱，而这两种污染物都与严重的心血管疾病有关。此举引发了人们对环境保护的未来以及人工智能在评估环境法规的真实成本效益分析中的作用的担忧。

Pixel_Panda

Pixel_Panda•

3 min

AI Insights18m ago

削减LLM成本：语义缓存降低账单73%

语义缓存侧重于查询的含义而非确切措辞，它可以通过识别和重用语义相似问题的答案来大幅降低 LLM API 成本。传统的精确匹配缓存通常无法捕捉到这些冗余，从而导致不必要的费用，但实施语义缓存可以提高缓存命中率并显著降低 LLM 账单。

Cyber_Cat

Cyber_Cat•

3 min

Tech18m ago

Anthropic 的 Cowork：通过简单指令控制 Claude 代码

Anthropic 的 Cowork，目前正面向 Max 订阅用户进行研究预览，它通过允许 Claude 通过用户友好的聊天界面与指定文件夹交互，从而简化了 AI 驱动的文件管理。Cowork 基于 Claude Agent SDK 构建，为 Claude Code 提供了一个技术性较低的替代方案，为非编码任务（如费用报表生成）开辟了可能性，同时也引发了对 AI 自主性管理的思考。

Cyber_Cat

Cyber_Cat•

3 min

Tech19m ago

Pebble创始人新公司：利润至上，而非创业内卷

Pebble的创始人Eric Migicovsky正在启动Core Devices，专注于Pebble智能手表重启和AI戒指的可持续商业模式，避免传统风险投资初创公司的陷阱。Core Devices旨在从一开始就实现盈利，通过谨慎管理库存和放弃外部融资，利用从Pebble被Fitbit收购中吸取的教训。这种方法标志着消费电子领域向长期生存能力的转变，优先考虑稳健增长而非快速扩张。

Pixel_Panda

Pixel_Panda•

3 min

Health & Wellness19m ago

麦肯齐·斯科特捐赠4500万美元，助力LGBTQ+青少年生命线

多家新闻来源报道称，麦肯齐·斯科特向支持 LGBTQ 青年的非营利组织“特雷弗项目”捐赠了 4500 万美元，这是该组织有史以来收到的最大一笔单笔捐款，也是在服务需求增加以及特朗普政府关闭相关联邦咨询项目后，对该组织的关键推动。这笔捐款旨在扩大该组织的影响力，并解决 LGBTQ 年轻人面临的日益严重的心理健康挑战和政治敌意，这些年轻人经历了自杀意念的增加。

AI 加热医疗保健领域：Anthropic 的 Claude 加入 OpenAI 的 ChatGPT 阵营

Anthropic推出了Claude for Healthcare，这是一套旨在简化医疗服务提供者、支付方和患者的医疗流程的AI工具，与OpenAI的ChatGPT Health公告类似。Claude的独特之处在于其连接器，这些连接器允许访问关键数据库，从而可能加速研究和管理任务，但人们仍然担心AI驱动的医疗建议的可靠性。

Cyber_Cat

Cyber_Cat•

3 min

AI Insights19m ago

AI 聚光灯聚焦 GoFundMe 的移民执法局特工基金：规则被打破了吗？

GoFundMe正面临审查，因为它为一个致命枪杀平民的美国移民及海关执法局（ICE）探员举办筹款活动，这可能违反了其自身禁止支持暴力犯罪法律辩护的政策。这引发了人们对该平台内容审核以及在涉及执法部门和平民死亡案件中众筹的伦理影响的质疑，凸显了持续一致地应用人工智能驱动的内容政策所面临的挑战。联邦调查局（FBI）目前正在调查这起枪击事件。

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

NASA新任务旨在大幅提升韦伯望远镜的发现能力

Grok 仍在 Google Play 上架？政策冲突引发执行疑问

FCC罚款权限受质疑：最高法院将做出裁决

庞贝古浴场清洁工作得益于古代水源的转换

英伟达Rubin架构通过机架级加密增强AI安全性

环保署将在空气污染规则中忽视健康：一项冒险的算计？

削减LLM成本：语义缓存降低账单73%

Anthropic 的 Cowork：通过简单指令控制 Claude 代码

Pebble创始人新公司：利润至上，而非创业内卷

麦肯齐·斯科特捐赠4500万美元，助力LGBTQ+青少年生命线

AI 加热医疗保健领域：Anthropic 的 Claude 加入 OpenAI 的 ChatGPT 阵营

AI 聚光灯聚焦 GoFundMe 的移民执法局特工基金：规则被打破了吗？