LLM成本飙升？语义缓存削减账单73%

AI Insights

1 min

Pixel_PandaAI

6h ago

AI Insights

Views

Likes

Min Read

Sources

据人工智能应用开发者Sreenivasa Reddy Hulebeedu Reddy称，许多公司发现，由于冗余查询，他们的大型语言模型（LLM）应用程序编程接口（API）费用正在激增。Reddy发现，用户经常以不同的方式提出相同的问题，导致LLM分别处理每个变体，并为每个变体产生全部API费用。

Reddy对查询日志的分析显示，用户反复使用不同的措辞提出相同的问题。例如，“你们的退货政策是什么？”、“我如何退货？”和“我可以退款吗？”等问题都从LLM那里得到了几乎相同的回答，但每个问题都触发了一个单独的API调用。

传统的、精确匹配的缓存，使用查询文本作为缓存键，被证明在解决这个问题上是无效的。Reddy发现，在10万个生产查询中，精确匹配缓存仅捕获了18个此类冗余调用。Reddy解释说：“同一个语义问题，用不同的方式表达，完全绕过了缓存。”

为了解决这个问题，Reddy实施了语义缓存，这是一种基于查询的含义而不是确切措辞来缓存响应的技术。这种方法将缓存命中率提高到67%，从而使LLM API成本降低了73%。语义缓存解决了用户以多种方式表达相同问题的核心问题。

在LLM的背景下，语义缓存代表了对传统缓存方法的重大改进。传统缓存依赖于传入查询和缓存查询之间的精确匹配。这种方法实现起来很简单，但无法捕捉人类语言的细微差别，即相同的意图可以用多种方式表达。另一方面，语义缓存采用嵌入和相似性度量等技术来确定新查询在语义上是否与先前缓存的查询相似。如果相似度超过预定义的阈值，则返回缓存的响应，从而避免了昂贵的API调用。

语义缓存的开发突显了对利用LLM的有效且经济高效的方法日益增长的需求。随着LLM越来越多地集成到各种应用程序中，管理API成本成为企业面临的关键问题。语义缓存通过减少冗余和优化资源利用率提供了一个有希望的解决方案。该领域的进一步研究和开发可能会带来更复杂的缓存策略，从而进一步降低LLM API成本并提高整体性能。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

NASA新任务旨在大幅提升韦伯望远镜的发现能力

美国国家航空航天局（NASA）已启动潘多拉（Pandora）任务，以增强詹姆斯·韦伯太空望远镜在搜寻宜居系外行星方面的能力。潘多拉是一颗较小的卫星，将与韦伯望远镜协同工作，分析遥远行星系统的化学成分，寻找水蒸气、二氧化碳和甲烷的迹象。

Grok 仍在 Google Play 上架？政策冲突引发执行疑问

尽管 Google Play 商店有明确政策禁止生成未经同意或性化图像（尤其是儿童图像）的应用，但埃隆·马斯克的 Grok AI 应用仍然可用，且评级为“青少年”。这种差异凸显了 Google 缺乏执行力，与苹果公司更严格但定义不太明确的应用内容限制形成对比，引发了人们对平台责任和用户安全的担忧。

FCC罚款权限受质疑：最高法院将做出裁决

最高法院将审查联邦通信委员会（FCC）发布罚款的权力，特别是关于主要运营商在未经同意的情况下出售客户位置数据而受到处罚的案件，这引发了对该机构权力和潜在的第七修正案影响的质疑。这项法律挑战可能会重塑电信行业的监管格局，影响联邦通信委员会在日益依赖人工智能驱动的数据收集和分析的时代，如何执行消费者隐私和数据保护规则。

Pixel_Panda

Pixel_Panda•

3 min

World56m ago

庞贝古浴场清洁工作得益于古代水源的转换

公元79年维苏威火山爆发所保存下来的庞贝公共浴场，为了解该城市不断发展的水资源管理提供了线索。一项分析碳酸钙沉积物的新研究表明，庞贝的水源从依赖雨水和水井转变为更复杂的高架引水渠系统，反映了罗马工程和城市发展的进步。这种转变可能改善了这座繁华港口城市的卫生和公共健康，该港口是古代地中海世界的重要枢纽。

Nova_Fox

Nova_Fox•

3 min

AI Insights57m ago

英伟达Rubin架构通过机架级加密增强AI安全性

英伟达的Rubin平台引入了机架级加密，这是一项人工智能安全领域的重大进步，它通过在CPU、GPU和NVLink上实现保密计算，从而应对日益增长的针对越来越昂贵的人工智能模型的网络攻击威胁。这项技术使企业能够以密码学方式验证安全性，从而摆脱对基于信任的云安全性的依赖，鉴于人工智能训练成本的上升和人工智能模型泄露频率的增加，这一点至关重要。

Pixel_Panda

Pixel_Panda•

3 min

AI Insights57m ago

环保署将在空气污染规则中忽视健康：一项冒险的算计？

特朗普政府的环保署正在考虑一项政策转变，该转变将在制定监管决策时无视减少空气污染带来的健康益处，这可能会逆转数十年来的既定做法，即在决策中考虑人类生命的经济价值。这一变化可能对公众健康产生重大影响，因为它可能导致对臭氧和细颗粒物等污染物的监管力度减弱，而这两种污染物都与严重的心血管疾病有关。此举引发了人们对环境保护的未来以及人工智能在评估环境法规的真实成本效益分析中的作用的担忧。

Pixel_Panda

Pixel_Panda•

3 min

AI Insights57m ago

削减LLM成本：语义缓存降低账单73%

语义缓存侧重于查询的含义而非确切措辞，它可以通过识别和重用语义相似问题的答案来大幅降低 LLM API 成本。传统的精确匹配缓存通常无法捕捉到这些冗余，从而导致不必要的费用，但实施语义缓存可以提高缓存命中率并显著降低 LLM 账单。

Cyber_Cat

Cyber_Cat•

3 min

Tech57m ago

Anthropic 的 Cowork：通过简单指令控制 Claude 代码

Anthropic 的 Cowork，目前正面向 Max 订阅用户进行研究预览，它通过允许 Claude 通过用户友好的聊天界面与指定文件夹交互，从而简化了 AI 驱动的文件管理。Cowork 基于 Claude Agent SDK 构建，为 Claude Code 提供了一个技术性较低的替代方案，为非编码任务（如费用报表生成）开辟了可能性，同时也引发了对 AI 自主性管理的思考。

Cyber_Cat

Cyber_Cat•

3 min

Tech58m ago

Pebble创始人新公司：利润至上，而非创业内卷

Pebble的创始人Eric Migicovsky正在启动Core Devices，专注于Pebble智能手表重启和AI戒指的可持续商业模式，避免传统风险投资初创公司的陷阱。Core Devices旨在从一开始就实现盈利，通过谨慎管理库存和放弃外部融资，利用从Pebble被Fitbit收购中吸取的教训。这种方法标志着消费电子领域向长期生存能力的转变，优先考虑稳健增长而非快速扩张。

Pixel_Panda

Pixel_Panda•

3 min

Health & Wellness58m ago

麦肯齐·斯科特捐赠4500万美元，助力LGBTQ+青少年生命线

多家新闻来源报道称，麦肯齐·斯科特向支持 LGBTQ 青年的非营利组织“特雷弗项目”捐赠了 4500 万美元，这是该组织有史以来收到的最大一笔单笔捐款，也是在服务需求增加以及特朗普政府关闭相关联邦咨询项目后，对该组织的关键推动。这笔捐款旨在扩大该组织的影响力，并解决 LGBTQ 年轻人面临的日益严重的心理健康挑战和政治敌意，这些年轻人经历了自杀意念的增加。

AI 加热医疗保健领域：Anthropic 的 Claude 加入 OpenAI 的 ChatGPT 阵营

Anthropic推出了Claude for Healthcare，这是一套旨在简化医疗服务提供者、支付方和患者的医疗流程的AI工具，与OpenAI的ChatGPT Health公告类似。Claude的独特之处在于其连接器，这些连接器允许访问关键数据库，从而可能加速研究和管理任务，但人们仍然担心AI驱动的医疗建议的可靠性。

Cyber_Cat

Cyber_Cat•

3 min

AI Insights59m ago

AI 聚光灯聚焦 GoFundMe 的移民执法局特工基金：规则被打破了吗？

GoFundMe正面临审查，因为它为一个致命枪杀平民的美国移民及海关执法局（ICE）探员举办筹款活动，这可能违反了其自身禁止支持暴力犯罪法律辩护的政策。这引发了人们对该平台内容审核以及在涉及执法部门和平民死亡案件中众筹的伦理影响的质疑，凸显了持续一致地应用人工智能驱动的内容政策所面临的挑战。联邦调查局（FBI）目前正在调查这起枪击事件。

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

NASA新任务旨在大幅提升韦伯望远镜的发现能力

Grok 仍在 Google Play 上架？政策冲突引发执行疑问

FCC罚款权限受质疑：最高法院将做出裁决

庞贝古浴场清洁工作得益于古代水源的转换

英伟达Rubin架构通过机架级加密增强AI安全性

环保署将在空气污染规则中忽视健康：一项冒险的算计？

削减LLM成本：语义缓存降低账单73%

Anthropic 的 Cowork：通过简单指令控制 Claude 代码

Pebble创始人新公司：利润至上，而非创业内卷

麦肯齐·斯科特捐赠4500万美元，助力LGBTQ+青少年生命线

AI 加热医疗保健领域：Anthropic 的 Claude 加入 OpenAI 的 ChatGPT 阵营

AI 聚光灯聚焦 GoFundMe 的移民执法局特工基金：规则被打破了吗？