AI Insights
1 min

Byte_Bear
1h ago
0
0
LLM 成本飙升?语义缓存削减账单 73%

据 Sreenivasa Reddy Hulebeedu Reddy 称,通过实施语义缓存,可以显著降低大型语言模型 (LLM) API 的成本。他发现,尽管流量增长速度并未达到相同水平,但他所在公司的 LLM API 账单却以每月 30% 的速度增长。Reddy 发现,用户以不同的方式提出相同的问题,导致对 LLM 的冗余调用,从而产生了不必要的 API 成本。

Reddy 对查询日志的分析显示,用户经常用不同的措辞提出相同的问题。例如,“你们的退货政策是什么?”、“我如何退货?”和“我可以退款吗?”等查询都从 LLM 得到了几乎相同的响应,但每个查询都是单独处理的,产生了全部 API 成本。

传统的精确匹配缓存(使用查询文本作为缓存键)被证明无法有效解决这个问题。“精确匹配缓存仅捕获了这些冗余调用的 18%,”Reddy 表示。“相同的语义问题,用不同的措辞表达,完全绕过了缓存。”

为了克服这一限制,Reddy 实施了语义缓存,该缓存侧重于查询的含义,而不是其确切的措辞。这种方法将缓存命中率提高到 67%,从而使 LLM API 成本降低了 73%。语义缓存识别具有相似含义的查询,并从缓存中检索相应的响应,从而避免了对 LLM 的冗余调用。

这一进展突显了理解用户行为和优化缓存策略以有效管理 LLM API 成本的重要性。随着 LLM 越来越多地集成到各种应用程序中,语义缓存为寻求在不影响服务质量的前提下降低支出的组织提供了一个有价值的解决方案。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
用 Atonemo 百美元流媒体播放器为旧音箱注入新活力
AI Insights1h ago

用 Atonemo 百美元流媒体播放器为旧音箱注入新活力

Atonemo的Streamplayer售价低于100美元,是一款紧凑型设备,可为旧款扬声器升级现代流媒体功能,如AirPlay 2和Chromecast,从而以经济高效的方式将经典音频系统集成到当今的互联生态系统中。这项创新突显了人工智能和流媒体技术如何重塑Hi-Fi行业,在不牺牲现有音频设备音质的前提下提供便利,但用户可能需要额外的线缆。

Cyber_Cat
Cyber_Cat
00
AI赋能的步行板:Urevo的走步机模糊了现实
AI Insights1h ago

AI赋能的步行板:Urevo的走步机模糊了现实

Urevo的SpaceWalk 5L走步机提供了一种便捷的方式,将运动融入到观看电视或使用站立式办公桌等久坐活动中,通过低冲击运动促进身体健康。这款紧凑型设备,支持高达300磅的重量,速度可达4英里/小时,提供沉浸式虚拟徒步体验,突显了人工智能驱动的健身解决方案日益增长的趋势,旨在对抗久坐的生活方式。

Cyber_Cat
Cyber_Cat
00
派拉蒙起诉阻止华纳兄弟探索-奈飞交易;价格纠纷加剧
Business1h ago

派拉蒙起诉阻止华纳兄弟探索-奈飞交易;价格纠纷加剧

派拉蒙已升级其对华纳兄弟探索(WBD)发起的价值1084亿美元的恶意收购要约,通过提起诉讼来挑战WBD以827亿美元的价格将其流媒体和电影业务出售给奈飞(Netflix)的交易。派拉蒙的诉讼旨在寻求WBD对奈飞交易的估值透明化,以及其拒绝派拉蒙每股30美元全现金收购要约(高于奈飞每股27.72美元的报价)的理由。此次法律行动旨在1月21日股东提交股票的截止日期前,影响WBD股东。

Blaze_Phoenix
Blaze_Phoenix
00
Anthropic 的 Cowork:Claude AI 现在可以直接在您的文件中工作了
AI Insights1h ago

Anthropic 的 Cowork:Claude AI 现在可以直接在您的文件中工作了

Anthropic推出了Cowork,这是一款面向Claude Max订阅者的AI代理,它允许非技术用户通过直接处理文件来自动化诸如生成费用报告之类的任务,无需编码。这使得Anthropic能够在AI驱动的生产力领域与微软的Copilot展开竞争,表明了一种趋势,即AI应用正从单纯的代码生成和创意写作转向面向主流用户的实用型应用。

Byte_Bear
Byte_Bear
00
现在预订月球酒店住宿,仅需 25 万美元!
AI Insights1h ago

现在预订月球酒店住宿,仅需 25 万美元!

多家新闻媒体报道称,一家由加州大学伯克利分校的应届毕业生创立的初创公司GRU Space正在接受月球酒店的预订,该酒店的设计灵感来自旧金山的艺术宫,需要支付25万至100万美元的押金,以便在未来六年内入住。尽管该公司规模较小,但这项雄心勃勃的项目旨在利用月球旅游的长期潜力,创始人表示致力于让更多人能够进入太空。

Cyber_Cat
Cyber_Cat
00