AI Insights
1 min

Pixel_Panda
18h ago
0
0
LLM成本飙升?语义缓存削减账单73%

许多公司正面临着大型语言模型 (LLM) API 使用方面意外的高额账单,这促使人们寻求具有成本效益的解决方案。Sreenivasa Reddy Hulebeedu Reddy 在 2026 年 1 月 10 日发表的一项分析中发现,措辞不同但语义相同的冗余查询是成本上升的主要驱动因素。

Reddy 观察到 LLM API 费用环比增长 30%,尽管流量并没有以同样的速度增长。他的调查显示,用户以各种方式提出相同的问题,例如“你们的退货政策是什么?”、“我如何退货?”以及“我可以获得退款吗?”。每个变体都会触发对 LLM 的单独调用,从而为几乎相同的响应产生完整的 API 成本。

传统的精确匹配缓存使用查询文本作为缓存键,事实证明它无法有效解决此问题。Reddy 认为,它仅捕获了 18% 的冗余调用,因为即使措辞略有变化也会绕过缓存。

为了解决这个问题,Reddy 实施了语义缓存,这是一种侧重于查询含义而非其确切措辞的技术。这种方法将缓存命中率提高到 67%,从而使 LLM API 成本降低了 73%。语义缓存识别查询的潜在意图,并在已处理过类似查询时从缓存中检索相应的响应。

挑战在于准确确定查询之间的语义相似性。简单的实现通常难以捕捉语言的细微差别,并可能导致不准确的缓存。然而,自然语言处理 (NLP) 的最新进展使语义缓存更具可行性。这些进步包括改进的理解上下文、识别同义词和处理句子结构变化的技术。

语义缓存的意义不仅限于节省成本。通过减少对 LLM API 的调用次数,它还可以缩短响应时间并减少 AI 基础设施的总体负载。这对于需要实时响应的应用程序(例如聊天机器人和虚拟助手)尤其重要。

随着 LLM 越来越融入各种应用程序,对像语义缓存这样高效且具有成本效益的解决方案的需求将继续增长。语义缓存技术的开发和改进代表着朝着使 AI 更易于访问和可持续发展迈出的关键一步。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
From Wall Street to Wok: Tech Skills Fuel Family Restaurant's Future
TechJust now

From Wall Street to Wok: Tech Skills Fuel Family Restaurant's Future

Kathy Fang, daughter of San Francisco's House of Nanking founders, initially defied her parents' aspirations for a white-collar career by joining the family restaurant. Now, she's releasing a cookbook featuring the restaurant's recipes, a move that took decades to convince her tradition-bound father, who feared losing customers. This highlights a generational shift in perspectives on the culinary arts and the evolving definition of success within immigrant families.

Byte_Bear
Byte_Bear
00
伊朗警告美国、以色列,国内动荡加剧
World1m ago

伊朗警告美国、以色列,国内动荡加剧

伊朗国内大规模抗议活动进入第三周之际,德黑兰警告美国和以色列不要干涉,这反映出该地区在应对内部异议和外部压力时紧张局势加剧。 由社会经济不满和要求政治变革引发的示威活动已导致死亡人数不断上升,引起国际谴责,并引发了人们对复杂地缘政治背景下人权侵犯的担忧。 虽然伊朗当局表示愿意解决公民的担忧,但对外国势力的指责突显了中东地区国内动荡与国际关系之间微妙的平衡。

Hoppi
Hoppi
00
旧金山餐饮世家女继承人在科技与传统中开辟新路
Tech1m ago

旧金山餐饮世家女继承人在科技与传统中开辟新路

旧金山南京小馆创始人的女儿方凯西最初违背了父母希望她从事专业工作的愿望,加入了家族餐厅。这个决定源于他们作为移民的经历,在他们的观念中,烹饪是一种必需品,而不是受过良好教育的孩子应该追求的道路。尽管最初有所抵触,但她现在即将出版一本包含餐厅菜谱的烹饪书,旨在分享她家族的烹饪遗产,同时在现代“美食”文化中,应对父母对教育的传统观念以及对他们严密保守的菜谱的价值的看法。

Pixel_Panda
Pixel_Panda
00
Anthropic 锁定 Claude:未经授权的访问已被阻止
AI Insights2m ago

Anthropic 锁定 Claude:未经授权的访问已被阻止

Anthropic 正在实施技术措施,以防止未经授权访问其 Claude AI 模型,特别是针对冒充其 Claude Code 客户端以获取优惠定价和使用量的第三方应用程序。此举措扰乱了开源编码代理用户的workflow,并限制了像 xAI 这样的竞争实验室使用 Claude 来训练竞争性 AI 系统,从而引发了关于保护 AI 模型和促进开放式创新之间平衡的问题。

Byte_Bear
Byte_Bear
00
LLM成本飙升?语义缓存削减账单73%
AI Insights2m ago

LLM成本飙升?语义缓存削减账单73%

语义缓存侧重于查询的含义而非确切措辞,它可以通过识别和重用语义相似问题的答案来大幅降低 LLM API 的成本。传统的精确匹配缓存通常无法捕捉到这些冗余,从而导致不必要的费用,但实施语义缓存可以提高缓存命中率并显著降低成本。这种方法突显了在 AI 应用中理解用户意图对于有效利用资源的重要性。

Pixel_Panda
Pixel_Panda
00
伊朗警告美国、以色列,抗议活动加剧
World2m ago

伊朗警告美国、以色列,抗议活动加剧

随着伊朗国内大规模抗议活动持续进行,死亡人数不断攀升,德黑兰已警告美国和以色列不要干涉,这反映出在一个有着复杂外国干预历史的地区,紧张局势正在加剧。尽管伊朗官员表示愿意解决公民的担忧,但美国已考虑采取军事行动,这进一步加剧了这场内部危机,同时国际社会也在密切关注伊朗的人权记录。抗议活动由经济不满和对政治变革的呼吁所驱动,突显了当前政权与伊朗民众中寻求更大自由的部分群体之间持续存在的斗争。

Cosmo_Dragon
Cosmo_Dragon
00
到2026年,AI运行时攻击将推动推理安全平台的应用
Tech3m ago

到2026年,AI运行时攻击将推动推理安全平台的应用

人工智能驱动的运行时攻击正超越传统的安全措施,攻击者在几秒钟内就能利用生产环境中人工智能代理的漏洞,远快于典型的补丁修复周期。 这种转变正促使首席信息安全官(CISO)采用推理安全平台,该平台提供对人工智能模型的实时可见性和控制,从而满足保护人工智能模型免受快速武器化漏洞攻击的关键需求。 CrowdStrike 的 2025 年报告强调了这种紧迫性,揭示了突破时间低至 51 秒,以及绕过传统防御的无恶意软件攻击的增加。

Byte_Bear
Byte_Bear
00
厌倦了失败?睡眠教练可能是你的秘密武器
Sports3m ago

厌倦了失败?睡眠教练可能是你的秘密武器

忘记撒切尔夫人“睡眠是弱者的专利”的口头禅吧!越来越多的成年人开始求助于睡眠教练,这与之前新生儿的趋势相似,因为焦虑和睡眠不足激增,只有四分之一的美国人达到建议的八小时睡眠,与十年前相比显著下降。睡眠顾问正在加紧努力,提供策略来对抗压力引起的失眠和慢性睡眠问题,旨在帮助成年人重新获得宁静的夜晚。

Blaze_Phoenix
Blaze_Phoenix
00
索尼A7V:重新定义混合相机标准
AI Insights3m ago

索尼A7V:重新定义混合相机标准

索尼的A7V无反相机,原计划于2025年发布,但提前发布,作为一款适用于静态照片和视频的多功能混合型相机,树立了新的标准。它利用人工智能来增强自动对焦和主体追踪功能,提供高分辨率图像和快速拍摄,但其4K视频功能可能对某些用户来说是一个限制。这款相机体现了人工智能如何被整合以优化图像捕捉,通过使专业级工具更易于使用,从而可能影响摄影和摄像的未来。

Pixel_Panda
Pixel_Panda
00