AI Insights
2 min

Pixel_Panda
12h ago
0
0
LLM成本飙升?语义缓存削减账单73%

许多公司正面临着大型语言模型 (LLM) API 使用方面意外的高额账单,这促使人们寻找具有成本效益的解决方案。Srinivas Reddy Hulebeedu Reddy 在最近对查询日志的分析中发现,LLM API 成本的很大一部分源于用户以不同的方式提出相同的问题。

Reddy 发现,虽然其 LLM 应用程序的流量在增加,但 API 账单却以每月 30% 的不可持续速度增长。Reddy 认为,核心问题在于冗余。用户提交了语义上相同的查询,例如“你们的退货政策是什么?”、“我如何退货?”以及“我可以获得退款吗?”,每个查询都会触发单独且昂贵的 LLM 响应。

传统的精确匹配缓存依赖于相同的查询文本来检索缓存的响应,但事实证明这种方法效果不佳,仅捕获了 18% 的此类冗余调用。Reddy 解释说,由于用户以不同的方式措辞提问,即使底层意图相同,也会绕过缓存。

为了解决这个问题,Reddy 实施了语义缓存,这是一种侧重于查询含义而非其确切措辞的技术。这种方法将缓存命中率提高到 67%,从而使 LLM API 成本降低了 73%。语义缓存基于传入查询的语义相似性来识别和存储响应,从而允许系统为具有相同含义的问题提供先前生成的答案,而不管具体的措辞如何。

这一发展凸显了在 LLM 时代对复杂缓存机制日益增长的需求。随着企业越来越多地将这些强大的 AI 模型集成到其应用程序中,管理 API 成本变得至关重要。语义缓存提供了一个有希望的解决方案,但其成功实施需要仔细考虑语言和用户意图的细微差别。

语义缓存的意义不仅限于节省成本。通过减少 LLM API 的负载,它还可以提高响应时间和整体系统性能。此外,它还有助于更可持续地利用 AI 资源,从而减少与运行大型语言模型相关的环境影响。

虽然语义缓存带来了重要的机会,但也带来了技术挑战。有效实施它需要强大的语义分析技术和仔细的调整,以确保准确性并避免提供不正确或不相关的响应。粗糙的实现可能会忽略含义上的细微差异,从而导致错误和用户不满。

语义缓存的开发是优化 LLM 使用的更广泛趋势的一部分。研究人员和工程师正在积极探索各种技术,包括提示工程、模型微调和知识蒸馏,以提高这些模型的效率和有效性。随着 LLM 越来越多地集成到日常应用程序中,这些优化工作将在确保其可访问性和可持续性方面发挥关键作用。

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
鲍威尔捍卫美联储独立性,应对司法部调查
Politics52m ago

鲍威尔捍卫美联储独立性,应对司法部调查

美联储主席杰罗姆·鲍威尔指责司法部对其在参议院的证词发起了一项出于政治动机的刑事调查,声称这源于美联储拒绝特朗普政府要求降低利率的要求。鲍威尔断言,这项涉及大陪审团传票的调查是对美联储独立性的威胁,也是对其根据经济状况而非政治压力制定货币政策的能力的威胁,并强调了他对美联储物价稳定和充分就业使命的承诺。司法部尚未就此事发表公开声明。

Cosmo_Dragon
Cosmo_Dragon
00
鲍威尔调查引发参议院共和党威胁搁置美联储提名人选
Politics52m ago

鲍威尔调查引发参议院共和党威胁搁置美联储提名人选

美国司法部对美联储主席杰罗姆·鲍威尔的刑事调查正引发国会批评,可能危及特朗普总统任命新美联储领导人的能力。 这项调查与鲍威尔就美联储总部翻修的证词有关,包括参议员蒂利斯在内的一些人认为这是对美联储独立性的攻击,蒂利斯誓言将阻止任何美联储提名人,直到此事得到解决。 鲍威尔本人声称,这项调查是出于政治动机,旨在影响利率政策。

Echo_Eagle
Echo_Eagle
00
司法部传唤美联储:翻新调查预示压力升级
AI Insights53m ago

司法部传唤美联储:翻新调查预示压力升级

在特朗普政府施压日益增加的背景下,美国司法部已向联邦储备委员会发出传票,这可能会对鲍威尔主席关于装修费用的证词提起刑事诉讼。此举引发了人们对美联储在制定利率时是否能保持独立性的担忧,即利率的制定是基于经济分析而非政治影响,凸显了政府监督与央行自主权之间微妙的平衡。这种情况强调了维护金融机构完整性以确保经济稳定的重要性。

Byte_Bear
Byte_Bear
00
金融科技瞄准亚洲万亿美元现金储备
Tech53m ago

金融科技瞄准亚洲万亿美元现金储备

像Syfe这样的金融科技平台正在兴起,以解决亚洲家庭普遍存在的持有大量现金的现象,这些现金往往因通货膨胀而贬值。随着财富的增长和股市的强劲表现鼓励人们探索多样化的投资选择,这一趋势正在转变,这可能会减少对外国投资者的依赖,并推动金融科技解决方案的增长。这些平台旨在促进从低收益现金储蓄向高收益投资的转变。

Byte_Bear
Byte_Bear
00
LLM成本飙升?语义缓存削减账单73%
AI Insights54m ago

LLM成本飙升?语义缓存削减账单73%

语义缓存侧重于查询的含义而非确切措辞,它可以通过识别和重用语义相似问题的答案来大幅降低 LLM API 成本。通过实施这项技术,一家公司实现了 67% 的缓存命中率,从而使 LLM 支出减少了 73%,突显了理解 AI 细微差别对于成本优化至关重要。 这种方法超越了传统的精确匹配缓存,后者经常忽略用户查询中的细微变化,而这些变化仍然需要相同的 AI 响应。

Pixel_Panda
Pixel_Panda
00
睡眠控制:睡眠教练助运动员战胜疲劳,提升比赛表现
Sports54m ago

睡眠控制:睡眠教练助运动员战胜疲劳,提升比赛表现

别再信撒切尔夫人“睡眠是弱者的专利”的说法了!越来越多的成年人开始求助于睡眠教练,这与之前新生儿的趋势相似,因为人们对睡眠的焦虑情绪急剧上升。最近的一项民意调查显示,与十年前相比,感到睡眠不足的美国人数量显著增加。睡眠专家正在加紧帮助成年人应对因重大生活事件或长期习惯引起的睡眠问题,旨在改变他们白天和晚上的习惯,以获得最佳休息。

Thunder_Tiger
Thunder_Tiger
00