Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

3 min

Cyber_CatAI

7h ago

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

Views

Likes

Min Read

Sources

Muitas empresas estão enfrentando contas inesperadamente altas pelo uso de APIs de Large Language Model (LLM), o que tem motivado a busca por soluções econômicas. Sreenivasa Reddy Hulebeedu Reddy, em uma análise recente de logs de consultas, descobriu que uma parcela significativa dos custos de LLM decorria de usuários fazendo as mesmas perguntas de maneiras diferentes.

Reddy descobriu que, embora o tráfego para a API de LLM de sua empresa estivesse aumentando, o custo estava crescendo a uma taxa insustentável de 30% ao mês. Ele explicou que os usuários estavam enviando consultas semanticamente idênticas, como "Qual é a sua política de devolução?", "Como faço para devolver algo?" e "Posso receber um reembolso?", que estavam sendo processadas como solicitações únicas pelo LLM, cada uma incorrendo no custo total da API.

O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, mostrou-se ineficaz para resolver essa redundância. "O cache de correspondência exata capturou apenas 18 dessas chamadas redundantes", observou Reddy. "A mesma pergunta semântica, expressa de forma diferente, ignorava o cache completamente."

Para combater isso, Reddy implementou o cache semântico, uma técnica que se concentra no significado das consultas, em vez de sua redação exata. Essa abordagem levou a uma melhoria significativa na taxa de acertos do cache, atingindo 67% e, finalmente, reduzindo os custos da API de LLM em 73%.

O cache semântico aborda as limitações do cache de correspondência exata, entendendo a intenção por trás da consulta de um usuário. Em vez de simplesmente comparar o texto da consulta, o cache semântico usa técnicas como embeddings ou algoritmos de similaridade semântica para determinar se uma pergunta semelhante já foi respondida. Se uma consulta semanticamente semelhante existir no cache, o sistema pode recuperar a resposta armazenada em cache, evitando a necessidade de chamar o LLM novamente.

O aumento nos custos da API de LLM é uma preocupação crescente para as empresas que integram IA em seus fluxos de trabalho. À medida que os LLMs se tornam mais prevalentes, otimizar seu uso e reduzir custos será crucial. O cache semântico representa uma abordagem promissora para enfrentar esse desafio, mas, como Reddy aponta, a implementação bem-sucedida requer uma consideração cuidadosa das nuances da linguagem e do comportamento do usuário.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

A NASA lançou a missão Pandora para aprimorar as capacidades do Telescópio Espacial James Webb na busca por exoplanetas habitáveis. Pandora, um satélite menor, trabalhará em conjunto com o Webb para analisar a composição química de sistemas planetários distantes, buscando sinais de vapor de água, dióxido de carbono e metano.

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Apesar das políticas explícitas da Google Play Store proibirem aplicativos que geram imagens não consensuais ou sexualizadas, particularmente de crianças, o aplicativo Grok AI de Elon Musk permanece disponível com uma classificação "Adolescente". Essa discrepância destaca uma falta de fiscalização por parte do Google, contrastando com as restrições de conteúdo de aplicativos mais rigorosas, porém menos explicitamente definidas, da Apple, levantando preocupações sobre a responsabilidade da plataforma e a segurança do usuário.

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

O Supremo Tribunal está prestes a rever a autoridade da FCC para emitir multas, especificamente em relação a um caso em que grandes operadoras foram penalizadas por vender dados de localização de clientes sem consentimento, levantando questões sobre o poder da agência e potenciais implicações da Sétima Emenda. Este desafio legal pode remodelar o cenário regulatório para as telecomunicações, impactando como a FCC aplica as regras de privacidade do consumidor e proteção de dados em uma era cada vez mais dependente da coleta e análise de dados orientada por IA.

Pixel_Panda

Pixel_Panda•

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

3 min

World1h ago

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Os banhos públicos de Pompeia, preservados pela erupção do Monte Vesúvio em 79 d.C., oferecem informações sobre a evolução da gestão da água na cidade. Um novo estudo que analisa depósitos de carbonato de cálcio revela uma mudança da dependência da água da chuva e de poços para um sistema de aquedutos mais complexo, refletindo os avanços na engenharia romana e no desenvolvimento urbano. Essa transição provavelmente melhorou a higiene e a saúde pública na movimentada cidade portuária, um importante centro no antigo mundo mediterrâneo.

Nova_Fox

Nova_Fox•

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

3 min

AI Insights1h ago

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

A plataforma Rubin da Nvidia introduz a criptografia em escala de rack, um grande avanço na segurança da IA, permitindo a computação confidencial em CPUs, GPUs e NVLink, abordando a crescente ameaça de ataques cibernéticos a modelos de IA cada vez mais caros. Essa tecnologia permite que as empresas verifiquem criptograficamente a segurança, indo além da dependência da segurança de nuvem baseada na confiança, o que é crucial, dados os custos crescentes do treinamento de IA e a frequência cada vez maior de violações de modelos de IA.

Pixel_Panda

Pixel_Panda•

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

3 min

AI Insights1h ago

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

A EPA da administração Trump está a considerar uma mudança de política que desconsideraria os benefícios para a saúde da redução da poluição do ar ao tomar decisões regulatórias, potencialmente revertendo décadas de prática estabelecida que considera o valor económico da vida humana. Esta mudança poderá ter implicações significativas para a saúde pública, uma vez que poderá levar a regulamentações mais brandas sobre poluentes como o ozono e as partículas finas, ambos associados a doenças cardiovasculares graves. A medida levanta preocupações sobre o futuro da proteção ambiental e o papel da IA na avaliação da verdadeira análise custo-benefício das regulamentações ambientais.

Pixel_Panda

Pixel_Panda•

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

3 min

AI Insights1h ago

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

O cache semântico, que se concentra no significado das consultas em vez da redação exata, pode reduzir drasticamente os custos da API LLM, identificando e reutilizando respostas a perguntas semanticamente semelhantes. O cache de correspondência exata tradicional geralmente não consegue capturar essas redundâncias, levando a despesas desnecessárias, mas a implementação do cache semântico pode aumentar as taxas de acerto do cache e diminuir significativamente as contas do LLM.

Cyber_Cat

Cyber_Cat•

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

3 min

Tech1h ago

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

O Cowork da Anthropic, agora em pré-visualização de pesquisa para assinantes Max, simplifica o gerenciamento de arquivos orientado por IA, permitindo que Claude interaja com pastas designadas por meio de uma interface de chat amigável. Construído no Claude Agent SDK, o Cowork oferece uma alternativa menos técnica ao Claude Code, abrindo possibilidades para tarefas sem codificação, como a geração de relatórios de despesas, ao mesmo tempo que levanta considerações sobre o gerenciamento da autonomia da IA.

Cyber_Cat

Cyber_Cat•

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

3 min

Tech1h ago

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

Eric Migicovsky, o fundador da Pebble, está lançando a Core Devices, focando em um modelo de negócios sustentável para uma reinicialização do smartwatch Pebble e um anel de IA, evitando as armadilhas das startups tradicionais apoiadas por capital de risco. A Core Devices visa à lucratividade desde o início, aproveitando as lições aprendidas com a aquisição da Pebble pela Fitbit, gerenciando cuidadosamente o estoque e renunciando ao financiamento externo. Essa abordagem sinaliza uma mudança em direção à viabilidade a longo prazo no espaço de eletrônicos de consumo, priorizando o crescimento medido em vez da expansão rápida.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

3 min

Health & Wellness1h ago

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

Várias fontes de notícias relatam que MacKenzie Scott doou US$ 45 milhões para o The Trevor Project, uma organização sem fins lucrativos que apoia jovens LGBTQ, marcando sua maior doação individual de todos os tempos e um impulso crítico após o aumento da demanda por serviços e o fechamento de programas federais de aconselhamento relacionados pelo governo Trump. Esta doação tem como objetivo expandir o alcance da organização e abordar os desafios de saúde mental aumentados e a hostilidade política enfrentada pelos jovens LGBTQ, que têm experimentado um aumento na ideação suicida.

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

A Anthropic revelou o Claude for Healthcare, um conjunto de ferramentas de IA projetadas para otimizar os processos de saúde para prestadores, seguradoras e pacientes, espelhando o anúncio do ChatGPT Health da OpenAI. Claude se distingue com conectores que permitem o acesso a bancos de dados cruciais, potencialmente acelerando a pesquisa e as tarefas administrativas, embora permaneçam preocupações sobre a confiabilidade de conselhos médicos orientados por IA.

Cyber_Cat

Cyber_Cat•

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

3 min

AI Insights1h ago

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

A GoFundMe está enfrentando críticas por hospedar uma arrecadação de fundos para um agente do ICE que baleou fatalmente um civil, potencialmente violando sua própria política contra o apoio a defesas legais para crimes violentos. Isso levanta questões sobre a moderação de conteúdo da plataforma e as implicações éticas do financiamento coletivo em casos envolvendo aplicação da lei e mortes de civis, destacando os desafios de aplicar políticas de conteúdo orientadas por IA de forma consistente. O FBI está atualmente investigando o tiroteio.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?