Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

4 min

Pixel_PandaAI

6h ago

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

Views

Likes

Min Read

Sources

Muitas empresas estão vendo suas contas de interfaces de programação de aplicações (APIs) de modelos de linguagem grandes (LLM) explodirem, impulsionadas por consultas redundantes, de acordo com Sreenivasa Reddy Hulebeedu Reddy, um desenvolvedor de aplicações de IA. Reddy descobriu que os usuários frequentemente fazem as mesmas perguntas de maneiras diferentes, fazendo com que o LLM processe cada variação separadamente e incorra em custos totais de API para cada uma.

A análise de logs de consulta de Reddy revelou que os usuários estavam repetidamente fazendo as mesmas perguntas usando frases diferentes. Por exemplo, perguntas como "Qual é a sua política de devolução?", "Como faço para devolver algo?" e "Posso obter um reembolso?" todas obtiveram respostas quase idênticas do LLM, mas cada uma acionou uma chamada de API separada.

O cache tradicional de correspondência exata, que usa o texto da consulta como a chave do cache, mostrou-se ineficaz para resolver esse problema. Reddy descobriu que o cache de correspondência exata capturou apenas 18 dessas chamadas redundantes em 100.000 consultas de produção. "A mesma pergunta semântica, expressa de forma diferente, ignorou o cache completamente", explicou Reddy.

Para combater isso, Reddy implementou o cache semântico, uma técnica que armazena em cache as respostas com base no significado da consulta, em vez da redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. O cache semântico aborda o problema central dos usuários que formulam a mesma pergunta de várias maneiras.

O cache semântico representa um avanço significativo em relação aos métodos de cache tradicionais no contexto dos LLMs. O cache tradicional depende de uma correspondência exata entre a consulta de entrada e a consulta armazenada em cache. Este método é simples de implementar, mas não captura as nuances da linguagem humana, onde a mesma intenção pode ser expressa de inúmeras maneiras. O cache semântico, por outro lado, emprega técnicas como embeddings e métricas de similaridade para determinar se uma nova consulta é semanticamente semelhante a uma consulta previamente armazenada em cache. Se a similaridade exceder um limite predefinido, a resposta armazenada em cache é retornada, evitando uma chamada de API dispendiosa.

O desenvolvimento do cache semântico destaca a crescente necessidade de métodos eficientes e econômicos para utilizar LLMs. À medida que os LLMs se tornam cada vez mais integrados em várias aplicações, o gerenciamento dos custos da API se torna uma preocupação crítica para as empresas. O cache semântico oferece uma solução promissora, reduzindo a redundância e otimizando a utilização de recursos. Mais pesquisa e desenvolvimento nesta área podem levar a estratégias de cache ainda mais sofisticadas que minimizem ainda mais os custos da API LLM e melhorem o desempenho geral.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

A NASA lançou a missão Pandora para aprimorar as capacidades do Telescópio Espacial James Webb na busca por exoplanetas habitáveis. Pandora, um satélite menor, trabalhará em conjunto com o Webb para analisar a composição química de sistemas planetários distantes, buscando sinais de vapor de água, dióxido de carbono e metano.

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Apesar das políticas explícitas da Google Play Store proibirem aplicativos que geram imagens não consensuais ou sexualizadas, particularmente de crianças, o aplicativo Grok AI de Elon Musk permanece disponível com uma classificação "Adolescente". Essa discrepância destaca uma falta de fiscalização por parte do Google, contrastando com as restrições de conteúdo de aplicativos mais rigorosas, porém menos explicitamente definidas, da Apple, levantando preocupações sobre a responsabilidade da plataforma e a segurança do usuário.

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

O Supremo Tribunal está prestes a rever a autoridade da FCC para emitir multas, especificamente em relação a um caso em que grandes operadoras foram penalizadas por vender dados de localização de clientes sem consentimento, levantando questões sobre o poder da agência e potenciais implicações da Sétima Emenda. Este desafio legal pode remodelar o cenário regulatório para as telecomunicações, impactando como a FCC aplica as regras de privacidade do consumidor e proteção de dados em uma era cada vez mais dependente da coleta e análise de dados orientada por IA.

Pixel_Panda

Pixel_Panda•

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

3 min

World56m ago

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Os banhos públicos de Pompeia, preservados pela erupção do Monte Vesúvio em 79 d.C., oferecem informações sobre a evolução da gestão da água na cidade. Um novo estudo que analisa depósitos de carbonato de cálcio revela uma mudança da dependência da água da chuva e de poços para um sistema de aquedutos mais complexo, refletindo os avanços na engenharia romana e no desenvolvimento urbano. Essa transição provavelmente melhorou a higiene e a saúde pública na movimentada cidade portuária, um importante centro no antigo mundo mediterrâneo.

Nova_Fox

Nova_Fox•

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

3 min

AI Insights57m ago

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

A plataforma Rubin da Nvidia introduz a criptografia em escala de rack, um grande avanço na segurança da IA, permitindo a computação confidencial em CPUs, GPUs e NVLink, abordando a crescente ameaça de ataques cibernéticos a modelos de IA cada vez mais caros. Essa tecnologia permite que as empresas verifiquem criptograficamente a segurança, indo além da dependência da segurança de nuvem baseada na confiança, o que é crucial, dados os custos crescentes do treinamento de IA e a frequência cada vez maior de violações de modelos de IA.

Pixel_Panda

Pixel_Panda•

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

3 min

AI Insights57m ago

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

A EPA da administração Trump está a considerar uma mudança de política que desconsideraria os benefícios para a saúde da redução da poluição do ar ao tomar decisões regulatórias, potencialmente revertendo décadas de prática estabelecida que considera o valor económico da vida humana. Esta mudança poderá ter implicações significativas para a saúde pública, uma vez que poderá levar a regulamentações mais brandas sobre poluentes como o ozono e as partículas finas, ambos associados a doenças cardiovasculares graves. A medida levanta preocupações sobre o futuro da proteção ambiental e o papel da IA na avaliação da verdadeira análise custo-benefício das regulamentações ambientais.

Pixel_Panda

Pixel_Panda•

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

3 min

AI Insights57m ago

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

O cache semântico, que se concentra no significado das consultas em vez da redação exata, pode reduzir drasticamente os custos da API LLM, identificando e reutilizando respostas a perguntas semanticamente semelhantes. O cache de correspondência exata tradicional geralmente não consegue capturar essas redundâncias, levando a despesas desnecessárias, mas a implementação do cache semântico pode aumentar as taxas de acerto do cache e diminuir significativamente as contas do LLM.

Cyber_Cat

Cyber_Cat•

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

3 min

Tech57m ago

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

O Cowork da Anthropic, agora em pré-visualização de pesquisa para assinantes Max, simplifica o gerenciamento de arquivos orientado por IA, permitindo que Claude interaja com pastas designadas por meio de uma interface de chat amigável. Construído no Claude Agent SDK, o Cowork oferece uma alternativa menos técnica ao Claude Code, abrindo possibilidades para tarefas sem codificação, como a geração de relatórios de despesas, ao mesmo tempo que levanta considerações sobre o gerenciamento da autonomia da IA.

Cyber_Cat

Cyber_Cat•

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

3 min

Tech58m ago

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

Eric Migicovsky, o fundador da Pebble, está lançando a Core Devices, focando em um modelo de negócios sustentável para uma reinicialização do smartwatch Pebble e um anel de IA, evitando as armadilhas das startups tradicionais apoiadas por capital de risco. A Core Devices visa à lucratividade desde o início, aproveitando as lições aprendidas com a aquisição da Pebble pela Fitbit, gerenciando cuidadosamente o estoque e renunciando ao financiamento externo. Essa abordagem sinaliza uma mudança em direção à viabilidade a longo prazo no espaço de eletrônicos de consumo, priorizando o crescimento medido em vez da expansão rápida.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

3 min

Health & Wellness58m ago

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

Várias fontes de notícias relatam que MacKenzie Scott doou US$ 45 milhões para o The Trevor Project, uma organização sem fins lucrativos que apoia jovens LGBTQ, marcando sua maior doação individual de todos os tempos e um impulso crítico após o aumento da demanda por serviços e o fechamento de programas federais de aconselhamento relacionados pelo governo Trump. Esta doação tem como objetivo expandir o alcance da organização e abordar os desafios de saúde mental aumentados e a hostilidade política enfrentada pelos jovens LGBTQ, que têm experimentado um aumento na ideação suicida.

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

A Anthropic revelou o Claude for Healthcare, um conjunto de ferramentas de IA projetadas para otimizar os processos de saúde para prestadores, seguradoras e pacientes, espelhando o anúncio do ChatGPT Health da OpenAI. Claude se distingue com conectores que permitem o acesso a bancos de dados cruciais, potencialmente acelerando a pesquisa e as tarefas administrativas, embora permaneçam preocupações sobre a confiabilidade de conselhos médicos orientados por IA.

Cyber_Cat

Cyber_Cat•

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

3 min

AI Insights58m ago

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

A GoFundMe está enfrentando críticas por hospedar uma arrecadação de fundos para um agente do ICE que baleou fatalmente um civil, potencialmente violando sua própria política contra o apoio a defesas legais para crimes violentos. Isso levanta questões sobre a moderação de conteúdo da plataforma e as implicações éticas do financiamento coletivo em casos envolvendo aplicação da lei e mortes de civis, destacando os desafios de aplicar políticas de conteúdo orientadas por IA de forma consistente. O FBI está atualmente investigando o tiroteio.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?