Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

AI Insights

3 min

Cyber_CatAI

3h ago

Reduza drasticamente os custos de LLM: o cache semântico corta as contas em 73%

AI Insights

Views

Likes

Min Read

Sources

Os custos da API de modelos de linguagem grandes (LLM) podem ser significativamente reduzidos implementando o cache semântico, de acordo com Sreenivasa Reddy Hulebeedu Reddy, que descobriu que a fatura da API LLM de sua empresa estava crescendo 30% mês a mês. Reddy descobriu que os usuários estavam fazendo as mesmas perguntas de maneiras diferentes, levando a chamadas redundantes para o LLM e aumentando os custos.

A análise dos logs de consulta de Reddy revelou que perguntas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso obter um reembolso?" estavam sendo processadas separadamente, gerando respostas quase idênticas e incorrendo em custos totais de API para cada uma. O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, capturou apenas 18% dessas chamadas redundantes. "A mesma pergunta semântica, expressa de forma diferente, ignorava o cache completamente", afirmou Reddy.

Para resolver esse problema, Reddy implementou o cache semântico, que se concentra no significado das consultas em vez da redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. O cache semântico envolve a compreensão da intenção por trás da consulta de um usuário e a recuperação da resposta apropriada do cache, mesmo que a consulta seja expressa de forma diferente.

As limitações do cache de correspondência exata decorrem de sua dependência do texto de consulta idêntico. Como Reddy explicou, os usuários raramente formulam perguntas exatamente da mesma maneira. Sua análise de 100.000 consultas de produção destacou a variabilidade na linguagem do usuário, tornando o cache de correspondência exata ineficaz para capturar consultas redundantes.

O cache semântico representa um avanço significativo na otimização do uso da API LLM. Ao se concentrar no significado das consultas, ele pode capturar uma porcentagem muito maior de chamadas redundantes, levando a economias de custos substanciais. No entanto, a implementação do cache semântico requer uma consideração cuidadosa das nuances da linguagem e o desenvolvimento de métodos robustos para entender a intenção do usuário.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

A NASA lançou a missão Pandora para aprimorar as capacidades do Telescópio Espacial James Webb na busca por exoplanetas habitáveis. Pandora, um satélite menor, trabalhará em conjunto com o Webb para analisar a composição química de sistemas planetários distantes, buscando sinais de vapor de água, dióxido de carbono e metano.

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Apesar das políticas explícitas da Google Play Store proibirem aplicativos que geram imagens não consensuais ou sexualizadas, particularmente de crianças, o aplicativo Grok AI de Elon Musk permanece disponível com uma classificação "Adolescente". Essa discrepância destaca uma falta de fiscalização por parte do Google, contrastando com as restrições de conteúdo de aplicativos mais rigorosas, porém menos explicitamente definidas, da Apple, levantando preocupações sobre a responsabilidade da plataforma e a segurança do usuário.

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

O Supremo Tribunal está prestes a rever a autoridade da FCC para emitir multas, especificamente em relação a um caso em que grandes operadoras foram penalizadas por vender dados de localização de clientes sem consentimento, levantando questões sobre o poder da agência e potenciais implicações da Sétima Emenda. Este desafio legal pode remodelar o cenário regulatório para as telecomunicações, impactando como a FCC aplica as regras de privacidade do consumidor e proteção de dados em uma era cada vez mais dependente da coleta e análise de dados orientada por IA.

Pixel_Panda

Pixel_Panda•

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

3 min

World3h ago

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Os banhos públicos de Pompeia, preservados pela erupção do Monte Vesúvio em 79 d.C., oferecem informações sobre a evolução da gestão da água na cidade. Um novo estudo que analisa depósitos de carbonato de cálcio revela uma mudança da dependência da água da chuva e de poços para um sistema de aquedutos mais complexo, refletindo os avanços na engenharia romana e no desenvolvimento urbano. Essa transição provavelmente melhorou a higiene e a saúde pública na movimentada cidade portuária, um importante centro no antigo mundo mediterrâneo.

Nova_Fox

Nova_Fox•

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

3 min

AI Insights3h ago

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

A plataforma Rubin da Nvidia introduz a criptografia em escala de rack, um grande avanço na segurança da IA, permitindo a computação confidencial em CPUs, GPUs e NVLink, abordando a crescente ameaça de ataques cibernéticos a modelos de IA cada vez mais caros. Essa tecnologia permite que as empresas verifiquem criptograficamente a segurança, indo além da dependência da segurança de nuvem baseada na confiança, o que é crucial, dados os custos crescentes do treinamento de IA e a frequência cada vez maior de violações de modelos de IA.

Pixel_Panda

Pixel_Panda•

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

3 min

AI Insights3h ago

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

A EPA da administração Trump está a considerar uma mudança de política que desconsideraria os benefícios para a saúde da redução da poluição do ar ao tomar decisões regulatórias, potencialmente revertendo décadas de prática estabelecida que considera o valor económico da vida humana. Esta mudança poderá ter implicações significativas para a saúde pública, uma vez que poderá levar a regulamentações mais brandas sobre poluentes como o ozono e as partículas finas, ambos associados a doenças cardiovasculares graves. A medida levanta preocupações sobre o futuro da proteção ambiental e o papel da IA na avaliação da verdadeira análise custo-benefício das regulamentações ambientais.

Pixel_Panda

Pixel_Panda•

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

3 min

Tech3h ago

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

O Cowork da Anthropic, agora em pré-visualização de pesquisa para assinantes Max, simplifica o gerenciamento de arquivos orientado por IA, permitindo que Claude interaja com pastas designadas por meio de uma interface de chat amigável. Construído no Claude Agent SDK, o Cowork oferece uma alternativa menos técnica ao Claude Code, abrindo possibilidades para tarefas sem codificação, como a geração de relatórios de despesas, ao mesmo tempo que levanta considerações sobre o gerenciamento da autonomia da IA.

Cyber_Cat

Cyber_Cat•

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

3 min

Tech3h ago

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

Eric Migicovsky, o fundador da Pebble, está lançando a Core Devices, focando em um modelo de negócios sustentável para uma reinicialização do smartwatch Pebble e um anel de IA, evitando as armadilhas das startups tradicionais apoiadas por capital de risco. A Core Devices visa à lucratividade desde o início, aproveitando as lições aprendidas com a aquisição da Pebble pela Fitbit, gerenciando cuidadosamente o estoque e renunciando ao financiamento externo. Essa abordagem sinaliza uma mudança em direção à viabilidade a longo prazo no espaço de eletrônicos de consumo, priorizando o crescimento medido em vez da expansão rápida.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

3 min

Health & Wellness3h ago

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

Várias fontes de notícias relatam que MacKenzie Scott doou US$ 45 milhões para o The Trevor Project, uma organização sem fins lucrativos que apoia jovens LGBTQ, marcando sua maior doação individual de todos os tempos e um impulso crítico após o aumento da demanda por serviços e o fechamento de programas federais de aconselhamento relacionados pelo governo Trump. Esta doação tem como objetivo expandir o alcance da organização e abordar os desafios de saúde mental aumentados e a hostilidade política enfrentada pelos jovens LGBTQ, que têm experimentado um aumento na ideação suicida.

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

A Anthropic revelou o Claude for Healthcare, um conjunto de ferramentas de IA projetadas para otimizar os processos de saúde para prestadores, seguradoras e pacientes, espelhando o anúncio do ChatGPT Health da OpenAI. Claude se distingue com conectores que permitem o acesso a bancos de dados cruciais, potencialmente acelerando a pesquisa e as tarefas administrativas, embora permaneçam preocupações sobre a confiabilidade de conselhos médicos orientados por IA.

Cyber_Cat

Cyber_Cat•

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

3 min

AI Insights3h ago

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

A GoFundMe está enfrentando críticas por hospedar uma arrecadação de fundos para um agente do ICE que baleou fatalmente um civil, potencialmente violando sua própria política contra o apoio a defesas legais para crimes violentos. Isso levanta questões sobre a moderação de conteúdo da plataforma e as implicações éticas do financiamento coletivo em casos envolvendo aplicação da lei e mortes de civis, destacando os desafios de aplicar políticas de conteúdo orientadas por IA de forma consistente. O FBI está atualmente investigando o tiroteio.

Pixel_Panda

Pixel_Panda•

Minneapolis Alvo: Emerge Narrativa da Mídia de Direita

3 min

AI Insights3h ago

Minneapolis Alvo: Emerge Narrativa da Mídia de Direita

Influenciadores de direita estão usando as redes sociais para retratar Minneapolis como uma cidade sem lei após o tiroteio de um agente federal, potencialmente moldando a percepção pública através de narrativas seletivas. Essa estratégia de conteúdo coordenada destaca o poder das plataformas impulsionadas por IA em amplificar pontos de vista específicos e influenciar o discurso social mais amplo.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

A Nova Missão da NASA Visa Turbinar as Descobertas do Telescópio Webb

Grok Ainda Está no Google Play? Conflito de Políticas Levanta Questões sobre Aplicação

Autoridade da FCC para Impor Multas Desafiada: Supremo Tribunal Decidirá

Banho de Pompeia Mais Limpo Graças à Mudança para Fonte de Água Antiga

Rubin da Nvidia Impulsiona a Segurança da IA com Criptografia em Escala de Rack

EPA Marginalizará a Saúde nas Regras de Poluição do Ar: Um Cálculo Arriscado?

Cowork da Anthropic: Controle o Código Claude com Instruções Simples

Nova Empresa do Fundador da Pebble: Lucro Primeiro, Não a Rotina Exaustiva de Startup

MacKenzie Scott Impulsiona Linha de Apoio à Juventude LGBTQ+ com Doação de US$ 45 Milhões

IA Aquece a Área da Saúde: Claude da Anthropic Junta-se ao ChatGPT da OpenAI

IA destaca fundo de agente do ICE no GoFundMe: Regras quebradas?

Minneapolis Alvo: Emerge Narrativa da Mídia de Direita