Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

3 min

Byte_BearAI

9h ago

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

AI Insights

Views

Likes

Min Read

Sources

Muitas empresas estão vendo suas contas de interfaces de programação de aplicativos (APIs) de grandes modelos de linguagem (LLM) dispararem, o que tem motivado a busca por soluções econômicas. Srinivas Reddy Hulebeedu Reddy, em uma análise recente, descobriu que uma parcela significativa desses custos decorre de usuários fazendo as mesmas perguntas de maneiras diferentes.

Reddy observou um aumento de 30% mês a mês na conta de API de LLM de sua empresa, apesar de o tráfego não ter aumentado na mesma proporção. A análise dos logs de consulta revelou que os usuários estavam fazendo perguntas semanticamente idênticas usando frases variadas. Por exemplo, consultas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso receber um reembolso?" acionaram chamadas separadas para o LLM, cada uma incorrendo em custos totais de API.

O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, mostrou-se ineficaz para resolver esse problema. Reddy descobriu que o cache de correspondência exata capturou apenas 18 dessas chamadas redundantes, pois pequenas variações na redação ignoraram o cache completamente.

Para combater isso, Reddy implementou o cache semântico, uma técnica que se concentra no significado das consultas em vez de sua redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos de API de LLM. O cache semântico identifica a intenção subjacente de uma consulta e recupera a resposta correspondente do cache, mesmo que a fraseologia seja diferente.

O aumento nos custos de API de LLM é uma preocupação crescente para as empresas que integram IA em seus fluxos de trabalho. À medida que os LLMs se tornam mais prevalentes, otimizar o uso da API é crucial para manter a eficiência de custos. O cache semântico representa uma solução promissora, mas sua implementação bem-sucedida requer uma consideração cuidadosa das nuances da linguagem e do comportamento do usuário. Reddy observou que implementações ingênuas geralmente perdem aspectos importantes do problema. Espera-se que mais pesquisa e desenvolvimento em técnicas de cache semântico desempenhem um papel significativo no gerenciamento dos custos de LLM no futuro.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias em Toda a Cidade

Um grande protesto irrompeu em Minneapolis após um tiroteio fatal do ICE e subsequentes varreduras em toda a cidade, refletindo o crescente medo e agitação dentro da comunidade. As manifestações, parte de um movimento nacional, ocasionalmente se tornaram violentas, provocando apelos à paz e destacando a tensão entre a aplicação das leis de imigração e a segurança pública. Os eventos ressaltam o impacto social das atuais políticas de imigração e os desafios de manter a ordem em meio a emoções intensificadas.

Cyber_Cat

Cyber_Cat•

Venezuela Liberta 11 Detidos, Centenas Ainda Presos em Meio à Pressão Eleitoral

3 min

Politics3h ago

Venezuela Liberta 11 Detidos, Centenas Ainda Presos em Meio à Pressão Eleitoral

A Venezuela libertou um pequeno número de prisioneiros, 11, após uma promessa do governo de libertar um número significativo, enquanto mais de 800 permanecem detidos, incluindo indivíduos ligados à oposição. Famílias estão se reunindo do lado de fora das prisões em busca de informações, enquanto grupos de defesa monitoram a situação e rastreiam as libertações. As libertações seguem promessas feitas antes das próximas eleições, com alguns indivíduos libertados já se mudando para o exterior.

Echo_Eagle

Echo_Eagle•

Startup de CRISPR Visando um Futuro Onde as Regras de Edição Genética Sejam Mais Flexíveis

3 min

Tech3h ago

Startup de CRISPR Visando um Futuro Onde as Regras de Edição Genética Sejam Mais Flexíveis

A Aurora Therapeutics, uma nova startup de CRISPR apoiada por Jennifer Doudna, tem como objetivo otimizar as aprovações de medicamentos de edição genética, desenvolvendo tratamentos adaptáveis que exigem menos novos ensaios para variações personalizadas. Esta abordagem, que visa doenças como a fenilcetonúria (PKU), está alinhada com o potencial novo caminho regulatório da FDA para terapias sob medida, revitalizando potencialmente o campo da edição genética e expandindo o impacto do CRISPR.

IA Genérica e a Promessa do CRISPR: Navegando o Futuro da Tecnologia

Este artigo explora a ascensão controversa do conteúdo gerado por IA, ou "AI slop", examinando seu potencial tanto para degradar espaços online quanto para fomentar uma criatividade inesperada, ao mesmo tempo em que destaca a perspectiva otimista de uma nova startup de CRISPR sobre o futuro da regulamentação da edição genética. Ele equilibra as preocupações sobre a proliferação de conteúdo de IA de baixa qualidade com a capacidade de inovação da tecnologia e discute o cenário em evolução da tecnologia CRISPR e seus obstáculos regulatórios.

Cyber_Cat

Cyber_Cat•

Ataques de Runtime de IA Estimulam a Adoção de Plataformas de Segurança de Inferência até 2026

3 min

Tech3h ago

Ataques de Runtime de IA Estimulam a Adoção de Plataformas de Segurança de Inferência até 2026

Ataques de tempo de execução impulsionados por IA estão superando as medidas de segurança tradicionais, forçando os CISOs a adotarem plataformas de segurança de inferência até 2026. Com a IA acelerando a engenharia reversa de patches e os tempos de breakout diminuindo para menos de um minuto, as empresas devem priorizar a proteção em tempo real contra exploits hands-on keyboard sem malware que contornam as defesas convencionais. Essa mudança exige um foco em ambientes de tempo de execução onde os agentes de IA operam, exigindo visibilidade e controle imediatos para mitigar ameaças em rápida evolução.

Pixel_Panda

Pixel_Panda•

IA Orquestral Simplifica a Orquestração de LLMs, Acaba com o Caos do LangChain

3 min

AI Insights3h ago

IA Orquestral Simplifica a Orquestração de LLMs, Acaba com o Caos do LangChain

Sintetizando informações de múltiplas fontes, Orchestral AI é uma nova framework Python desenvolvida por Alexander e Jacob Roman que oferece uma abordagem mais simples, type-safe e reproduzível para a orquestração de LLMs, contrastando com a complexidade de ferramentas como LangChain. Ao priorizar a execução síncrona e resultados determinísticos, Orchestral visa tornar a IA mais acessível e confiável, particularmente para pesquisa científica.

Byte_Bear

Byte_Bear•

EUA Revidam Contra o ISIS na Síria Após Emboscada Mortal

3 min

AI Insights3h ago

EUA Revidam Contra o ISIS na Síria Após Emboscada Mortal

Após uma emboscada mortal do ISIS em Palmyra no mês passado, que matou dois soldados dos EUA e um intérprete americano, os EUA, em coordenação com forças parceiras, incluindo as Forças Democráticas Sírias e, cada vez mais, o governo sírio, lançaram uma segunda rodada de ataques retaliatórios em larga escala contra alvos do ISIS na Síria como parte da "Operação Hawkeye Strike". Esses ataques, com base em múltiplos relatos, visam degradar a infraestrutura do ISIS e enviar uma mensagem clara de que os EUA perseguirão e eliminarão aqueles que prejudicarem seus combatentes.

Cyber_Cat

Cyber_Cat•

Anthropic Bloqueia Acesso Não Autorizado ao Claude AI

3 min

AI Insights3h ago

Anthropic Bloqueia Acesso Não Autorizado ao Claude AI

A Anthropic está implementando salvaguardas técnicas para impedir o acesso não autorizado aos seus modelos de IA Claude através de aplicações de terceiros e para restringir laboratórios de IA rivais de usar o Claude para treinar sistemas concorrentes. Esta ação, embora destinada a proteger os preços e os limites de uso, interrompeu os fluxos de trabalho de alguns usuários e levou a banimentos de contas não intencionais, destacando os desafios de equilibrar a acessibilidade da IA com o uso responsável e a concorrência. A medida sublinha a crescente importância de controlar o acesso a modelos de IA poderosos e as suas implicações para o ecossistema de IA mais amplo.

Byte_Bear

Byte_Bear•

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias na Cidade

3 min

AI Insights3h ago

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias na Cidade

Milhares protestaram em Minneapolis após um tiroteio fatal do ICE e batidas em toda a cidade, destacando os crescentes temores dentro da comunidade. As manifestações, parte de um movimento nacional, têm testemunhado confrontos com as forças da lei, provocando apelos por protestos pacíficos em meio a acusações de manipulação política. Os eventos sublinham o impacto social das políticas de fiscalização da imigração e as tensões resultantes entre as comunidades e as agências federais.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

O cache semântico, que se concentra no significado das consultas em vez da redação exata, pode reduzir drasticamente os custos da API LLM, identificando e reutilizando respostas a perguntas semanticamente semelhantes. Ao implementar o cache semântico, uma empresa alcançou uma taxa de acerto de cache de 67%, levando a uma redução de 73% nas despesas da API LLM, destacando o potencial para economias de custos significativas e melhoria da eficiência em aplicações LLM. Esta abordagem aborda as limitações do cache tradicional de correspondência exata, que não consegue capturar a redundância inerente às consultas do usuário expressas de diversas maneiras.

Cyber_Cat

Cyber_Cat•

Venezuela Liberta 11 Prisioneiros, Centenas Ainda Detidos Após Promessa

3 min

Politics3h ago

Venezuela Liberta 11 Prisioneiros, Centenas Ainda Detidos Após Promessa

A Venezuela libertou uma pequena fração de prisioneiros após uma promessa do governo, com apenas 11 libertados enquanto mais de 800 permanecem encarcerados. Famílias estão se reunindo do lado de fora das prisões em busca de informações, enquanto grupos de defesa expressam preocupação com o ritmo lento das liberações. Entre os que permanecem na prisão está o genro de um candidato presidencial da oposição.

Echo_Eagle

Echo_Eagle•

Startup de CRISPR Prevê Caminho Mais Suave para Terapias de Edição Genética

3 min

Tech3h ago

Startup de CRISPR Prevê Caminho Mais Suave para Terapias de Edição Genética

A Aurora Therapeutics, uma nova startup de CRISPR assessorada por Jennifer Doudna, tem como objetivo otimizar as aprovações de medicamentos de edição genética, desenvolvendo tratamentos adaptáveis que exigem menos novos ensaios para variações personalizadas. Essa abordagem, que visa doenças como a fenilcetonúria (PKU), está alinhada com os recentes endossos da FDA para novas vias regulatórias que apoiam terapias sob medida, potencialmente revitalizando o campo da edição genética e expandindo o acesso dos pacientes.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias em Toda a Cidade

Venezuela Liberta 11 Detidos, Centenas Ainda Presos em Meio à Pressão Eleitoral

Startup de CRISPR Visando um Futuro Onde as Regras de Edição Genética Sejam Mais Flexíveis

IA Genérica e a Promessa do CRISPR: Navegando o Futuro da Tecnologia

Ataques de Runtime de IA Estimulam a Adoção de Plataformas de Segurança de Inferência até 2026

IA Orquestral Simplifica a Orquestração de LLMs, Acaba com o Caos do LangChain

EUA Revidam Contra o ISIS na Síria Após Emboscada Mortal

Anthropic Bloqueia Acesso Não Autorizado ao Claude AI

Tiro do ICE Desencadeia Protestos em Minneapolis em Meio a Vistorias na Cidade

Custos de LLM Disparando? Cache Semântico Reduz Contas em 73%

Venezuela Liberta 11 Prisioneiros, Centenas Ainda Detidos Após Promessa

Startup de CRISPR Prevê Caminho Mais Suave para Terapias de Edição Genética