Muitas empresas estão vendo suas contas de interfaces de programação de aplicativos (APIs) de grandes modelos de linguagem (LLM) dispararem, o que tem motivado a busca por soluções econômicas. Srinivas Reddy Hulebeedu Reddy, em uma análise recente, descobriu que uma parcela significativa desses custos decorre de usuários fazendo as mesmas perguntas de maneiras diferentes.
Reddy observou um aumento de 30% mês a mês na conta de API de LLM de sua empresa, apesar de o tráfego não ter aumentado na mesma proporção. A análise dos logs de consulta revelou que os usuários estavam fazendo perguntas semanticamente idênticas usando frases variadas. Por exemplo, consultas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso receber um reembolso?" acionaram chamadas separadas para o LLM, cada uma incorrendo em custos totais de API.
O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, mostrou-se ineficaz para resolver esse problema. Reddy descobriu que o cache de correspondência exata capturou apenas 18 dessas chamadas redundantes, pois pequenas variações na redação ignoraram o cache completamente.
Para combater isso, Reddy implementou o cache semântico, uma técnica que se concentra no significado das consultas em vez de sua redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos de API de LLM. O cache semântico identifica a intenção subjacente de uma consulta e recupera a resposta correspondente do cache, mesmo que a fraseologia seja diferente.
O aumento nos custos de API de LLM é uma preocupação crescente para as empresas que integram IA em seus fluxos de trabalho. À medida que os LLMs se tornam mais prevalentes, otimizar o uso da API é crucial para manter a eficiência de custos. O cache semântico representa uma solução promissora, mas sua implementação bem-sucedida requer uma consideração cuidadosa das nuances da linguagem e do comportamento do usuário. Reddy observou que implementações ingênuas geralmente perdem aspectos importantes do problema. Espera-se que mais pesquisa e desenvolvimento em técnicas de cache semântico desempenhem um papel significativo no gerenciamento dos custos de LLM no futuro.
Discussion
Join the conversation
Be the first to comment