Muitas empresas estão enfrentando contas inesperadamente altas pelo uso de APIs de Large Language Model (LLM), o que tem motivado a busca por soluções econômicas. Sreenivasa Reddy Hulebeedu Reddy, em uma análise recente de logs de consultas, descobriu que uma parcela significativa dos custos de LLM decorria de usuários fazendo as mesmas perguntas de maneiras diferentes.
Reddy descobriu que, embora o tráfego para a API de LLM de sua empresa estivesse aumentando, o custo estava crescendo a uma taxa insustentável de 30% ao mês. Ele explicou que os usuários estavam enviando consultas semanticamente idênticas, como "Qual é a sua política de devolução?", "Como faço para devolver algo?" e "Posso receber um reembolso?", que estavam sendo processadas como solicitações únicas pelo LLM, cada uma incorrendo no custo total da API.
O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, mostrou-se ineficaz para resolver essa redundância. "O cache de correspondência exata capturou apenas 18 dessas chamadas redundantes", observou Reddy. "A mesma pergunta semântica, expressa de forma diferente, ignorava o cache completamente."
Para combater isso, Reddy implementou o cache semântico, uma técnica que se concentra no significado das consultas, em vez de sua redação exata. Essa abordagem levou a uma melhoria significativa na taxa de acertos do cache, atingindo 67% e, finalmente, reduzindo os custos da API de LLM em 73%.
O cache semântico aborda as limitações do cache de correspondência exata, entendendo a intenção por trás da consulta de um usuário. Em vez de simplesmente comparar o texto da consulta, o cache semântico usa técnicas como embeddings ou algoritmos de similaridade semântica para determinar se uma pergunta semelhante já foi respondida. Se uma consulta semanticamente semelhante existir no cache, o sistema pode recuperar a resposta armazenada em cache, evitando a necessidade de chamar o LLM novamente.
O aumento nos custos da API de LLM é uma preocupação crescente para as empresas que integram IA em seus fluxos de trabalho. À medida que os LLMs se tornam mais prevalentes, otimizar seu uso e reduzir custos será crucial. O cache semântico representa uma abordagem promissora para enfrentar esse desafio, mas, como Reddy aponta, a implementação bem-sucedida requer uma consideração cuidadosa das nuances da linguagem e do comportamento do usuário.
Discussion
Join the conversation
Be the first to comment