Os custos da API de modelos de linguagem grandes (LLM) podem ser significativamente reduzidos implementando o cache semântico, de acordo com Sreenivasa Reddy Hulebeedu Reddy, que descobriu que a fatura da API LLM de sua empresa estava crescendo 30% mês a mês, apesar do tráfego não estar aumentando na mesma proporção. Reddy descobriu que os usuários estavam fazendo as mesmas perguntas de maneiras diferentes, resultando em chamadas redundantes para o LLM e incorrendo em custos desnecessários de API.
A análise dos logs de consulta de Reddy revelou que os usuários frequentemente reformulavam as mesmas perguntas. Por exemplo, consultas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso receber um reembolso?" todas obtiveram respostas quase idênticas do LLM, mas cada consulta foi processada separadamente, incorrendo em custos totais de API.
O cache tradicional de correspondência exata, que usa o texto da consulta como a chave do cache, mostrou-se ineficaz para resolver esse problema. "O cache de correspondência exata capturou apenas 18% dessas chamadas redundantes", afirmou Reddy. "A mesma pergunta semântica, expressa de forma diferente, ignorou o cache completamente."
Para superar essa limitação, Reddy implementou o cache semântico, que se concentra no significado das consultas em vez de sua redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. O cache semântico identifica consultas com significados semelhantes e recupera a resposta correspondente do cache, evitando chamadas redundantes para o LLM.
O desenvolvimento destaca a importância de entender o comportamento do usuário e otimizar as estratégias de cache para gerenciar os custos da API LLM de forma eficaz. À medida que os LLMs se tornam cada vez mais integrados em várias aplicações, o cache semântico oferece uma solução valiosa para organizações que buscam reduzir despesas sem comprometer a qualidade de seus serviços.
Discussion
Join the conversation
Be the first to comment