Os custos da API de modelos de linguagem grandes (LLM) podem ser significativamente reduzidos implementando o cache semântico, de acordo com Sreenivasa Reddy Hulebeedu Reddy, que descobriu que a fatura da API LLM de sua empresa estava crescendo 30% mês a mês. Reddy descobriu que os usuários estavam fazendo as mesmas perguntas de maneiras diferentes, levando a chamadas redundantes para o LLM e aumentando os custos.
A análise dos logs de consulta de Reddy revelou que perguntas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso obter um reembolso?" estavam sendo processadas separadamente, gerando respostas quase idênticas e incorrendo em custos totais de API para cada uma. O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, capturou apenas 18% dessas chamadas redundantes. "A mesma pergunta semântica, expressa de forma diferente, ignorava o cache completamente", afirmou Reddy.
Para resolver esse problema, Reddy implementou o cache semântico, que se concentra no significado das consultas em vez da redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. O cache semântico envolve a compreensão da intenção por trás da consulta de um usuário e a recuperação da resposta apropriada do cache, mesmo que a consulta seja expressa de forma diferente.
As limitações do cache de correspondência exata decorrem de sua dependência do texto de consulta idêntico. Como Reddy explicou, os usuários raramente formulam perguntas exatamente da mesma maneira. Sua análise de 100.000 consultas de produção destacou a variabilidade na linguagem do usuário, tornando o cache de correspondência exata ineficaz para capturar consultas redundantes.
O cache semântico representa um avanço significativo na otimização do uso da API LLM. Ao se concentrar no significado das consultas, ele pode capturar uma porcentagem muito maior de chamadas redundantes, levando a economias de custos substanciais. No entanto, a implementação do cache semântico requer uma consideração cuidadosa das nuances da linguagem e o desenvolvimento de métodos robustos para entender a intenção do usuário.
Discussion
Join the conversation
Be the first to comment