Os custos da API de modelos de linguagem grandes (LLM) podem ser significativamente reduzidos implementando o cache semântico, de acordo com Sreenivasa Reddy Hulebeedu Reddy, um profissional de aprendizado de máquina que recentemente diminuiu as despesas de LLM de sua empresa em 73%. Reddy observou um aumento mês a mês de 30% na fatura da API LLM de sua empresa, apesar do tráfego não aumentar na mesma proporção. A análise dos logs de consulta revelou que os usuários estavam fazendo as mesmas perguntas de maneiras diferentes, levando a chamadas redundantes para o LLM.
Reddy descobriu que os usuários estavam fazendo perguntas semanticamente idênticas usando frases diferentes. Por exemplo, consultas como "Qual é a sua política de devolução?", "Como devolvo algo?" e "Posso receber um reembolso?" acionavam chamadas separadas para o LLM, cada uma gerando respostas quase idênticas e incorrendo em custos totais de API. O cache tradicional de correspondência exata, que usa o texto da consulta como a chave do cache, provou ser ineficaz, capturando apenas 18% dessas chamadas redundantes.
Para resolver isso, Reddy implementou o cache semântico, que se concentra no significado das consultas, em vez de sua redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. "Os usuários não formulam perguntas de forma idêntica", explicou Reddy, destacando as limitações do cache de correspondência exata. Ele analisou 100.000 consultas de produção para entender a extensão do problema.
O cache semântico representa uma mudança dos métodos de cache tradicionais, empregando técnicas para entender o significado subjacente de uma consulta. Em vez de simplesmente comparar o texto da consulta, o cache semântico aproveita o processamento de linguagem natural (PNL) e modelos de aprendizado de máquina para identificar a intenção e o contexto da pergunta. Isso permite que o sistema reconheça que "Qual é a sua política de devolução?" e "Como devolvo algo?" estão essencialmente perguntando a mesma coisa.
As implicações do cache semântico vão além da economia de custos. Ao reduzir o número de chamadas para APIs LLM, ele também pode melhorar os tempos de resposta e reduzir a carga geral no sistema. Isso é particularmente importante para aplicativos que lidam com um alto volume de consultas de usuários. Além disso, o cache semântico pode contribuir para um uso mais eficiente dos recursos computacionais, alinhando-se com as metas de sustentabilidade mais amplas no setor de tecnologia.
O desenvolvimento de sistemas de cache semântico eficazes requer uma consideração cuidadosa de vários fatores, incluindo a escolha de modelos de PNL, o design da chave do cache e as estratégias para lidar com consultas ambíguas ou complexas. Embora a experiência de Reddy demonstre os benefícios potenciais do cache semântico, ele também observou que alcançar resultados ideais requer a solução de problemas que as implementações ingênuas não percebem. Os desafios e soluções específicos variam dependendo do aplicativo e das características das consultas do usuário.
Discussion
Join the conversation
Be the first to comment