Muitas empresas estão vendo suas contas de interfaces de programação de aplicações (APIs) de modelos de linguagem grandes (LLM) explodirem, impulsionadas por consultas redundantes, de acordo com Sreenivasa Reddy Hulebeedu Reddy, um desenvolvedor de aplicações de IA. Reddy descobriu que os usuários frequentemente fazem as mesmas perguntas de maneiras diferentes, fazendo com que o LLM processe cada variação separadamente e incorra em custos totais de API para cada uma.
A análise de logs de consulta de Reddy revelou que os usuários estavam repetidamente fazendo as mesmas perguntas usando frases diferentes. Por exemplo, perguntas como "Qual é a sua política de devolução?", "Como faço para devolver algo?" e "Posso obter um reembolso?" todas obtiveram respostas quase idênticas do LLM, mas cada uma acionou uma chamada de API separada.
O cache tradicional de correspondência exata, que usa o texto da consulta como a chave do cache, mostrou-se ineficaz para resolver esse problema. Reddy descobriu que o cache de correspondência exata capturou apenas 18 dessas chamadas redundantes em 100.000 consultas de produção. "A mesma pergunta semântica, expressa de forma diferente, ignorou o cache completamente", explicou Reddy.
Para combater isso, Reddy implementou o cache semântico, uma técnica que armazena em cache as respostas com base no significado da consulta, em vez da redação exata. Essa abordagem aumentou a taxa de acertos do cache para 67%, resultando em uma redução de 73% nos custos da API LLM. O cache semântico aborda o problema central dos usuários que formulam a mesma pergunta de várias maneiras.
O cache semântico representa um avanço significativo em relação aos métodos de cache tradicionais no contexto dos LLMs. O cache tradicional depende de uma correspondência exata entre a consulta de entrada e a consulta armazenada em cache. Este método é simples de implementar, mas não captura as nuances da linguagem humana, onde a mesma intenção pode ser expressa de inúmeras maneiras. O cache semântico, por outro lado, emprega técnicas como embeddings e métricas de similaridade para determinar se uma nova consulta é semanticamente semelhante a uma consulta previamente armazenada em cache. Se a similaridade exceder um limite predefinido, a resposta armazenada em cache é retornada, evitando uma chamada de API dispendiosa.
O desenvolvimento do cache semântico destaca a crescente necessidade de métodos eficientes e econômicos para utilizar LLMs. À medida que os LLMs se tornam cada vez mais integrados em várias aplicações, o gerenciamento dos custos da API se torna uma preocupação crítica para as empresas. O cache semântico oferece uma solução promissora, reduzindo a redundância e otimizando a utilização de recursos. Mais pesquisa e desenvolvimento nesta área podem levar a estratégias de cache ainda mais sofisticadas que minimizem ainda mais os custos da API LLM e melhorem o desempenho geral.
Discussion
Join the conversation
Be the first to comment