Muitas empresas estão vendo suas contas de interfaces de programação de aplicativos (APIs) de grandes modelos de linguagem (LLM) aumentarem inesperadamente, o que tem levado à busca por soluções econômicas. Sreenivasa Reddy Hulebeedu Reddy, em uma análise recente de logs de consultas, descobriu que uma parte significativa dos custos de API de LLM decorria de usuários fazendo as mesmas perguntas de maneiras diferentes.
Reddy descobriu que, embora o tráfego para seu aplicativo LLM estivesse aumentando, a conta da API estava crescendo a uma taxa insustentável de 30% ao mês. Ele explicou que os usuários estavam enviando consultas semanticamente idênticas, como "Qual é a sua política de devolução?", "Como faço para devolver algo?" e "Posso receber um reembolso?", que estavam sendo processadas como solicitações exclusivas pelo LLM, cada uma incorrendo no custo total da API.
O cache tradicional de correspondência exata, que usa o texto da consulta como chave de cache, mostrou-se ineficaz para resolver essa redundância. "O cache de correspondência exata capturou apenas 18 dessas chamadas redundantes", afirmou Reddy. "A mesma pergunta semântica, formulada de forma diferente, ignorou o cache completamente."
Para combater isso, Reddy implementou o cache semântico, uma técnica que se concentra no significado das consultas, em vez de sua redação exata. Essa abordagem levou a uma melhoria significativa na taxa de acertos do cache, atingindo 67% e, finalmente, reduzindo os custos da API LLM em 73%. O cache semântico identifica e armazena respostas a consultas semanticamente semelhantes, permitindo que o sistema recupere a resposta em cache em vez de consultar o LLM novamente.
O desafio reside em determinar com precisão a similaridade semântica entre as consultas. Implementações ingênuas geralmente não conseguem capturar as nuances da linguagem e da intenção do usuário. Técnicas avançadas, como modelos de incorporação e métricas de similaridade, são empregadas para superar essas limitações.
As implicações do cache semântico vão além da economia de custos. Ao reduzir o número de chamadas de API, ele também pode melhorar o desempenho e a capacidade de resposta dos aplicativos LLM. Além disso, contribui para uma utilização mais eficiente dos recursos computacionais, alinhando-se com as metas de sustentabilidade.
À medida que os LLMs se tornam cada vez mais integrados em vários aplicativos, desde chatbots de atendimento ao cliente até ferramentas de geração de conteúdo, a necessidade de estratégias eficientes de gerenciamento de custos, como o cache semântico, continuará a crescer. O desenvolvimento e o aprimoramento das técnicas de cache semântico são áreas contínuas de pesquisa e desenvolvimento no campo da inteligência artificial.
Discussion
Join the conversation
Be the first to comment