Muchas empresas están viendo cómo sus facturas de las interfaces de programación de aplicaciones (API) de los modelos de lenguaje grandes (LLM) se disparan, impulsadas por consultas redundantes, según Sreenivasa Reddy Hulebeedu Reddy, un desarrollador de aplicaciones de IA. Reddy descubrió que los usuarios a menudo hacen las mismas preguntas de diferentes maneras, lo que hace que el LLM procese cada variación por separado e incurra en costos de API completos para cada una.
El análisis de los registros de consultas realizado por Reddy reveló que los usuarios preguntaban repetidamente lo mismo utilizando diferentes frases. Por ejemplo, preguntas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" obtuvieron respuestas casi idénticas del LLM, pero cada una desencadenó una llamada API separada.
El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, resultó ineficaz para abordar este problema. Reddy descubrió que el almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes de 100.000 consultas de producción. "La misma pregunta semántica, expresada de manera diferente, evitó la caché por completo", explicó Reddy.
Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que almacena en caché las respuestas basándose en el significado de la consulta en lugar de la redacción exacta. Este enfoque aumentó la tasa de aciertos de la caché al 67%, lo que resultó en una reducción del 73% en los costos de la API del LLM. El almacenamiento en caché semántico aborda el problema central de los usuarios que formulan la misma pregunta de múltiples maneras.
El almacenamiento en caché semántico representa un avance significativo con respecto a los métodos de almacenamiento en caché tradicionales en el contexto de los LLM. El almacenamiento en caché tradicional se basa en una coincidencia exacta entre la consulta entrante y la consulta almacenada en caché. Este método es simple de implementar, pero no logra capturar los matices del lenguaje humano, donde la misma intención se puede expresar de numerosas maneras. El almacenamiento en caché semántico, por otro lado, emplea técnicas como incrustaciones y métricas de similitud para determinar si una nueva consulta es semánticamente similar a una consulta previamente almacenada en caché. Si la similitud excede un umbral predefinido, se devuelve la respuesta almacenada en caché, evitando una costosa llamada API.
El desarrollo del almacenamiento en caché semántico destaca la creciente necesidad de métodos eficientes y rentables para utilizar los LLM. A medida que los LLM se integran cada vez más en diversas aplicaciones, la gestión de los costos de la API se convierte en una preocupación fundamental para las empresas. El almacenamiento en caché semántico ofrece una solución prometedora al reducir la redundancia y optimizar la utilización de los recursos. Una mayor investigación y desarrollo en esta área podría conducir a estrategias de almacenamiento en caché aún más sofisticadas que minimicen aún más los costos de la API del LLM y mejoren el rendimiento general.
Discussion
Join the conversation
Be the first to comment