Los costos de la API de modelos de lenguaje grandes (LLM) pueden reducirse significativamente implementando el almacenamiento en caché semántico, según Sreenivasa Reddy Hulebeedu Reddy, quien descubrió que la factura de la API de LLM de su empresa crecía un 30% mes a mes a pesar de que el tráfico no aumentaba al mismo ritmo. Reddy descubrió que los usuarios hacían las mismas preguntas de diferentes maneras, lo que resultaba en llamadas redundantes al LLM e incurría en costos innecesarios de la API.
El análisis de los registros de consultas realizado por Reddy reveló que los usuarios frecuentemente reformulaban las mismas preguntas. Por ejemplo, consultas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" provocaban respuestas casi idénticas del LLM, pero cada consulta se procesaba por separado, lo que generaba costos totales de la API.
El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar este problema. "El almacenamiento en caché de coincidencia exacta capturó solo el 18% de estas llamadas redundantes", afirmó Reddy. "La misma pregunta semántica, expresada de manera diferente, eludió la caché por completo".
Para superar esta limitación, Reddy implementó el almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque aumentó la tasa de aciertos de la caché al 67%, lo que resultó en una reducción del 73% en los costos de la API de LLM. El almacenamiento en caché semántico identifica las consultas con significados similares y recupera la respuesta correspondiente de la caché, evitando llamadas redundantes al LLM.
El desarrollo destaca la importancia de comprender el comportamiento del usuario y optimizar las estrategias de almacenamiento en caché para gestionar los costos de la API de LLM de manera efectiva. A medida que los LLM se integran cada vez más en diversas aplicaciones, el almacenamiento en caché semántico ofrece una solución valiosa para las organizaciones que buscan reducir los gastos sin comprometer la calidad de sus servicios.
Discussion
Join the conversation
Be the first to comment