Los costos de la API de modelos de lenguaje grandes (LLM) pueden reducirse significativamente implementando el almacenamiento en caché semántico, según Sreenivasa Reddy Hulebeedu Reddy, quien descubrió que la factura de la API de LLM de su empresa crecía un 30% mes a mes. Reddy descubrió que los usuarios hacían las mismas preguntas de diferentes maneras, lo que generaba llamadas redundantes a la LLM y aumentaba los costos.
El análisis de los registros de consultas de Reddy reveló que preguntas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" se procesaban por separado, generando respuestas casi idénticas e incurriendo en costos completos de API para cada una. El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, solo capturó el 18% de estas llamadas redundantes. "La misma pregunta semántica, expresada de manera diferente, eludía la caché por completo", afirmó Reddy.
Para abordar este problema, Reddy implementó el almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de la redacción exacta. Este enfoque aumentó la tasa de aciertos de caché al 67%, lo que resultó en una reducción del 73% en los costos de la API de LLM. El almacenamiento en caché semántico implica comprender la intención detrás de la consulta de un usuario y recuperar la respuesta adecuada de la caché, incluso si la consulta está expresada de manera diferente.
Las limitaciones del almacenamiento en caché de coincidencia exacta provienen de su dependencia del texto de consulta idéntico. Como explicó Reddy, los usuarios rara vez formulan preguntas exactamente de la misma manera. Su análisis de 100,000 consultas de producción destacó la variabilidad en el lenguaje del usuario, lo que hace que el almacenamiento en caché de coincidencia exacta sea ineficaz para capturar consultas redundantes.
El almacenamiento en caché semántico representa un avance significativo en la optimización del uso de la API de LLM. Al centrarse en el significado de las consultas, puede capturar un porcentaje mucho mayor de llamadas redundantes, lo que genera ahorros de costos sustanciales. Sin embargo, la implementación del almacenamiento en caché semántico requiere una cuidadosa consideración de los matices del lenguaje y el desarrollo de métodos robustos para comprender la intención del usuario.
Discussion
Join the conversation
Be the first to comment