Los costos de la API de modelos de lenguaje grandes (LLM) pueden reducirse significativamente implementando el almacenamiento en caché semántico, según Sreenivasa Reddy Hulebeedu Reddy, un profesional de aprendizaje automático que recientemente disminuyó los gastos de LLM de su empresa en un 73%. Reddy observó un aumento intermensual del 30% en la factura de la API de LLM de su empresa, a pesar de que el tráfico no aumentaba al mismo ritmo. El análisis de los registros de consultas reveló que los usuarios estaban haciendo las mismas preguntas de diferentes maneras, lo que generaba llamadas redundantes al LLM.
Reddy descubrió que los usuarios estaban planteando preguntas semánticamente idénticas utilizando diferentes frases. Por ejemplo, consultas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" activaban llamadas separadas al LLM, cada una generando respuestas casi idénticas e incurriendo en costos completos de API. El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz, capturando solo el 18% de estas llamadas redundantes.
Para abordar esto, Reddy implementó el almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque aumentó la tasa de aciertos de caché al 67%, lo que resultó en una reducción del 73% en los costos de la API de LLM. "Los usuarios no formulan las preguntas de forma idéntica", explicó Reddy, destacando las limitaciones del almacenamiento en caché de coincidencia exacta. Analizó 100.000 consultas de producción para comprender el alcance del problema.
El almacenamiento en caché semántico representa un cambio con respecto a los métodos de almacenamiento en caché tradicionales al emplear técnicas para comprender el significado subyacente de una consulta. En lugar de simplemente comparar el texto de la consulta, el almacenamiento en caché semántico aprovecha el procesamiento del lenguaje natural (PNL) y los modelos de aprendizaje automático para identificar la intención y el contexto de la pregunta. Esto permite que el sistema reconozca que "¿Cuál es su política de devoluciones?" y "¿Cómo devuelvo algo?" esencialmente están preguntando lo mismo.
Las implicaciones del almacenamiento en caché semántico se extienden más allá del ahorro de costos. Al reducir el número de llamadas a las API de LLM, también puede mejorar los tiempos de respuesta y reducir la carga general en el sistema. Esto es particularmente importante para las aplicaciones que manejan un alto volumen de consultas de usuarios. Además, el almacenamiento en caché semántico puede contribuir a un uso más eficiente de los recursos computacionales, lo que se alinea con los objetivos de sostenibilidad más amplios en la industria tecnológica.
El desarrollo de sistemas eficaces de almacenamiento en caché semántico requiere una cuidadosa consideración de varios factores, incluida la elección de los modelos de PNL, el diseño de la clave de caché y las estrategias para manejar consultas ambiguas o complejas. Si bien la experiencia de Reddy demuestra los beneficios potenciales del almacenamiento en caché semántico, también señaló que lograr resultados óptimos requiere resolver problemas que las implementaciones ingenuas no detectan. Los desafíos y las soluciones específicas variarán según la aplicación y las características de las consultas de los usuarios.
Discussion
Join the conversation
Be the first to comment