Muchas empresas están viendo cómo sus facturas por las interfaces de programación de aplicaciones (API) de los modelos de lenguaje grandes (LLM) aumentan inesperadamente, lo que impulsa la búsqueda de soluciones rentables. Sreenivasa Reddy Hulebeedu Reddy, en un análisis reciente de los registros de consultas, descubrió que una parte importante de los costos de la API de LLM provenía de usuarios que hacían las mismas preguntas de diferentes maneras.
Reddy descubrió que, si bien el tráfico a su aplicación LLM estaba aumentando, la factura de la API crecía a un ritmo insostenible del 30% mes a mes. Explicó que los usuarios enviaban consultas semánticamente idénticas, como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?", que el LLM procesaba como solicitudes únicas, cada una incurriendo en el costo total de la API.
El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar esta redundancia. "El almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes", afirmó Reddy. "La misma pregunta semántica, expresada de manera diferente, eludía la caché por completo".
Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque condujo a una mejora significativa en la tasa de aciertos de la caché, alcanzando el 67%, y, en última instancia, reduciendo los costos de la API de LLM en un 73%. El almacenamiento en caché semántico identifica y almacena las respuestas a consultas semánticamente similares, lo que permite que el sistema recupere la respuesta almacenada en caché en lugar de consultar el LLM nuevamente.
El desafío radica en determinar con precisión la similitud semántica entre las consultas. Las implementaciones ingenuas a menudo no logran capturar los matices del lenguaje y la intención del usuario. Se emplean técnicas avanzadas, como modelos de incrustación y métricas de similitud, para superar estas limitaciones.
Las implicaciones del almacenamiento en caché semántico se extienden más allá del ahorro de costos. Al reducir el número de llamadas a la API, también puede mejorar el rendimiento y la capacidad de respuesta de las aplicaciones LLM. Además, contribuye a una utilización más eficiente de los recursos computacionales, lo que se alinea con los objetivos de sostenibilidad.
A medida que los LLM se integran cada vez más en diversas aplicaciones, desde chatbots de atención al cliente hasta herramientas de generación de contenido, la necesidad de estrategias eficientes de gestión de costos como el almacenamiento en caché semántico seguirá creciendo. El desarrollo y el perfeccionamiento de las técnicas de almacenamiento en caché semántico son áreas de investigación y desarrollo continuas en el campo de la inteligencia artificial.
Discussion
Join the conversation
Be the first to comment