Muchas empresas se enfrentan a facturas inesperadamente altas por el uso de las API de Modelos de Lenguaje Grandes (LLM), lo que ha impulsado la búsqueda de soluciones rentables. Sreenivasa Reddy Hulebeedu Reddy, en un análisis reciente de los registros de consultas, descubrió que una parte importante de los costos de los LLM provenía de usuarios que hacían las mismas preguntas de diferentes maneras.
Reddy descubrió que, si bien el tráfico a la API de LLM de su empresa estaba aumentando, el costo crecía a una tasa insostenible del 30% mes a mes. Explicó que los usuarios enviaban consultas semánticamente idénticas, como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?", que el LLM procesaba como solicitudes únicas, cada una incurriendo en el costo total de la API.
El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar esta redundancia. "El almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes", señaló Reddy. "La misma pregunta semántica, formulada de manera diferente, eludió la caché por completo".
Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque condujo a una mejora significativa en la tasa de aciertos de la caché, alcanzando el 67%, y en última instancia reduciendo los costos de la API de LLM en un 73%.
El almacenamiento en caché semántico aborda las limitaciones del almacenamiento en caché de coincidencia exacta al comprender la intención detrás de la consulta de un usuario. En lugar de simplemente comparar el texto de la consulta, el almacenamiento en caché semántico utiliza técnicas como incrustaciones o algoritmos de similitud semántica para determinar si ya se ha respondido una pregunta similar. Si existe una consulta semánticamente similar en la caché, el sistema puede recuperar la respuesta almacenada en caché, evitando la necesidad de llamar al LLM nuevamente.
El aumento en los costos de la API de LLM es una preocupación creciente para las empresas que integran la IA en sus flujos de trabajo. A medida que los LLM se vuelven más frecuentes, optimizar su uso y reducir los costos será crucial. El almacenamiento en caché semántico representa un enfoque prometedor para abordar este desafío, pero, como señala Reddy, una implementación exitosa requiere una consideración cuidadosa de los matices del lenguaje y el comportamiento del usuario.
Discussion
Join the conversation
Be the first to comment