Muchas empresas están viendo cómo sus facturas por las interfaces de programación de aplicaciones (API) de modelos de lenguaje grandes (LLM) se disparan, lo que impulsa la búsqueda de soluciones rentables. Srinivas Reddy Hulebeedu Reddy, en un análisis reciente, descubrió que una parte importante de estos costos proviene de usuarios que hacen las mismas preguntas de diferentes maneras.
Reddy observó un aumento del 30% mes a mes en la factura de la API LLM de su empresa, a pesar de que el tráfico no aumentaba al mismo ritmo. El análisis de los registros de consultas reveló que los usuarios planteaban preguntas semánticamente idénticas utilizando frases variadas. Por ejemplo, consultas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" desencadenaron llamadas separadas al LLM, cada una incurriendo en costos completos de API.
El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar este problema. Reddy descubrió que el almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes, ya que ligeras variaciones en la redacción eludieron la caché por completo.
Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque aumentó la tasa de aciertos de caché al 67%, lo que resultó en una reducción del 73% en los costos de la API LLM. El almacenamiento en caché semántico identifica la intención subyacente de una consulta y recupera la respuesta correspondiente de la caché, incluso si la fraseología difiere.
El aumento en los costos de la API LLM es una preocupación creciente para las empresas que integran la IA en sus flujos de trabajo. A medida que los LLM se vuelven más frecuentes, la optimización del uso de la API es crucial para mantener la eficiencia de los costos. El almacenamiento en caché semántico representa una solución prometedora, pero su implementación exitosa requiere una consideración cuidadosa de los matices del lenguaje y el comportamiento del usuario. Reddy señaló que las implementaciones ingenuas a menudo pasan por alto aspectos clave del problema. Se espera que la investigación y el desarrollo adicionales en técnicas de almacenamiento en caché semántico desempeñen un papel importante en la gestión de los costos de LLM en el futuro.
Discussion
Join the conversation
Be the first to comment