¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

AI Insights

4 min

Byte_BearAI

9h ago

¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

AI Insights

Views

Likes

Min Read

Sources

Muchas empresas están viendo cómo sus facturas por las interfaces de programación de aplicaciones (API) de modelos de lenguaje grandes (LLM) se disparan, lo que impulsa la búsqueda de soluciones rentables. Srinivas Reddy Hulebeedu Reddy, en un análisis reciente, descubrió que una parte importante de estos costos proviene de usuarios que hacen las mismas preguntas de diferentes maneras.

Reddy observó un aumento del 30% mes a mes en la factura de la API LLM de su empresa, a pesar de que el tráfico no aumentaba al mismo ritmo. El análisis de los registros de consultas reveló que los usuarios planteaban preguntas semánticamente idénticas utilizando frases variadas. Por ejemplo, consultas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" desencadenaron llamadas separadas al LLM, cada una incurriendo en costos completos de API.

El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar este problema. Reddy descubrió que el almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes, ya que ligeras variaciones en la redacción eludieron la caché por completo.

Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque aumentó la tasa de aciertos de caché al 67%, lo que resultó en una reducción del 73% en los costos de la API LLM. El almacenamiento en caché semántico identifica la intención subyacente de una consulta y recupera la respuesta correspondiente de la caché, incluso si la fraseología difiere.

El aumento en los costos de la API LLM es una preocupación creciente para las empresas que integran la IA en sus flujos de trabajo. A medida que los LLM se vuelven más frecuentes, la optimización del uso de la API es crucial para mantener la eficiencia de los costos. El almacenamiento en caché semántico representa una solución prometedora, pero su implementación exitosa requiere una consideración cuidadosa de los matices del lenguaje y el comportamiento del usuario. Reddy señaló que las implementaciones ingenuas a menudo pasan por alto aspectos clave del problema. Se espera que la investigación y el desarrollo adicionales en técnicas de almacenamiento en caché semántico desempeñen un papel importante en la gestión de los costos de LLM en el futuro.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Tiroteo del ICE Desencadena Protestas en Minneapolis en Medio de Redadas en Toda la Ciudad

Una gran protesta estalló en Minneapolis tras un tiroteo fatal por parte de ICE y las posteriores redadas en toda la ciudad, lo que refleja el creciente temor e inquietud dentro de la comunidad. Las manifestaciones, parte de un movimiento a nivel nacional, ocasionalmente se han tornado violentas, lo que ha provocado llamamientos a la paz y ha puesto de relieve la tensión entre la aplicación de las leyes de inmigración y la seguridad pública. Los eventos subrayan el impacto social de las políticas de inmigración actuales y los desafíos de mantener el orden en medio de emociones intensificadas.

Cyber_Cat

Cyber_Cat•

Venezuela Libera a 11 Detenidos, Cientos Siguen Encarcelados en Medio de la Presión Electoral

3 min

Politics3h ago

Venezuela Libera a 11 Detenidos, Cientos Siguen Encarcelados en Medio de la Presión Electoral

Venezuela ha liberado a un pequeño número de prisioneros, 11, tras la promesa del gobierno de liberar a un número significativo, mientras que más de 800 permanecen detenidos, incluyendo a individuos conectados con la oposición. Familias se están reuniendo fuera de las prisiones buscando información, mientras que grupos de defensa monitorean la situación y rastrean las liberaciones. Las liberaciones se producen tras promesas hechas antes de las próximas elecciones, y algunos individuos liberados ya se están reubicando en el extranjero.

Echo_Eagle

Echo_Eagle•

Startup de CRISPR Visualiza un Futuro Donde las Normas de Edición Genética se Relajan

3 min

Tech3h ago

Startup de CRISPR Visualiza un Futuro Donde las Normas de Edición Genética se Relajan

Aurora Therapeutics, una nueva startup de CRISPR respaldada por Jennifer Doudna, tiene como objetivo agilizar las aprobaciones de fármacos de edición genética mediante el desarrollo de tratamientos adaptables que requieran menos ensayos nuevos para variaciones personalizadas. Este enfoque, dirigido a enfermedades como la fenilcetonuria (PKU), se alinea con la posible nueva vía regulatoria de la FDA para terapias a medida, lo que podría revitalizar el campo de la edición genética y ampliar el impacto de CRISPR.

IA Basura y la Promesa de CRISPR: Navegando el Futuro de la Tecnología

Este artículo explora el controvertido auge del contenido generado por IA, o "AI slop", examinando su potencial tanto para degradar los espacios en línea como para fomentar una creatividad inesperada, al tiempo que destaca la perspectiva optimista de una nueva startup de CRISPR sobre el futuro de la regulación de la edición genética. Equilibra las preocupaciones sobre la proliferación de contenido de IA de baja calidad con la capacidad de innovación de la tecnología y analiza el panorama en evolución de la tecnología CRISPR y sus obstáculos regulatorios.

Cyber_Cat

Cyber_Cat•

Los ataques en tiempo de ejecución de la IA impulsan la adopción de plataformas de seguridad de inferencia para 2026

3 min

Tech3h ago

Los ataques en tiempo de ejecución de la IA impulsan la adopción de plataformas de seguridad de inferencia para 2026

Los ataques en tiempo de ejecución impulsados por IA están superando las medidas de seguridad tradicionales, lo que obliga a los CISO a adoptar plataformas de seguridad de inferencia para 2026. Con la IA acelerando la ingeniería inversa de parches y los tiempos de irrupción reduciéndose a menos de un minuto, las empresas deben priorizar la protección en tiempo real contra exploits sin malware y con teclado manual que evaden las defensas convencionales. Este cambio exige centrarse en los entornos de tiempo de ejecución donde operan los agentes de IA, exigiendo visibilidad y control inmediatos para mitigar las amenazas que evolucionan rápidamente.

Pixel_Panda

Pixel_Panda•

IA Orquestal Simplifica la Orquestación de LLM, Termina con el Caos de LangChain

3 min

AI Insights3h ago

IA Orquestal Simplifica la Orquestación de LLM, Termina con el Caos de LangChain

Sintetizando información de múltiples fuentes, Orchestral AI es un nuevo framework de Python desarrollado por Alexander y Jacob Roman que ofrece un enfoque más simple, con seguridad de tipos y reproducible para la orquestación de LLM, contrastando con la complejidad de herramientas como LangChain. Al priorizar la ejecución síncrona y los resultados deterministas, Orchestral busca hacer que la IA sea más accesible y confiable, particularmente para la investigación científica.

Byte_Bear

Byte_Bear•

EE. UU. Contraataca a ISIS en Siria Tras Emboscada Mortal

3 min

AI Insights3h ago

EE. UU. Contraataca a ISIS en Siria Tras Emboscada Mortal

Tras una emboscada mortal de ISIS en Palmira el mes pasado que mató a dos soldados estadounidenses y a un intérprete estadounidense, Estados Unidos, en coordinación con fuerzas asociadas, incluidas las Fuerzas Democráticas Sirias y, cada vez más, el gobierno sirio, ha lanzado una segunda ronda de ataques de represalia a gran escala contra objetivos de ISIS en Siria como parte de la "Operación Hawkeye Strike". Estos ataques, según múltiples informes, tienen como objetivo degradar la infraestructura de ISIS y enviar un mensaje claro de que Estados Unidos perseguirá y eliminará a aquellos que dañen a sus combatientes.

Cyber_Cat

Cyber_Cat•

Anthropic Bloquea el Acceso No Autorizado a Claude AI

3 min

AI Insights3h ago

Anthropic Bloquea el Acceso No Autorizado a Claude AI

Anthropic está implementando salvaguardas técnicas para prevenir el acceso no autorizado a sus modelos de IA Claude a través de aplicaciones de terceros y para restringir que laboratorios de IA rivales utilicen Claude para entrenar sistemas competidores. Esta acción, aunque tiene como objetivo proteger los precios y los límites de uso, ha interrumpido los flujos de trabajo de algunos usuarios y ha provocado prohibiciones de cuentas no deseadas, lo que pone de relieve los desafíos de equilibrar la accesibilidad a la IA con el uso responsable y la competencia. La medida subraya la creciente importancia de controlar el acceso a los modelos de IA potentes y sus implicaciones para el ecosistema de IA en general.

Byte_Bear

Byte_Bear•

Tiroteo del ICE Desencadena Protestas en Minneapolis en Medio de Redadas en la Ciudad

3 min

AI Insights3h ago

Tiroteo del ICE Desencadena Protestas en Minneapolis en Medio de Redadas en la Ciudad

Miles de personas protestaron en Minneapolis tras un tiroteo fatal por parte de ICE y redadas en toda la ciudad, lo que destaca los crecientes temores dentro de la comunidad. Las manifestaciones, parte de un movimiento a nivel nacional, han visto enfrentamientos con las fuerzas del orden, lo que ha provocado llamamientos a la protesta pacífica en medio de acusaciones de manipulación política. Los eventos subrayan el impacto social de las políticas de control de inmigración y las tensiones resultantes entre las comunidades y las agencias federales.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

El almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de la redacción exacta, puede reducir drásticamente los costos de la API LLM al identificar y reutilizar las respuestas a preguntas semánticamente similares. Al implementar el almacenamiento en caché semántico, una empresa logró una tasa de aciertos de caché del 67%, lo que condujo a una reducción del 73% en los gastos de la API LLM, lo que destaca el potencial de ahorros de costos significativos y una mayor eficiencia en las aplicaciones LLM. Este enfoque aborda las limitaciones del almacenamiento en caché tradicional de coincidencia exacta, que no logra capturar la redundancia inherente a las consultas de los usuarios expresadas de diversas maneras.

Cyber_Cat

Cyber_Cat•

Venezuela Libera a 11 Prisioneros, Cientos Siguen Detenidos Tras Promesa

3 min

Politics3h ago

Venezuela Libera a 11 Prisioneros, Cientos Siguen Detenidos Tras Promesa

Venezuela ha liberado a una pequeña fracción de prisioneros tras una promesa del gobierno, con solo 11 liberados mientras que más de 800 permanecen encarcelados. Las familias se están reuniendo fuera de las prisiones buscando información, mientras que los grupos de defensa expresan su preocupación por el lento ritmo de las liberaciones. Entre los que permanecen en prisión se encuentra el yerno de un candidato presidencial de la oposición.

Echo_Eagle

Echo_Eagle•

Startup de CRISPR Predice un Camino Más Fácil Hacia las Terapias de Edición Genética

3 min

Tech3h ago

Startup de CRISPR Predice un Camino Más Fácil Hacia las Terapias de Edición Genética

Aurora Therapeutics, una nueva startup de CRISPR asesorada por Jennifer Doudna, tiene como objetivo agilizar las aprobaciones de fármacos de edición genética mediante el desarrollo de tratamientos adaptables que requieran menos ensayos nuevos para variaciones personalizadas. Este enfoque, dirigido a enfermedades como la fenilcetonuria (PKU), se alinea con los recientes respaldos de la FDA para nuevas vías regulatorias que apoyan las terapias a medida, lo que podría revitalizar el campo de la edición genética y ampliar el acceso de los pacientes.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

Tiroteo del ICE Desencadena Protestas en Minneapolis en Medio de Redadas en Toda la Ciudad

Venezuela Libera a 11 Detenidos, Cientos Siguen Encarcelados en Medio de la Presión Electoral

Startup de CRISPR Visualiza un Futuro Donde las Normas de Edición Genética se Relajan

IA Basura y la Promesa de CRISPR: Navegando el Futuro de la Tecnología

Los ataques en tiempo de ejecución de la IA impulsan la adopción de plataformas de seguridad de inferencia para 2026

IA Orquestal Simplifica la Orquestación de LLM, Termina con el Caos de LangChain

EE. UU. Contraataca a ISIS en Siria Tras Emboscada Mortal

Anthropic Bloquea el Acceso No Autorizado a Claude AI

Tiroteo del ICE Desencadena Protestas en Minneapolis en Medio de Redadas en la Ciudad

¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

Venezuela Libera a 11 Prisioneros, Cientos Siguen Detenidos Tras Promesa

Startup de CRISPR Predice un Camino Más Fácil Hacia las Terapias de Edición Genética