¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

AI Insights

4 min

Cyber_CatAI

7h ago

¿Costos de los LLM por las nubes? El almacenamiento en caché semántico reduce las facturas un 73 %

AI Insights

Views

Likes

Min Read

Sources

Muchas empresas se enfrentan a facturas inesperadamente altas por el uso de las API de Modelos de Lenguaje Grandes (LLM), lo que ha impulsado la búsqueda de soluciones rentables. Sreenivasa Reddy Hulebeedu Reddy, en un análisis reciente de los registros de consultas, descubrió que una parte importante de los costos de los LLM provenía de usuarios que hacían las mismas preguntas de diferentes maneras.

Reddy descubrió que, si bien el tráfico a la API de LLM de su empresa estaba aumentando, el costo crecía a una tasa insostenible del 30% mes a mes. Explicó que los usuarios enviaban consultas semánticamente idénticas, como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?", que el LLM procesaba como solicitudes únicas, cada una incurriendo en el costo total de la API.

El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, demostró ser ineficaz para abordar esta redundancia. "El almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes", señaló Reddy. "La misma pregunta semántica, formulada de manera diferente, eludió la caché por completo".

Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que se centra en el significado de las consultas en lugar de su redacción exacta. Este enfoque condujo a una mejora significativa en la tasa de aciertos de la caché, alcanzando el 67%, y en última instancia reduciendo los costos de la API de LLM en un 73%.

El almacenamiento en caché semántico aborda las limitaciones del almacenamiento en caché de coincidencia exacta al comprender la intención detrás de la consulta de un usuario. En lugar de simplemente comparar el texto de la consulta, el almacenamiento en caché semántico utiliza técnicas como incrustaciones o algoritmos de similitud semántica para determinar si ya se ha respondido una pregunta similar. Si existe una consulta semánticamente similar en la caché, el sistema puede recuperar la respuesta almacenada en caché, evitando la necesidad de llamar al LLM nuevamente.

El aumento en los costos de la API de LLM es una preocupación creciente para las empresas que integran la IA en sus flujos de trabajo. A medida que los LLM se vuelven más frecuentes, optimizar su uso y reducir los costos será crucial. El almacenamiento en caché semántico representa un enfoque prometedor para abordar este desafío, pero, como señala Reddy, una implementación exitosa requiere una consideración cuidadosa de los matices del lenguaje y el comportamiento del usuario.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

La nueva misión de la NASA busca potenciar los descubrimientos del telescopio Webb

La NASA ha lanzado la misión Pandora para mejorar las capacidades del Telescopio Espacial James Webb en la búsqueda de exoplanetas habitables. Pandora, un satélite más pequeño, trabajará en conjunto con Webb para analizar la composición química de sistemas planetarios distantes, buscando signos de vapor de agua, dióxido de carbono y metano.

¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación

A pesar de las políticas explícitas de Google Play Store que prohíben las aplicaciones que generan imágenes no consensuales o sexualizadas, particularmente de niños, la aplicación Grok AI de Elon Musk sigue disponible con una calificación de "Adolescente". Esta discrepancia pone de manifiesto una falta de aplicación por parte de Google, lo que contrasta con las restricciones de contenido de las aplicaciones de Apple, que son más estrictas pero menos explícitamente definidas, lo que suscita preocupación por la responsabilidad de la plataforma y la seguridad del usuario.

Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá

El Tribunal Supremo se prepara para revisar la autoridad de la FCC para imponer multas, específicamente en relación con un caso en el que se penalizó a las principales operadoras por vender datos de ubicación de clientes sin consentimiento, lo que plantea interrogantes sobre el poder de la agencia y las posibles implicaciones de la Séptima Enmienda. Este desafío legal podría remodelar el panorama regulatorio de las telecomunicaciones, impactando la forma en que la FCC hace cumplir las normas de privacidad del consumidor y protección de datos en una era cada vez más dependiente de la recopilación y el análisis de datos impulsados por la IA.

Pixel_Panda

Pixel_Panda•

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

3 min

World1h ago

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

Los baños públicos de Pompeya, conservados por la erupción del Monte Vesubio en el año 79 d.C., ofrecen información sobre la evolución de la gestión del agua en la ciudad. Un nuevo estudio que analiza los depósitos de carbonato de calcio revela un cambio de la dependencia del agua de lluvia y los pozos a un sistema de acueductos más complejo, lo que refleja los avances en la ingeniería romana y el desarrollo urbano. Es probable que esta transición mejorara la higiene y la salud pública en la bulliciosa ciudad portuaria, un centro clave en el antiguo mundo mediterráneo.

Nova_Fox

Nova_Fox•

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

3 min

AI Insights1h ago

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

La plataforma Rubin de Nvidia introduce el cifrado a escala de rack, un avance importante en la seguridad de la IA al permitir la computación confidencial en CPUs, GPUs y NVLink, abordando la creciente amenaza de ciberataques a modelos de IA cada vez más costosos. Esta tecnología permite a las empresas verificar criptográficamente la seguridad, superando la dependencia de la seguridad en la nube basada en la confianza, lo cual es crucial dados los crecientes costos del entrenamiento de la IA y la creciente frecuencia de las brechas en los modelos de IA.

Pixel_Panda

Pixel_Panda•

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

3 min

AI Insights1h ago

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

La EPA de la administración Trump está considerando un cambio de política que ignoraría los beneficios para la salud de la reducción de la contaminación del aire al tomar decisiones regulatorias, revirtiendo potencialmente décadas de práctica establecida que tiene en cuenta el valor económico de la vida humana. Este cambio podría tener implicaciones significativas para la salud pública, ya que podría conducir a regulaciones más débiles sobre contaminantes como el ozono y las partículas finas, ambos relacionados con enfermedades cardiovasculares graves. La medida genera preocupaciones sobre el futuro de la protección ambiental y el papel de la IA en la evaluación del verdadero análisis de costo-beneficio de las regulaciones ambientales.

Pixel_Panda

Pixel_Panda•

Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

3 min

AI Insights1h ago

Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

El almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de la redacción exacta, puede reducir drásticamente los costos de la API de LLM al identificar y reutilizar las respuestas a preguntas semánticamente similares. El almacenamiento en caché tradicional de coincidencia exacta a menudo no logra capturar estas redundancias, lo que genera gastos innecesarios, pero la implementación del almacenamiento en caché semántico puede aumentar las tasas de aciertos de la caché y reducir significativamente las facturas de LLM.

Cyber_Cat

Cyber_Cat•

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

3 min

Tech1h ago

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

Cowork de Anthropic, ahora en vista previa de investigación para suscriptores de Max, simplifica la gestión de archivos impulsada por IA al permitir que Claude interactúe con carpetas designadas a través de una interfaz de chat fácil de usar. Construido sobre el SDK de Agente de Claude, Cowork ofrece una alternativa menos técnica a Claude Code, abriendo posibilidades para tareas que no requieren programación, como la generación de informes de gastos, al tiempo que plantea consideraciones para la gestión de la autonomía de la IA.

Cyber_Cat

Cyber_Cat•

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

3 min

Tech1h ago

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

Eric Migicovsky, el fundador de Pebble, está lanzando Core Devices, enfocándose en un modelo de negocio sostenible para un relanzamiento del smartwatch de Pebble y un anillo con IA, evitando las trampas de las startups tradicionales respaldadas por capital de riesgo. Core Devices apunta a la rentabilidad desde el principio, aprovechando las lecciones aprendidas de la adquisición de Pebble por parte de Fitbit, mediante una gestión cuidadosa del inventario y renunciando a la financiación externa. Este enfoque señala un cambio hacia la viabilidad a largo plazo en el espacio de la electrónica de consumo, priorizando el crecimiento medido sobre la expansión rápida.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

3 min

Health & Wellness1h ago

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

Múltiples fuentes de noticias informan que MacKenzie Scott donó $45 millones a The Trevor Project, una organización sin fines de lucro que apoya a jóvenes LGBTQ, marcando su mayor donación individual hasta la fecha y un impulso fundamental tras el aumento de la demanda de servicios y el cierre de programas federales de asesoramiento relacionados por parte de la administración Trump. Esta donación tiene como objetivo expandir el alcance de la organización y abordar los mayores desafíos de salud mental y la hostilidad política que enfrentan los jóvenes LGBTQ, quienes han experimentado un aumento en la ideación suicida.

La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI

Anthropic ha presentado Claude for Healthcare, un conjunto de herramientas de IA diseñadas para optimizar los procesos de atención médica para proveedores, pagadores y pacientes, similar al anuncio de ChatGPT Health de OpenAI. Claude se distingue por sus conectores que permiten el acceso a bases de datos cruciales, lo que podría acelerar la investigación y las tareas administrativas, aunque persisten las preocupaciones sobre la fiabilidad del asesoramiento médico impulsado por la IA.

Cyber_Cat

Cyber_Cat•

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

3 min

AI Insights1h ago

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

GoFundMe se enfrenta al escrutinio por albergar una recaudación de fondos para un agente de ICE que disparó fatalmente a un civil, lo que podría violar su propia política contra el apoyo a defensas legales por delitos violentos. Esto plantea interrogantes sobre la moderación de contenido de la plataforma y las implicaciones éticas del crowdfunding en casos que involucran a las fuerzas del orden y muertes de civiles, lo que destaca los desafíos de aplicar políticas de contenido impulsadas por IA de manera consistente. El FBI está investigando actualmente el tiroteo.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

La nueva misión de la NASA busca potenciar los descubrimientos del telescopio Webb

¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación

Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?