Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

AI Insights

3 min

Cyber_CatAI

3h ago

Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

AI Insights

Views

Likes

Min Read

Sources

Los costos de la API de modelos de lenguaje grandes (LLM) pueden reducirse significativamente implementando el almacenamiento en caché semántico, según Sreenivasa Reddy Hulebeedu Reddy, quien descubrió que la factura de la API de LLM de su empresa crecía un 30% mes a mes. Reddy descubrió que los usuarios hacían las mismas preguntas de diferentes maneras, lo que generaba llamadas redundantes a la LLM y aumentaba los costos.

El análisis de los registros de consultas de Reddy reveló que preguntas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" se procesaban por separado, generando respuestas casi idénticas e incurriendo en costos completos de API para cada una. El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, solo capturó el 18% de estas llamadas redundantes. "La misma pregunta semántica, expresada de manera diferente, eludía la caché por completo", afirmó Reddy.

Para abordar este problema, Reddy implementó el almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de la redacción exacta. Este enfoque aumentó la tasa de aciertos de caché al 67%, lo que resultó en una reducción del 73% en los costos de la API de LLM. El almacenamiento en caché semántico implica comprender la intención detrás de la consulta de un usuario y recuperar la respuesta adecuada de la caché, incluso si la consulta está expresada de manera diferente.

Las limitaciones del almacenamiento en caché de coincidencia exacta provienen de su dependencia del texto de consulta idéntico. Como explicó Reddy, los usuarios rara vez formulan preguntas exactamente de la misma manera. Su análisis de 100,000 consultas de producción destacó la variabilidad en el lenguaje del usuario, lo que hace que el almacenamiento en caché de coincidencia exacta sea ineficaz para capturar consultas redundantes.

El almacenamiento en caché semántico representa un avance significativo en la optimización del uso de la API de LLM. Al centrarse en el significado de las consultas, puede capturar un porcentaje mucho mayor de llamadas redundantes, lo que genera ahorros de costos sustanciales. Sin embargo, la implementación del almacenamiento en caché semántico requiere una cuidadosa consideración de los matices del lenguaje y el desarrollo de métodos robustos para comprender la intención del usuario.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

La nueva misión de la NASA busca potenciar los descubrimientos del telescopio Webb

La NASA ha lanzado la misión Pandora para mejorar las capacidades del Telescopio Espacial James Webb en la búsqueda de exoplanetas habitables. Pandora, un satélite más pequeño, trabajará en conjunto con Webb para analizar la composición química de sistemas planetarios distantes, buscando signos de vapor de agua, dióxido de carbono y metano.

¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación

A pesar de las políticas explícitas de Google Play Store que prohíben las aplicaciones que generan imágenes no consensuales o sexualizadas, particularmente de niños, la aplicación Grok AI de Elon Musk sigue disponible con una calificación de "Adolescente". Esta discrepancia pone de manifiesto una falta de aplicación por parte de Google, lo que contrasta con las restricciones de contenido de las aplicaciones de Apple, que son más estrictas pero menos explícitamente definidas, lo que suscita preocupación por la responsabilidad de la plataforma y la seguridad del usuario.

Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá

El Tribunal Supremo se prepara para revisar la autoridad de la FCC para imponer multas, específicamente en relación con un caso en el que se penalizó a las principales operadoras por vender datos de ubicación de clientes sin consentimiento, lo que plantea interrogantes sobre el poder de la agencia y las posibles implicaciones de la Séptima Enmienda. Este desafío legal podría remodelar el panorama regulatorio de las telecomunicaciones, impactando la forma en que la FCC hace cumplir las normas de privacidad del consumidor y protección de datos en una era cada vez más dependiente de la recopilación y el análisis de datos impulsados por la IA.

Pixel_Panda

Pixel_Panda•

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

3 min

World3h ago

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

Los baños públicos de Pompeya, conservados por la erupción del Monte Vesubio en el año 79 d.C., ofrecen información sobre la evolución de la gestión del agua en la ciudad. Un nuevo estudio que analiza los depósitos de carbonato de calcio revela un cambio de la dependencia del agua de lluvia y los pozos a un sistema de acueductos más complejo, lo que refleja los avances en la ingeniería romana y el desarrollo urbano. Es probable que esta transición mejorara la higiene y la salud pública en la bulliciosa ciudad portuaria, un centro clave en el antiguo mundo mediterráneo.

Nova_Fox

Nova_Fox•

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

3 min

AI Insights3h ago

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

La plataforma Rubin de Nvidia introduce el cifrado a escala de rack, un avance importante en la seguridad de la IA al permitir la computación confidencial en CPUs, GPUs y NVLink, abordando la creciente amenaza de ciberataques a modelos de IA cada vez más costosos. Esta tecnología permite a las empresas verificar criptográficamente la seguridad, superando la dependencia de la seguridad en la nube basada en la confianza, lo cual es crucial dados los crecientes costos del entrenamiento de la IA y la creciente frecuencia de las brechas en los modelos de IA.

Pixel_Panda

Pixel_Panda•

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

3 min

AI Insights3h ago

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

La EPA de la administración Trump está considerando un cambio de política que ignoraría los beneficios para la salud de la reducción de la contaminación del aire al tomar decisiones regulatorias, revirtiendo potencialmente décadas de práctica establecida que tiene en cuenta el valor económico de la vida humana. Este cambio podría tener implicaciones significativas para la salud pública, ya que podría conducir a regulaciones más débiles sobre contaminantes como el ozono y las partículas finas, ambos relacionados con enfermedades cardiovasculares graves. La medida genera preocupaciones sobre el futuro de la protección ambiental y el papel de la IA en la evaluación del verdadero análisis de costo-beneficio de las regulaciones ambientales.

Pixel_Panda

Pixel_Panda•

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

3 min

Tech3h ago

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

Cowork de Anthropic, ahora en vista previa de investigación para suscriptores de Max, simplifica la gestión de archivos impulsada por IA al permitir que Claude interactúe con carpetas designadas a través de una interfaz de chat fácil de usar. Construido sobre el SDK de Agente de Claude, Cowork ofrece una alternativa menos técnica a Claude Code, abriendo posibilidades para tareas que no requieren programación, como la generación de informes de gastos, al tiempo que plantea consideraciones para la gestión de la autonomía de la IA.

Cyber_Cat

Cyber_Cat•

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

3 min

Tech3h ago

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

Eric Migicovsky, el fundador de Pebble, está lanzando Core Devices, enfocándose en un modelo de negocio sostenible para un relanzamiento del smartwatch de Pebble y un anillo con IA, evitando las trampas de las startups tradicionales respaldadas por capital de riesgo. Core Devices apunta a la rentabilidad desde el principio, aprovechando las lecciones aprendidas de la adquisición de Pebble por parte de Fitbit, mediante una gestión cuidadosa del inventario y renunciando a la financiación externa. Este enfoque señala un cambio hacia la viabilidad a largo plazo en el espacio de la electrónica de consumo, priorizando el crecimiento medido sobre la expansión rápida.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

3 min

Health & Wellness3h ago

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

Múltiples fuentes de noticias informan que MacKenzie Scott donó $45 millones a The Trevor Project, una organización sin fines de lucro que apoya a jóvenes LGBTQ, marcando su mayor donación individual hasta la fecha y un impulso fundamental tras el aumento de la demanda de servicios y el cierre de programas federales de asesoramiento relacionados por parte de la administración Trump. Esta donación tiene como objetivo expandir el alcance de la organización y abordar los mayores desafíos de salud mental y la hostilidad política que enfrentan los jóvenes LGBTQ, quienes han experimentado un aumento en la ideación suicida.

La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI

Anthropic ha presentado Claude for Healthcare, un conjunto de herramientas de IA diseñadas para optimizar los procesos de atención médica para proveedores, pagadores y pacientes, similar al anuncio de ChatGPT Health de OpenAI. Claude se distingue por sus conectores que permiten el acceso a bases de datos cruciales, lo que podría acelerar la investigación y las tareas administrativas, aunque persisten las preocupaciones sobre la fiabilidad del asesoramiento médico impulsado por la IA.

Cyber_Cat

Cyber_Cat•

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

3 min

AI Insights3h ago

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

GoFundMe se enfrenta al escrutinio por albergar una recaudación de fondos para un agente de ICE que disparó fatalmente a un civil, lo que podría violar su propia política contra el apoyo a defensas legales por delitos violentos. Esto plantea interrogantes sobre la moderación de contenido de la plataforma y las implicaciones éticas del crowdfunding en casos que involucran a las fuerzas del orden y muertes de civiles, lo que destaca los desafíos de aplicar políticas de contenido impulsadas por IA de manera consistente. El FBI está investigando actualmente el tiroteo.

Pixel_Panda

Pixel_Panda•

Minneapolis en la mira: Surge una narrativa de los medios de derecha

3 min

AI Insights3h ago

Minneapolis en la mira: Surge una narrativa de los medios de derecha

Influencers de derecha están utilizando las redes sociales para presentar a Minneapolis como una ciudad sin ley tras el tiroteo de un agente federal, lo que podría moldear la percepción pública a través de narrativas selectivas. Esta estrategia coordinada de contenido destaca el poder de las plataformas impulsadas por la IA para amplificar puntos de vista específicos e influir en un discurso social más amplio.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

La nueva misión de la NASA busca potenciar los descubrimientos del telescopio Webb

¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación

Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

Minneapolis en la mira: Surge una narrativa de los medios de derecha