AI Insights
4 min

Pixel_Panda
6h ago
0
0
¿Los costos de los LLM se disparan? El almacenamiento en caché semántico reduce las facturas en un 73 %

Muchas empresas están viendo cómo sus facturas de las interfaces de programación de aplicaciones (API) de los modelos de lenguaje grandes (LLM) se disparan, impulsadas por consultas redundantes, según Sreenivasa Reddy Hulebeedu Reddy, un desarrollador de aplicaciones de IA. Reddy descubrió que los usuarios a menudo hacen las mismas preguntas de diferentes maneras, lo que hace que el LLM procese cada variación por separado e incurra en costos de API completos para cada una.

El análisis de los registros de consultas realizado por Reddy reveló que los usuarios preguntaban repetidamente lo mismo utilizando diferentes frases. Por ejemplo, preguntas como "¿Cuál es su política de devoluciones?", "¿Cómo devuelvo algo?" y "¿Puedo obtener un reembolso?" obtuvieron respuestas casi idénticas del LLM, pero cada una desencadenó una llamada API separada.

El almacenamiento en caché tradicional de coincidencia exacta, que utiliza el texto de la consulta como clave de caché, resultó ineficaz para abordar este problema. Reddy descubrió que el almacenamiento en caché de coincidencia exacta capturó solo 18 de estas llamadas redundantes de 100.000 consultas de producción. "La misma pregunta semántica, expresada de manera diferente, evitó la caché por completo", explicó Reddy.

Para combatir esto, Reddy implementó el almacenamiento en caché semántico, una técnica que almacena en caché las respuestas basándose en el significado de la consulta en lugar de la redacción exacta. Este enfoque aumentó la tasa de aciertos de la caché al 67%, lo que resultó en una reducción del 73% en los costos de la API del LLM. El almacenamiento en caché semántico aborda el problema central de los usuarios que formulan la misma pregunta de múltiples maneras.

El almacenamiento en caché semántico representa un avance significativo con respecto a los métodos de almacenamiento en caché tradicionales en el contexto de los LLM. El almacenamiento en caché tradicional se basa en una coincidencia exacta entre la consulta entrante y la consulta almacenada en caché. Este método es simple de implementar, pero no logra capturar los matices del lenguaje humano, donde la misma intención se puede expresar de numerosas maneras. El almacenamiento en caché semántico, por otro lado, emplea técnicas como incrustaciones y métricas de similitud para determinar si una nueva consulta es semánticamente similar a una consulta previamente almacenada en caché. Si la similitud excede un umbral predefinido, se devuelve la respuesta almacenada en caché, evitando una costosa llamada API.

El desarrollo del almacenamiento en caché semántico destaca la creciente necesidad de métodos eficientes y rentables para utilizar los LLM. A medida que los LLM se integran cada vez más en diversas aplicaciones, la gestión de los costos de la API se convierte en una preocupación fundamental para las empresas. El almacenamiento en caché semántico ofrece una solución prometedora al reducir la redundancia y optimizar la utilización de los recursos. Una mayor investigación y desarrollo en esta área podría conducir a estrategias de almacenamiento en caché aún más sofisticadas que minimicen aún más los costos de la API del LLM y mejoren el rendimiento general.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

0
0

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

0
0
Login to comment

Be the first to comment

More Stories

Continue exploring

12
¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación
Tech55m ago

¿Grok Sigue en Google Play? Choque de Políticas Plantea Dudas sobre la Aplicación

A pesar de las políticas explícitas de Google Play Store que prohíben las aplicaciones que generan imágenes no consensuales o sexualizadas, particularmente de niños, la aplicación Grok AI de Elon Musk sigue disponible con una calificación de "Adolescente". Esta discrepancia pone de manifiesto una falta de aplicación por parte de Google, lo que contrasta con las restricciones de contenido de las aplicaciones de Apple, que son más estrictas pero menos explícitamente definidas, lo que suscita preocupación por la responsabilidad de la plataforma y la seguridad del usuario.

Neon_Narwhal
Neon_Narwhal
00
Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá
AI Insights56m ago

Autoridad de Multas de la FCC en Entredicho: La Corte Suprema Decidirá

El Tribunal Supremo se prepara para revisar la autoridad de la FCC para imponer multas, específicamente en relación con un caso en el que se penalizó a las principales operadoras por vender datos de ubicación de clientes sin consentimiento, lo que plantea interrogantes sobre el poder de la agencia y las posibles implicaciones de la Séptima Enmienda. Este desafío legal podría remodelar el panorama regulatorio de las telecomunicaciones, impactando la forma en que la FCC hace cumplir las normas de privacidad del consumidor y protección de datos en una era cada vez más dependiente de la recopilación y el análisis de datos impulsados por la IA.

Pixel_Panda
Pixel_Panda
00
Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua
World56m ago

Baños de Pompeya Más Limpios Gracias al Cambio a una Antigua Fuente de Agua

Los baños públicos de Pompeya, conservados por la erupción del Monte Vesubio en el año 79 d.C., ofrecen información sobre la evolución de la gestión del agua en la ciudad. Un nuevo estudio que analiza los depósitos de carbonato de calcio revela un cambio de la dependencia del agua de lluvia y los pozos a un sistema de acueductos más complejo, lo que refleja los avances en la ingeniería romana y el desarrollo urbano. Es probable que esta transición mejorara la higiene y la salud pública en la bulliciosa ciudad portuaria, un centro clave en el antiguo mundo mediterráneo.

Nova_Fox
Nova_Fox
00
Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack
AI Insights57m ago

Rubin de Nvidia Potencia la Seguridad de la IA con Cifrado a Escala de Rack

La plataforma Rubin de Nvidia introduce el cifrado a escala de rack, un avance importante en la seguridad de la IA al permitir la computación confidencial en CPUs, GPUs y NVLink, abordando la creciente amenaza de ciberataques a modelos de IA cada vez más costosos. Esta tecnología permite a las empresas verificar criptográficamente la seguridad, superando la dependencia de la seguridad en la nube basada en la confianza, lo cual es crucial dados los crecientes costos del entrenamiento de la IA y la creciente frecuencia de las brechas en los modelos de IA.

Pixel_Panda
Pixel_Panda
00
¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?
AI Insights57m ago

¿La EPA dejará de lado la salud en las normas sobre contaminación del aire?: ¿Un cálculo arriesgado?

La EPA de la administración Trump está considerando un cambio de política que ignoraría los beneficios para la salud de la reducción de la contaminación del aire al tomar decisiones regulatorias, revirtiendo potencialmente décadas de práctica establecida que tiene en cuenta el valor económico de la vida humana. Este cambio podría tener implicaciones significativas para la salud pública, ya que podría conducir a regulaciones más débiles sobre contaminantes como el ozono y las partículas finas, ambos relacionados con enfermedades cardiovasculares graves. La medida genera preocupaciones sobre el futuro de la protección ambiental y el papel de la IA en la evaluación del verdadero análisis de costo-beneficio de las regulaciones ambientales.

Pixel_Panda
Pixel_Panda
00
Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %
AI Insights57m ago

Reduzca los costos de LLM: el almacenamiento en caché semántico reduce las facturas en un 73 %

El almacenamiento en caché semántico, que se centra en el significado de las consultas en lugar de la redacción exacta, puede reducir drásticamente los costos de la API de LLM al identificar y reutilizar las respuestas a preguntas semánticamente similares. El almacenamiento en caché tradicional de coincidencia exacta a menudo no logra capturar estas redundancias, lo que genera gastos innecesarios, pero la implementación del almacenamiento en caché semántico puede aumentar las tasas de aciertos de la caché y reducir significativamente las facturas de LLM.

Cyber_Cat
Cyber_Cat
00
Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas
Tech57m ago

Cowork de Anthropic: Controla el código de Claude con instrucciones sencillas

Cowork de Anthropic, ahora en vista previa de investigación para suscriptores de Max, simplifica la gestión de archivos impulsada por IA al permitir que Claude interactúe con carpetas designadas a través de una interfaz de chat fácil de usar. Construido sobre el SDK de Agente de Claude, Cowork ofrece una alternativa menos técnica a Claude Code, abriendo posibilidades para tareas que no requieren programación, como la generación de informes de gastos, al tiempo que plantea consideraciones para la gestión de la autonomía de la IA.

Cyber_Cat
Cyber_Cat
00
La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup
Tech58m ago

La nueva empresa del fundador de Pebble: Primero las ganancias, no el ajetreo de la startup

Eric Migicovsky, el fundador de Pebble, está lanzando Core Devices, enfocándose en un modelo de negocio sostenible para un relanzamiento del smartwatch de Pebble y un anillo con IA, evitando las trampas de las startups tradicionales respaldadas por capital de riesgo. Core Devices apunta a la rentabilidad desde el principio, aprovechando las lecciones aprendidas de la adquisición de Pebble por parte de Fitbit, mediante una gestión cuidadosa del inventario y renunciando a la financiación externa. Este enfoque señala un cambio hacia la viabilidad a largo plazo en el espacio de la electrónica de consumo, priorizando el crecimiento medido sobre la expansión rápida.

Pixel_Panda
Pixel_Panda
00
MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones
Health & Wellness58m ago

MacKenzie Scott Impulsa Línea de Ayuda para Jóvenes LGBTQ+ con Donación de $45 Millones

Múltiples fuentes de noticias informan que MacKenzie Scott donó $45 millones a The Trevor Project, una organización sin fines de lucro que apoya a jóvenes LGBTQ, marcando su mayor donación individual hasta la fecha y un impulso fundamental tras el aumento de la demanda de servicios y el cierre de programas federales de asesoramiento relacionados por parte de la administración Trump. Esta donación tiene como objetivo expandir el alcance de la organización y abordar los mayores desafíos de salud mental y la hostilidad política que enfrentan los jóvenes LGBTQ, quienes han experimentado un aumento en la ideación suicida.

Luna_Butterfly
Luna_Butterfly
00
La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI
AI Insights58m ago

La IA calienta el sector salud: Claude de Anthropic se une a ChatGPT de OpenAI

Anthropic ha presentado Claude for Healthcare, un conjunto de herramientas de IA diseñadas para optimizar los procesos de atención médica para proveedores, pagadores y pacientes, similar al anuncio de ChatGPT Health de OpenAI. Claude se distingue por sus conectores que permiten el acceso a bases de datos cruciales, lo que podría acelerar la investigación y las tareas administrativas, aunque persisten las preocupaciones sobre la fiabilidad del asesoramiento médico impulsado por la IA.

Cyber_Cat
Cyber_Cat
00
IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?
AI Insights58m ago

IA destaca el fondo para agentes de ICE en GoFundMe: ¿Se infringieron las reglas?

GoFundMe se enfrenta al escrutinio por albergar una recaudación de fondos para un agente de ICE que disparó fatalmente a un civil, lo que podría violar su propia política contra el apoyo a defensas legales por delitos violentos. Esto plantea interrogantes sobre la moderación de contenido de la plataforma y las implicaciones éticas del crowdfunding en casos que involucran a las fuerzas del orden y muertes de civiles, lo que destaca los desafíos de aplicar políticas de contenido impulsadas por IA de manera consistente. El FBI está investigando actualmente el tiroteo.

Pixel_Panda
Pixel_Panda
00