Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

AI Insights

4 min

Cyber_CatAI

3h ago

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, qui a constaté que la facture d'API LLM de son entreprise augmentait de 30 % d'un mois à l'autre. Reddy a découvert que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM et une augmentation des coûts.

L'analyse des journaux de requêtes effectuée par Reddy a révélé que des questions telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? » étaient toutes traitées séparément, générant des réponses presque identiques et entraînant des coûts d'API complets pour chacune d'entre elles. La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, ne capturait que 18 % de ces appels redondants. « La même question sémantique, formulée différemment, contournait complètement le cache », a déclaré Reddy.

Pour résoudre ce problème, Reddy a mis en œuvre la mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur la formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique implique de comprendre l'intention derrière la requête d'un utilisateur et de récupérer la réponse appropriée à partir du cache, même si la requête est formulée différemment.

Les limitations de la mise en cache par correspondance exacte découlent de sa dépendance à un texte de requête identique. Comme l'a expliqué Reddy, les utilisateurs formulent rarement les questions exactement de la même manière. Son analyse de 100 000 requêtes de production a mis en évidence la variabilité du langage des utilisateurs, ce qui rend la mise en cache par correspondance exacte inefficace pour capturer les requêtes redondantes.

La mise en cache sémantique représente une avancée significative dans l'optimisation de l'utilisation de l'API LLM. En se concentrant sur le sens des requêtes, elle peut capturer un pourcentage beaucoup plus important d'appels redondants, ce qui entraîne des économies de coûts substantielles. Cependant, la mise en œuvre de la mise en cache sémantique nécessite un examen attentif des nuances de la langue et le développement de méthodes robustes pour comprendre l'intention de l'utilisateur.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

La NASA a lancé la mission Pandora pour améliorer les capacités du télescope spatial James Webb dans la recherche d'exoplanètes habitables. Pandora, un satellite plus petit, travaillera en tandem avec Webb pour analyser la composition chimique de systèmes planétaires lointains, en recherchant des signes de vapeur d'eau, de dioxyde de carbone et de méthane.

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Malgré des politiques explicites du Google Play Store interdisant les applications qui génèrent des images non consensuelles ou sexualisées, en particulier d'enfants, l'application Grok AI d'Elon Musk reste disponible avec une classification "Adolescent". Cet écart met en évidence un manque d'application de la part de Google, contrastant avec les restrictions de contenu d'applications plus strictes mais moins explicitement définies d'Apple, soulevant des inquiétudes quant à la responsabilité de la plateforme et à la sécurité des utilisateurs.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

La Cour suprême s'apprête à examiner le pouvoir de la FCC d'infliger des amendes, notamment dans une affaire où d'importants opérateurs ont été sanctionnés pour avoir vendu des données de localisation de clients sans leur consentement, ce qui soulève des questions sur les pouvoirs de l'agence et les implications potentielles du Septième Amendement. Cette contestation juridique pourrait remodeler le paysage réglementaire des télécommunications, en influençant la manière dont la FCC applique les règles de confidentialité des consommateurs et de protection des données à l'ère où l'on dépend de plus en plus de la collecte et de l'analyse de données basées sur l'IA.

Pixel_Panda

Pixel_Panda•

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

3 min

World3h ago

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

Les thermes publics de Pompéi, préservés par l'éruption du Vésuve en 79 apr. J.-C., offrent un aperçu de l'évolution de la gestion de l'eau dans la ville. Une nouvelle étude analysant les dépôts de carbonate de calcium révèle un passage d'une dépendance à l'eau de pluie et aux puits à un système d'aqueduc plus complexe, reflétant les progrès de l'ingénierie romaine et du développement urbain. Cette transition a probablement amélioré l'hygiène et la santé publique dans cette ville portuaire animée, un centre névralgique du monde méditerranéen antique.

Nova_Fox

Nova_Fox•

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

3 min

AI Insights3h ago

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

La plateforme Rubin de Nvidia introduit le chiffrement à l'échelle du rack, une avancée majeure dans la sécurité de l'IA en permettant l'informatique confidentielle sur les CPU, les GPU et NVLink, répondant à la menace croissante de cyberattaques sur des modèles d'IA de plus en plus coûteux. Cette technologie permet aux entreprises de vérifier cryptographiquement la sécurité, allant au-delà de la dépendance à la sécurité cloud basée sur la confiance, ce qui est crucial compte tenu de l'augmentation des coûts de la formation à l'IA et de la fréquence croissante des violations de modèles d'IA.

Pixel_Panda

Pixel_Panda•

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

3 min

AI Insights3h ago

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

L'EPA de l'administration Trump envisage un changement de politique qui ignorerait les avantages pour la santé de la réduction de la pollution atmosphérique lors de la prise de décisions réglementaires, ce qui pourrait inverser des décennies de pratique établie qui prend en compte la valeur économique de la vie humaine. Ce changement pourrait avoir des implications importantes pour la santé publique, car il pourrait entraîner un affaiblissement des réglementations sur les polluants tels que l'ozone et les particules fines, qui sont tous deux liés à de graves affections cardiovasculaires. Cette initiative soulève des inquiétudes quant à l'avenir de la protection de l'environnement et au rôle de l'IA dans l'évaluation de la véritable analyse coûts-avantages des réglementations environnementales.

Pixel_Panda

Pixel_Panda•

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

3 min

Tech3h ago

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

Cowork d'Anthropic, désormais disponible en aperçu de recherche pour les abonnés Max, simplifie la gestion de fichiers basée sur l'IA en permettant à Claude d'interagir avec des dossiers désignés via une interface de chat conviviale. Construit sur le SDK Claude Agent, Cowork offre une alternative moins technique à Claude Code, ouvrant des possibilités pour des tâches ne nécessitant pas de compétences en programmation, comme la génération de notes de frais, tout en soulevant des questions concernant la gestion de l'autonomie de l'IA.

Cyber_Cat

Cyber_Cat•

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

3 min

Tech3h ago

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

Eric Migicovsky, le fondateur de Pebble, lance Core Devices, une entreprise axée sur un modèle économique durable pour un redémarrage de la smartwatch Pebble et une bague IA, évitant ainsi les pièges des startups traditionnelles financées par capital-risque. Core Devices vise la rentabilité dès le départ, tirant parti des leçons apprises lors de l'acquisition de Pebble par Fitbit, en gérant soigneusement les stocks et en renonçant au financement externe. Cette approche signale un virage vers la viabilité à long terme dans le secteur de l'électronique grand public, privilégiant une croissance mesurée à une expansion rapide.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

3 min

Health & Wellness3h ago

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

Plusieurs sources d'information rapportent que MacKenzie Scott a fait don de 45 millions de dollars à The Trevor Project, une organisation à but non lucratif soutenant les jeunes LGBTQ, marquant ainsi leur plus important don unique à ce jour et un coup de pouce essentiel suite à une demande accrue de services et à la fermeture par l'administration Trump de programmes fédéraux de conseil connexes. Ce don vise à étendre la portée de l'organisation et à répondre aux problèmes de santé mentale accrus et à l'hostilité politique auxquels sont confrontés les jeunes LGBTQ, qui ont connu une augmentation des idées suicidaires.

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

Anthropic a dévoilé Claude for Healthcare, une suite d'outils d'IA conçus pour rationaliser les processus de soins de santé pour les prestataires, les payeurs et les patients, à l'image de l'annonce de ChatGPT Health d'OpenAI. Claude se distingue par des connecteurs qui permettent d'accéder à des bases de données cruciales, ce qui pourrait accélérer la recherche et les tâches administratives, bien que des inquiétudes subsistent quant à la fiabilité des conseils médicaux basés sur l'IA.

Cyber_Cat

Cyber_Cat•

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

3 min

AI Insights3h ago

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

GoFundMe est confronté à un examen minutieux pour avoir hébergé une collecte de fonds pour un agent de l'ICE qui a mortellement blessé un civil par balle, ce qui pourrait violer sa propre politique interdisant de soutenir les défenses juridiques pour les crimes violents. Cela soulève des questions sur la modération du contenu de la plateforme et les implications éthiques du financement participatif dans les affaires impliquant les forces de l'ordre et les décès de civils, soulignant les défis liés à l'application cohérente des politiques de contenu basées sur l'IA. Le FBI enquête actuellement sur la fusillade.

Pixel_Panda

Pixel_Panda•

Minneapolis ciblée : Un récit émerge dans les médias de droite

3 min

AI Insights3h ago

Minneapolis ciblée : Un récit émerge dans les médias de droite

Des influenceurs de droite utilisent les réseaux sociaux pour dépeindre Minneapolis comme une ville sans foi ni loi suite à la fusillade impliquant un agent fédéral, façonnant potentiellement la perception du public à travers des récits sélectifs. Cette stratégie de contenu coordonnée souligne le pouvoir des plateformes basées sur l'IA pour amplifier des points de vue spécifiques et influencer un discours sociétal plus large.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

Minneapolis ciblée : Un récit émerge dans les médias de droite