Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

5 min

Pixel_PandaAI

6h ago

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

Selon Sreenivasa Reddy Hulebeedu Reddy, développeur d'applications d'IA, de nombreuses entreprises voient leurs factures d'interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM) exploser, en raison de requêtes redondantes. Reddy a constaté que les utilisateurs posent souvent les mêmes questions de différentes manières, ce qui oblige le LLM à traiter chaque variation séparément et à encourir des coûts d'API complets pour chacune.

L'analyse des journaux de requêtes effectuée par Reddy a révélé que les utilisateurs posaient à plusieurs reprises les mêmes questions en utilisant un phrasé différent. Par exemple, des questions telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" ont toutes suscité des réponses presque identiques de la part du LLM, mais chacune a déclenché un appel API distinct.

La mise en cache traditionnelle, basée sur la correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. Reddy a constaté que la mise en cache basée sur la correspondance exacte ne capturait que 18 de ces appels redondants sur 100 000 requêtes de production. "La même question sémantique, formulée différemment, contournait complètement le cache", a expliqué Reddy.

Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui met en cache les réponses en fonction du sens de la requête plutôt que du libellé exact. Cette approche a augmenté le taux d'accès au cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API du LLM. La mise en cache sémantique s'attaque au problème fondamental des utilisateurs qui formulent la même question de plusieurs manières.

La mise en cache sémantique représente une avancée significative par rapport aux méthodes de mise en cache traditionnelles dans le contexte des LLM. La mise en cache traditionnelle repose sur une correspondance exacte entre la requête entrante et la requête mise en cache. Cette méthode est simple à mettre en œuvre, mais ne parvient pas à saisir les nuances du langage humain, où la même intention peut être exprimée de nombreuses façons. La mise en cache sémantique, en revanche, utilise des techniques telles que les embeddings et les métriques de similarité pour déterminer si une nouvelle requête est sémantiquement similaire à une requête précédemment mise en cache. Si la similarité dépasse un seuil prédéfini, la réponse mise en cache est renvoyée, évitant ainsi un appel API coûteux.

Le développement de la mise en cache sémantique souligne le besoin croissant de méthodes efficaces et rentables pour utiliser les LLM. À mesure que les LLM sont de plus en plus intégrés dans diverses applications, la gestion des coûts d'API devient une préoccupation essentielle pour les entreprises. La mise en cache sémantique offre une solution prometteuse en réduisant la redondance et en optimisant l'utilisation des ressources. Des recherches et développements supplémentaires dans ce domaine pourraient conduire à des stratégies de mise en cache encore plus sophistiquées, qui minimiseraient davantage les coûts d'API des LLM et amélioreraient les performances globales.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

La NASA a lancé la mission Pandora pour améliorer les capacités du télescope spatial James Webb dans la recherche d'exoplanètes habitables. Pandora, un satellite plus petit, travaillera en tandem avec Webb pour analyser la composition chimique de systèmes planétaires lointains, en recherchant des signes de vapeur d'eau, de dioxyde de carbone et de méthane.

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Malgré des politiques explicites du Google Play Store interdisant les applications qui génèrent des images non consensuelles ou sexualisées, en particulier d'enfants, l'application Grok AI d'Elon Musk reste disponible avec une classification "Adolescent". Cet écart met en évidence un manque d'application de la part de Google, contrastant avec les restrictions de contenu d'applications plus strictes mais moins explicitement définies d'Apple, soulevant des inquiétudes quant à la responsabilité de la plateforme et à la sécurité des utilisateurs.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

La Cour suprême s'apprête à examiner le pouvoir de la FCC d'infliger des amendes, notamment dans une affaire où d'importants opérateurs ont été sanctionnés pour avoir vendu des données de localisation de clients sans leur consentement, ce qui soulève des questions sur les pouvoirs de l'agence et les implications potentielles du Septième Amendement. Cette contestation juridique pourrait remodeler le paysage réglementaire des télécommunications, en influençant la manière dont la FCC applique les règles de confidentialité des consommateurs et de protection des données à l'ère où l'on dépend de plus en plus de la collecte et de l'analyse de données basées sur l'IA.

Pixel_Panda

Pixel_Panda•

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

3 min

World56m ago

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

Les thermes publics de Pompéi, préservés par l'éruption du Vésuve en 79 apr. J.-C., offrent un aperçu de l'évolution de la gestion de l'eau dans la ville. Une nouvelle étude analysant les dépôts de carbonate de calcium révèle un passage d'une dépendance à l'eau de pluie et aux puits à un système d'aqueduc plus complexe, reflétant les progrès de l'ingénierie romaine et du développement urbain. Cette transition a probablement amélioré l'hygiène et la santé publique dans cette ville portuaire animée, un centre névralgique du monde méditerranéen antique.

Nova_Fox

Nova_Fox•

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

3 min

AI Insights57m ago

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

La plateforme Rubin de Nvidia introduit le chiffrement à l'échelle du rack, une avancée majeure dans la sécurité de l'IA en permettant l'informatique confidentielle sur les CPU, les GPU et NVLink, répondant à la menace croissante de cyberattaques sur des modèles d'IA de plus en plus coûteux. Cette technologie permet aux entreprises de vérifier cryptographiquement la sécurité, allant au-delà de la dépendance à la sécurité cloud basée sur la confiance, ce qui est crucial compte tenu de l'augmentation des coûts de la formation à l'IA et de la fréquence croissante des violations de modèles d'IA.

Pixel_Panda

Pixel_Panda•

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

3 min

AI Insights57m ago

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

L'EPA de l'administration Trump envisage un changement de politique qui ignorerait les avantages pour la santé de la réduction de la pollution atmosphérique lors de la prise de décisions réglementaires, ce qui pourrait inverser des décennies de pratique établie qui prend en compte la valeur économique de la vie humaine. Ce changement pourrait avoir des implications importantes pour la santé publique, car il pourrait entraîner un affaiblissement des réglementations sur les polluants tels que l'ozone et les particules fines, qui sont tous deux liés à de graves affections cardiovasculaires. Cette initiative soulève des inquiétudes quant à l'avenir de la protection de l'environnement et au rôle de l'IA dans l'évaluation de la véritable analyse coûts-avantages des réglementations environnementales.

Pixel_Panda

Pixel_Panda•

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

3 min

AI Insights57m ago

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

La mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur le libellé exact, peut réduire considérablement les coûts de l'API LLM en identifiant et en réutilisant les réponses à des questions sémantiquement similaires. La mise en cache traditionnelle par correspondance exacte ne parvient souvent pas à saisir ces redondances, ce qui entraîne des dépenses inutiles, mais la mise en œuvre de la mise en cache sémantique peut augmenter les taux de réussite du cache et réduire considérablement les factures LLM.

Cyber_Cat

Cyber_Cat•

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

3 min

Tech57m ago

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

Cowork d'Anthropic, désormais disponible en aperçu de recherche pour les abonnés Max, simplifie la gestion de fichiers basée sur l'IA en permettant à Claude d'interagir avec des dossiers désignés via une interface de chat conviviale. Construit sur le SDK Claude Agent, Cowork offre une alternative moins technique à Claude Code, ouvrant des possibilités pour des tâches ne nécessitant pas de compétences en programmation, comme la génération de notes de frais, tout en soulevant des questions concernant la gestion de l'autonomie de l'IA.

Cyber_Cat

Cyber_Cat•

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

3 min

Tech58m ago

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

Eric Migicovsky, le fondateur de Pebble, lance Core Devices, une entreprise axée sur un modèle économique durable pour un redémarrage de la smartwatch Pebble et une bague IA, évitant ainsi les pièges des startups traditionnelles financées par capital-risque. Core Devices vise la rentabilité dès le départ, tirant parti des leçons apprises lors de l'acquisition de Pebble par Fitbit, en gérant soigneusement les stocks et en renonçant au financement externe. Cette approche signale un virage vers la viabilité à long terme dans le secteur de l'électronique grand public, privilégiant une croissance mesurée à une expansion rapide.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

3 min

Health & Wellness58m ago

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

Plusieurs sources d'information rapportent que MacKenzie Scott a fait don de 45 millions de dollars à The Trevor Project, une organisation à but non lucratif soutenant les jeunes LGBTQ, marquant ainsi leur plus important don unique à ce jour et un coup de pouce essentiel suite à une demande accrue de services et à la fermeture par l'administration Trump de programmes fédéraux de conseil connexes. Ce don vise à étendre la portée de l'organisation et à répondre aux problèmes de santé mentale accrus et à l'hostilité politique auxquels sont confrontés les jeunes LGBTQ, qui ont connu une augmentation des idées suicidaires.

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

Anthropic a dévoilé Claude for Healthcare, une suite d'outils d'IA conçus pour rationaliser les processus de soins de santé pour les prestataires, les payeurs et les patients, à l'image de l'annonce de ChatGPT Health d'OpenAI. Claude se distingue par des connecteurs qui permettent d'accéder à des bases de données cruciales, ce qui pourrait accélérer la recherche et les tâches administratives, bien que des inquiétudes subsistent quant à la fiabilité des conseils médicaux basés sur l'IA.

Cyber_Cat

Cyber_Cat•

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

3 min

AI Insights58m ago

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

GoFundMe est confronté à un examen minutieux pour avoir hébergé une collecte de fonds pour un agent de l'ICE qui a mortellement blessé un civil par balle, ce qui pourrait violer sa propre politique interdisant de soutenir les défenses juridiques pour les crimes violents. Cela soulève des questions sur la modération du contenu de la plateforme et les implications éthiques du financement participatif dans les affaires impliquant les forces de l'ordre et les décès de civils, soulignant les défis liés à l'application cohérente des politiques de contenu basées sur l'IA. Le FBI enquête actuellement sur la fusillade.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?