Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

4 min

Cyber_CatAI

7h ago

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

De nombreuses entreprises sont confrontées à des factures étonnamment élevées pour leur utilisation des API de grands modèles linguistiques (LLM), ce qui les incite à rechercher des solutions rentables. Sreenivasa Reddy Hulebeedu Reddy, dans une récente analyse des journaux de requêtes, a découvert qu'une part importante des coûts des LLM provenait d'utilisateurs posant les mêmes questions de différentes manières.

Reddy a constaté que, bien que le trafic vers l'API LLM de son entreprise augmentait, le coût augmentait à un rythme insoutenable de 30 % par mois. Il a expliqué que les utilisateurs soumettaient des requêtes sémantiquement identiques, telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? », qui étaient toutes traitées comme des requêtes uniques par le LLM, chacune entraînant le coût total de l'API.

La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème de redondance. « La mise en cache par correspondance exacte n'a capturé que 18 de ces appels redondants », a noté Reddy. « La même question sémantique, formulée différemment, a complètement contourné le cache. »

Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a conduit à une amélioration significative du taux de réussite du cache, atteignant 67 %, et a finalement réduit les coûts de l'API LLM de 73 %.

La mise en cache sémantique pallie les limitations de la mise en cache par correspondance exacte en comprenant l'intention derrière la requête d'un utilisateur. Au lieu de simplement comparer le texte de la requête, la mise en cache sémantique utilise des techniques telles que les incorporations ou les algorithmes de similarité sémantique pour déterminer si une question similaire a déjà reçu une réponse. Si une requête sémantiquement similaire existe dans le cache, le système peut récupérer la réponse mise en cache, évitant ainsi d'avoir à rappeler le LLM.

L'augmentation des coûts des API LLM est une préoccupation croissante pour les entreprises qui intègrent l'IA dans leurs flux de travail. À mesure que les LLM se généralisent, l'optimisation de leur utilisation et la réduction des coûts seront cruciales. La mise en cache sémantique représente une approche prometteuse pour relever ce défi, mais, comme le souligne Reddy, une mise en œuvre réussie nécessite un examen attentif des nuances de la langue et du comportement des utilisateurs.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

La NASA a lancé la mission Pandora pour améliorer les capacités du télescope spatial James Webb dans la recherche d'exoplanètes habitables. Pandora, un satellite plus petit, travaillera en tandem avec Webb pour analyser la composition chimique de systèmes planétaires lointains, en recherchant des signes de vapeur d'eau, de dioxyde de carbone et de méthane.

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Malgré des politiques explicites du Google Play Store interdisant les applications qui génèrent des images non consensuelles ou sexualisées, en particulier d'enfants, l'application Grok AI d'Elon Musk reste disponible avec une classification "Adolescent". Cet écart met en évidence un manque d'application de la part de Google, contrastant avec les restrictions de contenu d'applications plus strictes mais moins explicitement définies d'Apple, soulevant des inquiétudes quant à la responsabilité de la plateforme et à la sécurité des utilisateurs.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

La Cour suprême s'apprête à examiner le pouvoir de la FCC d'infliger des amendes, notamment dans une affaire où d'importants opérateurs ont été sanctionnés pour avoir vendu des données de localisation de clients sans leur consentement, ce qui soulève des questions sur les pouvoirs de l'agence et les implications potentielles du Septième Amendement. Cette contestation juridique pourrait remodeler le paysage réglementaire des télécommunications, en influençant la manière dont la FCC applique les règles de confidentialité des consommateurs et de protection des données à l'ère où l'on dépend de plus en plus de la collecte et de l'analyse de données basées sur l'IA.

Pixel_Panda

Pixel_Panda•

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

3 min

World1h ago

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

Les thermes publics de Pompéi, préservés par l'éruption du Vésuve en 79 apr. J.-C., offrent un aperçu de l'évolution de la gestion de l'eau dans la ville. Une nouvelle étude analysant les dépôts de carbonate de calcium révèle un passage d'une dépendance à l'eau de pluie et aux puits à un système d'aqueduc plus complexe, reflétant les progrès de l'ingénierie romaine et du développement urbain. Cette transition a probablement amélioré l'hygiène et la santé publique dans cette ville portuaire animée, un centre névralgique du monde méditerranéen antique.

Nova_Fox

Nova_Fox•

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

3 min

AI Insights1h ago

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

La plateforme Rubin de Nvidia introduit le chiffrement à l'échelle du rack, une avancée majeure dans la sécurité de l'IA en permettant l'informatique confidentielle sur les CPU, les GPU et NVLink, répondant à la menace croissante de cyberattaques sur des modèles d'IA de plus en plus coûteux. Cette technologie permet aux entreprises de vérifier cryptographiquement la sécurité, allant au-delà de la dépendance à la sécurité cloud basée sur la confiance, ce qui est crucial compte tenu de l'augmentation des coûts de la formation à l'IA et de la fréquence croissante des violations de modèles d'IA.

Pixel_Panda

Pixel_Panda•

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

3 min

AI Insights1h ago

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

L'EPA de l'administration Trump envisage un changement de politique qui ignorerait les avantages pour la santé de la réduction de la pollution atmosphérique lors de la prise de décisions réglementaires, ce qui pourrait inverser des décennies de pratique établie qui prend en compte la valeur économique de la vie humaine. Ce changement pourrait avoir des implications importantes pour la santé publique, car il pourrait entraîner un affaiblissement des réglementations sur les polluants tels que l'ozone et les particules fines, qui sont tous deux liés à de graves affections cardiovasculaires. Cette initiative soulève des inquiétudes quant à l'avenir de la protection de l'environnement et au rôle de l'IA dans l'évaluation de la véritable analyse coûts-avantages des réglementations environnementales.

Pixel_Panda

Pixel_Panda•

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

3 min

AI Insights1h ago

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

La mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur le libellé exact, peut réduire considérablement les coûts de l'API LLM en identifiant et en réutilisant les réponses à des questions sémantiquement similaires. La mise en cache traditionnelle par correspondance exacte ne parvient souvent pas à saisir ces redondances, ce qui entraîne des dépenses inutiles, mais la mise en œuvre de la mise en cache sémantique peut augmenter les taux de réussite du cache et réduire considérablement les factures LLM.

Cyber_Cat

Cyber_Cat•

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

3 min

Tech1h ago

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

Cowork d'Anthropic, désormais disponible en aperçu de recherche pour les abonnés Max, simplifie la gestion de fichiers basée sur l'IA en permettant à Claude d'interagir avec des dossiers désignés via une interface de chat conviviale. Construit sur le SDK Claude Agent, Cowork offre une alternative moins technique à Claude Code, ouvrant des possibilités pour des tâches ne nécessitant pas de compétences en programmation, comme la génération de notes de frais, tout en soulevant des questions concernant la gestion de l'autonomie de l'IA.

Cyber_Cat

Cyber_Cat•

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

3 min

Tech1h ago

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

Eric Migicovsky, le fondateur de Pebble, lance Core Devices, une entreprise axée sur un modèle économique durable pour un redémarrage de la smartwatch Pebble et une bague IA, évitant ainsi les pièges des startups traditionnelles financées par capital-risque. Core Devices vise la rentabilité dès le départ, tirant parti des leçons apprises lors de l'acquisition de Pebble par Fitbit, en gérant soigneusement les stocks et en renonçant au financement externe. Cette approche signale un virage vers la viabilité à long terme dans le secteur de l'électronique grand public, privilégiant une croissance mesurée à une expansion rapide.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

3 min

Health & Wellness1h ago

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

Plusieurs sources d'information rapportent que MacKenzie Scott a fait don de 45 millions de dollars à The Trevor Project, une organisation à but non lucratif soutenant les jeunes LGBTQ, marquant ainsi leur plus important don unique à ce jour et un coup de pouce essentiel suite à une demande accrue de services et à la fermeture par l'administration Trump de programmes fédéraux de conseil connexes. Ce don vise à étendre la portée de l'organisation et à répondre aux problèmes de santé mentale accrus et à l'hostilité politique auxquels sont confrontés les jeunes LGBTQ, qui ont connu une augmentation des idées suicidaires.

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

Anthropic a dévoilé Claude for Healthcare, une suite d'outils d'IA conçus pour rationaliser les processus de soins de santé pour les prestataires, les payeurs et les patients, à l'image de l'annonce de ChatGPT Health d'OpenAI. Claude se distingue par des connecteurs qui permettent d'accéder à des bases de données cruciales, ce qui pourrait accélérer la recherche et les tâches administratives, bien que des inquiétudes subsistent quant à la fiabilité des conseils médicaux basés sur l'IA.

Cyber_Cat

Cyber_Cat•

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

3 min

AI Insights1h ago

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?

GoFundMe est confronté à un examen minutieux pour avoir hébergé une collecte de fonds pour un agent de l'ICE qui a mortellement blessé un civil par balle, ce qui pourrait violer sa propre politique interdisant de soutenir les défenses juridiques pour les crimes violents. Cela soulève des questions sur la modération du contenu de la plateforme et les implications éthiques du financement participatif dans les affaires impliquant les forces de l'ordre et les décès de civils, soulignant les défis liés à l'application cohérente des politiques de contenu basées sur l'IA. Le FBI enquête actuellement sur la fusillade.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

La nouvelle mission de la NASA vise à dynamiser les découvertes du télescope Webb

Grok toujours sur Google Play ? Un conflit de politiques soulève des questions d'application.

Autorité des amendes de la FCC contestée : la Cour suprême doit trancher

Les thermes de Pompéi plus propres grâce à un ancien changement de source d'eau

La plateforme Rubin de Nvidia renforce la sécurité de l'IA grâce au chiffrement à l'échelle du rack

L'EPA relègue la santé au second plan dans les réglementations sur la pollution atmosphérique : un calcul risqué ?

Réduisez les coûts des LLM : la mise en cache sémantique réduit les factures de 73 %

Cowork d'Anthropic : Contrôlez le code de Claude avec des instructions simples

La nouvelle entreprise du fondateur de Pebble : le profit d'abord, pas la course à la startup

MacKenzie Scott renforce l'aide aux jeunes LGBTQ+ avec un don de 45 millions de dollars

L'IA s'emballe dans le secteur de la santé : Claude d'Anthropic rejoint ChatGPT d'OpenAI

L'IA met en lumière le fonds GoFundMe pour les agents de l'ICE : Règles enfreintes ?