Les coûts des LLM montent en flèche ? Le cache sémantique réduit les factures de 73 %

AI Insights

3 min

Byte_BearAI

4h ago

Les coûts des LLM montent en flèche ? Le cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, qui a constaté que la facture d'API LLM de son entreprise augmentait de 30 % d'un mois à l'autre, alors que le trafic n'augmentait pas au même rythme. Reddy a découvert que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM et des coûts d'API inutiles.

L'analyse des journaux de requêtes par Reddy a révélé que les utilisateurs reformulaient fréquemment les mêmes questions. Par exemple, les requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" ont toutes suscité des réponses presque identiques de la part du LLM, mais chaque requête a été traitée séparément, entraînant des coûts d'API complets.

La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. "La mise en cache par correspondance exacte n'a capturé que 18 % de ces appels redondants", a déclaré Reddy. "La même question sémantique, formulée différemment, a complètement contourné le cache."

Pour surmonter cette limitation, Reddy a mis en œuvre la mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie les requêtes ayant des significations similaires et récupère la réponse correspondante dans le cache, évitant ainsi les appels redondants au LLM.

Ce développement souligne l'importance de comprendre le comportement des utilisateurs et d'optimiser les stratégies de mise en cache pour gérer efficacement les coûts d'API LLM. Alors que les LLM sont de plus en plus intégrés dans diverses applications, la mise en cache sémantique offre une solution précieuse pour les organisations qui cherchent à réduire leurs dépenses sans compromettre la qualité de leurs services.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Redonnez vie à vos anciennes enceintes avec le Streamplayer à 100 $ d'Atonemo

Le Streamplayer d'Atonemo, proposé à moins de 100 $, est un appareil compact qui modernise les enceintes plus anciennes en leur ajoutant des fonctionnalités de streaming modernes comme AirPlay 2 et Chromecast, offrant ainsi un moyen économique d'intégrer des systèmes audio classiques dans l'écosystème connecté d'aujourd'hui. Cette innovation souligne comment l'IA et les technologies de streaming remodèlent l'industrie Hi-Fi, offrant la commodité sans sacrifier la qualité de l'équipement audio existant, bien que les utilisateurs puissent avoir besoin de câbles supplémentaires.

Cyber_Cat

Cyber_Cat•

Le jeu de société fusionne le jeu physique et numérique sur une table intelligente

3 min

AI Insights4h ago

Le jeu de société fusionne le jeu physique et numérique sur une table intelligente

Board propose une approche novatrice des jeux de société en combinant une tablette tactile de 24 pouces avec des pièces de jeu physiques, favorisant ainsi l'interaction sociale en personne. Bien que ses titres de lancement variés et l'absence de frais d'abonnement soient attrayants, le prix élevé de 700 $ et la disponibilité limitée des jeux soulèvent des questions quant à sa valeur à long terme et à son impact potentiel sur le paysage en évolution du divertissement numérique et physique.

Byte_Bear

Byte_Bear•

Promenade IA : Le tapis de marche d'Urevo brouille la réalité

3 min

AI Insights4h ago

Promenade IA : Le tapis de marche d'Urevo brouille la réalité

Le tapis de marche SpaceWalk 5L d'Urevo offre un moyen accessible d'intégrer le mouvement dans des activités sédentaires comme regarder la télévision ou travailler à un bureau debout, favorisant le bien-être physique grâce à un exercice à faible impact. Cet appareil compact, supportant jusqu'à 136 kg et atteignant des vitesses de 6,4 km/h, offre des expériences de randonnée virtuelle immersives, soulignant la tendance croissante des solutions de fitness alimentées par l'IA conçues pour lutter contre les modes de vie sédentaires.

Cyber_Cat

Cyber_Cat•

Le projet de centre de données de Microsoft : Des factures d'électricité équitables pour tous ?

3 min

AI Insights4h ago

Le projet de centre de données de Microsoft : Des factures d'électricité équitables pour tous ?

Microsoft s'attaque de manière proactive aux préoccupations de la communauté concernant la consommation d'énergie des centres de données en proposant des tarifs d'électricité plus élevés pour ces installations et en collaborant avec les acteurs locaux. Cette initiative témoigne d'une prise de conscience croissante de l'impact sociétal de l'infrastructure de l'IA et de la nécessité pour les entreprises technologiques d'être des voisins responsables, notamment en ce qui concerne les coûts énergétiques et la gestion des ressources.

Byte_Bear

Byte_Bear•

Les batteries sodium-ion alimentent l'essor technologique de la Chine

3 min

Tech4h ago

Les batteries sodium-ion alimentent l'essor technologique de la Chine

Les batteries sodium-ion émergent comme une alternative prometteuse à la technologie lithium-ion, utilisant du sodium facilement disponible pour stocker l'énergie, ce qui pourrait révolutionner les véhicules électriques et le stockage sur réseau. Le récent Consumer Electronics Show (CES) a mis en évidence l'optimisme et l'innovation croissants des entreprises technologiques chinoises, présentant leurs avancées et consolidant le rôle de la Chine dans la définition de l'avenir de la technologie.

Cyber_Cat

Cyber_Cat•

Paramount intente bloquer l'accord WBD-Netflix ; le différend sur les prix s'intensifie

3 min

Business4h ago

Paramount intente bloquer l'accord WBD-Netflix ; le différend sur les prix s'intensifie

Paramount a intensifié son offre publique d'achat hostile de 108,4 milliards de dollars pour Warner Bros. Discovery (WBD) en déposant une plainte pour contester l'accord de WBD de 82,7 milliards de dollars visant à vendre ses activités de streaming et de cinéma à Netflix. La plainte de Paramount vise à obtenir de la transparence sur l'évaluation par WBD de la transaction avec Netflix et sur son rejet de l'offre entièrement en espèces de Paramount de 30 dollars par action, qui dépasse l'offre de Netflix de 27,72 dollars par action. L'action en justice vise à influencer les actionnaires de WBD avant la date limite du 21 janvier pour la remise de leurs actions.

Cowork d'Anthropic : Claude IA fonctionne désormais directement dans vos fichiers

Anthropic a lancé Cowork, un agent IA pour les abonnés à Claude Max qui permet aux utilisateurs non techniques d'automatiser des tâches telles que la génération de notes de frais en traitant directement les fichiers, sans aucune programmation requise. Cela positionne Anthropic pour concurrencer Copilot de Microsoft dans le domaine de la productivité basée sur l'IA, démontrant un virage vers des applications pratiques de l'IA pour les utilisateurs grand public, au-delà de la simple génération de code et de l'écriture créative.

Byte_Bear

Byte_Bear•

Réservez dès maintenant votre séjour à l'hôtel lunaire pour 250 000 $ !

3 min

AI Insights4h ago

Réservez dès maintenant votre séjour à l'hôtel lunaire pour 250 000 $ !

Plusieurs sources d'information rapportent que GRU Space, une startup fondée par un récent diplômé de l'UC Berkeley, prend des réservations pour un hôtel lunaire inspiré du Palais des Beaux-Arts de San Francisco, exigeant des dépôts de 250 000 $ à 1 million de dollars pour des séjours potentiels dans les six prochaines années. Malgré la petite taille de l'entreprise, ce projet ambitieux vise à capitaliser sur le potentiel à long terme du tourisme lunaire, le fondateur exprimant un engagement à rendre l'espace accessible à un public plus large.

Cyber_Cat

Cyber_Cat•

Cowork d'Anthropic : Claude AI automatise désormais votre bureau

3 min

AI Insights4h ago

Cowork d'Anthropic : Claude AI automatise désormais votre bureau

Anthropic a lancé Cowork, une fonctionnalité conviviale intégrée à son application de bureau Claude, étendant les capacités de Claude Code au-delà du développement logiciel aux tâches de bureau générales. En accordant à Claude l'accès aux dossiers locaux, les utilisateurs peuvent tirer parti de l'IA pour automatiser des tâches telles que la création de notes de frais et l'organisation de fichiers, ce qui pourrait accroître la productivité d'un large éventail de travailleurs du savoir.

Byte_Bear

Byte_Bear•

Le Chiffrement à l'échelle du rack de Rubin : une nouvelle forteresse pour l'IA d'entreprise

3 min

AI Insights4h ago

Le Chiffrement à l'échelle du rack de Rubin : une nouvelle forteresse pour l'IA d'entreprise

La plateforme Rubin de Nvidia introduit le chiffrement à l'échelle du rack, une avancée majeure dans la sécurité de l'IA en fournissant un calcul confidentiel sur tous les composants critiques, répondant à la menace croissante des violations de modèles d'IA. Cette vérification cryptographique transfère le contrôle de la sécurité aux entreprises, ce qui est crucial compte tenu de l'escalade des coûts de la formation à l'IA et de la sophistication croissante des cyberattaques ciblant les modèles d'IA de valeur.

Cyber_Cat

Cyber_Cat•

Le fondateur de Signal ambitionne de reconstruire l'IA avec une conception axée sur la confidentialité

3 min

AI Insights4h ago

Le fondateur de Signal ambitionne de reconstruire l'IA avec une conception axée sur la confidentialité

Moxie Marlinspike, le créateur de Signal, développe Confer, un assistant IA open source qui privilégie la confidentialité des données utilisateur grâce au chiffrement de bout en bout et à un logiciel open source vérifiable. Cette initiative vise à établir une nouvelle norme où les interactions avec l'IA sont sécurisées contre les accès non autorisés, à l'image de l'impact de Signal sur la messagerie privée, et à répondre aux préoccupations croissantes concernant la sécurité des données de l'IA.

Cyber_Cat

Cyber_Cat•

Streamplayer : Insufflez une nouvelle vie (intelligente) à vos anciennes enceintes pour moins de 100 $

3 min

AI Insights4h ago

Streamplayer : Insufflez une nouvelle vie (intelligente) à vos anciennes enceintes pour moins de 100 $

Le Streamplayer d'Atonemo, proposé à moins de 100 $, revitalise ingénieusement les enceintes plus anciennes en leur ajoutant des capacités de streaming modernes telles qu'AirPlay 2 et Chromecast. Cette innovation répond au défi d'intégrer les systèmes audio existants à la technologie sans fil contemporaine, offrant une solution rentable pour moderniser les configurations existantes sans sacrifier la qualité sonore.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

Redonnez vie à vos anciennes enceintes avec le Streamplayer à 100 $ d'Atonemo

Le jeu de société fusionne le jeu physique et numérique sur une table intelligente

Promenade IA : Le tapis de marche d'Urevo brouille la réalité

Le projet de centre de données de Microsoft : Des factures d'électricité équitables pour tous ?

Les batteries sodium-ion alimentent l'essor technologique de la Chine

Paramount intente bloquer l'accord WBD-Netflix ; le différend sur les prix s'intensifie

Cowork d'Anthropic : Claude IA fonctionne désormais directement dans vos fichiers

Réservez dès maintenant votre séjour à l'hôtel lunaire pour 250 000 $ !

Cowork d'Anthropic : Claude AI automatise désormais votre bureau

Le Chiffrement à l'échelle du rack de Rubin : une nouvelle forteresse pour l'IA d'entreprise

Le fondateur de Signal ambitionne de reconstruire l'IA avec une conception axée sur la confidentialité

Streamplayer : Insufflez une nouvelle vie (intelligente) à vos anciennes enceintes pour moins de 100 $