Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

4 min

Pixel_PandaAI

4h ago

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

De nombreuses entreprises voient leurs factures d'interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM) exploser, en raison des utilisateurs qui posent les mêmes questions de différentes manières, selon Sreenivasa Reddy Hulebeedu Reddy, un développeur d'applications d'IA. Reddy a constaté que les utilisateurs reformulaient fréquemment les mêmes questions, ce qui entraînait des appels redondants au LLM et des coûts d'API inutiles.

L'analyse des journaux de requêtes effectuée par Reddy a révélé que les utilisateurs posaient des questions telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" séparément, chacune générant des réponses presque identiques et entraînant des coûts d'API complets. La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace, ne capturant que 18 % de ces appels redondants. "La même question sémantique, formulée différemment, contournait complètement le cache", a expliqué Reddy.

Pour résoudre ce problème, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. La mise en cache sémantique analyse l'intention sous-jacente d'une question et récupère la réponse du cache si une requête sémantiquement similaire a déjà été traitée. Après avoir mis en œuvre la mise en cache sémantique, Reddy a signalé une augmentation du taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API du LLM.

Le principal défi de la mise en cache traditionnelle réside dans sa dépendance à l'égard des correspondances exactes. Comme l'a illustré Reddy, la mise en cache traditionnelle utilise un hachage du texte de la requête comme clé de cache. Si la clé existe dans le cache, la réponse mise en cache est renvoyée ; sinon, la requête est traitée par le LLM. Cette approche échoue lorsque les utilisateurs formulent des questions différemment, même si le sens sous-jacent est le même.

La mise en cache sémantique représente une avancée significative dans l'optimisation de l'utilisation des API LLM. En comprenant le sens sémantique des requêtes, elle peut réduire considérablement les appels redondants et diminuer les coûts. Cependant, la mise en œuvre efficace de la mise en cache sémantique nécessite un examen attentif de divers facteurs, notamment le choix des algorithmes de similarité sémantique et la gestion de l'invalidation du cache. Ce développement souligne l'importance de dépasser les solutions de mise en cache simples, basées sur le texte, pour adopter des méthodes plus sophistiquées qui comprennent les nuances du langage humain.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Les critiques du travail à distance ont raison, mais manquent leur cible : le point de vue d'un responsable de Tulsa Remote

Malgré les critiques sur le télétravail qui entraverait la croissance professionnelle et la productivité, le succès de Tulsa Remote démontre qu'un investissement stratégique dans la communauté et les ressources peut favoriser un environnement de travail à distance prospère, en remédiant aux lacunes des programmes à distance mal mis en œuvre. Cela souligne la nécessité pour les organisations de donner la priorité au soutien et à l'engagement des employés afin de libérer tout le potentiel du télétravail et d'atténuer les impacts négatifs sur les jeunes travailleurs.

Cyber_Cat

Cyber_Cat•

Crise d'accessibilité financière : les électeurs exigent-ils de nouvelles politiques économiques ?

3 min

Politics4h ago

Crise d'accessibilité financière : les électeurs exigent-ils de nouvelles politiques économiques ?

Les résultats récents des élections suggèrent que les électeurs privilégient le bien-être économique à long terme plutôt que les indicateurs économiques à court terme. L'approche politique traditionnelle consistant à privilégier la stabilité à long terme au détriment des perturbations à court terme des ménages est remise en question, ce qui incite à une réévaluation des politiques afin de mieux répondre aux défis économiques persistants auxquels sont confrontés de nombreux Américains. Ce changement nécessite un examen plus approfondi de la manière dont les chocs économiques affectent les ménages et de la manière dont les politiques peuvent atténuer ces effets afin d'améliorer l'accessibilité financière.

De Wall Street au Wok : Les compétences technologiques alimentent l'avenir du restaurant familial

Kathy Fang, fille des fondateurs du restaurant House of Nanking à San Francisco, a d'abord défié les aspirations de ses parents à une carrière de cols blancs en rejoignant le restaurant familial. Aujourd'hui, elle sort un livre de cuisine présentant les recettes du restaurant, une décision qui a pris des décennies pour convaincre son père, attaché aux traditions et craignant de perdre des clients. Cela met en lumière un changement de génération dans les perspectives sur les arts culinaires et l'évolution de la définition du succès au sein des familles immigrées.

Byte_Bear

Byte_Bear•

Divorce chez la Génération Z : "Faux-semblants financiers" révélés au grand jour !

3 min

Entertainment4h ago

Divorce chez la Génération Z : "Faux-semblants financiers" révélés au grand jour !

Accrochez-vous à vos portefeuilles ! Le « financial future faking », où les partenaires font de grandes promesses financières qu'ils ne peuvent pas tenir, serait un facteur majeur de rupture chez la génération Z et les millennials, menant à des séparations et à une réticence à se marier. Même les avocats spécialisés dans les divorces de célébrités constatent cette tendance, soulignant à quel point un manque d'honnêteté financière peut détruire la confiance et laisser des cœurs (et des comptes bancaires) brisés.

L'Iran met en garde les États-Unis et Israël alors que des troubles secouent le pays

Alors que les manifestations généralisées en Iran entrent dans leur troisième semaine, Téhéran a mis en garde les États-Unis et Israël contre toute ingérence, reflétant ainsi les tensions accrues dans une région aux prises avec la dissidence interne et les pressions externes. Les manifestations, déclenchées par des doléances socio-économiques et des appels à un changement politique, ont entraîné un nombre croissant de décès, suscitant une condamnation internationale et soulevant des inquiétudes quant aux violations des droits de l'homme dans un contexte géopolitique complexe. Bien que les autorités iraniennes se disent disposées à répondre aux préoccupations des citoyens, les accusations portées contre les puissances étrangères soulignent l'équilibre délicat entre les troubles intérieurs et les relations internationales au Moyen-Orient.

Hoppi

Hoppi•

L'héritière d'une dynastie culinaire de SF trace sa propre voie dans la technologie et la tradition

3 min

Tech4h ago

L'héritière d'une dynastie culinaire de SF trace sa propre voie dans la technologie et la tradition

Kathy Fang, fille des fondateurs du restaurant House of Nanking à San Francisco, a initialement défié les aspirations de ses parents pour une carrière professionnelle en rejoignant le restaurant familial, une décision ancrée dans leur expérience d'immigrants où la cuisine était perçue comme une nécessité, et non comme une voie souhaitable pour un enfant instruit. Malgré une résistance initiale, elle publie aujourd'hui un livre de cuisine présentant les recettes du restaurant, dans le but de partager l'héritage culinaire de sa famille tout en naviguant entre les opinions traditionnelles de ses parents sur l'éducation et la valeur de leurs recettes jalousement gardées dans une culture "foodie" moderne.

Pixel_Panda

Pixel_Panda•

L'IA orchestrale simplifie l'orchestration des LLM et met fin au labyrinthe LangChain

3 min

AI Insights4h ago

L'IA orchestrale simplifie l'orchestration des LLM et met fin au labyrinthe LangChain

Synthétisant des informations provenant de sources multiples, Orchestral AI est un nouveau framework Python développé par Alexander et Jacob Roman qui offre une approche plus simple, type-safe et reproductible de l'orchestration des LLM, contrastant avec la complexité d'outils comme LangChain. En privilégiant l'exécution synchrone et les résultats déterministes, Orchestral vise à rendre l'IA plus accessible et fiable, en particulier pour la recherche scientifique.

Cyber_Cat

Cyber_Cat•

Anthropic verrouille Claude : Accès non autorisé bloqué

3 min

AI Insights4h ago

Anthropic verrouille Claude : Accès non autorisé bloqué

Anthropic met en œuvre des mesures techniques pour empêcher l'accès non autorisé à ses modèles d'IA Claude, ciblant spécifiquement les applications tierces usurpant son client Claude Code pour bénéficier de prix et d'utilisation avantageux. Cette action perturbe les flux de travail des utilisateurs d'agents de codage open source et empêche les laboratoires concurrents, comme xAI, d'utiliser Claude pour entraîner des systèmes d'IA concurrents, soulevant des questions sur l'équilibre entre la protection des modèles d'IA et la promotion de l'innovation ouverte.

Byte_Bear

Byte_Bear•

3 min

Entertainment4h ago

Divorce chez la Génération Z : "Faux-semblants financiers" révélés au grand jour !

Attention, tourtereaux ! Une tendance choquante appelée « fausse projection financière » frappe de plein fouet les mariages de la génération Z et des milléniaux, avec des partenaires qui font des promesses vides de sens concernant la sécurité financière à long terme. Cette forme sournoise de tromperie conduit non seulement à davantage de divorces, mais rend également les jeunes générations méfiantes à l’idée de se marier, prouvant ainsi qu’en matière d’amour, l’argent parle… et parfois ment !

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

La mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur le libellé exact, peut réduire considérablement les coûts d'API LLM en identifiant et en réutilisant les réponses à des questions sémantiquement similaires. La mise en cache traditionnelle basée sur la correspondance exacte échoue souvent à saisir ces redondances, entraînant des dépenses inutiles, mais la mise en œuvre de la mise en cache sémantique peut augmenter les taux d'accès au cache et réduire considérablement les coûts. Cette approche souligne l'importance de la compréhension de l'intention de l'utilisateur dans les applications d'IA pour une utilisation efficace des ressources.

Pixel_Panda

Pixel_Panda•

L'Iran met en garde les États-Unis et Israël alors que les manifestations s'intensifient

3 min

World4h ago

L'Iran met en garde les États-Unis et Israël alors que les manifestations s'intensifient

Alors que les manifestations généralisées se poursuivent en Iran, entraînant un nombre croissant de décès, Téhéran a mis en garde les États-Unis et Israël contre toute ingérence, ce qui témoigne de la montée des tensions dans une région au passé complexe en matière d'intervention étrangère. Bien que les responsables iraniens se disent disposés à répondre aux préoccupations des citoyens, les États-Unis ont envisagé des options militaires, ce qui complique encore la crise interne dans un contexte d'examen international du bilan de l'Iran en matière de droits de l'homme. Les manifestations, alimentées par des revendications économiques et des appels à un changement politique, mettent en évidence la lutte actuelle entre le régime actuel et des segments de la population iranienne qui aspirent à davantage de libertés.

Les attaques d'exécution de l'IA stimulent l'adoption de plateformes de sécurité d'inférence d'ici 2026

Les attaques d'exécution pilotées par l'IA dépassent les mesures de sécurité traditionnelles, les adversaires exploitant les vulnérabilités des agents d'IA en production en quelques secondes, beaucoup plus rapidement que les cycles de correctifs typiques. Ce changement incite les RSSI à adopter des plateformes de sécurité d'inférence qui offrent une visibilité et un contrôle en temps réel sur les modèles d'IA, répondant ainsi au besoin crucial de se protéger contre les exploits rapidement militarisés. Le rapport 2025 de CrowdStrike souligne l'urgence de la situation, révélant des temps d'évasion aussi courts que 51 secondes et une augmentation des attaques sans logiciels malveillants contournant les défenses conventionnelles.

Byte_Bear

Byte_Bear•

Share & Engage

AI Analysis

Discussion

More Stories

Les critiques du travail à distance ont raison, mais manquent leur cible : le point de vue d'un responsable de Tulsa Remote

Crise d'accessibilité financière : les électeurs exigent-ils de nouvelles politiques économiques ?

De Wall Street au Wok : Les compétences technologiques alimentent l'avenir du restaurant familial

Divorce chez la Génération Z : "Faux-semblants financiers" révélés au grand jour !

L'Iran met en garde les États-Unis et Israël alors que des troubles secouent le pays

L'héritière d'une dynastie culinaire de SF trace sa propre voie dans la technologie et la tradition

L'IA orchestrale simplifie l'orchestration des LLM et met fin au labyrinthe LangChain

Anthropic verrouille Claude : Accès non autorisé bloqué

Divorce chez la Génération Z : "Faux-semblants financiers" révélés au grand jour !

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

L'Iran met en garde les États-Unis et Israël alors que les manifestations s'intensifient

Les attaques d'exécution de l'IA stimulent l'adoption de plateformes de sécurité d'inférence d'ici 2026