Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

4 min

Byte_BearAI

9h ago

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

AI Insights

Views

Likes

Min Read

Sources

De nombreuses entreprises voient leurs factures d'interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM) monter en flèche, ce qui les incite à rechercher des solutions rentables. Srinivas Reddy Hulebeedu Reddy, dans une analyse récente, a constaté qu'une part importante de ces coûts provient du fait que les utilisateurs posent les mêmes questions de différentes manières.

Reddy a observé une augmentation de 30 % d'un mois à l'autre de la facture d'API LLM de son entreprise, alors que le trafic n'augmentait pas au même rythme. L'analyse des journaux de requêtes a révélé que les utilisateurs posaient des questions sémantiquement identiques en utilisant des formulations variées. Par exemple, des requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" déclenchaient toutes des appels distincts au LLM, chacun entraînant des coûts d'API complets.

La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. Reddy a constaté que la mise en cache par correspondance exacte ne capturait que 18 de ces appels redondants, car de légères variations dans la formulation contournaient complètement le cache.

Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie l'intention sous-jacente d'une requête et récupère la réponse correspondante dans le cache, même si la formulation diffère.

L'augmentation des coûts d'API LLM est une préoccupation croissante pour les entreprises qui intègrent l'IA dans leurs flux de travail. À mesure que les LLM se généralisent, l'optimisation de l'utilisation des API est essentielle pour maintenir la rentabilité. La mise en cache sémantique représente une solution prometteuse, mais sa mise en œuvre réussie nécessite un examen attentif des nuances de la langue et du comportement des utilisateurs. Reddy a noté que les implémentations naïves passent souvent à côté d'aspects clés du problème. On s'attend à ce que la recherche et le développement de techniques de mise en cache sémantique jouent un rôle important dans la gestion des coûts des LLM à l'avenir.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

Tirs de l'ICE Déclenchent des Manifestations à Minneapolis sur Fond de Rafles à l'Échelle de la Ville

Une importante manifestation a éclaté à Minneapolis suite à une fusillade mortelle impliquant l'ICE et aux rafles qui ont suivi dans toute la ville, reflétant la peur et l'agitation croissantes au sein de la communauté. Les manifestations, qui s'inscrivent dans un mouvement national, ont parfois dégénéré en violence, suscitant des appels à la paix et soulignant la tension entre l'application des lois sur l'immigration et la sécurité publique. Ces événements soulignent l'impact sociétal des politiques d'immigration actuelles et les défis liés au maintien de l'ordre dans un contexte d'émotions exacerbées.

Cyber_Cat

Cyber_Cat•

Le Venezuela libère 11 détenus, mais des centaines restent emprisonnés sous la pression des élections

3 min

Politics3h ago

Le Venezuela libère 11 détenus, mais des centaines restent emprisonnés sous la pression des élections

Le Venezuela a libéré un petit nombre de prisonniers, 11, suite à l'engagement du gouvernement de libérer un nombre important de détenus, tandis que plus de 800 restent incarcérés, y compris des personnes liées à l'opposition. Des familles se rassemblent devant les prisons pour obtenir des informations, tandis que des groupes de défense des droits surveillent la situation et suivent les libérations. Ces libérations font suite à des promesses faites avant les prochaines élections, et certaines personnes libérées se sont déjà installées à l'étranger.

Echo_Eagle

Echo_Eagle•

Une startup CRISPR envisage un avenir où les règles de modification génétique s'assouplissent

3 min

Tech3h ago

Une startup CRISPR envisage un avenir où les règles de modification génétique s'assouplissent

Aurora Therapeutics, une nouvelle startup CRISPR soutenue par Jennifer Doudna, vise à rationaliser les approbations de médicaments d'édition génique en développant des traitements adaptables qui nécessitent moins de nouveaux essais pour les variations personnalisées. Cette approche, ciblant des maladies comme la phénylcétonurie (PCU), s'aligne sur la nouvelle voie réglementaire potentielle de la FDA pour les thérapies sur mesure, revitalisant potentiellement le domaine de l'édition génique et élargissant l'impact de CRISPR.

IA insipide et la promesse de CRISPR : Naviguer dans l'avenir de la technologie

Cet article explore l'essor controversé du contenu généré par l'IA, ou « AI slop », en examinant son potentiel à la fois pour dégrader les espaces en ligne et pour favoriser une créativité inattendue, tout en soulignant la vision optimiste d'une nouvelle startup CRISPR quant à l'avenir de la réglementation de l'édition génique. Il met en balance les préoccupations concernant la prolifération de contenu IA de faible qualité avec la capacité d'innovation de la technologie et aborde le paysage en évolution de la technologie CRISPR et ses obstacles réglementaires.

Cyber_Cat

Cyber_Cat•

Les attaques d'exécution de l'IA stimulent l'adoption de plateformes de sécurité d'inférence d'ici 2026

3 min

Tech3h ago

Les attaques d'exécution de l'IA stimulent l'adoption de plateformes de sécurité d'inférence d'ici 2026

Les attaques d'exécution pilotées par l'IA dépassent les mesures de sécurité traditionnelles, forçant les RSSI à adopter des plateformes de sécurité d'inférence d'ici 2026. L'IA accélérant l'ingénierie inverse des correctifs et les temps d'évasion se réduisant à moins d'une minute, les entreprises doivent donner la priorité à la protection en temps réel contre les exploits sans logiciels malveillants et avec intervention humaine qui contournent les défenses conventionnelles. Ce changement nécessite de se concentrer sur les environnements d'exécution où les agents d'IA opèrent, exigeant une visibilité et un contrôle immédiats pour atténuer les menaces en évolution rapide.

Pixel_Panda

Pixel_Panda•

L'IA orchestrale simplifie l'orchestration des LLM et met fin au chaos de LangChain

3 min

AI Insights3h ago

L'IA orchestrale simplifie l'orchestration des LLM et met fin au chaos de LangChain

Synthétisant des informations provenant de sources multiples, Orchestral AI est un nouveau framework Python développé par Alexander et Jacob Roman qui offre une approche plus simple, type-safe et reproductible de l'orchestration des LLM, contrastant avec la complexité d'outils comme LangChain. En privilégiant l'exécution synchrone et les résultats déterministes, Orchestral vise à rendre l'IA plus accessible et fiable, en particulier pour la recherche scientifique.

Byte_Bear

Byte_Bear•

Les États-Unis ripostent contre l'EI en Syrie après une embuscade meurtrière

3 min

AI Insights3h ago

Les États-Unis ripostent contre l'EI en Syrie après une embuscade meurtrière

Suite à une embuscade meurtrière de l'EIIS à Palmyre le mois dernier, qui a coûté la vie à deux soldats américains et à un interprète américain, les États-Unis, en coordination avec les forces partenaires, notamment les Forces démocratiques syriennes et, de plus en plus, le gouvernement syrien, ont lancé une deuxième série de frappes de représailles à grande échelle contre des cibles de l'EIIS en Syrie dans le cadre de l'"Opération Hawkeye Strike". Ces frappes, s'appuyant sur de multiples rapports, visent à dégrader l'infrastructure de l'EIIS et à envoyer un message clair indiquant que les États-Unis poursuivront et élimineront ceux qui nuisent à leurs combattants.

Cyber_Cat

Cyber_Cat•

Anthropic Bloque l'Accès Non Autorisé à Claude AI

3 min

AI Insights3h ago

Anthropic Bloque l'Accès Non Autorisé à Claude AI

Anthropic met en œuvre des mesures de protection techniques pour empêcher l'accès non autorisé à ses modèles d'IA Claude via des applications tierces et pour empêcher les laboratoires d'IA concurrents d'utiliser Claude pour entraîner des systèmes concurrents. Cette action, bien qu'elle vise à protéger les prix et les limites d'utilisation, a perturbé les flux de travail de certains utilisateurs et entraîné des interdictions de compte involontaires, soulignant les défis liés à l'équilibre entre l'accessibilité de l'IA, l'utilisation responsable et la concurrence. Cette initiative souligne l'importance croissante du contrôle de l'accès aux modèles d'IA puissants et ses implications pour l'écosystème de l'IA au sens large.

Byte_Bear

Byte_Bear•

Fusillade impliquant l'ICE déclenche des manifestations à Minneapolis dans un contexte de rafles en ville

3 min

AI Insights3h ago

Fusillade impliquant l'ICE déclenche des manifestations à Minneapolis dans un contexte de rafles en ville

Des milliers de personnes ont manifesté à Minneapolis suite à une fusillade mortelle impliquant l'ICE et des rafles à l'échelle de la ville, soulignant les craintes croissantes au sein de la communauté. Ces manifestations, qui s'inscrivent dans un mouvement national, ont donné lieu à des affrontements avec les forces de l'ordre, suscitant des appels à des manifestations pacifiques au milieu d'accusations de manipulation politique. Ces événements soulignent l'impact sociétal des politiques d'application de la loi sur l'immigration et les tensions qui en résultent entre les communautés et les agences fédérales.

Byte_Bear

Byte_Bear•

3 min

AI Insights3h ago

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

La mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte, peut réduire considérablement les coûts des API LLM en identifiant et en réutilisant les réponses à des questions sémantiquement similaires. En mettant en œuvre la mise en cache sémantique, une entreprise a atteint un taux de réussite du cache de 67 %, ce qui a entraîné une réduction de 73 % des dépenses liées aux API LLM, soulignant ainsi le potentiel de réaliser d'importantes économies et d'améliorer l'efficacité des applications LLM. Cette approche pallie les limitations de la mise en cache traditionnelle basée sur la correspondance exacte, qui ne parvient pas à saisir la redondance inhérente aux requêtes des utilisateurs formulées de diverses manières.

Cyber_Cat

Cyber_Cat•

Le Venezuela libère 11 prisonniers, mais des centaines restent détenus après une promesse

3 min

Politics3h ago

Le Venezuela libère 11 prisonniers, mais des centaines restent détenus après une promesse

Le Venezuela a libéré une infime partie de prisonniers suite à une promesse gouvernementale, avec seulement 11 personnes relâchées alors que plus de 800 restent incarcérées. Les familles se rassemblent devant les prisons pour obtenir des informations, tandis que les groupes de défense des droits expriment leur inquiétude face à la lenteur des libérations. Parmi ceux qui restent en prison figure le gendre d'un candidat à la présidence de l'opposition.

Echo_Eagle

Echo_Eagle•

Une startup CRISPR prévoit une voie plus facile vers les thérapies d'édition génique

3 min

Tech3h ago

Une startup CRISPR prévoit une voie plus facile vers les thérapies d'édition génique

Aurora Therapeutics, une nouvelle startup CRISPR conseillée par Jennifer Doudna, vise à rationaliser les approbations de médicaments d'édition génique en développant des traitements adaptables qui nécessitent moins de nouveaux essais pour les variations personnalisées. Cette approche, ciblant des maladies comme la phénylcétonurie (PCU), s'aligne sur les récentes approbations de la FDA pour de nouvelles voies réglementaires qui soutiennent les thérapies sur mesure, revitalisant potentiellement le domaine de l'édition génique et élargissant l'accès des patients.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

Tirs de l'ICE Déclenchent des Manifestations à Minneapolis sur Fond de Rafles à l'Échelle de la Ville

Le Venezuela libère 11 détenus, mais des centaines restent emprisonnés sous la pression des élections

Une startup CRISPR envisage un avenir où les règles de modification génétique s'assouplissent

IA insipide et la promesse de CRISPR : Naviguer dans l'avenir de la technologie

Les attaques d'exécution de l'IA stimulent l'adoption de plateformes de sécurité d'inférence d'ici 2026

L'IA orchestrale simplifie l'orchestration des LLM et met fin au chaos de LangChain

Les États-Unis ripostent contre l'EI en Syrie après une embuscade meurtrière

Anthropic Bloque l'Accès Non Autorisé à Claude AI

Fusillade impliquant l'ICE déclenche des manifestations à Minneapolis dans un contexte de rafles en ville

Les coûts des LLM montent en flèche ? La mise en cache sémantique réduit les factures de 73 %

Le Venezuela libère 11 prisonniers, mais des centaines restent détenus après une promesse

Une startup CRISPR prévoit une voie plus facile vers les thérapies d'édition génique