De nombreuses entreprises sont confrontées à des factures étonnamment élevées pour leur utilisation des API de grands modèles linguistiques (LLM), ce qui les incite à rechercher des solutions rentables. Srinivas Reddy Hulebeedu Reddy, dans une récente analyse des journaux de requêtes, a découvert qu'une part importante des coûts des API LLM provenait d'utilisateurs posant les mêmes questions de différentes manières.
Reddy a constaté que, bien que le trafic vers leur application LLM augmentait, la facture d'API augmentait à un rythme insoutenable de 30 % d'un mois à l'autre. Le problème fondamental, selon Reddy, était la redondance. Les utilisateurs soumettaient des requêtes sémantiquement identiques, telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? », chacune déclenchant une réponse LLM distincte et coûteuse.
La mise en cache traditionnelle par correspondance exacte, qui repose sur un texte de requête identique pour récupérer les réponses mises en cache, s'est avérée inefficace, ne capturant que 18 % de ces appels redondants. Reddy a expliqué que, comme les utilisateurs formulent les questions différemment, le cache était contourné même lorsque l'intention sous-jacente était la même.
Pour résoudre ce problème, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux d'accès au cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie et stocke les réponses en fonction de la similarité sémantique des requêtes entrantes, ce qui permet au système de fournir des réponses générées précédemment pour les questions ayant la même signification, quelle que soit la formulation spécifique.
Ce développement souligne un besoin croissant de mécanismes de mise en cache sophistiqués à l'ère des LLM. Alors que les entreprises intègrent de plus en plus ces puissants modèles d'IA dans leurs applications, la gestion des coûts d'API devient cruciale. La mise en cache sémantique offre une solution prometteuse, mais sa mise en œuvre réussie nécessite un examen attentif des nuances du langage et de l'intention de l'utilisateur.
Les implications de la mise en cache sémantique vont au-delà des économies de coûts. En réduisant la charge sur les API LLM, elle peut également améliorer les temps de réponse et les performances globales du système. De plus, elle peut contribuer à une utilisation plus durable des ressources d'IA, réduisant ainsi l'impact environnemental associé à l'exécution de grands modèles linguistiques.
Bien que la mise en cache sémantique présente une opportunité importante, elle pose également des défis techniques. Sa mise en œuvre efficace nécessite des techniques d'analyse sémantique robustes et un réglage minutieux pour garantir la précision et éviter de fournir des réponses incorrectes ou non pertinentes. Les implémentations naïves peuvent manquer des différences subtiles de sens, entraînant des erreurs et l'insatisfaction des utilisateurs.
Le développement de la mise en cache sémantique s'inscrit dans une tendance plus large visant à optimiser l'utilisation des LLM. Les chercheurs et les ingénieurs explorent activement diverses techniques, notamment l'ingénierie des invites, le réglage fin des modèles et la distillation des connaissances, afin d'améliorer l'efficacité et l'efficience de ces modèles. Alors que les LLM sont de plus en plus intégrés aux applications quotidiennes, ces efforts d'optimisation joueront un rôle essentiel pour garantir leur accessibilité et leur durabilité.
Discussion
Join the conversation
Be the first to comment