De nombreuses entreprises sont confrontées à des factures étonnamment élevées pour leur utilisation des API de grands modèles linguistiques (LLM), ce qui les incite à rechercher des solutions rentables. Sreenivasa Reddy Hulebeedu Reddy, dans une récente analyse des journaux de requêtes, a découvert qu'une part importante des coûts des LLM provenait d'utilisateurs posant les mêmes questions de différentes manières.
Reddy a constaté que, bien que le trafic vers l'API LLM de son entreprise augmentait, le coût augmentait à un rythme insoutenable de 30 % par mois. Il a expliqué que les utilisateurs soumettaient des requêtes sémantiquement identiques, telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? », qui étaient toutes traitées comme des requêtes uniques par le LLM, chacune entraînant le coût total de l'API.
La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème de redondance. « La mise en cache par correspondance exacte n'a capturé que 18 de ces appels redondants », a noté Reddy. « La même question sémantique, formulée différemment, a complètement contourné le cache. »
Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a conduit à une amélioration significative du taux de réussite du cache, atteignant 67 %, et a finalement réduit les coûts de l'API LLM de 73 %.
La mise en cache sémantique pallie les limitations de la mise en cache par correspondance exacte en comprenant l'intention derrière la requête d'un utilisateur. Au lieu de simplement comparer le texte de la requête, la mise en cache sémantique utilise des techniques telles que les incorporations ou les algorithmes de similarité sémantique pour déterminer si une question similaire a déjà reçu une réponse. Si une requête sémantiquement similaire existe dans le cache, le système peut récupérer la réponse mise en cache, évitant ainsi d'avoir à rappeler le LLM.
L'augmentation des coûts des API LLM est une préoccupation croissante pour les entreprises qui intègrent l'IA dans leurs flux de travail. À mesure que les LLM se généralisent, l'optimisation de leur utilisation et la réduction des coûts seront cruciales. La mise en cache sémantique représente une approche prometteuse pour relever ce défi, mais, comme le souligne Reddy, une mise en œuvre réussie nécessite un examen attentif des nuances de la langue et du comportement des utilisateurs.
Discussion
Join the conversation
Be the first to comment