De nombreuses entreprises constatent une augmentation inattendue de leurs factures pour les interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM), ce qui les incite à rechercher des solutions rentables. Sreenivasa Reddy Hulebeedu Reddy, dans une analyse récente des journaux de requêtes, a découvert qu'une part importante des coûts des API LLM provenait d'utilisateurs posant les mêmes questions de différentes manières.
Reddy a constaté que, bien que le trafic vers son application LLM augmentait, la facture d'API augmentait à un rythme insoutenable de 30 % par mois. Il a expliqué que les utilisateurs soumettaient des requêtes sémantiquement identiques, telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? », qui étaient toutes traitées comme des requêtes uniques par le LLM, chacune entraînant le coût total de l'API.
La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème de redondance. « La mise en cache par correspondance exacte n'a capturé que 18 de ces appels redondants », a déclaré Reddy. « La même question sémantique, formulée différemment, a complètement contourné le cache. »
Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a permis d'améliorer considérablement le taux de succès du cache, atteignant 67 %, et de réduire finalement les coûts des API LLM de 73 %. La mise en cache sémantique identifie et stocke les réponses aux requêtes sémantiquement similaires, ce qui permet au système de récupérer la réponse mise en cache au lieu d'interroger à nouveau le LLM.
La difficulté réside dans la détermination précise de la similarité sémantique entre les requêtes. Les implémentations naïves ne parviennent souvent pas à saisir les nuances du langage et de l'intention de l'utilisateur. Des techniques avancées, telles que les modèles d'intégration et les mesures de similarité, sont utilisées pour surmonter ces limitations.
Les implications de la mise en cache sémantique vont au-delà des économies de coûts. En réduisant le nombre d'appels d'API, elle peut également améliorer les performances et la réactivité des applications LLM. De plus, elle contribue à une utilisation plus efficace des ressources de calcul, ce qui correspond aux objectifs de durabilité.
À mesure que les LLM sont de plus en plus intégrés dans diverses applications, des chatbots de service client aux outils de génération de contenu, le besoin de stratégies efficaces de gestion des coûts, telles que la mise en cache sémantique, ne cessera de croître. Le développement et le perfectionnement des techniques de mise en cache sémantique sont des domaines de recherche et de développement continus dans le domaine de l'intelligence artificielle.
Discussion
Join the conversation
Be the first to comment