De nombreuses entreprises voient leurs factures d'interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM) monter en flèche, ce qui les incite à rechercher des solutions rentables. Srinivas Reddy Hulebeedu Reddy, dans une analyse récente, a constaté qu'une part importante de ces coûts provient du fait que les utilisateurs posent les mêmes questions de différentes manières.
Reddy a observé une augmentation de 30 % d'un mois à l'autre de la facture d'API LLM de son entreprise, alors que le trafic n'augmentait pas au même rythme. L'analyse des journaux de requêtes a révélé que les utilisateurs posaient des questions sémantiquement identiques en utilisant des formulations variées. Par exemple, des requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" déclenchaient toutes des appels distincts au LLM, chacun entraînant des coûts d'API complets.
La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. Reddy a constaté que la mise en cache par correspondance exacte ne capturait que 18 de ces appels redondants, car de légères variations dans la formulation contournaient complètement le cache.
Pour lutter contre ce phénomène, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie l'intention sous-jacente d'une requête et récupère la réponse correspondante dans le cache, même si la formulation diffère.
L'augmentation des coûts d'API LLM est une préoccupation croissante pour les entreprises qui intègrent l'IA dans leurs flux de travail. À mesure que les LLM se généralisent, l'optimisation de l'utilisation des API est essentielle pour maintenir la rentabilité. La mise en cache sémantique représente une solution prometteuse, mais sa mise en œuvre réussie nécessite un examen attentif des nuances de la langue et du comportement des utilisateurs. Reddy a noté que les implémentations naïves passent souvent à côté d'aspects clés du problème. On s'attend à ce que la recherche et le développement de techniques de mise en cache sémantique jouent un rôle important dans la gestion des coûts des LLM à l'avenir.
Discussion
Join the conversation
Be the first to comment