Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, qui a constaté que la facture d'API LLM de son entreprise augmentait de 30 % d'un mois à l'autre, alors que le trafic n'augmentait pas au même rythme. Reddy a découvert que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM et des coûts d'API inutiles.
L'analyse des journaux de requêtes par Reddy a révélé que les utilisateurs reformulaient fréquemment les mêmes questions. Par exemple, les requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" ont toutes suscité des réponses presque identiques de la part du LLM, mais chaque requête a été traitée séparément, entraînant des coûts d'API complets.
La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. "La mise en cache par correspondance exacte n'a capturé que 18 % de ces appels redondants", a déclaré Reddy. "La même question sémantique, formulée différemment, a complètement contourné le cache."
Pour surmonter cette limitation, Reddy a mis en œuvre la mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie les requêtes ayant des significations similaires et récupère la réponse correspondante dans le cache, évitant ainsi les appels redondants au LLM.
Ce développement souligne l'importance de comprendre le comportement des utilisateurs et d'optimiser les stratégies de mise en cache pour gérer efficacement les coûts d'API LLM. Alors que les LLM sont de plus en plus intégrés dans diverses applications, la mise en cache sémantique offre une solution précieuse pour les organisations qui cherchent à réduire leurs dépenses sans compromettre la qualité de leurs services.
Discussion
Join the conversation
Be the first to comment