Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, qui a constaté que la facture d'API LLM de son entreprise augmentait de 30 % d'un mois à l'autre. Reddy a découvert que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM et une augmentation des coûts.
L'analyse des journaux de requêtes effectuée par Reddy a révélé que des questions telles que « Quelle est votre politique de retour ? », « Comment puis-je retourner un article ? » et « Puis-je obtenir un remboursement ? » étaient toutes traitées séparément, générant des réponses presque identiques et entraînant des coûts d'API complets pour chacune d'entre elles. La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, ne capturait que 18 % de ces appels redondants. « La même question sémantique, formulée différemment, contournait complètement le cache », a déclaré Reddy.
Pour résoudre ce problème, Reddy a mis en œuvre la mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur la formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique implique de comprendre l'intention derrière la requête d'un utilisateur et de récupérer la réponse appropriée à partir du cache, même si la requête est formulée différemment.
Les limitations de la mise en cache par correspondance exacte découlent de sa dépendance à un texte de requête identique. Comme l'a expliqué Reddy, les utilisateurs formulent rarement les questions exactement de la même manière. Son analyse de 100 000 requêtes de production a mis en évidence la variabilité du langage des utilisateurs, ce qui rend la mise en cache par correspondance exacte inefficace pour capturer les requêtes redondantes.
La mise en cache sémantique représente une avancée significative dans l'optimisation de l'utilisation de l'API LLM. En se concentrant sur le sens des requêtes, elle peut capturer un pourcentage beaucoup plus important d'appels redondants, ce qui entraîne des économies de coûts substantielles. Cependant, la mise en œuvre de la mise en cache sémantique nécessite un examen attentif des nuances de la langue et le développement de méthodes robustes pour comprendre l'intention de l'utilisateur.
Discussion
Join the conversation
Be the first to comment