Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, un professionnel de l'apprentissage automatique qui a récemment diminué les dépenses LLM de son entreprise de 73 %. Reddy a observé une augmentation mensuelle de 30 % de la facture d'API LLM de son entreprise, bien que le trafic n'ait pas augmenté au même rythme. L'analyse des journaux de requêtes a révélé que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM.
Reddy a constaté que les utilisateurs posaient des questions sémantiquement identiques en utilisant un phrasé différent. Par exemple, des requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" déclenchaient toutes des appels distincts au LLM, chacun générant des réponses presque identiques et entraînant des coûts d'API complets. La mise en cache traditionnelle, basée sur la correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace, ne capturant que 18 % de ces appels redondants.
Pour résoudre ce problème, Reddy a mis en œuvre une mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de succès du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. "Les utilisateurs ne formulent pas les questions de manière identique", a expliqué Reddy, soulignant les limites de la mise en cache basée sur la correspondance exacte. Il a analysé 100 000 requêtes de production pour comprendre l'ampleur du problème.
La mise en cache sémantique représente un changement par rapport aux méthodes de mise en cache traditionnelles en employant des techniques pour comprendre le sens sous-jacent d'une requête. Au lieu de simplement comparer le texte de la requête, la mise en cache sémantique exploite le traitement du langage naturel (NLP) et les modèles d'apprentissage automatique pour identifier l'intention et le contexte de la question. Cela permet au système de reconnaître que "Quelle est votre politique de retour ?" et "Comment puis-je retourner un article ?" posent essentiellement la même question.
Les implications de la mise en cache sémantique vont au-delà des économies de coûts. En réduisant le nombre d'appels aux API LLM, elle peut également améliorer les temps de réponse et réduire la charge globale sur le système. Ceci est particulièrement important pour les applications qui traitent un volume élevé de requêtes utilisateur. De plus, la mise en cache sémantique peut contribuer à une utilisation plus efficace des ressources informatiques, ce qui s'aligne sur les objectifs de développement durable plus larges de l'industrie technologique.
Le développement de systèmes de mise en cache sémantique efficaces nécessite un examen attentif de plusieurs facteurs, notamment le choix des modèles NLP, la conception de la clé de cache et les stratégies de gestion des requêtes ambiguës ou complexes. Bien que l'expérience de Reddy démontre les avantages potentiels de la mise en cache sémantique, il a également noté que l'obtention de résultats optimaux nécessite de résoudre des problèmes que les implémentations naïves ne détectent pas. Les défis et les solutions spécifiques varieront en fonction de l'application et des caractéristiques des requêtes utilisateur.
Discussion
Join the conversation
Be the first to comment