De nombreuses entreprises voient leurs factures d'interfaces de programmation d'applications (API) de grands modèles linguistiques (LLM) exploser, en raison des utilisateurs qui posent les mêmes questions de différentes manières, selon Sreenivasa Reddy Hulebeedu Reddy, un développeur d'applications d'IA. Reddy a constaté que les utilisateurs reformulaient fréquemment les mêmes questions, ce qui entraînait des appels redondants au LLM et des coûts d'API inutiles.
L'analyse des journaux de requêtes effectuée par Reddy a révélé que les utilisateurs posaient des questions telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" séparément, chacune générant des réponses presque identiques et entraînant des coûts d'API complets. La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace, ne capturant que 18 % de ces appels redondants. "La même question sémantique, formulée différemment, contournait complètement le cache", a expliqué Reddy.
Pour résoudre ce problème, Reddy a mis en œuvre la mise en cache sémantique, une technique qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. La mise en cache sémantique analyse l'intention sous-jacente d'une question et récupère la réponse du cache si une requête sémantiquement similaire a déjà été traitée. Après avoir mis en œuvre la mise en cache sémantique, Reddy a signalé une augmentation du taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API du LLM.
Le principal défi de la mise en cache traditionnelle réside dans sa dépendance à l'égard des correspondances exactes. Comme l'a illustré Reddy, la mise en cache traditionnelle utilise un hachage du texte de la requête comme clé de cache. Si la clé existe dans le cache, la réponse mise en cache est renvoyée ; sinon, la requête est traitée par le LLM. Cette approche échoue lorsque les utilisateurs formulent des questions différemment, même si le sens sous-jacent est le même.
La mise en cache sémantique représente une avancée significative dans l'optimisation de l'utilisation des API LLM. En comprenant le sens sémantique des requêtes, elle peut réduire considérablement les appels redondants et diminuer les coûts. Cependant, la mise en œuvre efficace de la mise en cache sémantique nécessite un examen attentif de divers facteurs, notamment le choix des algorithmes de similarité sémantique et la gestion de l'invalidation du cache. Ce développement souligne l'importance de dépasser les solutions de mise en cache simples, basées sur le texte, pour adopter des méthodes plus sophistiquées qui comprennent les nuances du langage humain.
Discussion
Join the conversation
Be the first to comment