Les coûts d'API des grands modèles de langage (LLM) peuvent être considérablement réduits en mettant en œuvre une mise en cache sémantique, selon Sreenivasa Reddy Hulebeedu Reddy, qui a constaté que la facture d'API LLM de son entreprise augmentait de 30 % d'un mois à l'autre. Reddy a découvert que les utilisateurs posaient les mêmes questions de différentes manières, ce qui entraînait des appels redondants au LLM et des coûts gonflés.
L'analyse des journaux de requêtes par Reddy a révélé que les utilisateurs reformulaient fréquemment les mêmes questions. Par exemple, les requêtes telles que "Quelle est votre politique de retour ?", "Comment puis-je retourner un article ?" et "Puis-je obtenir un remboursement ?" ont toutes suscité des réponses presque identiques de la part du LLM, mais chacune a entraîné des coûts d'API distincts.
La mise en cache traditionnelle par correspondance exacte, qui utilise le texte de la requête comme clé de cache, s'est avérée inefficace pour résoudre ce problème. "La mise en cache par correspondance exacte n'a capturé que 18 % de ces appels redondants", a déclaré Reddy. "La même question sémantique, formulée différemment, a complètement contourné le cache."
Pour surmonter cette limitation, Reddy a mis en œuvre la mise en cache sémantique, qui se concentre sur le sens des requêtes plutôt que sur leur formulation exacte. Cette approche a augmenté le taux de réussite du cache à 67 %, ce qui a entraîné une réduction de 73 % des coûts d'API LLM. La mise en cache sémantique identifie les requêtes ayant des significations similaires et récupère la réponse correspondante dans le cache, évitant ainsi les appels inutiles au LLM.
Ce développement met en évidence une préoccupation croissante parmi les organisations utilisant des LLM : la gestion des coûts croissants liés à l'utilisation des API. À mesure que les LLM sont de plus en plus intégrés à diverses applications, il devient essentiel d'optimiser leur efficacité et de réduire les dépenses. La mise en cache sémantique représente une telle stratégie d'optimisation.
Bien que la mise en cache sémantique offre des avantages significatifs, sa mise en œuvre efficace nécessite un examen attentif. Les implémentations naïves peuvent passer à côté de subtiles nuances dans les requêtes des utilisateurs, ce qui entraîne des accès au cache inexacts et des réponses potentiellement incorrectes.
L'essor des LLM a stimulé l'innovation dans les techniques de mise en cache, allant au-delà de la simple correspondance textuelle pour adopter des méthodes plus sophistiquées qui comprennent le sens sous-jacent de la saisie de l'utilisateur. Ce changement reflète une tendance plus large dans le développement de l'IA, où les algorithmes deviennent de plus en plus aptes à comprendre et à interpréter le langage humain. Le développement de la mise en cache sémantique s'inscrit dans une tendance plus large d'optimisation de l'infrastructure de l'IA pour la rendre plus efficace et rentable. À mesure que les LLM continuent d'évoluer et de se généraliser, les techniques telles que la mise en cache sémantique joueront un rôle de plus en plus important dans la gestion de leurs coûts associés.
Discussion
Join the conversation
Be the first to comment