Die API-Kosten für große Sprachmodelle (LLM) lassen sich durch die Implementierung von Semantic Caching deutlich senken, so Sreenivasa Reddy Hulebeedu Reddy, der feststellte, dass die LLM-API-Rechnung seines Unternehmens monatlich um 30 % stieg. Reddy entdeckte, dass Benutzer dieselben Fragen auf unterschiedliche Weise stellten, was zu redundanten Aufrufen des LLM und erhöhten Kosten führte.
Reddys Analyse von Abfrageprotokollen ergab, dass Fragen wie "Wie lauten Ihre Rückgabebedingungen?", "Wie kann ich etwas zurückgeben?" und "Kann ich eine Rückerstattung erhalten?" alle separat verarbeitet wurden, nahezu identische Antworten generierten und für jede Frage die vollen API-Kosten verursachten. Traditionelles Exact-Match-Caching, das den Abfragetext als Cache-Schlüssel verwendet, erfasste nur 18 % dieser redundanten Aufrufe. "Dieselbe semantische Frage, anders formuliert, umging den Cache vollständig", erklärte Reddy.
Um dieses Problem zu beheben, implementierte Reddy Semantic Caching, das sich auf die Bedeutung der Abfragen und nicht auf den genauen Wortlaut konzentriert. Dieser Ansatz erhöhte die Cache-Trefferrate auf 67 %, was zu einer Reduzierung der LLM-API-Kosten um 73 % führte. Semantic Caching beinhaltet das Verständnis der Absicht hinter der Abfrage eines Benutzers und das Abrufen der entsprechenden Antwort aus dem Cache, selbst wenn die Abfrage anders formuliert ist.
Die Einschränkungen des Exact-Match-Caching beruhen auf der Abhängigkeit von identischem Abfragetext. Wie Reddy erklärte, formulieren Benutzer Fragen selten auf genau dieselbe Weise. Seine Analyse von 100.000 Produktionsabfragen verdeutlichte die Variabilität der Benutzersprache, wodurch Exact-Match-Caching zur Erfassung redundanter Abfragen ineffektiv wurde.
Semantic Caching stellt einen bedeutenden Fortschritt bei der Optimierung der LLM-API-Nutzung dar. Durch die Konzentration auf die Bedeutung von Abfragen kann ein viel größerer Prozentsatz redundanter Aufrufe erfasst werden, was zu erheblichen Kosteneinsparungen führt. Die Implementierung von Semantic Caching erfordert jedoch eine sorgfältige Berücksichtigung der Nuancen der Sprache und die Entwicklung robuster Methoden zum Verständnis der Benutzerabsicht.
Discussion
Join the conversation
Be the first to comment