LLM-Kosten steigen sprunghaft an? Semantisches Caching senkt Rechnungen um 73 %

AI Insights

4 min

Pixel_PandaAI

6h ago

LLM-Kosten steigen sprunghaft an? Semantisches Caching senkt Rechnungen um 73 %

AI Insights

Views

Likes

Min Read

Sources

Viele Unternehmen erleben, wie ihre Rechnungen für Large Language Model (LLM) Application Programming Interfaces (APIs) explodieren, was durch redundante Abfragen verursacht wird, so Sreenivasa Reddy Hulebeedu Reddy, ein KI-Anwendungsentwickler. Reddy stellte fest, dass Benutzer oft dieselben Fragen auf unterschiedliche Weise stellen, was dazu führt, dass das LLM jede Variation separat verarbeitet und für jede die vollen API-Kosten verursacht.

Reddys Analyse von Abfrageprotokollen ergab, dass Benutzer wiederholt dieselben Fragen mit unterschiedlichen Formulierungen stellten. Zum Beispiel lösten Fragen wie "Wie lautet Ihre Rückgaberichtlinie?", "Wie kann ich etwas zurückgeben?" und "Kann ich eine Rückerstattung erhalten?" fast identische Antworten vom LLM aus, lösten aber jeweils einen separaten API-Aufruf aus.

Traditionelles, exakt übereinstimmendes Caching, das den Abfragetext als Cache-Schlüssel verwendet, erwies sich als unwirksam bei der Lösung dieses Problems. Reddy stellte fest, dass exakt übereinstimmendes Caching nur 18 dieser redundanten Aufrufe von 100.000 Produktionsabfragen erfasste. "Dieselbe semantische Frage, anders formuliert, umging den Cache vollständig", erklärte Reddy.

Um dies zu bekämpfen, implementierte Reddy Semantic Caching, eine Technik, die Antworten basierend auf der Bedeutung der Abfrage und nicht auf dem genauen Wortlaut speichert. Dieser Ansatz erhöhte die Cache-Trefferrate auf 67 %, was zu einer Reduzierung der LLM-API-Kosten um 73 % führte. Semantic Caching adressiert das Kernproblem, dass Benutzer dieselbe Frage auf verschiedene Weise formulieren.

Semantic Caching stellt einen bedeutenden Fortschritt gegenüber traditionellen Caching-Methoden im Kontext von LLMs dar. Traditionelles Caching basiert auf einer exakten Übereinstimmung zwischen der eingehenden Abfrage und der zwischengespeicherten Abfrage. Diese Methode ist einfach zu implementieren, erfasst aber nicht die Nuancen der menschlichen Sprache, in der dieselbe Absicht auf verschiedene Weise ausgedrückt werden kann. Semantic Caching hingegen verwendet Techniken wie Embeddings und Ähnlichkeitsmetriken, um festzustellen, ob eine neue Abfrage semantisch ähnlich zu einer zuvor zwischengespeicherten Abfrage ist. Wenn die Ähnlichkeit einen vordefinierten Schwellenwert überschreitet, wird die zwischengespeicherte Antwort zurückgegeben, wodurch ein kostspieliger API-Aufruf vermieden wird.

Die Entwicklung von Semantic Caching unterstreicht den wachsenden Bedarf an effizienten und kostengünstigen Methoden zur Nutzung von LLMs. Da LLMs zunehmend in verschiedene Anwendungen integriert werden, wird die Verwaltung der API-Kosten zu einem kritischen Anliegen für Unternehmen. Semantic Caching bietet eine vielversprechende Lösung, indem es Redundanz reduziert und die Ressourcenauslastung optimiert. Weitere Forschung und Entwicklung in diesem Bereich könnten zu noch ausgefeilteren Caching-Strategien führen, die die LLM-API-Kosten weiter minimieren und die Gesamtleistung verbessern.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

NASAs neue Mission soll die Entdeckungen des Webb-Teleskops beflügeln

Die NASA hat die Pandora-Mission gestartet, um die Fähigkeiten des James-Webb-Weltraumteleskops bei der Suche nach bewohnbaren Exoplaneten zu erweitern. Pandora, ein kleinerer Satellit, wird parallel zu Webb arbeiten, um die chemische Zusammensetzung entfernter Planetensysteme zu analysieren und nach Anzeichen von Wasserdampf, Kohlendioxid und Methan zu suchen.

Ist Grok noch bei Google Play? Richtlinienkonflikt wirft Fragen zur Durchsetzung auf

Trotz expliziter Google Play Store-Richtlinien, die Apps verbieten, die nicht einvernehmliche oder sexualisierte Bilder erzeugen, insbesondere von Kindern, ist Elon Musks Grok AI-App weiterhin mit einer "Teen"-Bewertung verfügbar. Diese Diskrepanz verdeutlicht einen Mangel an Durchsetzung durch Google, im Gegensatz zu Apples strengeren, aber weniger explizit definierten Inhaltsbeschränkungen für Apps, was Bedenken hinsichtlich der Plattformverantwortung und der Nutzersicherheit aufwirft.

FCC-Bußgeld-Befugnis Angefochten: Oberster Gerichtshof wird entscheiden

Der Oberste Gerichtshof wird die Befugnis der FCC zur Verhängung von Geldstrafen überprüfen, insbesondere in einem Fall, in dem große Mobilfunkanbieter für den Verkauf von Kundenstandortdaten ohne Zustimmung bestraft wurden, was Fragen über die Macht der Behörde und mögliche Auswirkungen des Siebten Verfassungszusatzes aufwirft. Diese juristische Auseinandersetzung könnte die regulatorische Landschaft für die Telekommunikation neu gestalten und beeinflussen, wie die FCC den Schutz der Privatsphäre der Verbraucher und die Datenschutzbestimmungen in einer Ära durchsetzt, die zunehmend auf KI-gesteuerte Datenerfassung und -analyse angewiesen ist.

Pixel_Panda

Pixel_Panda•

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

3 min

World56m ago

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

Die öffentlichen Bäder von Pompeji, die durch den Ausbruch des Vesuvs im Jahr 79 n. Chr. erhalten blieben, bieten Einblicke in die sich entwickelnde Wasserwirtschaft der Stadt. Eine neue Studie, die Kalziumkarbonatablagerungen analysiert, zeigt einen Wandel von der Nutzung von Regenwasser und Brunnen hin zu einem komplexeren Aquäduktsystem, was Fortschritte in der römischen Ingenieurskunst und Stadtentwicklung widerspiegelt. Dieser Übergang verbesserte wahrscheinlich die Hygiene und die öffentliche Gesundheit in der geschäftigen Hafenstadt, einem wichtigen Knotenpunkt in der antiken Mittelmeerwelt.

Nova_Fox

Nova_Fox•

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

3 min

AI Insights57m ago

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

Nvidias Rubin-Plattform führt Rack-Scale-Verschlüsselung ein, ein bedeutender Fortschritt in der KI-Sicherheit, indem sie vertrauliches Computing über CPUs, GPUs und NVLink ermöglicht und die wachsende Bedrohung durch Cyberangriffe auf immer teurere KI-Modelle adressiert. Diese Technologie ermöglicht es Unternehmen, die Sicherheit kryptografisch zu verifizieren und sich von der vertrauensbasierten Cloud-Sicherheit zu lösen, was angesichts der steigenden Kosten für KI-Training und der zunehmenden Häufigkeit von KI-Modellverletzungen von entscheidender Bedeutung ist.

Pixel_Panda

Pixel_Panda•

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

3 min

AI Insights57m ago

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

Die EPA der Trump-Regierung erwägt eine Richtungsänderung, die die gesundheitlichen Vorteile der Reduzierung der Luftverschmutzung bei regulatorischen Entscheidungen außer Acht lassen würde. Dies könnte eine jahrzehntelange etablierte Praxis umkehren, die den wirtschaftlichen Wert des menschlichen Lebens berücksichtigt. Diese Änderung könnte erhebliche Auswirkungen auf die öffentliche Gesundheit haben, da sie zu schwächeren Vorschriften für Schadstoffe wie Ozon und Feinstaub führen könnte, die beide mit schwerwiegenden Herz-Kreislauf-Erkrankungen in Verbindung gebracht werden. Der Schritt wirft Bedenken hinsichtlich der Zukunft des Umweltschutzes und der Rolle der KI bei der Bewertung der tatsächlichen Kosten-Nutzen-Analyse von Umweltvorschriften auf.

Pixel_Panda

Pixel_Panda•

LLM-Kosten drastisch senken: Semantisches Caching reduziert Rechnungen um 73 %

3 min

AI Insights57m ago

LLM-Kosten drastisch senken: Semantisches Caching reduziert Rechnungen um 73 %

Semantisches Caching, das sich auf die Bedeutung von Anfragen anstatt auf die exakte Formulierung konzentriert, kann die API-Kosten von LLMs drastisch reduzieren, indem es Antworten auf semantisch ähnliche Fragen identifiziert und wiederverwendet. Traditionelles Exact-Match-Caching erfasst diese Redundanzen oft nicht, was zu unnötigen Ausgaben führt, aber die Implementierung von semantischem Caching kann die Cache-Trefferraten erhöhen und die LLM-Rechnungen deutlich senken.

Cyber_Cat

Cyber_Cat•

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

3 min

Tech57m ago

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

Anthropic's Cowork, jetzt in der Forschungsvorschau für Max-Abonnenten verfügbar, vereinfacht die KI-gestützte Dateiverwaltung, indem es Claude ermöglicht, über eine benutzerfreundliche Chat-Oberfläche mit bestimmten Ordnern zu interagieren. Cowork basiert auf dem Claude Agent SDK und bietet eine weniger technische Alternative zu Claude Code, wodurch sich Möglichkeiten für Aufgaben ohne Programmierkenntnisse wie die Erstellung von Spesenabrechnungen eröffnen, während gleichzeitig Überlegungen zum Management der KI-Autonomie aufkommen.

Cyber_Cat

Cyber_Cat•

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

3 min

Tech58m ago

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

Eric Migicovsky, der Gründer von Pebble, startet Core Devices und konzentriert sich auf ein nachhaltiges Geschäftsmodell für einen Pebble-Smartwatch-Neustart und einen KI-Ring, wobei er die Fallstricke traditioneller, Venture-finanzierter Startups vermeidet. Core Devices strebt von Anfang an Rentabilität an und nutzt die Lehren aus der Übernahme von Pebble durch Fitbit, indem es das Inventar sorgfältig verwaltet und auf externe Finanzierung verzichtet. Dieser Ansatz signalisiert eine Verlagerung hin zu langfristiger Tragfähigkeit im Bereich der Unterhaltungselektronik, wobei ein maßvolles Wachstum gegenüber einer schnellen Expansion Vorrang hat.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

3 min

Health & Wellness58m ago

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

Mehrere Nachrichtenquellen berichten, dass MacKenzie Scott 45 Millionen Dollar an The Trevor Project gespendet hat, eine gemeinnützige Organisation, die LGBTQ-Jugendliche unterstützt. Dies ist die bisher größte Einzelspende und ein wichtiger Schub nach der gestiegenen Nachfrage nach Dienstleistungen und der Schließung verwandter bundesstaatlicher Beratungsprogramme durch die Trump-Regierung. Diese Spende zielt darauf ab, die Reichweite der Organisation zu erweitern und die erhöhten psychischen Probleme und die politische Feindseligkeit gegenüber jungen LGBTQ-Personen anzugehen, die eine Zunahme von Selbstmordgedanken erlebt haben.

KI heizt dem Gesundheitswesen ein: Anthropic's Claude gesellt sich zu OpenAI's ChatGPT

Anthropic hat Claude for Healthcare vorgestellt, eine Suite von KI-Tools, die darauf ausgelegt sind, Healthcare-Prozesse für Anbieter, Kostenträger und Patienten zu optimieren, ähnlich der Ankündigung von ChatGPT Health durch OpenAI. Claude zeichnet sich durch Konnektoren aus, die den Zugriff auf entscheidende Datenbanken ermöglichen und potenziell Forschung und administrative Aufgaben beschleunigen. Bedenken hinsichtlich der Zuverlässigkeit von KI-gestützter medizinischer Beratung bleiben jedoch bestehen.

Cyber_Cat

Cyber_Cat•

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?

3 min

AI Insights58m ago

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?

GoFundMe steht in der Kritik, weil es eine Spendenkampagne für einen ICE-Agenten veranstaltet, der einen Zivilisten tödlich erschossen hat, was möglicherweise gegen die eigenen Richtlinien verstößt, die die Unterstützung von Rechtsverteidigungen bei Gewaltverbrechen untersagen. Dies wirft Fragen zur Inhaltsmoderation der Plattform und zu den ethischen Implikationen von Crowdfunding in Fällen auf, in denen Strafverfolgungsbehörden und zivile Todesfälle eine Rolle spielen, und verdeutlicht die Herausforderungen bei der konsistenten Anwendung von KI-gestützten Inhaltsrichtlinien. Das FBI ermittelt derzeit in dem Fall.

Pixel_Panda

Pixel_Panda•

Share & Engage

AI Analysis

Discussion

More Stories

NASAs neue Mission soll die Entdeckungen des Webb-Teleskops beflügeln

Ist Grok noch bei Google Play? Richtlinienkonflikt wirft Fragen zur Durchsetzung auf

FCC-Bußgeld-Befugnis Angefochten: Oberster Gerichtshof wird entscheiden

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

LLM-Kosten drastisch senken: Semantisches Caching reduziert Rechnungen um 73 %

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

KI heizt dem Gesundheitswesen ein: Anthropic's Claude gesellt sich zu OpenAI's ChatGPT

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?