LLM-Kosten drastisch senken: Semantisches Caching reduziert Rechnungen um 73 %

AI Insights

3 min

Cyber_CatAI

3h ago

LLM-Kosten drastisch senken: Semantisches Caching reduziert Rechnungen um 73 %

AI Insights

Views

Likes

Min Read

Sources

Die API-Kosten für große Sprachmodelle (LLM) lassen sich durch die Implementierung von Semantic Caching deutlich senken, so Sreenivasa Reddy Hulebeedu Reddy, der feststellte, dass die LLM-API-Rechnung seines Unternehmens monatlich um 30 % stieg. Reddy entdeckte, dass Benutzer dieselben Fragen auf unterschiedliche Weise stellten, was zu redundanten Aufrufen des LLM und erhöhten Kosten führte.

Reddys Analyse von Abfrageprotokollen ergab, dass Fragen wie "Wie lauten Ihre Rückgabebedingungen?", "Wie kann ich etwas zurückgeben?" und "Kann ich eine Rückerstattung erhalten?" alle separat verarbeitet wurden, nahezu identische Antworten generierten und für jede Frage die vollen API-Kosten verursachten. Traditionelles Exact-Match-Caching, das den Abfragetext als Cache-Schlüssel verwendet, erfasste nur 18 % dieser redundanten Aufrufe. "Dieselbe semantische Frage, anders formuliert, umging den Cache vollständig", erklärte Reddy.

Um dieses Problem zu beheben, implementierte Reddy Semantic Caching, das sich auf die Bedeutung der Abfragen und nicht auf den genauen Wortlaut konzentriert. Dieser Ansatz erhöhte die Cache-Trefferrate auf 67 %, was zu einer Reduzierung der LLM-API-Kosten um 73 % führte. Semantic Caching beinhaltet das Verständnis der Absicht hinter der Abfrage eines Benutzers und das Abrufen der entsprechenden Antwort aus dem Cache, selbst wenn die Abfrage anders formuliert ist.

Die Einschränkungen des Exact-Match-Caching beruhen auf der Abhängigkeit von identischem Abfragetext. Wie Reddy erklärte, formulieren Benutzer Fragen selten auf genau dieselbe Weise. Seine Analyse von 100.000 Produktionsabfragen verdeutlichte die Variabilität der Benutzersprache, wodurch Exact-Match-Caching zur Erfassung redundanter Abfragen ineffektiv wurde.

Semantic Caching stellt einen bedeutenden Fortschritt bei der Optimierung der LLM-API-Nutzung dar. Durch die Konzentration auf die Bedeutung von Abfragen kann ein viel größerer Prozentsatz redundanter Aufrufe erfasst werden, was zu erheblichen Kosteneinsparungen führt. Die Implementierung von Semantic Caching erfordert jedoch eine sorgfältige Berücksichtigung der Nuancen der Sprache und die Entwicklung robuster Methoden zum Verständnis der Benutzerabsicht.

AI-Assisted Journalism

This article was generated with AI assistance, synthesizing reporting from multiple credible news sources. Our editorial team reviews AI-generated content for accuracy.

Share & Engage

AI Analysis

Deep insights powered by AI

Discussion

Join the conversation

Be the first to comment

NASAs neue Mission soll die Entdeckungen des Webb-Teleskops beflügeln

Die NASA hat die Pandora-Mission gestartet, um die Fähigkeiten des James-Webb-Weltraumteleskops bei der Suche nach bewohnbaren Exoplaneten zu erweitern. Pandora, ein kleinerer Satellit, wird parallel zu Webb arbeiten, um die chemische Zusammensetzung entfernter Planetensysteme zu analysieren und nach Anzeichen von Wasserdampf, Kohlendioxid und Methan zu suchen.

Ist Grok noch bei Google Play? Richtlinienkonflikt wirft Fragen zur Durchsetzung auf

Trotz expliziter Google Play Store-Richtlinien, die Apps verbieten, die nicht einvernehmliche oder sexualisierte Bilder erzeugen, insbesondere von Kindern, ist Elon Musks Grok AI-App weiterhin mit einer "Teen"-Bewertung verfügbar. Diese Diskrepanz verdeutlicht einen Mangel an Durchsetzung durch Google, im Gegensatz zu Apples strengeren, aber weniger explizit definierten Inhaltsbeschränkungen für Apps, was Bedenken hinsichtlich der Plattformverantwortung und der Nutzersicherheit aufwirft.

FCC-Bußgeld-Befugnis Angefochten: Oberster Gerichtshof wird entscheiden

Der Oberste Gerichtshof wird die Befugnis der FCC zur Verhängung von Geldstrafen überprüfen, insbesondere in einem Fall, in dem große Mobilfunkanbieter für den Verkauf von Kundenstandortdaten ohne Zustimmung bestraft wurden, was Fragen über die Macht der Behörde und mögliche Auswirkungen des Siebten Verfassungszusatzes aufwirft. Diese juristische Auseinandersetzung könnte die regulatorische Landschaft für die Telekommunikation neu gestalten und beeinflussen, wie die FCC den Schutz der Privatsphäre der Verbraucher und die Datenschutzbestimmungen in einer Ära durchsetzt, die zunehmend auf KI-gesteuerte Datenerfassung und -analyse angewiesen ist.

Pixel_Panda

Pixel_Panda•

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

3 min

World3h ago

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

Die öffentlichen Bäder von Pompeji, die durch den Ausbruch des Vesuvs im Jahr 79 n. Chr. erhalten blieben, bieten Einblicke in die sich entwickelnde Wasserwirtschaft der Stadt. Eine neue Studie, die Kalziumkarbonatablagerungen analysiert, zeigt einen Wandel von der Nutzung von Regenwasser und Brunnen hin zu einem komplexeren Aquäduktsystem, was Fortschritte in der römischen Ingenieurskunst und Stadtentwicklung widerspiegelt. Dieser Übergang verbesserte wahrscheinlich die Hygiene und die öffentliche Gesundheit in der geschäftigen Hafenstadt, einem wichtigen Knotenpunkt in der antiken Mittelmeerwelt.

Nova_Fox

Nova_Fox•

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

3 min

AI Insights3h ago

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

Nvidias Rubin-Plattform führt Rack-Scale-Verschlüsselung ein, ein bedeutender Fortschritt in der KI-Sicherheit, indem sie vertrauliches Computing über CPUs, GPUs und NVLink ermöglicht und die wachsende Bedrohung durch Cyberangriffe auf immer teurere KI-Modelle adressiert. Diese Technologie ermöglicht es Unternehmen, die Sicherheit kryptografisch zu verifizieren und sich von der vertrauensbasierten Cloud-Sicherheit zu lösen, was angesichts der steigenden Kosten für KI-Training und der zunehmenden Häufigkeit von KI-Modellverletzungen von entscheidender Bedeutung ist.

Pixel_Panda

Pixel_Panda•

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

3 min

AI Insights3h ago

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

Die EPA der Trump-Regierung erwägt eine Richtungsänderung, die die gesundheitlichen Vorteile der Reduzierung der Luftverschmutzung bei regulatorischen Entscheidungen außer Acht lassen würde. Dies könnte eine jahrzehntelange etablierte Praxis umkehren, die den wirtschaftlichen Wert des menschlichen Lebens berücksichtigt. Diese Änderung könnte erhebliche Auswirkungen auf die öffentliche Gesundheit haben, da sie zu schwächeren Vorschriften für Schadstoffe wie Ozon und Feinstaub führen könnte, die beide mit schwerwiegenden Herz-Kreislauf-Erkrankungen in Verbindung gebracht werden. Der Schritt wirft Bedenken hinsichtlich der Zukunft des Umweltschutzes und der Rolle der KI bei der Bewertung der tatsächlichen Kosten-Nutzen-Analyse von Umweltvorschriften auf.

Pixel_Panda

Pixel_Panda•

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

3 min

Tech3h ago

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

Anthropic's Cowork, jetzt in der Forschungsvorschau für Max-Abonnenten verfügbar, vereinfacht die KI-gestützte Dateiverwaltung, indem es Claude ermöglicht, über eine benutzerfreundliche Chat-Oberfläche mit bestimmten Ordnern zu interagieren. Cowork basiert auf dem Claude Agent SDK und bietet eine weniger technische Alternative zu Claude Code, wodurch sich Möglichkeiten für Aufgaben ohne Programmierkenntnisse wie die Erstellung von Spesenabrechnungen eröffnen, während gleichzeitig Überlegungen zum Management der KI-Autonomie aufkommen.

Cyber_Cat

Cyber_Cat•

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

3 min

Tech3h ago

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

Eric Migicovsky, der Gründer von Pebble, startet Core Devices und konzentriert sich auf ein nachhaltiges Geschäftsmodell für einen Pebble-Smartwatch-Neustart und einen KI-Ring, wobei er die Fallstricke traditioneller, Venture-finanzierter Startups vermeidet. Core Devices strebt von Anfang an Rentabilität an und nutzt die Lehren aus der Übernahme von Pebble durch Fitbit, indem es das Inventar sorgfältig verwaltet und auf externe Finanzierung verzichtet. Dieser Ansatz signalisiert eine Verlagerung hin zu langfristiger Tragfähigkeit im Bereich der Unterhaltungselektronik, wobei ein maßvolles Wachstum gegenüber einer schnellen Expansion Vorrang hat.

Pixel_Panda

Pixel_Panda•

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

3 min

Health & Wellness3h ago

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

Mehrere Nachrichtenquellen berichten, dass MacKenzie Scott 45 Millionen Dollar an The Trevor Project gespendet hat, eine gemeinnützige Organisation, die LGBTQ-Jugendliche unterstützt. Dies ist die bisher größte Einzelspende und ein wichtiger Schub nach der gestiegenen Nachfrage nach Dienstleistungen und der Schließung verwandter bundesstaatlicher Beratungsprogramme durch die Trump-Regierung. Diese Spende zielt darauf ab, die Reichweite der Organisation zu erweitern und die erhöhten psychischen Probleme und die politische Feindseligkeit gegenüber jungen LGBTQ-Personen anzugehen, die eine Zunahme von Selbstmordgedanken erlebt haben.

KI heizt dem Gesundheitswesen ein: Anthropic's Claude gesellt sich zu OpenAI's ChatGPT

Anthropic hat Claude for Healthcare vorgestellt, eine Suite von KI-Tools, die darauf ausgelegt sind, Healthcare-Prozesse für Anbieter, Kostenträger und Patienten zu optimieren, ähnlich der Ankündigung von ChatGPT Health durch OpenAI. Claude zeichnet sich durch Konnektoren aus, die den Zugriff auf entscheidende Datenbanken ermöglichen und potenziell Forschung und administrative Aufgaben beschleunigen. Bedenken hinsichtlich der Zuverlässigkeit von KI-gestützter medizinischer Beratung bleiben jedoch bestehen.

Cyber_Cat

Cyber_Cat•

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?

3 min

AI Insights3h ago

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?

GoFundMe steht in der Kritik, weil es eine Spendenkampagne für einen ICE-Agenten veranstaltet, der einen Zivilisten tödlich erschossen hat, was möglicherweise gegen die eigenen Richtlinien verstößt, die die Unterstützung von Rechtsverteidigungen bei Gewaltverbrechen untersagen. Dies wirft Fragen zur Inhaltsmoderation der Plattform und zu den ethischen Implikationen von Crowdfunding in Fällen auf, in denen Strafverfolgungsbehörden und zivile Todesfälle eine Rolle spielen, und verdeutlicht die Herausforderungen bei der konsistenten Anwendung von KI-gestützten Inhaltsrichtlinien. Das FBI ermittelt derzeit in dem Fall.

Pixel_Panda

Pixel_Panda•

Minneapolis im Visier: Rechtsgerichtetes Mediennarrativ entsteht

3 min

AI Insights3h ago

Minneapolis im Visier: Rechtsgerichtetes Mediennarrativ entsteht

Rechte Influencer nutzen soziale Medien, um Minneapolis nach der Schießerei durch einen Bundesagenten als gesetzlos darzustellen, wodurch sie möglicherweise die öffentliche Wahrnehmung durch selektive Narrative prägen. Diese koordinierte Content-Strategie unterstreicht die Macht KI-gesteuerter Plattformen bei der Verstärkung spezifischer Standpunkte und der Beeinflussung des breiteren gesellschaftlichen Diskurses.

Cyber_Cat

Cyber_Cat•

Share & Engage

AI Analysis

Discussion

More Stories

NASAs neue Mission soll die Entdeckungen des Webb-Teleskops beflügeln

Ist Grok noch bei Google Play? Richtlinienkonflikt wirft Fragen zur Durchsetzung auf

FCC-Bußgeld-Befugnis Angefochten: Oberster Gerichtshof wird entscheiden

Pompejanische Thermen dank Umschaltung auf antike Wasserquelle sauberer

Nvidias Rubin beschleunigt KI-Sicherheit mit Rack-Scale-Verschlüsselung

EPA will Gesundheit bei Luftverschmutzungsregeln vernachlässigen: Eine riskante Kalkulation?

Anthropic Cowork: Claude-Code mit einfachen Anweisungen steuern

Neues Unternehmen von Pebble-Gründer: Profit zuerst, nicht Startup-Mühle

MacKenzie Scott stärkt LGBTQ+-Jugend-Lebenslinie mit 45 Millionen Dollar Spende

KI heizt dem Gesundheitswesen ein: Anthropic's Claude gesellt sich zu OpenAI's ChatGPT

KI beleuchtet GoFundMe-Spendenaktion für ICE-Agenten: Regeln gebrochen?

Minneapolis im Visier: Rechtsgerichtetes Mediennarrativ entsteht