Alibabas neues Modell Qwen 3.5 stellt die Unternehmens-KI-Landschaft in Frage und kann laut VentureBeat Benchmark-Siege gegen das eigene Flaggschiff-Modell verbuchen, während es zu einem Bruchteil der Kosten arbeitet. Die Veröffentlichung, die zeitlich mit dem chinesischen Neujahrsfest zusammenfiel, markiert einen bedeutenden Moment für IT-Führungskräfte, die die KI-Infrastruktur für 2026 evaluieren. Gleichzeitig hat Anthropic Claude Sonnet 4.6 veröffentlicht, das nahezu Flaggschiff-Intelligenz zu mittleren Kosten bietet, und Google DeepMind fordert eine verstärkte Prüfung des moralischen Verhaltens großer Sprachmodelle.
Qwen 3.5, das insgesamt 397 Milliarden Parameter enthält, aber nur 17 Milliarden pro Token aktiviert, beansprucht Benchmark-Siege gegen Alibabas bisheriges Flaggschiff, Qwen3-Max, ein Modell, das laut VentureBeat über eine Billion Parameter aufwies. Dies ist ein überzeugendes Argument für Käufer von Unternehmens-KI, da es darauf hindeutet, dass ein Modell, das sie ausführen, besitzen und kontrollieren können, nun mit teureren Optionen konkurrieren kann.
Anthropics Claude Sonnet 4.6, der am Dienstag veröffentlicht wurde, soll die Einführung in Unternehmen beschleunigen, indem er nahezu Flaggschiff-Intelligenz zu mittleren Kosten liefert. Das Modell verfügt über ein 1M-Token-Kontextfenster in der Beta-Version und ist jetzt das Standardmodell in claude.ai und Claude Cowork. Die Preise bleiben mit 315 US-Dollar pro Million Token stabil, wie bei seinem Vorgänger, Sonnet 4.5, so VentureBeat. "Es liefert nahezu Flaggschiff-Intelligenz zu mittleren Kosten und landet genau in der Mitte eines beispiellosen Unternehmensansturms zur Bereitstellung von KI-Agenten und automatisierten Coding-Tools", so VentureBeat.
Diese Fortschritte erfolgen zu einer Zeit, in der die Branche mit den Komplexitäten der Bereitstellung von KI in Bereichen mit hohem Risiko zu kämpfen hat. LexisNexis beispielsweise hat sich über die Standard-Retrieval-Augmented Generation (RAG) hinaus zu Graph-RAG und agentenbasierten Graphen entwickelt, um dem Bedarf an Genauigkeit, Relevanz, Autorität und Zitiergenauigkeit gerecht zu werden, wie VentureBeat berichtet. "Perfekte KI gibt es nicht, weil man nie 100 % Genauigkeit oder 100 % Relevanz erreicht, insbesondere in komplexen Bereichen mit hohem Risiko wie dem juristischen Bereich", so VentureBeat.
Unterdessen setzt sich Google DeepMind für eine verstärkte Prüfung des moralischen Verhaltens großer Sprachmodelle ein. Da sich LLMs verbessern und sensiblere Rollen übernehmen, wie z. B. als Begleiter, Therapeuten und medizinische Berater, möchte Google DeepMind sicherstellen, dass die Technologie vertrauenswürdig ist. "Beim Programmieren und in der Mathematik gibt es eindeutige, richtige Antworten, die man überprüfen kann", sagte William Isaac, ein Forschungsmitarbeiter bei Google DeepMind, gegenüber dem MIT Technology Review.
AI Experts & Community
Be the first to comment