Die Ironie ist so dick, dass man sie mit einem Siliziumwafer schneiden könnte. Bei Anthropic, dem Unternehmen, das mit seinen Claude-Modellen die Grenzen der künstlichen Intelligenz verschiebt, befinden sich die Ingenieure in einem ständigen Wettrüsten. Ihr Gegner? Ihre eigene Schöpfung. Der Preis? Ein zuverlässiger technischer Interviewtest.
Seit 2024 verlässt sich das Performance-Optimierungsteam von Anthropic auf einen Test, der zu Hause durchgeführt wird, um die Fähigkeiten potenzieller Mitarbeiter einzuschätzen. Es war ein unkomplizierter Weg, die Spreu vom Weizen zu trennen und Kandidaten mit echtem Programmierkönnen zu identifizieren. Aber da KI-Codierungstools, insbesondere Anthropic's eigener Claude, rasante Fortschritte gemacht haben, ist der Test zu einem beweglichen Ziel geworden.
Die Herausforderung, wie Teamleiter Tristan Hume in einem kürzlich erschienenen Blogbeitrag erklärte, besteht darin, dass Claude zu gut geworden ist. Jede Iteration des Modells erzwingt eine komplette Neugestaltung der Bewertung. "Jedes neue Claude-Modell hat uns gezwungen, den Test neu zu gestalten", schreibt Hume. Das Problem ist nicht nur, dass Claude den Test bestehen kann, sondern dass er ihn außergewöhnlich gut bestehen kann. Laut Hume hat Claude Opus 4 die meisten menschlichen Bewerber übertroffen, wenn man ihnen die gleiche Zeitvorgabe gab. Während Anthropic dadurch zunächst noch die stärksten Kandidaten identifizieren konnte, verwischte die anschließende Veröffentlichung von Claude Opus 4.5 die Grenzen noch weiter und erreichte die gleiche Leistung wie selbst diese Top-Bewerber.
Dies stellt ein erhebliches Problem bei der Kandidatenbewertung dar. In einer häuslichen Umgebung, ohne die Aufsicht eines Aufsehers, gibt es keine Möglichkeit zu garantieren, dass die Bewerber keine KI-Unterstützung nutzen. Und wenn sie dies tun, könnten sie schnell an die Spitze des Bewerberpools aufsteigen, nicht aufgrund ihrer eigentlichen Fähigkeiten, sondern aufgrund ihrer Fähigkeit, eine KI effektiv zu steuern. "Unter den Bedingungen des Take-Home-Tests hatten wir keine Möglichkeit mehr, zwischen dem Output unserer Top-Kandidaten und unserem leistungsfähigsten Modell zu unterscheiden", räumt Hume ein.
Die Situation bei Anthropic spiegelt einen umfassenderen Kampf wider, der sich im Bildungswesen abspielt. Schulen und Universitäten weltweit ringen mit den Auswirkungen von KI-gestütztem Betrug. Studenten können jetzt KI nutzen, um Aufsätze zu schreiben, komplexe Gleichungen zu lösen und sogar Code zu generieren, was Fragen nach der Gültigkeit traditioneller Bewertungsmethoden aufwirft. Die Tatsache, dass ein KI-Labor wie Anthropic vor einem ähnlichen Dilemma steht, unterstreicht die Allgegenwärtigkeit des Problems.
Anthropic ist jedoch in einer einzigartigen Position, um diese Herausforderung anzugehen. Als führendes KI-Forschungsunternehmen verfügt es über das technische Fachwissen, um neuartige Bewertungsmethoden zu entwickeln, die effektiv zwischen menschlicher und KI-generierter Arbeit unterscheiden können. Das Unternehmen erforscht verschiedene Lösungen, darunter die Einbeziehung von offeneren, kreativen Problemlösungsaufgaben, die für KI schwer zu replizieren sind. Sie untersuchen auch Methoden zur Erkennung von KI-generiertem Code, obwohl dies ein sich ständig weiterentwickelndes Feld ist.
Die Auswirkungen dieser Situation gehen über den Bereich der technischen Interviews hinaus. Da die KI immer weiter fortschreitet, wird es zunehmend schwieriger, menschliche Fähigkeiten und Fertigkeiten genau zu beurteilen. Dies könnte weitreichende Folgen für Bildung, Beschäftigung und sogar die Definition menschlicher Intelligenz haben.
Der anhaltende Kampf zwischen den Ingenieuren von Anthropic und ihren KI-Modellen unterstreicht die Notwendigkeit, die Bewertung im Zeitalter der KI grundlegend zu überdenken. Dies ist eine Herausforderung, die Kreativität, Innovation und die Bereitschaft erfordert, sich an eine sich schnell verändernde technologische Landschaft anzupassen. Die Zukunft der Bewertung könnte davon abhängen, ob wir in der Lage sind, den Maschinen einen Schritt voraus zu sein.
Discussion
Join the conversation
Be the first to comment