Die Zukunft ist schon angekommen — ein Fact-Check

33 von 37 Behauptungen verifiziert, keine falsch. Was an den wildesten KI-Behauptungen zu Claude Opus 4.6 stimmt — und warum mich das auf der Heimfahrt von einem CxO-Workshop nicht mehr losgelassen hat.

Boris Gloger

15 Feb. 2026 — 6 Min. Lesezeit

Gemini / Nano Banana

Was an den wildesten KI-Behauptungen stimmt. Und warum mich das auf der Heimfahrt nicht mehr losgelassen hat.

Vor ein paar Tagen sprach ich mit 12 CxOs darüber, wie sich

Vor ein paar Tagen sprach ich mit 12 CxOs darüber, wie sich Führung im Zeichen von GenAI verändert. Wir haben spekuliert und überlegt, darüber gesprochen, dass GenAI noch kontrolliert werden muss, dass wir agiles Arbeiten und GenAI zusammendenken können, und vieles mehr. Ein guter Tag. Intensive Gespräche.

Auf dem Rückweg schaute ich dann ein Video von Nate — einem YouTuber, der für seine technisch fundierte KI-Analyse bekannt ist. Und alles, was wir einen Tag zuvor noch als gegeben hingenommen hatten, war plötzlich nicht mehr relevant.

GenAI, die Menschen aussteuert. KI-Agenten, die sich selbst organisieren. Ein Compiler, geschrieben von 16 KI-Instanzen in zwei Wochen. Keine Science-Fiction. Schon passiert.

Die Zukunft ist schon angekommen. Nur nicht bei uns im Workshop.

Nates Video enthält über 37 überprüfbare Behauptungen. Einige davon klingen, ehrlich gesagt, unglaublich. Also habe ich das getan, was ich immer tue, wenn etwas zu gut klingt: Ich habe nachgeprüft. Jede einzelne Behauptung gegen Primärquellen — Anthropics eigene Blog-Posts, GitHub-Repositories, Benchmark-Datenbanken, Unternehmensberichte, Nachrichtenagenturen.

Das Ergebnis: 33 von 37 Behauptungen sind vollständig verifiziert. 3 sind teilweise wahr. 1 ist nicht verifizierbar. Keine ist falsch.

Nate ist bemerkenswert akkurat. Das macht seine Schlussfolgerungen umso ernster.

16 KI-Agenten schreiben einen Compiler

Am 5. Februar veröffentlichte Anthropic Claude Opus 4.6. Am selben Tag demonstrierten sie, was das Modell kann: 16 parallele Claude-Instanzen haben autonom — ohne menschlichen Code — einen vollständigen C-Compiler in Rust geschrieben. In zwei Wochen. Für 20.000 Dollar.

Über 100.000 Zeilen Code. Kompiliert den Linux-Kernel auf drei Architekturen. Besteht 99% der Standard-Testsuites. Kompiliert PostgreSQL, Redis, FFmpeg. Alles öffentlich auf GitHub, alles im Anthropic Engineering Blog dokumentiert.

Ein menschliches Team bräuchte dafür 12 bis 18 Monate und ein siebenstelliges Budget.

Ist der Compiler perfekt? Nein. The Register weist zu Recht darauf hin, dass der generierte Code weniger effizient ist als das, was erfahrene Entwickler schreiben. Die Community ist gespalten. Aber darum geht es nicht. Es geht darum, dass das vor drei Monaten schlicht nicht möglich war.

Warum sich das Modell anders anfühlt

Die entscheidende Verbesserung ist nicht die Geschwindigkeit oder die Benchmark-Werte. Es ist etwas, das Nate sehr präzise beschreibt: Opus 4.6 kann Informationen in seinem Kontextfenster tatsächlich wiederfinden.

Das klingt banal. Ist es nicht.

Stellen Sie sich einen Aktenschrank vor, in den Sie 50.000 Seiten legen können. Das Vorgängermodell konnte diese Seiten aufnehmen — aber nur in 18,5% der Fälle die richtige Seite wiederfinden. Opus 4.6 liegt bei 76%. Bei kleineren Datenmengen bei 93%. Die Benchmark-Daten sind bei Vellum AI und DigitalApplied dokumentiert.

Der Unterschied ist: Das Modell hält jetzt 50.000 Zeilen Code gleichzeitig im Kopf und versteht die Zusammenhänge — so, wie ein erfahrener Senior Engineer die gesamte Architektur kennt. Nicht durch Suchen. Nicht durch Zusammenfassen. Durch Verstehen.

KI erfindet Management

Und jetzt wird es für Führungskräfte richtig interessant.

Opus 4.6 führt ein Feature ein, das sich „Agent Teams" nennt. Mehrere Claude-Instanzen arbeiten parallel, jede in ihrem eigenen Kontext, koordiniert über ein geteiltes Aufgabensystem. Ein Lead-Agent verteilt Arbeitspakete. Spezialisten arbeiten unabhängig. Sie kommunizieren direkt untereinander — nicht über einen zentralen Hub. Details auf der Opus-4.6-Produktseite.

So wurde der C-Compiler gebaut. 16 Agenten, parallel. Manche am Parser, manche am Code-Generator, manche am Optimizer. 24 Stunden am Tag. Ohne Standups. Mit direkter Koordination statt Sprint-Planning.

Nates provokanteste These — und eine, über die ich seitdem nachdenke: KI hat Management nicht von Menschen gelernt. Sie hat es unabhängig entdeckt. Hierarchie ist keine menschliche Organisationsentscheidung. Sie ist das, was passiert, wenn mehrere intelligente Agenten komplexe Aufgaben koordinieren müssen.

Ob das vollständig stimmt, weiß ich nicht. Aber das Muster ist real. Und es sollte jeden in einer Führungsposition nachdenklich machen.

500 Schwachstellen, die Menschen übersehen haben

Am selben Tag gab Anthropic seinem Modell grundlegende Werkzeuge — Python, Debugger, Fuzzer — und zeigte es auf Open-Source-Code. Keine Anweisungen. Keine Ziele. Das Ergebnis: Über 500 bisher unbekannte hochkritische Sicherheitslücken in Code, den menschliche Forscher geprüft und automatisierte Tools gescannt hatten. Dokumentiert auf red.anthropic.com, bestätigt durch Axios, Fortune und The Hacker News.

Was mich am meisten beeindruckt hat: Als konventionelle Methoden bei GhostScript nichts fanden, entschied das Modell eigenständig, die Git-Commit-History zu analysieren. Es las Jahre von Commit-Logs, fand hastig durchgeführte sicherheitsrelevante Änderungen und identifizierte Schwachstellen, die statische Analyse nicht erreichen konnte.

Es erfand eine Methode, die ihm niemand beigebracht hatte.

Rakuten: KI steuert 50 Entwickler

Rakuten — der japanische E-Commerce-Konzern — setzte Claude Code nicht als Pilot ein, sondern in Produktion. Die Ergebnisse, berichtet von Yusuke Kaji, Rakutens General Manager für KI: Opus 4.6 schloss 13 Issues selbstständig, wies 12 Issues den richtigen Teammitgliedern zu, verwaltete 50 Personen über 6 Repositories. Und wusste, wann es an einen Menschen eskalieren musste.

Bestätigt durch Anthropics Kundenreferenz, Rakutens Blog und IT Pro.

Das ist der Moment, der mich auf der Heimfahrt nicht losgelassen hat. Die Koordinationsarbeit, für die Engineering Manager die Hälfte ihrer Zeit aufwenden — Ticket-Triage, Aufgabenverteilung, Abhängigkeiten tracken — wurde an einem einzigen Tag automatisiert.

Und: Nicht-technische Mitarbeiter bei Rakuten können jetzt über Claude Code zur Entwicklung beitragen. Die Grenze zwischen technisch und nicht-technisch löst sich auf.

Die Zahlen, die Organigramme verändern

KI-native Unternehmen laufen beim 5- bis 7-fachen des Revenue-per-Employee traditioneller SaaS-Firmen. Cursor: über 100 Millionen Dollar ARR mit 12 bis 20 Leuten (Sacra). Midjourney: 200 Millionen mit rund 40. Zum Vergleich: 600.000 Dollar pro Mitarbeiter gilt bei traditionellen SaaS-Unternehmen als Elite.

McKinsey hat 40.000 Menschen und 25.000 KI-Agenten. Ziel: Parität bis Ende 2026. Das sagt nicht irgendein Startup — das sagt CEO Bob Sternfels auf der CES (Yahoo Finance, HR Grapevine). Das Unternehmen, das Organisationsdesign an Fortune-500-Firmen verkauft, sagt: Das Organigramm dreht sich um.

Dario Amodei, Anthropics CEO, schätzt die Chance auf ein Milliarden-Dollar-Unternehmen mit einer einzigen Person bis Ende 2026 auf 70 bis 80 Prozent (Inc). Sam Altman hat eine Wettgruppe unter Tech-CEOs zur selben Frage.

Zwei Reporterinnen gegen Monday.com

Und dann das: Zwei CNBC-Reporterinnen — Deirdre Bosa und Jasmine Woo, keine Entwicklerinnen — bauten mit Claude Cowork in unter einer Stunde einen funktionierenden Monday.com-Ersatz. Kosten: 5 bis 15 Dollar. Monday.com hat eine Marktkapitalisierung von 5 Milliarden Dollar. CNBC berichtete.

Scott White, Anthropics Head of Product, nennt das „Vibe Working": Man beschreibt das Ergebnis, nicht den Prozess. Nicht: „Baue mir eine Tabelle mit diesen Formeln." Sondern: „Zeig mir, welche Kunden abgewandert sind und warum."

Was mich nicht loslässt

Ich fahre also im Zug nach Hause, schaue dieses Video, und mir wird klar: Wir hatten einen Tag lang über die Zukunft der Führung gesprochen. Und die Zukunft war schon da, wir hatten sie nur nicht gesehen.

Nicht weil wir dumm wären. Sondern weil die Geschwindigkeit jedes Vorstellungsvermögen übersteigt. Vor einem Jahr konnten KI-Agenten maximal 30 Minuten autonom arbeiten. Jetzt sind es zwei Wochen. Das ist kein Trend. Das ist ein Phasensprung.

Die Frage, die ich seit der Heimfahrt mit mir herumtrage, ist nicht technisch. Sie ist eine Führungsfrage: Wie viel unserer Arbeitszeit fließt noch in Koordination, die eine KI bereits besser kann als wir? Und was machen wir mit der Zeit, die frei wird?

Wer jetzt noch diskutiert, ob KI relevant ist, hat den Zug verpasst. Die Frage ist längst eine andere: Was muss jeder Mensch in einer Organisation exzellent können, damit das Zusammenspiel mit KI-Agenten funktioniert?

Die Antwort ist nicht technische Kompetenz. Es ist Urteilsvermögen.

Darüber müssen wir reden.

Alle 37 Behauptungen im Überblick

Für alle, die es genau wissen wollen — hier die vollständige Prüfung:

#	Behauptung	Status
1	Opus 4.6 erschien am 5. Februar 2026	Verifiziert
2	16 Agenten codierten 2 Wochen autonom	Verifiziert
3	C-Compiler in Rust, 100.000+ Zeilen	Verifiziert
4	Baut Linux-Kernel auf 3 Architekturen	Verifiziert
5	99% GCC Torture Test bestanden	Verifiziert
6	Kompiliert PostgreSQL, Redis, QEMU u.a.	Verifiziert
7	Kosten: $20.000	Verifiziert
8	Opus 4.5 erschien November 2025	Verifiziert
9	5x Kontextfenster (200K → 1M Tokens)	Verifiziert
10	50.000 Zeilen Code im Kontext	Verifiziert
11	ARC AGI2 fast verdoppelt (37,6% → 68,8%)	Verifiziert
12	Agent Teams Feature neu in 4.6	Verifiziert
13	MRCV2: Sonnet 4.5 bei 18,5%	Verifiziert
14	MRCV2: Gemini 3 Pro bei 26,3%	Verifiziert
15	MRCV2: Opus 4.6 bei 76% (1M Tokens)	Verifiziert
16	MRCV2: Opus 4.6 bei 93% (256K Tokens)	Verifiziert
17	500+ Zero-Day-Schwachstellen gefunden	Verifiziert
18	GhostScript: eigenständige Git-History-Analyse	Verifiziert
19	„Team Swarms" als interner Name	Teilweise wahr
20	Rakuten: 13 Issues geschlossen, 12 zugewiesen	Verifiziert
21	Yusuke Kaji, GM AI bei Rakuten	Verifiziert
22	Rakuten: 24 parallele Sessions geplant	Verifiziert
23	Nicht-technische bei Rakuten entwickeln	Verifiziert
24	Rakuten: 7 Stunden autonom (Sommer 2025)	Verifiziert
25	Autonomes Coding vor 1 Jahr bei ~30 Min	Teilweise wahr
26	CNBC-Reporterinnen: Monday.com-Klon	Verifiziert
27	Monday.com: $5 Mrd. Marktkapitalisierung	Verifiziert
28	Cursor: $100M ARR, ~20 Mitarbeiter	Verifiziert
29	Midjourney: $200M, ~40 Mitarbeiter	Verifiziert
30	Lovable: $200M, 15 Mitarbeiter	Teilweise wahr
31	McKinsey: Agenten-Parität bis Ende 2026	Verifiziert
32	Jacob Bank: 40 KI-Agenten, 0 Mitarbeiter	Verifiziert
33	Micro One: 3.000 KI-Interviews täglich	Verifiziert
34	3 Entwickler: Banking-Plattform, 6 Monate	Nicht verifiziert
35	Amodei: 70–80% Milliarden-Solo-Firma	Verifiziert
36	Altman: Wettgruppe unter Tech-CEOs	Verifiziert
37	$650 Mrd. Hyperscale-Infrastruktur	Verifiziert

Quellen

Anthropic: Introducing Claude Opus 4.6 · Anthropic Engineering Blog: Building a C Compiler · GitHub: anthropics/claudes-c-compiler · Anthropic Red Team: Zero-Day Discovery · Anthropic Customer Reference: Rakuten · Rakuten Blog: Claude Code · Vellum AI: Opus 4.6 Benchmarks · DigitalApplied: Opus 4.6 Guide · CNBC: Software Stocks vs. AI Tools · CNBC: Vibe Working · Axios: 500 Zero-Days · Fortune: AI Cybersecurity · The Hacker News: 500+ Flaws · IT Pro: Opus 4.6 Enterprise · Yahoo Finance: McKinsey CEO · HR Grapevine: McKinsey AI Parity · Inc: Billion-Dollar Solopreneur · Sacra: Cursor ARR · The Register: C Compiler Critique · Nate: January Is Already Obsolete

Fact-Check: Boris Gloger, Februar 2026. Teil der Serie „KI-Wahrheiten" auf borisgloger.at

Du liest als Gast — willkommen. Als Leser bekommst du „Den Brief": persönliche Werkstattnotizen, 2x im Monat, direkt in dein Postfach. → Leser werden