16 Gigabyte sind das neue Rechenzentrum

Juni 05, 2026

Google hat am 3. Juni Gemma 4 12B veröffentlicht. Ein offenes Modell, Apache-2.0-Lizenz, zwölf Milliarden Parameter, multimodal: Text, Bild, Video und nativer Ton in einem einzigen, encoderfreien Transformer. Die technisch interessanteste Eigenschaft steht aber nicht im Benchmark-Teil der Ankündigung, sondern in den Systemanforderungen: Das Modell läuft komplett lokal auf einem Laptop mit 16 GB Speicher. Kein API-Schlüssel, keine Cloud-Anbindung, kein Datenabfluss. Wer die letzten Jahre KI-Features gebaut oder eingekauft hat, kennt das Standardmuster: Modell beim Anbieter, Daten gehen über die Leitung, zurück kommt die Antwort. Das Muster hat Gründe: Die großen Modelle waren lokal schlicht nicht zu betreiben. Genau diese Prämisse bröckelt. Gemma 4 12B erreicht laut ersten unabhängigen Tests Werte nahe der doppelt so großen Modellklasse und schafft auf einer gewöhnlichen RTX 4060 rund 21 Token pro Sekunde. Das ist keine Demo-Geschwindigkeit, das ist Arbeitsgeschwindigkeit für viele Aufgaben. Damit verschiebt sich eine Frage, die lange als beantwortet galt. Bisher lautete sie: Welches Modell, welcher Anbieter? Jetzt kommt eine ältere, klassischere Frage zurück: Muss dieser Datensatz das Gerät überhaupt verlassen? Für Transkription, Klassifikation, Zusammenfassung und Dokumenten-Vorverarbeitung ist die Antwort ab sofort nicht mehr automatisch ja. Ein Modell, das auf dem Gerät bleibt, kennt keine Drittland-Übermittlung, keine Latenz über den Atlantik und keine laufenden Inferenzkosten. Was nie abfließt, muss niemand absichern. Das ist kein Abgesang auf die großen Modelle. Wer harte Reasoning-Aufgaben, lange Kontexte oder Spitzenqualität braucht, fährt mit den Flaggschiffen weiter besser, und die laufen auf absehbare Zeit im Rechenzentrum. Lokal und Cloud sind keine Konkurrenten, sondern Werkzeuggrößen. Niemand wirft den Akkuschrauber weg, weil es Schlagbohrmaschinen gibt. Bemerkenswert ist eher die Geschwindigkeit der Entwicklung: Vor zwei Jahren war „läuft auf dem Laptop" gleichbedeutend mit „nettes Experiment". Heute liegt ein multimodales Modell mit Apache-Lizenz auf Hugging Face, das auf Standard-Bürohardware nutzbare Ergebnisse liefert. Die Schlagzeilen gehören weiter den Milliarden-Clustern. Aber die leiseste Meldung der Woche ist manchmal die mit den längsten Folgen: KI-Inferenz wird gerade eine ganz normale Workload, die man dort rechnet, wo es architektonisch am meisten Sinn ergibt.

Dieses Blog durchsuchen

Markus Zander

16 Gigabyte sind das neue Rechenzentrum

Kommentare

Kommentar veröffentlichen

Beliebte Posts aus diesem Blog

Die dunkle Seite der Wissenschaft: Die Analyse von Unternehmensdokumenten zeigt den Einfluss der Industrie auf die PFAS-Forschung

EOL ist ein Datum, kein Vorschlag

KI im Code-Review: Hilfreich, aber kein Ersatz