16 Gigabyte sind das neue Rechenzentrum
Google hat am 3. Juni Gemma 4 12B veröffentlicht. Ein offenes Modell, Apache-2.0-Lizenz, zwölf Milliarden Parameter, multimodal: Text, Bild, Video und nativer Ton in einem einzigen, encoderfreien Transformer. Die technisch interessanteste Eigenschaft steht aber nicht im Benchmark-Teil der Ankündigung, sondern in den Systemanforderungen: Das Modell läuft komplett lokal auf einem Laptop mit 16 GB Speicher. Kein API-Schlüssel, keine Cloud-Anbindung, kein Datenabfluss.
Wer die letzten Jahre KI-Features gebaut oder eingekauft hat, kennt das Standardmuster: Modell beim Anbieter, Daten gehen über die Leitung, zurück kommt die Antwort. Das Muster hat Gründe: Die großen Modelle waren lokal schlicht nicht zu betreiben. Genau diese Prämisse bröckelt. Gemma 4 12B erreicht laut ersten unabhängigen Tests Werte nahe der doppelt so großen Modellklasse und schafft auf einer gewöhnlichen RTX 4060 rund 21 Token pro Sekunde. Das ist keine Demo-Geschwindigkeit, das ist Arbeitsgeschwindigkeit für viele Aufgaben.
Damit verschiebt sich eine Frage, die lange als beantwortet galt. Bisher lautete sie: Welches Modell, welcher Anbieter? Jetzt kommt eine ältere, klassischere Frage zurück: Muss dieser Datensatz das Gerät überhaupt verlassen? Für Transkription, Klassifikation, Zusammenfassung und Dokumenten-Vorverarbeitung ist die Antwort ab sofort nicht mehr automatisch ja. Ein Modell, das auf dem Gerät bleibt, kennt keine Drittland-Übermittlung, keine Latenz über den Atlantik und keine laufenden Inferenzkosten. Was nie abfließt, muss niemand absichern.
Das ist kein Abgesang auf die großen Modelle. Wer harte Reasoning-Aufgaben, lange Kontexte oder Spitzenqualität braucht, fährt mit den Flaggschiffen weiter besser, und die laufen auf absehbare Zeit im Rechenzentrum. Lokal und Cloud sind keine Konkurrenten, sondern Werkzeuggrößen. Niemand wirft den Akkuschrauber weg, weil es Schlagbohrmaschinen gibt.
Bemerkenswert ist eher die Geschwindigkeit der Entwicklung: Vor zwei Jahren war „läuft auf dem Laptop" gleichbedeutend mit „nettes Experiment". Heute liegt ein multimodales Modell mit Apache-Lizenz auf Hugging Face, das auf Standard-Bürohardware nutzbare Ergebnisse liefert. Die Schlagzeilen gehören weiter den Milliarden-Clustern. Aber die leiseste Meldung der Woche ist manchmal die mit den längsten Folgen: KI-Inferenz wird gerade eine ganz normale Workload, die man dort rechnet, wo es architektonisch am meisten Sinn ergibt.
Kommentare
Kommentar veröffentlichen