Genie 3: DeepMinds neues World-Model vorgestellt

Genie 3 erzeugt aus einer einfachen Texteingabe interaktiver 3D-Welten in 720p Auflösung bei 24 fps. Das Modell bleibt dabei physikalisch konsistent und lässt sich in Echtzeit manövrieren. Es soll zukünftig vor allem als Trainingsumgebung für allgemeine KI-Agenten dienen.

Titelbild von der Genie 3 Vorstellung mit mehreren Interaktiven Welten als Preview Bilder

Das Wichtigste in Kürze:

  • Genie 3 bietet Echtzeit Interaktion in deutlich höherer Auflösung und Framerate als der Vorgänger Genie 2.
  • Über Prompts lassen sich "World Events" wie Wetterumschwung, neue Objekte oder komplett andere Szenarien erstellen.
  • Objekte, die vom Nutzer verändert wurden sowie die gesamte Landschaft bleibt beim Manövrieren durch eine neue Memory-Funktion länger konsistent.
  • Zugang zu Genie 3 wird zunächst für Researcher geöffnet. Der Zeitpunkt für ein öffentliches Release ist noch offen.
Interaktive Welten von Genie 3

Was ist Genie 3 und wieso ist es so besonders?

Genie 3 ist ein neues "World-Model" von Google DeepMind, das interaktive 3D-Welten in HD-Auflösung und flüssiger Framerate generieren kann.

Genie 3 rendert jede Einzelbild-Sequenz autoregressiv und reagiert sofort auf deine Eingaben. Dabei kommt - nicht wie bei Videospielen üblich - eine Physik-Engine zustande, sondern die gesamte Spielwelt entsteht über Generative AI.

Interaktive Vulkanlandschaft, generiert durch Genie 3
Per Tastatur lässt sich das Fahrzeug interaktiv durch die generierte Vulkanlandschaft manövrieren.

Längere Konsistenz durch neue Memory-Funktion

Durch eine neu entwickelte Memory-Funktion kann Genie 3 Szenen für ca. 60 Sekunden logisch konsistent halten. Bäume, die du am Anfang siehst, stehen also auch später noch an derselben Stelle.

Neben Maus- und Tastatureingaben kannst du die Welten auch über Prompts steuern. Änderst du z.B. das Wetter oder öffnest Portale, die neue Welten erzeugen, bleiben auch diese im Speicher, bis die Memory-Funktion "voll" ist.

Einen guten Eindruck von den Kapazitäten von Genie 3 erhältst du im folgenden Video von Google DeepMind:

Genie 3: Erstellen Sie dynamische Welten, durch die Sie in Echtzeit navigieren können

Genie 3: Erstellen Sie dynamische Welten, durch die Sie in Echtzeit navigieren können

Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube

Als Beispiel-Welten zeigt Google im Demo-Video ganz verschiedene Szenarien. Von realistischen Naturszenerien (Helikopter-Flug über Klippen, Straße am Meer bei Unwetter) über animierte CGI-Videos (fliegendes Regenbogen-Tier auf einer schwebenden Insel) bis hin zu historischen Rundgängen durch antike Städte scheint mit Genie 3 alles abbildbar zu sein.

Antikes Gebäude mit Säulen bei Sonnenschein, generiert mit Genie 3

Was sind die Anwendungsgebiete für Genie 3?

Als Haupteinsatzgebiet nennt Google DeepMind das Training für "Embodied Agents", also quasi bereits für autonome Roboter, die auf KI-Technologie basieren.

Zum Beispiel könnten mit Genie 3 virtuelle Lagerhallen erstellt werden, in denen die KI Agenten Aufgaben wie "Fahre zum roten Gabelstapler" lösen müssen. So könnte zukünftig das Robotik-Training ohne kostspielige Trainingssetups in der echten Welt ablaufen.

Aber auch in anderen Bereichen, z.B. der Archäologie oder beim Game-Design könnten Modelle wie Genie 3 Prozesse enorm beschleunigen, indem anhand von angegebenen Daten schnelle und interaktive Prototypen entwickelt werden können.

Wo liegen die Grenzen von Genie 3?

DeepMind beschreibt selbst, dass die Agenten in den interaktiven Welten aktuell noch wenig Interaktionsmöglichkeiten haben. Dieses Problem wird verstärkt dadurch, dass die Textdarstellung oft noch unscharf ist und über Computer Vision nur schwer erkannt wird.

Außerdem werden autonome Agenten in den Welten durch die noch relative kurze Konstistenzzeit von wenigen Minuten ausgebremst. Dies verhindert das Training von komplexen Handlungen oder Multi-Agent-Simulationen.

Wenn man bedenkt, wie groß der Sprung von Genie 2 zu Genie 3 ist, kann man allerdings davon ausgehen, dass diese Hürden in Zukunft Schritt für Schritt genommen werden könnten.

Vergleich von Genie 2 vs. Genie 3

Die Unterschiede zwischen Genie 2 und Genie 3 sind beeindruckend, vor allem, wenn man den kurzen Abstand zwischen der Veröffentlichung der beiden Weltmodelle beachtet:

<iframe title="vimeo-player" src="https://player.vimeo.com/video/1107196202?h=6cf2f49c82" width="640" height="360" frameborder="0" referrerpolicy="strict-origin-when-cross-origin" allow="autoplay; fullscreen; picture-in-picture; clipboard-write; encrypted-media; web-share" allowfullscreen></iframe>

Merkmal
Genie 2
Genie 3
Auflösung
480p
720p
FPS
20 FPS
24 FPS
Interaktivität
10-20 Sekunden
> 3 Minuten
Promptable Events
Nein
Ja
Veröffentlichung
Dezember 2024
August 2025

Fazit: Ein Schritt in Richtung AGI?

Wenn es nach einem der wichtigsten KI-Researcher von Meta, Yann LeCun, geht, dann stellen World-Models die nächste Stufe von künstlicher Intelligenz dar, die die Technologie zu einer "AGI" entwickeln könnte.

Auch andere Researcher wie Shlomi Fruchter sehen in Weltmodellen den entscheidenden Meilenstein auf dem Weg zu allgemeiner künstlicher Intelligenz, weil Agenten in diesen Welten unbegrenzt Erfahrung sammeln können und der Informationsgehalt deutlich höher ist, als bei reinem Text-Input von z.B. LLMs.

Gleichzeitig warnt DeepMind vor Sicherheits- und Bias-Risiken. Ein Hauptgrund dafür, dass die Research-Preview von Genie 3 vorerst auch nur einem ausgewählten Kreis an Forschenden freigegeben wird.

Wir sind gespannt auf die weiteren Entwicklungen und erfreuen uns vorerst an den spektakulären Welten, die man in den Vorschauvideos von Genie 3 erkunden kann.

Christian Musanke

Christian Musanke

Gründer

Christian begeistert sich für Machine Learning und testet mit Leidenschaft die neuesten AI-Tools.