Auf der Entwicklerkonferenz Google I/O 2025 hat Google DeepMind sein neues Video-KI-Modell Veo 3 vorgestellt.
Im Gegensatz zum Vorgängermodell kann Veo 3 erstmals Bild und Ton gleichzeitig in einem Modell generieren. Weitere Verbesserungen sind ein verbessertes physikalisches Verständnis für realistischere Bewegungen und eine hohe Auflösung in bis zu 4k.
Gleichzeitig veröffentlichte Google mit "Flow" ein Tool, das über Veo 3 von Filmemachern genutzt werden kann, um Kameraflüge zu simulieren oder ganze Szenen per AI zu erstellen.
Google stellte Veo 3 als einen Bestandteil einer breiten KI-Offensive vor. Neben dem neuen Video-KI-Modell wurden zudem Verbesserungen an Gemini 2.5 Pro und Gemini 2.5 Flash vorgestellt.
Außerdem wurde mit Imagen 4 ein neues Text-to-Image Modell vorgestellt, das an der Spitze der Benchmarks mit GPT-Image-1 konkurriert.
Ein weiteres Highlight war die Vorstellung von Android XR, einem neuen Ansatz für Augmented-Reality-Brillen.
Insgesamt hat Google mit den Vorstellungen der neuen Technologien die Erwartungen vieler Kritiker übertroffen und den Anschluss an OpenAI zurückerlangt.
In den ersten Stunden nach der Veröffentlichung wurden bereits viele mit Veo 3 generierte Videos hochgeladen. Im Folgenden findest du eine Auswahl unserer Highlights:
Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube
Besonders beeindruckend an diesem Veo 3 Beispiel ist, dass auch der eigentliche Witz von der KI geschrieben wurde.
Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube
Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube
Etwas beängstigend und makaber, gleichzeitig aber sehr eindrucksvoll sind auch diese Sequenzen, die auf Twitter veröffentlicht wurden, in denen sich die KI in den Videos über die Prompts der Menschen beschwert:
Veo 3 generiert Umgebungsgeräusche und Soundeffekte, die zu den generierten Videobildern passen. Sogar Dialoge können synchron zu den Lippenbewegungen generiert werden. Damit hebt sich Veo 3 von allen anderen generativen Videomodellen wie Sora oder Runway Gen-3 ab, die bislang noch ohne synchrone Vertonung funktionieren.
Merkmal | Veo 3 | Veo 2 | OpenAI Sora | Runway Gen-3 |
---|---|---|---|---|
Max. Auflösung | 4k | 4k | 1080p / 720p | 1080p |
Audio | integriert | - | - | extern |
Prompt-Länge | mehrstufig, Storyboards möglich | Einzelprompt | Einzel- / Sequenz-Prompt | Einzelprompt & Video2Video |
Neben einer subjektiv besseren Allgemeinqualität der Videos kann Veo 3 - wie sein Vorgänger auch - Sequenzen in einer Auflösung von bis zu 4k generieren.
Außerdem hat Google es geschafft, deutliche Verbesserungen in der Bewegungssimulation zu erreichen. Physikalische Gegebenheiten, die häufig Herausforderungen für Video-Modelle darstellen (wie z.B. Schwerkraft), wirken in Veo 3 deutlich realistischer als noch beim Vorgängermodell Veo 2.
Mit einem verbesserten Instruction Following soll Veo 3 in der Lage sein, mehrstufige Szenenfolgen und Kamerafahrten Prompt-getreu umzusetzen.
Dies gilt als eine der Voraussetzungen dafür, dass Filmemacher Veo 3 in der Flow-Video-Suite von Google verwenden können, um mit KI produktionsreife Sequenzen in Filme und Video-Clips einzubinden.
Um der wachsenden Gefahr von Deepfakes zuvorzukommen, hat Google auf der I/O 2025 zudem einen "SynthID Detector" vorgestellt. Alle Veo-Videos enthalten ein digitales Wasserzeichen, damit Dritte verifizieren können, ob es sich um ein KI-Video handelt oder nicht.
Es wird bereits länger vermutet, dass auch bei der Ausgabe von KI-Texten digitale Wasserzeichen verwendet werden. Nun haben wir die Bestätigung, dass eine derartige Technologie bei Videos angewendet wird.
Veo 3 lässt sich über die Flow-Video-Suite von Google nutzen. Um auf Flow Zugriff zu erhalten, wird eine Google AI Mitgliedschaft benötigt:
Veo 3 und Flow werden stufenweise ausgerollt. Zum Start ist Veo 3 in Deutschland noch nicht verfügbar, es ist aber davon auszugehen, dass auch deutsche Benutzer in den kommenden Wochen Zugriff erhalten werden.