Veo 3.1 in der Praxis: Wenn ein Cowboy am Fastnachtsbrunnen parkt
Was passiert, wenn man einen Cowboy mit Sporen, einen Audi TT und den Fastnachtsbrunnen in Mainz in ein realistisches KI-Video packt? Das war unser Experiment mit Veo 3.1 – und es gab uns spannende Erkenntnisse über das, was heute schon möglich ist (und was nicht).
Der Test: Ein Video mit klarer Mission
Das Video, das wir mit diesem Artikel veröffentlichen, wurde vollständig mit Veo 3.1 generiert – einem der aktuell leistungsfähigsten Modelle für KI-basierte Videoerstellung.
Der Prompt war bewusst komplex: Tageslicht, urbanes Setting, realistisches Kamera-Setup, klare Handlungsanweisung und ein deutschsprachiger Satz, der mit den Lippenbewegungen des Protagonisten synchronisiert sein sollte.
In der Szene fährt ein schwarzer Audi TT schnell vor den Fastnachtsbrunnen in Mainz, soll mit den Bremsen quietschen, ein Cowboy mit Sporen steigt aus, blickt selbstbewusst in die Kamera und sagt:
„Dieses Video wurde mit Veo 3.1 erstellt.“
Währenddessen passieren Passanten das Bild, einige bleiben stehen, zeigen auf das Auto, andere reden miteinander.
Das Ziel: Eine glaubhafte, cinematische Sequenz mit lebendiger Szene und gezieltem Sprachmoment. Ganz ohne Kamera, Location oder Schauspieler.
Hier ist das Video:
Die Analyse: Wo Veo 3.1 punktet
- Bildkomposition & Kamerabewegung
Die Szene wurde in 1280×720 Pixeln (16:9) mit stabiler Kamera auf Augenhöhe generiert. Kein Flackern, kein Bildsprung. Die Perspektive bleibt konsistent, die Bewegung des Autos ist nachvollziehbar inszeniert. Die Bremsbewegung ist sogar über die Frame-Differenzkurve sichtbar: Hohe Dynamik zu Beginn, langsamer Auslauf gegen Ende – genau wie gefordert. - Licht & Stimmung
Natürliches Tageslicht, weiche Schatten, realistische Reflexionen auf der Autokarosserie: Die Lichtsimulation gehört zu den sichtbarsten Stärken von Veo 3.1. Die Umgebung wirkt plausibel beleuchtet, selbst die Färbung des Himmels unterstützt den realistischen Eindruck. - Konsistenz & Realismus
Die Szene ist durchgehend als One-Shot umgesetzt. Es gibt keine Schnitte, keine abrupten Übergänge. Der Cowboy steigt aus, bewegt sich glaubhaft, schließt die Tür – und alle Bewegungen wirken organisch.
Also alles realistisch – wenn man davon absieht, dass der Cowboy die Fahrzeugtür durch seinen Körper zieht.
Die Schwächen: Wo Veo 3.1 (noch) scheitert
- Mikrodynamik und Details
Während die Gesamtbewegung funktioniert, fehlen bei genauem Hinsehen feine Nuancen: Die Sporen sind nicht sichtbar und klingen nicht hörbar. Die Hand, die die Tür schließt, wirkt leicht vereinfacht. Logos, Kennzeichen oder Stofftexturen erscheinen etwas weich – hier bleibt generatives Video hinter echter Kameraarbeit zurück. - Sprachmoment & Audio
Entgegen des im Prompt geforderten anhalten mit quietschenden Reifen, stoppt das Auto sanft. Die Fahrertür wird mit einem Geräusch geöffnet, dass an das Schließen einer Autotür erinnert. Die Stimme des Cowboys ist präsent, deutlich hörbar und nicht durch Umgebungsgeräusche überdeckt. Leider ist das Timing falsch: Man hört den Satz, bevor der Cowboy seine Lippen bewegt. - Lippenbewegung im Detail
Bei genauem Hinsehen wird deutlich: Feine Artikulationsbewegungen (wie „S“ oder „Sch“) sind noch nicht perfekt animiert. Für Sprachszenen mit hoher Detailtiefe bleibt klassische Postproduktion essenziell. - Figuren im Hintergrund
Die Passanten im Hintergrund sind lebendig animiert, aber wirken teils synchronisiert oder etwas zu gleichförmig. Wer genau hinschaut, erkennt Wiederholungen in Gestik oder Gangart. Die Reaktionen auf das Auto – Zeigen, Reden – sind angedeutet, aber nicht lückenlos choreografiert.
Fazit: Wie nah ist KI-Video an der Realität?
Veo 3.1 zeigt eindrucksvoll, was heute möglich ist:
Realistische Kameraeinstellungen, überzeugendes Licht, flüssige Bewegungen und eine Szene, die als Teaser oder Social Clip sofort verwendbar ist. In 6 Sekunden wird ein urbanes Mini-Drama erzeugt – ganz ohne Drehgenehmigung, Schauspieler oder Schneidetisch.
Aber Veo 3.1 zeigt auch, was noch fehlt:
Die im Prompt gegebenen Anweisungen wurden nur zum Teil befolgt. Zudem fehlen Feindynamik in Mimik, fein aufgelöste Texturen und authentische Crowd-Interaktion. Das Audio wird in diesem Test nur unvollständig mit dem Bild synchronisiert.
Für Marketing- und Kreativteams heißt das:
Wer schnelle, realitätsnahe Visuals für Social Media, Moodfilme oder Previz-Phasen braucht, kann Veo 3.1 jetzt schon produktiv einsetzen.
Wer hingegen auf absolute Detailkontrolle, produktnahe Inszenierung oder dialoggetriebene Szenen setzt, wird um hybride Workflows – also KI plus klassische Aufnahme – nicht herumkommen.
Unser Tipp:
Nutzen Sie Veo 3.1 für das, was es heute schon perfekt kann: Aufmerksamkeit erzeugen. Und behalten Sie im Blick, wo Ihr Markenanspruch beginnt – denn an den Rändern der Realität braucht es weiterhin Menschen, Kamera und Gefühl.
Auch Interessant:
29. April 2025
Short-Form vs. Long-Form Video: Welches Format bringt 2025 den größten Erfolg im Marketing?
Video ist längst das dominante Medium im…
3. Mai 2024
ALDI SÜD feiert die Eltern in seiner jüngsten Kampagne “Liebe geht durch den Magen und noch viel weiter…”
Die neue Social Media-Kampagne von Aldi Süd zum…
9. Oktober 2023
Video Seeding ist für Ihr Unternehmen wichtig! Warum nur?
Video Seeding bedeutet übersetzt „Aussaat“. In…
28. August 2023
Ein Trailer „created with AI, not created by AI“
Ein Trailer: 48 Sekunden, kreiert in etwa 7…




