KI-Videos erstellen: Entdecke das Kino der Zukunft

David Blum

Internet & Recht

Veröffentlicht am 17. Apr. 2024

Ein Gastbeitrag von David Blum, KI-Experte im Bereich Bild- und Videogeneratoren.

Seit ich im Jahr 2022 zum ersten Mal über mit KI-generierte Bilder gestolpert bin, lässt mich die Faszination der generativen KI nicht mehr los: Mit wenigen Texteingaben, sogenannten Prompts, kann ich das gesamte visuelle «Wissen» der Bilderschaffung von uns Menschen einfach so abrufen! Jeder Bildstil, alle kreativen Techniken und Materialien sind verfügbar – ein bildliches Schlaraffenland, nicht nur für Grafiker wie mich.

Titelbild «KI-gesteuerte Videoproduktion: Entdecke das Kino der Zukunft»

In meinem letzten Blogpost hier habe ich detailliert über die Möglichkeiten der Bildgeneratoren geschrieben: KI-Bildgenerierung: Entdecke die faszinierende Welt jenseits der Pixel. In diesem Artikel möchte ich die generierten Bewegtbilder, sprich Videos, näher beleuchten und zeigen, wohin die Reise hier gehen wird.

Inhalt dieses Beitrags:

Was sind KI-generierte Videos?

Nachdem in den letzten zwei Jahren die KI-Bildgeneratoren durch die Decke gingen, liessen die ersten KI-Videogeneratoren nicht lange auf sich warten: Runway, HeyGen, Google Lumiere und wie sie alle heissen, zeigten rasch: Videos sind qualitativ nicht weit weg von Bildern. Einfach gesagt sind Videos auch lediglich viele Bilder aneinandergereiht.

Text zu Video

So kamen rasch Videogeneratoren auf den Markt, welche gleich wie die Bildgeneratoren funktionieren: Man wünscht sich via Text-Prompt ein Video, wartet dann eine Weile und erhält anschliessend ein kurzes Video von ein paar Sekunden. Fertig ist die Zauberei.

Der Vorteil: die KI generiert die Visualität und Animation aus einem Guss und es gelingen bereits jetzt verblüffende Resultate.

Der Nachteil: Videos zu generieren dauert länger, als Bilder zu generieren und entsprechend kann das Aussehen erst im Nachhinein kontrolliert werden.

Bild zu Video

Nebst der Möglichkeit, sich mit Text ein Video zu wünschen, gab es bald auch die Technik, dass man statt eines Textes ein Bild vorgeben konnte, welches die KI dann animieren soll. Image-to-Video, nennt man dies und hat sich rasch auch als eine gute Variante durchgesetzt.

Der Vorteil hier: Zeiteinsparung. Ich kann ein Bild generieren, dass relativ genau den Erwartungen entspricht und dieses erst dann animieren.

Der Nachteil: manche Bilder eignen sich weniger oder mehr, dass die KI eine gute Animation machen kann.

Video zu Video

Ja, auch das geht: Man kann ein Video verändern lassen mit KI. Aktuell oft noch eher auf den visuellen Stil beschränkt. Also ich kann beispielsweise ein Video, welches ich mit dem Smartphone gefilmt habe, in ein Video verwandeln, welches im Comic-Stil daherkommt. Oder als Knetfigur. Die Möglichkeiten sind hier grenzenlos. Künftig wird es auch möglich sein, gezielt Inhalte im Video mit Text-Prompts zu verändern, ohne das ganze Video anzupassen. Im Bereich Retusche / Postproduktion gibt es bereits jetzt Funktionen, welche KI-gestützt Motion-Tracking, Freisteller oder auch ganze Teile aus Videos wegretuschieren lassen.

Menschen klonen mit Avataren

Obwohl die besprochenen Techniken bereits viele neue Möglichkeiten bietet, stoppt die KI natürlich nicht in dem Bereich: mit sogenannten Avataren kann man Menschen «klonen» und ein digitales Abbild erstellen, welchem man dann mittels Text oder Sprachaufnahme neue Sätze in den Mund legen und den Avatar diese dann sprechen und sich dazu bewegen lassen kann.
Es braucht aktuell dazu Folgendes, um einen Avatar zu erstellen: 2 Minuten Video, aufgenommen mit dem Smartphone. Möglichst ruhige Umgebung und gutes Licht.

Man plappert dann 2 Minuten einfach in die Kamera, macht mit den Händen etwas Gestik dazu und macht ein möglichst freundliches Gesicht. Anschliessend muss man noch ein kurzes Consent-Video aufnehmen, wo man einen vorgegebenen Text ablesen muss.

Das Consent-Video wird dann mit dem Plapper-Video mit KI verglichen und nur wenn eine Übereinstimmung der sprechenden Person stattfindet, geht es weiter. Diese beiden Videos reichen, dass die KI dann innerhalb von wenigen Stunden einen Avatar-Klon generieren kann, dem man dann wie beschrieben, alles sprechen lassen kann, was man will. Und in vielen unterschiedlichen Sprachen, die man selbst gar nicht beherrscht!

Videos mit KI übersetzen

Eine weitere Möglichkeit ist das automatische übersetzen von Videos in eine andere Sprache. Das eignet sich vorwiegend für Headshot-Videos, also Aufnahmen, in denen eine oder mehrere Personen sichtbar sprechen. Aktuell kann man damit ein bis zu 1 h langes Video in eine gewünschte Zielsprache übersetzen lassen. Dabei zaubert die KI im Hintergrund verblüffendes: sie transkribiert das Original-Video, übersetzt den Text in eine neue Zielsprache. Parallel dazu werden die Stimmen der Sprecher:innen geklont. Anschliessend wird die Audiospur neu in der Zielsprache mit den geklonten Stimmen gesprochen. Und zu guter Letzt wird das Video visuell um die Lippen herum manipuliert, sodass die Lippenbewegungen zu der neuen Sprache passen. Wahnsinn, oder?

Einsatzmöglichkeiten von KI-Videos

Aktuell liefern die KI-Videogeneratoren noch teilweise etwas «trashige» Resultate: unlogische Veränderungen geschehen in der Animation von Menschen, Tieren, Gebäuden, Landschaften und so weiter. Die KI hat schlichtweg noch nicht die «Intelligenz» zu wissen, wie die Animation geschehen soll, sondern versucht mit einer Wahrscheinlichkeitsrechnung anhand antrainiertem Videomaterial etwas zu «faken», was für uns Menschen beim Betrachten stimmig ist.

Trotzdem kann man mit Künstlicher Intelligenz generierte Videos bereits heute schon verwenden:

Social-Media-Content: statt statischen Bildern leicht animierte Bilder für mehr Aufmerksamkeit
Visualisierungen von noch nicht existierendem (Beispielsweise ein Neubau, von welchem es lediglich ein paar visuelle Skizzen gibt)
In Präsentationen für Hintergründe / Titelslides
Als sogenannte Animatics: um eine «Skizze» eines Videos zu machen, welche man dann beispielsweise als Briefing an eine Video-Agentur mitschickt (oder umgekehrt die Agentur macht eine Video-Skizze, bevor das Video richtig umgesetzt wird)
Als animierter Hintergrund für Apps, Websites etc
Animierte Song-Covers um Musik auf Social-Media-Kanälen zu teilen
B-Roll-Material für echte Videos: wenn man eine kurze Video-Sequenz in einem Video benötigt, aber das Material fehlt und nicht in Stock-Videos zu finden ist
In Form von sogenannten Avataren für Erklärvideos, Sales-Videos und so weiter.
Zum Übersetzen von Videos in eine andere Sprache

Vermutlich gibt es noch viele weitere Einsatzmöglichkeiten, wo diese generierten Videos bereits jetzt gebraucht werden können.

Urheberrecht und Ethik

Gleich wie bei den Bildgeneratoren basieren diese neuen technischen «Wunder» auf ganz viel Daten, welche nötig waren, um die KI-Modelle zu trainieren. Wie genau das alles passiert und woher die Firmen diese Datasets haben, bleibt grösstenteils ein Geheimnis. Klar ist, dass das Internet voll von öffentlich zugänglichem Content ist, welcher auch gebraucht wird um damit diese Modelle zu trainieren.

Copyright und Urheberrechte werden in der Grauzone umschifft oder kommen rechtlich nicht oder ungenau zum Tragen: bei den Bildgeneratoren weiss man, dass diese beispielsweise auf Open Source Datasets wie das LAION 5B zurückgreifen. Diese Datenbank umfasst 5 Milliarden Bildreferenzen und Metainformationen zu den Bildern. Aber (und das ist der springende Punkt und rechtlich relevant): Es ist kein einziges Bild in der Datenbank gespeichert! Sondern es sind lediglich Hinweise in Form von Links darin enthalten, wo diese Bilder im Internet zu finden sind.

Das Thema ist kontrovers, ganz klar. Und in den kommenden Monaten wird sich auch zeigen, ob und welche Regelungen und Gesetze sich diesbezüglich etablieren werden. Es bleibt spannend…

Die Zukunft von KI-Videos

Die oben gezeigten Beispiele stellen eindrücklich dar, was bereits jetzt schon alles Dank Künstlicher Intelligenz möglich ist. Doch wir befinden uns erst in der Anfangsphase dieser Generatoren, die Qualität lässt oft noch zu wünschen übrig, aber es wird noch einiges passieren in naher Zukunft.
OpenAI, die Firma hinter ChatGPT, zeigt bereits seit Wochen im Internet, was ihr Video-Generator Sora kann. Der Generator ist noch nicht öffentlich zugänglich und das wird auch nicht demnächst geschehen, so die Entwickler hinter Sora.

Was das Modell aber im Vergleich zu den bisher bekannten Video-Generatoren scheinbar kann, ist verblüffend und scheint den anderen Firmen meilenweit voraus zu sein.
Der Generator Sora generiert nicht nur 4-8 Sekunden Videos, sondern gleich eine ganze Minute als Sequenz. Nebst dieser Leistung verblüfft aber vor allem die Tatsache, wie gut Sora ein Verständnis nicht nur für die Bewegungen, sondern offenbar bereits ein physikalisches Verständnis dafür gelernt hat, wie die Welt funktioniert und wie damit interagiert wird. Hier ein Anwendungsbeispiel von Sora, welches von der Videoagentur shy kids mit Sora produziert wurde:

Fazit

KI-Videogeneratoren bringen wieder ganz neue Möglichkeiten in die visuelle Erschaffung von Content und Filmen. Alles ist noch neu, doch bereits jetzt kann man Vieles schon gut gebrauchen. Mit etwas herumtüfteln und experimentieren kann man bereits jetzt gute Resultate erzielen. In naher Zukunft wird wie bei den Bildgeneratoren die Qualität und Länge der generierten Videos exponentiell besser und schafft auch hier eine neue Dynamik im Markt des Bewegtbildes.

Wer weiss, vielleicht können wir in Zukunft in Netflix und Co speziell auf uns zugeschnitten generierte Serien schauen, die nur für uns abrufbar sind. Oder welche Möglichkeiten siehst du? Schreib deine Ideen gerne als Kommentar, wir sind gespannt!