BOTCAST

Jenseits des Vorstellbaren

Wir wissen nicht genau, wie die neuen KI-Videogeneratoren die Welt simulieren – und ob sie diese wirklich verstehen. Aber wir sollten die Konsequenzen begreifen.

Drucken

Schriftgröße

Eine stylishe Frau mit Lederjacke und Sonnenbrille schreitet durchs nächtliche Tokio, an den Geschäften strömen Scharen von Passanten vorbei, in der regennassen Straßenoberfläche spiegeln sich die Neonlichter. Die Szene wirkt hyperrealistisch bis ins Detail. Und doch existiert die Frau nicht in Wirklichkeit. Der KI-Videogenerator Sora hat sie geschaffen, auf Basis einer kurzen Texteingabe, so wie alles andere in dem 60-sekündigen Video auch. Viele kennen inzwischen die atemberaubenden Filmsequenzen, die das US-Unternehmen OpenAI, bekannt durch ChatGPT, kürzlich veröffentlicht hat. Die Frau mit der Lederjacke. Der Kameraflug durch ein Museum. Die spielenden Hundewelpen im Schnee, die Piratenschiffe in der Kaffeetasse. Die Beispielvideos sind zwar noch nicht perfekt, und noch ist nicht bekannt, wann OpenAI das neue Tool für ein größeres Publikum freischalten wird. Doch schon jetzt sorgen die Fähigkeiten von Sora (japanisch: Himmel) für Diskussionen weit über die KI-Fachwelt hinaus.

Erstens, so glauben viele, könnten KI-Videogeneratoren die ganze Kreativindustrie umkrempeln. Denn wenn es möglich ist, binnen weniger Minuten qualitativ hochwertige Videos zu jedem erdenklichen Thema zu produzieren, beispielsweise für Werbezwecke – wozu dann noch viele sündteure, zeitraubende Film- und Videoproduktionen mit echten Menschen? Zweitens werden KI-Videos das Problem der Deepfakes und Fake News weiter verschärfen. Bereits heute kursieren Zehntausende Deepfake-Videos im Netz, also KI-generierte und manipulierte Inhalte, der weitaus größte Teil davon Pornos. Die massenhafte Verbreitung täuschend echter KI-Videos könnte dazu führen, dass wir zwischen Fake und Wirklichkeit überhaupt nicht mehr unterscheiden können.

Wenn wir verstehen wollen, wie die Dinge in Wirklichkeit laufen, müssen wir nur ein Video dazu generieren.

Drittens geht es um die Frage, wie bahnbrechend Sora tatsächlich ist – und welche technischen Fähigkeiten dahinterstecken. Das erklärte Ziel von OpenAI ist nicht weniger als ein Weltsimulator, also ein Modell, das die physikalische Realität nachbilden kann. Im Kern beruht der KI-Videogenerator auf einem sogenannten Diffusionsmodell, wie auch viele schon bekannte Bildgeneratoren, etwa Dall-E oder Midjourney. Das Modell lernt im Zuge des Trainingsprozesses, Textbeschreibungen mit Videoinhalten zu verbinden, um aus Textprompts (also schriftlichen Aufgabenstellungen) neue Inhalte zu erzeugen. Im Unterschied zu Bildgeneratoren benutzt es dazu keine Bildpixel, sondern kleine Videosegmente.

Wie und warum genau die KI auf eine Texteingabe hin einen ganz bestimmten Output erzeugt, im Falle von Sora eben Videosequenzen, weiß bis heute niemand. Woher weiß Sora, wie sich die Frau auf der Tokioter Straße bewegen muss, damit es realistisch wirkt? Wie sich die Lichter in der Straßenoberfläche spiegeln müssen? Wie überhaupt die ganze Szene ablaufen muss, um einigermaßen glaubwürdig zu sein? Die einen glauben, dass Sora aus Trainingsvideos tatsächlich gelernt hat, die physikalische Wirklichkeit zu simulieren. Die anderen halten dagegen, dass der KI-Videogenerator einfach nur statistisch Bilderabfolgen vorhersage. Das klingt nach einer esoterischen Fachdiskussion.

Doch dahinter steht die grundlegende Frage, ob Sora die Videos, die es generiert, auch wirklich „versteht“, so wie wir Menschen etwa die Straßenszene in Tokio verstehen. Für uns Menschen ist das ganz natürlich, weil wir nun einmal in dieser Welt leben. Ein KI-Videogenerator wie Sora dagegen hat, salopp gesagt, einfach nur sehr viele Videos gesehen. Wenn Sora aber tatsächlich versteht, wie die physikalische Welt da draußen funktioniert, dann wäre das womöglich ein großer Schritt in Richtung einer allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI), wie die KI-Fachleute es nennen – also in Richtung menschenähnliche Intelligenz. Dann kann Sora nämlich in Wahrheit viel mehr, als einfach nur aus Text realistische Videos zu generieren.

Ein Weltsimulator könnte alle möglichen Szenarien durchspielen, für die uns Menschen die Vorstellungskraft fehlt. Das könnte uns zum Beispiel helfen, Zusammenhänge zu erkennen, die wir sonst einfach nicht sehen. Wenn wir verstehen wollen, wie die Dinge in Wirklichkeit laufen, müssen wir nur ein Video dazu generieren. Klingt irgendwie verrückt. Vielleicht sollten wir die Frau mit der Lederjacke fragen, was sie dazu sagt.

Thomas Vašek

Thomas Vašek

war in den 1990er-Jahren Investigativjournalist bei profil. Heute ist er Co-Chefredakteur der Zeitschrift „human“, die sich mit den Auswirkungen von KI auf Wirtschaft, Gesellschaft und Kultur beschäftigt.