Beyond the Prompt: Wie Cartwheel Animatoren die Kontrolle über generative KI geben will

20
Beyond the Prompt: Wie Cartwheel Animatoren die Kontrolle über generative KI geben will

Der aktuelle Stand der generativen KI im Videobereich fühlt sich oft wie ein „One-Shot“-Zaubertrick an. Ein Benutzer gibt eine Textaufforderung ein, ein Video wird produziert, und wenn das Ergebnis fehlerhaft ist – etwa verzerrte Gliedmaßen oder unnatürliche Bewegungen –, bleibt dem Benutzer keine andere Wahl, als mit einer neuen Aufforderung von vorne zu beginnen. Dieser „Black-Box“-Ansatz stellt eine Hürde für professionelle Kreative dar, die Präzision statt Zufall benötigen.

Cartwheel, ein neues 3D-Animations-Startup, versucht, diesen Teufelskreis zu durchbrechen. Das von den Branchenveteranen Andrew Carr (ehemals OpenAI) und Jonathan Jarvis (ehemals Google) gegründete Unternehmen entwickelt Tools, mit denen die technische Schwerstarbeit bei Animationen automatisiert werden soll, während die kreative Entscheidungsfindung in den Händen des Künstlers liegt.

Das Datenproblem: Warum 3D schwieriger ist als Text

Während große Sprachmodelle (LLMs) und Bildgeneratoren aufgrund der nahezu unbegrenzten Verfügbarkeit von Texten und Bildern im Internet florieren, sind 3D-Bewegungsdaten viel schwieriger zu finden.

Der Mangel an qualitativ hochwertigen 3D-Daten stellt eine erhebliche Hürde für die KI-Entwicklung dar. Im Gegensatz zur geschriebenen Sprache, die reichlich vorhanden ist, sind präzise Daten darüber, wie sich Körper im dreidimensionalen Raum bewegen, relativ selten. Laut Mitbegründer Jonathan Jarvis war die Schwierigkeit, diese Daten zu beschaffen, „10 bis 100 Mal“ größer als ursprünglich angenommen.

Um dieses Problem zu lösen, generiert Cartwheel nicht nur „Pixel“ (flache Bilder); Sie kartieren die menschliche Biomechanik. Ihre Modelle zielen darauf ab, einfache 2D-Eingaben – etwa ein Video von jemandem, der tanzt – in präzise, ​​realistische 3D-Skelettstrukturen zu übersetzen. Dies ermöglicht ein Maß an technischer Genauigkeit, das flache Videogeneratoren nicht erreichen können.

Kampf gegen „KI-Gleichheit“ durch kreative Kontrolle

Eine häufige Kritik an generativer KI ist ihre Tendenz zur „Gleichheit“ – das Phänomen, bei dem von demselben Modell erstellte Inhalte beginnen, sich zu wiederholen und keinen eindeutigen Charakter mehr haben.

Die Gründer von Cartwheel argumentieren, dass dieser Mangel an Vielfalt eine direkte Folge mangelnder Kontrolle sei. Ihre Lösung besteht darin, eine „Kontrollschicht“ anstelle eines fertigen Produkts bereitzustellen.

  • Die KI als Elektrowerkzeug: Anstatt ein endgültiges, unveränderliches Video zu generieren, generiert Cartwheel 3D-Assets, die manipuliert werden sollen.
  • Bearbeitung nach der Generierung: Da es sich bei der Ausgabe um 3D-Daten handelt, können Ersteller nach Abschluss der ersten Generierung die Beleuchtung anpassen, Kamerawinkel verschieben oder die Pose eines Charakters optimieren.
  • Personalisierte Performance: Dadurch, dass Künstler die Performance „schieben und ziehen“ können, entfernt sich die Technologie von einem Ersatz für den Künstler und wird zu einem anspruchsvollen Ausdrucksmittel.

Die Vision: Offenes Geschichtenerzählen

Das ultimative Ziel von Cartwheel geht über die bloße Effizienz hinaus; es geht darum, „offenes Geschichtenerzählen“ zu ermöglichen.

In der sich schnell entwickelnden Gaming- und Social-Media-Landschaft übersteigt die Nachfrage nach Inhalten die Kapazität traditioneller, manueller Animationen. Cartwheel stellt sich eine Zukunft vor, in der Charaktere nicht nur vorab aufgezeichnete Loops abspielen, sondern von Bewegungsmodellen angetrieben werden, die es ihnen ermöglichen, in Echtzeit zu reagieren und zu agieren.

Die Gründer prognostizieren einen grundlegenden Wandel im Arbeitsablauf der Branche:

„Jeder wird in 3D arbeiten, auch wenn es in 2D erstellt wurde, selbst wenn die Endausgabe nur ein 2D-Video ist.“

Durch die Konzentration auf die „Ebene unter den Pixeln“ – die zugrunde liegende Bewegung und Struktur – hofft Cartwheel, die Lücke zwischen der 2D-Vision eines Schöpfers und einer hochauflösenden 3D-Realität zu schließen.


Schlussfolgerung
Cartwheel versucht, generative KI von einem Generator statischer Videos in eine dynamische Engine für 3D-Bewegungen zu verwandeln. Durch die Priorisierung von Kontrolle und biomechanischer Genauigkeit wollen sie sicherstellen, dass Maschinen den „Geschmack“ und den emotionalen Kern der Geschichte behalten, während Maschinen die technische Mechanik übernehmen.