Obecny stan generatywnej sztucznej inteligencji w wideo często przypomina „magię jednej sztuczki”. Użytkownik wprowadza zapytanie tekstowe, tworzony jest film, a jeśli wynik jest wadliwy – na przykład ze zniekształconymi kończynami lub nienaturalnymi ruchami – użytkownik nie ma innego wyjścia, jak tylko zacząć od nowa z nowym monitem. To podejście oparte na czarnej skrzynce tworzy barierę dla profesjonalnych twórców treści, którzy potrzebują precyzji, a nie ślepego szczęścia.
Cartwheel, nowy startup zajmujący się animacją 3D, próbuje przerwać ten cykl. Założona przez weteranów branży Andrew Carra (dawniej OpenAI) i Jonathana Jarvisa (dawniej Google) firma tworzy narzędzia zaprojektowane w celu automatyzacji złożonych prac technicznych związanych z animacją, pozostawiając decyzje twórcze w rękach artysty.
Problem z danymi: dlaczego 3D jest trudniejsze niż tekst
Podczas gdy duże modele językowe (LLM) i generatory obrazów rozwijają się w oparciu o niemal nieskończoną ilość tekstu i obrazów w Internecie, znacznie trudniej jest uzyskać dane dotyczące ruchu 3D.
Niedobór wysokiej jakości danych 3D stanowi główną przeszkodę w rozwoju sztucznej inteligencji. W przeciwieństwie do języka pisanego, którego jest mnóstwo, dokładne dane na temat ruchu ciał w przestrzeni trójwymiarowej są stosunkowo rzadkie. Według współzałożyciela Jonathana Jarvisa znalezienie tych danych okazało się „10 do 100 razy” trudniejsze, niż pierwotnie oczekiwano.
Aby temu zaradzić, Cartwheel nie tylko generuje „piksele” (płaskie obrazy), ale także mapuje biomechanikę człowieka. Ich modele mają na celu przekształcenie prostych danych wejściowych 2D – takich jak film przedstawiający tańczącą osobę – w dokładne, realistyczne struktury szkieletowe 3D. Pozwala to na poziom precyzji technicznej, któremu nie mogą dorównać generatory wideo z płaskim panelem.
Zwalczanie monotonii sztucznej inteligencji poprzez kreatywną kontrolę
Powszechna krytyka generatywnej sztucznej inteligencji dotyczy jej tendencji do „podobieństwa”, czyli zjawiska, w którym treści generowane przez ten sam model stają się powtarzalne i pozbawione osobowości.
Założyciele Cartwheel argumentują, że ten brak różnorodności jest bezpośrednim skutkiem braku kontroli. Ich rozwiązaniem jest dostarczenie „warstwy kontrolnej”, a nie gotowego produktu.
- Sztuczna inteligencja jako potężne narzędzie: Zamiast generować ostateczny, niezmienny film, Cartwheel tworzy zasoby 3D, którymi można manipulować.
- Edycja po generacji: Ponieważ dane wyjściowe to dane 3D, twórcy mogą dostosować oświetlenie, zmienić kąt kamery lub dostosować pozę postaci po zakończeniu procesu generowania.
- Spersonalizowana gra: Umożliwiając artystom „dostosowywanie” ruchów, technologia przestaje zastępować twórcę, a staje się zaawansowanym technologicznie narzędziem do wyrażania siebie.
Wizja: nieograniczone opowiadanie historii
Ostateczny cel Cartwheel wykracza poza zwykłą wydajność; chodzi o możliwość „nieograniczonego opowiadania historii”.
W szybko rozwijających się dziedzinach gier i mediów społecznościowych zapotrzebowanie na treści przekracza możliwości tradycyjnej, ręcznie rysowanej animacji. Cartwheel przewiduje przyszłość, w której postacie nie tylko odtwarzają nagrane wcześniej pętle ruchu, ale są kontrolowane przez wzorce ruchu, które pozwalają im reagować i działać w czasie rzeczywistym.
Założyciele przewidują zasadniczą zmianę w przepływie pracy w branży:
„Każdy będzie pracował w 3D, nawet jeśli źródło zostanie utworzone w 2D i nawet jeśli efektem końcowym będzie zwykły film 2D.”
Koncentrując się na „warstwie pod pikselami” – leżącym u jej podstaw ruchu i strukturze – Cartwheel ma nadzieję wypełnić lukę pomiędzy wizją 2D twórcy a rzeczywistością 3D o wysokiej jakości.
Wniosek
Celem Cartwheel jest przekształcenie generatywnej sztucznej inteligencji ze statycznego generatora wideo w dynamiczny silnik ruchu 3D. Stawiając na pierwszym miejscu kontrolę i precyzję biomechaniczną, zapewniają, że podczas gdy maszyny przejmują mechanikę techniczną, ludzie zachowują smak i emocjonalne serce historii.



























