Současný stav generativní umělé inteligence ve videu často připomíná „kouzlo jednoho triku“. Uživatel zadá textový dotaz, vytvoří se video, a pokud je výsledek vadný – například s deformovanými končetinami nebo nepřirozenými pohyby – nemá uživatel na výběr, než začít znovu s novou výzvou. Tento přístup černé skříňky vytváří bariéru pro profesionální tvůrce obsahu, kteří potřebují přesnost spíše než slepé štěstí.
Cartwheel, nový start 3D animace, se snaží tento cyklus prolomit. Společnost, kterou založili veteráni z oboru Andrew Carr (dříve z OpenAI) a Jonathan Jarvis (dříve z Google), vytváří nástroje určené k automatizaci složité technické práce animace, přičemž kreativní rozhodnutí ponechává v rukou umělce.
Problém s daty: Proč je 3D obtížnější než text
Zatímco velké jazykové modely (LLM) a generátory obrázků prosperují díky téměř nekonečnému množství textu a obrázků na internetu, 3D pohybová data je mnohem těžší získat.
Nedostatek vysoce kvalitních 3D dat představuje hlavní překážku pro vývoj AI. Na rozdíl od psaného jazyka, který je hojný, jsou přesná data o tom, jak se tělesa pohybují v trojrozměrném prostoru, poměrně vzácná. Podle spoluzakladatele Jonathana Jarvise se ukázalo, že nalezení těchto dat je „10 až 100krát“ obtížnější, než se původně očekávalo.
K překonání tohoto problému Cartwheel negeneruje pouze „pixely“ (ploché obrázky), ale mapuje biomechaniku člověka. Jejich modely mají za cíl přeměnit jednoduché 2D vstupy – jako je video tančící osoby – na přesné, realistické 3D kosterní struktury. To umožňuje úroveň technické přesnosti, které ploché video generátory nemohou odpovídat.
Boj s monotónností umělé inteligence prostřednictvím kreativní kontroly
Běžná kritika generativní umělé inteligence se týká její tendence ke „stejnosti“, což je fenomén, kdy se obsah generovaný stejným modelem opakuje a postrádá osobitost.
Zakladatelé Cartwheel argumentují, že tento nedostatek rozmanitosti je přímým důsledkem nedostatku kontroly. Jejich řešením je poskytnout „kontrolní vrstvu“ spíše než hotový produkt.
- AI jako výkonný nástroj: Místo generování konečného, neměnného videa vytváří Cartwheel 3D prvky, se kterými lze manipulovat.
- Pogenerační úpravy: Protože výstupem jsou 3D data, mohou tvůrci po dokončení procesu generování upravit osvětlení, změnit úhly kamery nebo upravit pozici postavy.
- Personalizovaná hra: Tím, že umožňuje umělcům „vylepšovat“ pohyby, přestává technologie nahrazovat tvůrce a stává se špičkovým nástrojem pro sebevyjádření.
Vize: Neomezené vyprávění
Konečný cíl Cartwheel přesahuje pouhou efektivitu; jde o možnost “neomezeného vyprávění”.
V rychle se vyvíjejících oblastech her a sociálních médií překračuje poptávka po obsahu možnosti tradiční ručně kreslené animace. Cartwheel představuje budoucnost, kde postavy nebudou hrát pouze předem nahrané pohybové smyčky, ale budou řízeny pohybovými vzory, které jim umožňují reagovat a jednat v reálném čase.
Zakladatelé předpovídají zásadní posun v pracovním postupu v tomto odvětví:
„Každý bude pracovat ve 3D, i když je zdroj vytvořen ve 2D, a i když konečným výsledkem je běžné 2D video.“
Zaměřením na „vrstvu pod pixely“ – základní pohyb a strukturu – Cartwheel doufá, že překlene propast mezi tvůrcovou 2D vizí a vysoce věrnou 3D realitou.
Závěr
Cartwheel si klade za cíl přeměnit generativní umělou inteligenci ze statického video generátoru na dynamický 3D pohybový engine. Tím, že upřednostňují ovládání a biomechanickou přesnost, zajišťují, že zatímco stroje převezmou technickou mechaniku, lidé si zachovají chuť a emocionální jádro příběhu.




























