Lo stato attuale dell’intelligenza artificiale generativa nei video spesso sembra un trucco magico “one-shot”. Un utente inserisce un messaggio di testo, viene prodotto un video e se il risultato è difettoso, ad esempio arti distorti o movimenti innaturali, all’utente non resta altra scelta che ricominciare da capo con un nuovo messaggio. Questo approccio a “scatola nera” crea una barriera per i creatori professionisti che richiedono precisione piuttosto che fortuna casuale.
Cartwheel, una nuova startup di animazione 3D, sta tentando di interrompere questo ciclo. Fondata dai veterani del settore Andrew Carr (ex OpenAI) e Jonathan Jarvis (ex Google), l’azienda sta costruendo strumenti progettati per automatizzare il pesante lavoro tecnico dell’animazione lasciando il processo decisionale creativo nelle mani dell’artista.
Il problema dei dati: perché il 3D è più difficile del testo
Mentre i modelli linguistici di grandi dimensioni (LLM) e i generatori di immagini sono fioriti a causa della disponibilità quasi infinita di testo e immagini su Internet, i dati di movimento 3D sono molto più difficili da trovare.
La scarsità di dati 3D di alta qualità rappresenta un ostacolo significativo per lo sviluppo dell’intelligenza artificiale. A differenza della lingua scritta, che è abbondante, i dati precisi su come i corpi si muovono nello spazio tridimensionale sono relativamente rari. Secondo il co-fondatore Jonathan Jarvis, la difficoltà di reperire questi dati è stata “da 10 a 100 volte” più difficile di quanto inizialmente previsto.
Per superare questo problema, Cartwheel non si limita a generare “pixel” (immagini piatte); stanno mappando la biomeccanica umana. I loro modelli mirano a tradurre semplici input 2D, come un video di qualcuno che balla, in strutture scheletriche 3D precise e realistiche. Ciò consente un livello di precisione tecnica che i generatori di video flat non possono eguagliare.
Combattere l’”identità dell’IA” attraverso il controllo creativo
Una critica comune all’intelligenza artificiale generativa è la sua tendenza alla “identità”, il fenomeno in cui il contenuto prodotto dallo stesso modello inizia a sembrare ripetitivo e privo di carattere distinto.
I fondatori di Cartwheel sostengono che questa mancanza di varietà è il risultato diretto di una mancanza di controllo. La loro soluzione è fornire un “livello di controllo” anziché un prodotto finito.
- L’intelligenza artificiale come strumento potente: Invece di generare un video finale e immutabile, Cartwheel genera risorse 3D destinate ad essere manipolate.
- Modifica post-generazione: poiché l’output è costituito da dati 3D, i creatori possono regolare l’illuminazione, spostare gli angoli della telecamera o modificare la posa di un personaggio una volta completata la generazione iniziale.
- Prestazione personalizzata: Consentendo agli artisti di “spingere e tirare” la performance, la tecnologia smette di essere un sostituto dell’artista e diventa uno strumento sofisticato di espressione.
La Visione: Narrazione a tempo indeterminato
L’obiettivo finale di Cartwheel va oltre la semplice efficienza; si tratta di consentire una “narrazione a tempo indeterminato.”
Nel panorama in rapida evoluzione dei giochi e dei social media, la domanda di contenuti sta superando la capacità dell’animazione manuale tradizionale. Cartwheel immagina un futuro in cui i personaggi non si limitano a riprodurre loop preregistrati, ma sono alimentati da modelli di movimento che consentono loro di reagire ed esibirsi in tempo reale.
I fondatori prevedono un cambiamento fondamentale nel flusso di lavoro del settore:
“Tutti lavoreranno in 3D anche se sono stati creati in 2D, anche se l’output finale è solo video 2D.”
Concentrandosi sullo “strato sotto i pixel” – il movimento e la struttura sottostanti – Cartwheel spera di colmare il divario tra la visione 2D di un creatore e una realtà 3D ad alta fedeltà.
Conclusione
Cartwheel cerca di trasformare l’intelligenza artificiale generativa da un generatore di video statici in un motore dinamico per il movimento 3D. Dando priorità al controllo e all’accuratezza biomeccanica, mirano a garantire che mentre le macchine gestiscono la meccanica tecnica, gli esseri umani mantengano il “gusto” e il cuore emotivo della storia.




























