O estado atual da IA generativa em vídeo muitas vezes parece um truque de mágica “one-shot”. Um usuário insere um prompt de texto, um vídeo é produzido e, se o resultado for defeituoso – como membros distorcidos ou movimentos não naturais – o usuário terá pouca escolha a não ser recomeçar com um novo prompt. Essa abordagem de “caixa preta” cria uma barreira para criadores profissionais que exigem precisão em vez de sorte aleatória.
Cartwheel, uma nova startup de animação 3D, está tentando quebrar esse ciclo. Fundada pelos veteranos da indústria Andrew Carr (ex-OpenAI) e Jonathan Jarvis (ex-Google), a empresa está construindo ferramentas projetadas para automatizar o trabalho técnico pesado da animação, deixando a tomada de decisão criativa nas mãos do artista.
O problema dos dados: por que 3D é mais difícil que texto
Embora os grandes modelos de linguagem (LLMs) e os geradores de imagens tenham florescido devido à disponibilidade quase infinita de textos e imagens na Internet, os dados de movimento 3D são muito mais difíceis de encontrar.
A escassez de dados 3D de alta qualidade representa um obstáculo significativo para o desenvolvimento da IA. Ao contrário da linguagem escrita, que é abundante, dados precisos sobre como os corpos se movem no espaço tridimensional são relativamente raros. De acordo com o cofundador Jonathan Jarvis, a dificuldade de obter esses dados foi “10 a 100 vezes” maior do que o inicialmente previsto.
Para superar isso, o Cartwheel não está apenas gerando “pixels” (imagens planas); eles estão mapeando a biomecânica humana. Seus modelos visam traduzir entradas 2D simples – como um vídeo de alguém dançando – em estruturas esqueléticas 3D precisas e realistas. Isso permite um nível de precisão técnica que os geradores de vídeo plano não conseguem igualar.
Combatendo a “mesmice da IA” por meio do controle criativo
Uma crítica comum à IA generativa é a sua tendência para a “mesmice” – o fenómeno em que o conteúdo produzido pelo mesmo modelo começa a parecer repetitivo e carece de carácter distinto.
Os fundadores da Cartwheel argumentam que esta falta de variedade é resultado direto da falta de controle. A solução deles é fornecer uma “camada de controle” em vez de um produto acabado.
- A IA como ferramenta poderosa: Em vez de gerar um vídeo final e imutável, o Cartwheel gera recursos 3D que devem ser manipulados.
- Edição pós-geração: Como a saída são dados 3D, os criadores podem ajustar a iluminação, mover os ângulos da câmera ou ajustar a pose de um personagem após a conclusão da geração inicial.
- Performance personalizada: Ao permitir que os artistas “empurrem e puxem” a performance, a tecnologia deixa de ser um substituto para o artista e se torna uma ferramenta sofisticada de expressão.
A visão: narrativa aberta
O objetivo final do Cartwheel vai além da mera eficiência; trata-se de permitir “narrativas abertas”.
Nos cenários em rápida evolução dos jogos e das mídias sociais, a demanda por conteúdo está superando a capacidade da animação manual tradicional. Cartwheel prevê um futuro onde os personagens não apenas reproduzem loops pré-gravados, mas são alimentados por modelos de movimento que lhes permitem reagir e atuar em tempo real.
Os fundadores prevêem uma mudança fundamental no fluxo de trabalho da indústria:
“Todos trabalharão em 3D, mesmo que seja criado em 2D, mesmo que o resultado final seja apenas vídeo 2D.”
Ao focar na “camada abaixo dos pixels” – o movimento e a estrutura subjacentes – o Cartwheel espera preencher a lacuna entre a visão 2D de um criador e uma realidade 3D de alta fidelidade.
Conclusão
Cartwheel busca transformar a IA generativa de um gerador de vídeos estáticos em um mecanismo dinâmico para movimento 3D. Ao priorizar o controle e a precisão biomecânica, eles visam garantir que, enquanto as máquinas lidam com a mecânica técnica, os humanos retêm o “sabor” e o cerne emocional da história.
