Современное состояние генеративного ИИ в видео часто напоминает «фокус в один прием». Пользователь вводит текстовый запрос, создается видео, и если результат оказывается дефектным — например, с искаженными конечностями или неестественными движениями — у пользователя практически нет выбора, кроме как начинать всё сначала с новым промптом. Этот подход по принципу «черного ящика» создает барьер для профессиональных создателей контента, которым нужна точность, а не слепая удача.
Cartwheel, новый стартап в сфере 3D-анимации, пытается разорвать этот порочный круг. Основанная ветеранами индустрии Эндрю Карром (бывший сотрудник OpenAI) и Джонатаном Джарвисом (бывший сотрудник Google), компания создает инструменты, призванные автоматизировать сложную техническую работу по анимации, оставляя при этом творческие решения в руках художника.
Проблема данных: почему 3D сложнее, чем текст
В то время как большие языковые модели (LLM) и генераторы изображений процветают благодаря почти бесконечному количеству текста и картинок в интернете, данные о 3D-движениях найти гораздо труднее.
Дефицит высококачественных 3D-данных представляет собой серьезное препятствие для развития ИИ. В отличие от письменного языка, который в избытке, точные данные о том, как тела движутся в трехмерном пространстве, встречаются относительно редко. По словам сооснователя Джонатана Джарвиса, поиск этих данных оказался в «10–100 раз» сложнее, чем ожидалось изначально.
Чтобы преодолеть это, Cartwheel генерирует не просто «пиксели» (плоские изображения), а картирует человеческую биомеханику. Их модели нацелены на преобразование простых 2D-вводов — например, видео с танцующим человеком — в точные, реалистичные 3D-скелетные структуры. Это позволяет достичь такого уровня технической точности, с которым плоские видеогенераторы сравниться не могут.
Борьба с «однообразием ИИ» через творческий контроль
Распространенная критика генеративного ИИ касается его склонности к «однообразию» — феномена, когда контент, созданный одной и той же моделью, становится повторяющимся и лишенным индивидуальности.
Основатели Cartwheel утверждают, что это отсутствие разнообразия является прямым следствием отсутствия контроля. Их решение заключается в предоставлении «контрольного слоя», а не готового продукта.
- ИИ как мощный инструмент: Вместо генерации финального, неизменяемого видео, Cartwheel создает 3D-активы, которыми можно манипулировать.
- Редактирование после генерации: Поскольку результатом являются 3D-данные, создатели могут настраивать освещение, менять ракурсы камеры или корректировать позу персонажа уже после завершения процесса генерации.
- Персонализированная игра: Позволяя художникам «подправлять» движения, технология перестает быть заменой творца и становится высокотехнологичным инструментом для самовыражения.
Видение: безграничное повествование
Конечная цель Cartwheel выходит за рамки простой эффективности; речь идет о возможности «безграничного повествования».
В стремительно развивающихся сферах гейминга и социальных сетей спрос на контент превышает возможности традиционной ручной анимации. Cartwheel видит будущее, в котором персонажи не просто проигрывают заранее записанные циклы движений, а управляются моделями движения, позволяющими им реагировать и действовать в режиме реального времени.
Основатели предсказывают фундаментальный сдвиг в рабочем процессе индустрии:
«Все будут работать в 3D, даже если исходник создан в 2D, и даже если финальным результатом будет обычное 2D-видео».
Фокусируясь на «слое под пикселями» — на базовом движении и структуре — Cartwheel надеется преодолеть разрыв между 2D-видением создателя и высокоточной 3D-реальностью.
Заключение
Cartwheel стремится превратить генеративный ИИ из генератора статичных видео в динамичный движок для 3D-движений. Отдавая приоритет контролю и биомеханической точности, они стремятся к тому, чтобы, пока машины берут на себя техническую механику, люди сохраняли за собой «вкус» и эмоциональное сердце истории.



























