Сучасний стан генеративного ІІ відео часто нагадує «фокус в один прийом». Користувач вводить текстовий запит, створюється відео, і якщо результат виявляється дефектним – наприклад, зі спотвореними кінцівками або неприродними рухами – у користувача практично немає вибору, крім починати все спочатку з новим промптом. Цей підхід за принципом «чорної скриньки» створює бар’єр для професійних творців контенту, яким потрібна точність, а не сліпа удача.
Cartwheel, новий стартап у сфері 3D-анімації, намагається розірвати це порочне коло. Заснована ветеранами індустрії Ендрю Карром (колишній співробітник OpenAI) та Джонатаном Джарвісом (колишній співробітник Google) компанія створює інструменти, покликані автоматизувати складну технічну роботу з анімації, залишаючи при цьому творчі рішення в руках художника.
Проблема даних: чому 3D складніше, ніж текст
У той час як великі мовні моделі (LLM) та генератори зображень процвітають завдяки майже нескінченній кількості тексту та картинок в інтернеті, дані про 3D-рухи знайти набагато важче.
Дефіцит високоякісних 3D-даних є серйозною перешкодою для розвитку ІІ. На відміну від письмової мови, яка надміру, точні дані про те, як тіла рухаються в тривимірному просторі, зустрічаються відносно рідко. За словами співзасновника Джонатана Джарвіса, пошук цих даних виявився у «10–100 разів» складнішим, ніж очікувалося спочатку.
Щоб подолати це, Cartwheel генерує не просто «пікселі» (плоскі зображення), а картує людську біомеханіку. Їхні моделі націлені на перетворення простих 2D-вводів – наприклад, відео з танцюючим людиною – в точні, реалістичні 3D-скелетні структури. Це дозволяє досягти такого рівня технічної точності, з яким плоскі відеогенератори не можуть зрівнятися.
Боротьба з «одноманіттям ІІ» через творчий контроль
Поширена критика генеративного ІІ стосується його схильності до «одноманіття» — феномена, коли контент, створений однією моделлю, стає повторюваним і позбавленим індивідуальності.
Засновники Cartwheel стверджують, що відсутність різноманітності є прямим наслідком відсутності контролю. Їхнє рішення полягає у наданні «контрольного шару», а не готового продукту.
- ІІ як потужний інструмент: Замість генерації фінального, незмінного відео, Cartwheel створює 3D-активи, якими можна маніпулювати.
- Редагування після генерації: Оскільки результатом є 3D-дані, творці можуть налаштовувати освітлення, змінювати ракурси камери або коригувати позу персонажа вже після завершення процесу генерації.
- Персоналізована гра: Дозволяючи художникам «підправляти» рухи, технологія перестає бути заміною творця та стає високотехнологічним інструментом для самовираження.
Бачення: безмежна розповідь
Кінцева мета Cartwheel виходить за рамки простої ефективності; йдеться про можливість «безмежного оповідання».
У сферах геймінгу і соціальних мереж, що стрімко розвиваються, попит на контент перевищує можливості традиційної ручної анімації. Cartwheel бачить майбутнє, у якому персонажі непросто програють заздалегідь записані цикли рухів, а керуються моделями руху, дозволяють їм реагувати й у режимі реального часу.
Засновники пророкують фундаментальне зрушення у процесі індустрії:
«Всі працюватимуть у 3D, навіть якщо вихідний створений у 2D, і навіть якщо фінальним результатом буде звичайне 2D-відео».
Фокусуючись на «шарі під пікселями» – на базовому русі та структурі – Cartwheel сподівається подолати розрив між 2D-баченням творця та високоточною 3D-реальністю.
Висновок
Cartwheel прагне перетворити генеративний ІІ з генератора статичних відео на динамічний двигун для 3D-рухів. Віддаючи пріоритет контролю та біомеханічної точності, вони прагнуть того, щоб, поки машини беруть на себе технічну механіку, люди зберігали за собою «смак» та емоційне серце історії.
