Этот ИИ искажает живое видео в реальном времени

Дин Лейтерсдорф представляется через Zoom, а затем набирает подсказку, от которой у меня возникает ощущение, будто я только что принял психоделические грибы: «Дикий Запад, космический, Римская империя, золотой, подводный». Он вводит слова в модель искусственного интеллекта, разработанную его стартапом Decart, которая обрабатывает живое видео в режиме реального времени.
«Понятия не имею, что произойдет», — смеется Лейтерсдорф, незадолго до того, как превратиться в причудливую, золотистую, подводную версию Юлия Цезаря в пончо.
Лейтерсдорф и без того выглядит немного диковато: длинные волосы ниспадают на спину, ручка выделывает акробатические трюки в пальцах. Пока мы разговариваем, его изображение на экране сюрреалистично колеблется, пока модель пытается предсказать, как должен выглядеть каждый новый кадр. Лейтерсдорф закрывает лицо руками, и его черты преображаются, приобретая более женственные черты. Его ручка скачет между разными цветами и формами. Он добавляет новые подсказки, которые переносят нас в новые психоделические миры.
Модель видеоконтента Mirage , разработанная Декартом, — это одновременно впечатляющее достижение инженерной мысли и предвестник того, как искусственный интеллект может вскоре произвести революцию в индустрии прямых трансляций. Такие инструменты, как Sora от OpenAI, позволяют создавать невероятно реалистичные видеоматериалы с помощью текстовых подсказок. Mirage теперь позволяет обрабатывать видео в режиме реального времени.
В четверг компания Decart запускает веб-сайт и приложение, которые позволят пользователям создавать собственные видео и редактировать клипы на YouTube. На сайте предлагается несколько стандартных тем оформления, включая «аниме», «панорама Дубая», «киберпанк» и «Версальский дворец». Во время нашего интервью Лейтерсдорф загружает видео с кем-то, играющим в Fortnite , и сцена трансформируется из привычного мира королевской битвы в подводную версию.
Технология Decart имеет большой потенциал для игр. В ноябре 2024 года компания представила демо-версию игры Oasis , в которой использовался подход, аналогичный Mirage, для мгновенной генерации играбельного мира, похожего на Minecraft . Пользователи могли приближаться к текстуре, а затем снова отдалять её, создавая новые игровые сцены внутри игры.
Управление живыми сценами в реальном времени требует ещё больших вычислительных затрат. Декарт написал низкоуровневый код, чтобы выжать максимум из процессоров Nvidia и добиться этого. Mirage генерирует 20 кадров в секунду при разрешении 768 × 432 и задержке 100 миллисекунд на кадр — достаточно для качественного ролика в TikTok.
Создание видео в реальном времени также представляет собой сложную задачу, поскольку модель может легко и радикально отклоняться от реальности. Компания Decart разработала специальную схему обучения и запуска модели для достижения большей согласованности. Компания также разработала способ, позволяющий её модели быстро исправлять ошибки.
В Decart говорят, что компания работает над выходом видео в форматах Full HD и 4K, а также над поиском новых способов управления видео для пользователей. «Скоро мы выпустим ещё несколько релизов, которые позволят вам делать более точные монтажи», — говорит Лейтерсдорф.
Я могу представить, как этот инструмент станет популярным на таких платформах, как TikTok или Instagram. Мне, конечно, было весело создавать странные сцены с друзьями, генерируя множество загадочных киберпанковских персонажей, некоторые из которых обладают невероятным количеством пальцев. Но его непредсказуемость может вызвать споры. Иногда кажется, что модель необъяснимым образом стремится изменить расу пользователя.
Лейтерсдорф утверждает, что за пределами его компании только крупнейшие лаборатории искусственного интеллекта — OpenAI, Anthropic, xAI, Google и Meta — обладают техническими возможностями создать что-то вроде Mirage. Но он не намерен быть поглощенным. «У нас есть пять лет, и мы попытаемся создать килоединорога», — говорит он, поигрывая ручкой. «Это 1000 миллиардов долларов или триллион пользователей».
wired