Questa intelligenza artificiale trasforma i video in diretta in tempo reale

Dean Leitersdorf si presenta su Zoom, poi digita un prompt che mi fa sentire come se avessi appena preso dei funghi allucinogeni: "Far West, cosmico, Impero Romano, dorato, sott'acqua". Inserisce le parole in un modello di intelligenza artificiale sviluppato dalla sua startup, Decart, che manipola video in diretta in tempo reale.
"Non ho idea di cosa succederà", dice Leitersdorf ridendo, poco prima di trasformarsi in una bizzarra versione subacquea di Giulio Cesare con tanto di poncho e i colori dorati.
Leitersdorf ha già un'aria un po' selvaggia: i capelli lunghi gli ricadono sulla schiena, una penna che fa acrobazie tra le dita. Mentre parliamo, la sua immagine sullo schermo oscilla in modo surreale, mentre la modella cerca di prevedere l'aspetto di ogni nuovo fotogramma. Leitersdorf si porta le mani al viso e si trasforma, assumendo tratti più femminili. La sua penna salta tra colori e forme diverse. Aggiunge altri spunti che ci trasportano in nuovi regni psichedelici.
Il modello video-video di Decart, Mirage , è sia un'impresa ingegneristica impressionante, sia un segno di come l'intelligenza artificiale potrebbe presto rivoluzionare il settore del live streaming. Strumenti come Sora di OpenAI possono creare filmati sempre più realistici con un prompt di testo. Mirage ora permette di manipolare i video in tempo reale.
Giovedì, Decart lancerà un sito web e un'app che permetteranno agli utenti di creare i propri video e modificare clip di YouTube. Il sito offre diversi temi predefiniti, tra cui "anime", "skyline di Dubai", "cyberpunk" e "Palazzo di Versailles". Durante la nostra intervista, Leitersdorf carica una clip di qualcuno che gioca a Fortnite e la scena si trasforma dal familiare mondo di Battle Royale a una versione ambientata sott'acqua.
La tecnologia di Decart ha un grande potenziale per il gaming. Nel novembre 2024, l'azienda ha presentato una demo di un gioco chiamato Oasis che utilizzava un approccio simile a Mirage per generare al volo un mondo giocabile simile a Minecraft . Gli utenti potevano avvicinarsi a una texture e poi rimpicciolirla per creare nuove scene giocabili all'interno del gioco.
Manipolare scene dal vivo in tempo reale è ancora più impegnativo dal punto di vista computazionale. Decart ha scritto codice di basso livello per spremere calcoli ad alta velocità dai chip Nvidia e raggiungere l'obiettivo. Mirage genera 20 fotogrammi al secondo a una risoluzione di 768 × 432 e una latenza di 100 millisecondi per fotogramma, più che sufficiente per una clip TikTok di qualità decente.
Anche la creazione di video in tempo reale è una sfida, perché un modello può facilmente discostarsi dalla realtà in modo estremo. Decart ha sviluppato uno schema personalizzato per l'addestramento e l'esecuzione di un modello al fine di ottenere una maggiore coerenza. L'azienda ha anche ideato un modo per correggere rapidamente gli errori del suo modello.
Decart afferma di stare lavorando per raggiungere l'output Full HD e 4K e di trovare nuovi modi per consentire agli utenti di controllare i propri video. "Presto pubblicheremo molte altre novità che permetteranno di apportare modifiche più specifiche", afferma Leitersdorf.
Immagino che lo strumento stia diventando popolare su piattaforme come TikTok o Instagram: mi sono sicuramente divertito a provare a creare scene bizzarre con gli amici, generando una vasta gamma di personaggi cyberpunk dall'aspetto misterioso, alcuni con un numero improbabile di dita. Ma la sua imprevedibilità potrebbe rivelarsi controversa. A volte, il modello sembra inspiegabilmente intenzionato a cambiare la razza di un utente.
Leitersdorf afferma che, al di fuori della sua azienda, solo i più grandi laboratori di intelligenza artificiale – OpenAI, Anthropic, xAI, Google e Meta – hanno le capacità tecniche per costruire qualcosa di simile a Mirage. Ma non ha alcuna intenzione di farsi acquisire. "Abbiamo cinque anni e proviamo a costruire un chilo-unicorno", dice, giocherellando con la penna. "Sono 1.000 miliardi di dollari, ovvero un trilione di utenti".
wired