Ta sztuczna inteligencja przetwarza wideo na żywo w czasie rzeczywistym

Dean Leitersdorf przedstawia się przez Zoom, a następnie wpisuje komunikat, który sprawia, że czuję się, jakbym właśnie zażył grzyby halucynogenne: „Dziki Zachód, kosmiczny, Cesarstwo Rzymskie, złoty, podwodny”. Wprowadza te słowa do modelu sztucznej inteligencji opracowanego przez jego startup, Decart, który przetwarza obraz wideo na żywo w czasie rzeczywistym.
„Nie mam pojęcia, co się stanie” – mówi Leitersdorf ze śmiechem, tuż przed przemianą w dziwaczną, złotą, podwodną wersję Juliusza Cezara w ponczo.
Leitersdorf wygląda już nieco dziko – długie włosy opadają mu na plecy, a długopis wykonuje akrobacje w palcach. Podczas naszej rozmowy jego obraz na ekranie oscyluje w surrealistyczny sposób, gdy model próbuje przewidzieć, jak powinna wyglądać każda kolejna klatka. Leitersdorf zakrywa twarz dłońmi, a jego rysy stają się bardziej kobiece. Jego długopis skacze między różnymi kolorami i kształtami. Dodaje kolejne podpowiedzi, które przenoszą nas w nowe, psychodeliczne rejony.
Model wideo-wideo firmy Decart, Mirage , to zarówno imponujące osiągnięcie inżynieryjne, jak i zapowiedź tego, jak sztuczna inteligencja może wkrótce wstrząsnąć branżą transmisji strumieniowych na żywo. Narzędzia takie jak Sora firmy OpenAI potrafią wyczarować coraz bardziej realistyczne materiały wideo za pomocą komunikatów tekstowych. Mirage umożliwia teraz manipulowanie wideo w czasie rzeczywistym.
W czwartek Decart uruchamia stronę internetową i aplikację, które pozwolą użytkownikom tworzyć własne filmy i modyfikować klipy z YouTube. Strona oferuje kilka domyślnych motywów, w tym „anime”, „panorama Dubaju”, „cyberpunk” i „Pałac Wersalski”. Podczas naszego wywiadu Leitersdorf przesyła klip przedstawiający kogoś grającego w Fortnite , a scena zmienia się ze znanego świata Battle Royale w wersję rozgrywającą się pod wodą.
Technologia Decart ma ogromny potencjał w branży gier. W listopadzie 2024 roku firma zaprezentowała grę Oasis , która wykorzystywała podobne podejście jak Mirage do generowania grywalnego świata w stylu Minecrafta w locie. Użytkownicy mogli zbliżyć się do tekstury, a następnie oddalić widok, aby tworzyć nowe grywalne sceny w grze.
Manipulowanie scenami na żywo w czasie rzeczywistym jest jeszcze bardziej wymagające obliczeniowo. Decart napisał kod niskiego poziomu, aby wycisnąć z układów Nvidia szybkie obliczenia i osiągnąć ten cel. Mirage generuje 20 klatek na sekundę w rozdzielczości 768 × 432 i z opóźnieniem 100 milisekund na klatkę – wystarczająco dobrze, aby nagrać klip na TikToka w przyzwoitej jakości.
Tworzenie filmów w czasie rzeczywistym stanowi również wyzwanie, ponieważ model może łatwo i ekstremalnie odbiegać od rzeczywistości. Decart opracował własny schemat trenowania i uruchamiania modelu, aby osiągnąć większą spójność. Firma opracowała również sposób, w jaki jej model szybko koryguje błędy.
Decart twierdzi, że pracuje nad wyjściem w rozdzielczości Full HD i 4K oraz poszukuje nowych sposobów kontrolowania filmów przez użytkowników. „Wkrótce ukaże się wiele kolejnych wersji, które umożliwią bardziej szczegółową edycję” – mówi Leitersdorf.
Mogę sobie wyobrazić, że to narzędzie stanie się popularne na platformach takich jak TikTok czy Instagram – z pewnością dobrze się bawiłem, próbując tworzyć dziwne sceny ze znajomymi, generując szeroką gamę tajemniczo wyglądających postaci cyberpunkowych, niektóre z nieprawdopodobną liczbą palców. Jednak jego nieprzewidywalność może okazać się kontrowersyjna. Czasami model wydaje się w niewytłumaczalny sposób dążyć do zmiany rasy użytkownika.
Leitersdorf twierdzi, że poza jego własną firmą tylko największe laboratoria sztucznej inteligencji – OpenAI, Anthropic, xAI, Google i Meta – dysponują możliwościami technicznymi pozwalającymi na zbudowanie czegoś takiego jak Mirage. Nie zamierza jednak dać się przejąć. „Mamy pięć lat i spróbujemy zbudować kilo-jednorożca” – mówi, bawiąc się długopisem. „To 1000 miliardów dolarów, czyli bilion użytkowników”.
wired