MolmoAct-model van Ai2 'denkt in 3D' om Nvidia en Google uit te dagen op het gebied van robotica-AI

Wilt u slimmere inzichten in uw inbox? Meld u aan voor onze wekelijkse nieuwsbrieven en ontvang alleen wat relevant is voor leiders op het gebied van AI, data en beveiliging voor ondernemingen. Abonneer u nu.
Fysieke AI, waarbij robotica en fundamentele modellen samenkomen, groeit snel. Bedrijven als Nvidia , Google en Meta publiceren onderzoek en experimenteren met het combineren van grote taalmodellen (LLM's) met robots.
Nieuw onderzoek van het Allen Institute for AI (Ai2) wil Nvidia en Google uitdagen op het gebied van fysieke AI met de release van MolmoAct 7B, een nieuw open-sourcemodel waarmee robots kunnen "redeneren in de ruimte". MolmoAct, gebaseerd op Ai2's open-source Molmo, "denkt" in drie dimensies. Het bedrijf publiceert ook zijn trainingsdata. Ai2 heeft een Apache 2.0-licentie voor het model, terwijl de datasets een CC BY-4.0-licentie hebben.
Ai2 classificeert MolmoAct als een Action Reasoning Model, waarin fundamentele modellen redeneren over acties binnen een fysieke, driedimensionale ruimte.
Dit betekent dat MolmoAct zijn redeneervermogen kan gebruiken om de fysieke wereld te begrijpen, te plannen hoe het de ruimte inneemt en vervolgens actie te ondernemen.
AI-schaalbaarheid bereikt zijn grenzen
Power caps, stijgende tokenkosten en vertragingen bij inferentie veranderen de AI van bedrijven. Kom naar onze exclusieve salon en ontdek hoe topteams:
- Energie omzetten in een strategisch voordeel
- Het ontwerpen van efficiënte inferentie voor echte doorvoerwinst
- Concurrerende ROI ontsluiten met duurzame AI-systemen
Zorg dat je plek veilig is om voorop te blijven lopen : https://bit.ly/4mwGngO
"MolmoAct heeft mogelijkheden voor redenering in 3D-ruimte vergeleken met traditionele vision-language-action (VLA)-modellen", vertelde Ai2 aan VentureBeat in een e-mail. "De meeste roboticamodellen zijn VLA's die niet in de ruimte denken of redeneren, maar MolmoAct heeft deze mogelijkheid, waardoor het vanuit een architectonisch oogpunt performanter en generaliseerbaarder is."
Omdat robots in de fysieke wereld bestaan, beweert Ai2 dat MolmoAct robots helpt hun omgeving in zich op te nemen en betere beslissingen te nemen over hoe ze met hen omgaan.
"MolmoAct kan overal worden toegepast waar een machine moet nadenken over zijn fysieke omgeving", aldus het bedrijf. "We denken er vooral aan in een thuissituatie, omdat daar de grootste uitdaging voor robotica ligt. De dingen zijn daar onregelmatig en veranderen constant. Maar MolmoAct kan overal worden toegepast."
MolmoAct kan de fysieke wereld begrijpen door "ruimtelijk gegronde perceptietokens" uit te voeren. Dit zijn tokens die vooraf zijn getraind en geëxtraheerd met behulp van een vectorgekwantiseerde variationele auto-encoder of een model dat data-invoer, zoals video, omzet in tokens. Het bedrijf stelt dat deze tokens verschillen van die van VLA's doordat ze geen tekstinvoer zijn.
Deze stellen MolmoAct in staat om ruimtelijk inzicht te verkrijgen en geometrische structuren te coderen. Hiermee schat het model de afstand tussen objecten.
Zodra de geschatte afstand bekend is, voorspelt MolmoAct een reeks waypoints in de "beeldruimte" of punten in het gebied waar het een pad naartoe kan uitzetten. Daarna begint het model met het uitvoeren van specifieke acties, zoals het een paar centimeter laten zakken van een arm of het uitstrekken ervan.
Onderzoekers van Ai2 zeiden dat ze het model konden aanpassen aan verschillende uitvoeringen (bijvoorbeeld een mechanische arm of een humanoïde robot) "met slechts minimale fijnafstemming."
Benchmarkingtests uitgevoerd door Ai2 lieten zien dat MolmoAct 7B een taaksuccespercentage van 72,1% had. Daarmee versloeg het modellen van Google, Microsoft en Nvidia.
Het onderzoek van Ai2 is het nieuwste dat de unieke voordelen van LLM's en VLM's benut, vooral nu het innovatietempo in generatieve AI blijft toenemen. Experts in het vakgebied beschouwen het werk van Ai2 en andere technologiebedrijven als bouwstenen.
Alan Fern, hoogleraar aan het Oregon State University College of Engineering , vertelde VentureBeat dat het onderzoek van Ai2 "een natuurlijke progressie vertegenwoordigt in het verbeteren van VLM's voor robotica en fysiek redeneren."
"Hoewel ik het niet revolutionair zou noemen, is het een belangrijke stap voorwaarts in de ontwikkeling van capabelere 3D-modellen voor fysiek redeneren", aldus Fern. "Hun focus op echt 3D-scènebegrip, in plaats van te vertrouwen op 2D-modellen, markeert een opmerkelijke verschuiving in de goede richting. Ze hebben verbeteringen aangebracht ten opzichte van eerdere modellen, maar deze benchmarks schieten nog steeds tekort om de complexiteit van de echte wereld vast te leggen en blijven relatief gecontroleerd en speels van aard."
Hij voegde eraan toe dat er nog steeds ruimte is voor verbetering van de benchmarks, maar dat hij "er graag naar uitkijkt om dit nieuwe model te testen op een aantal van onze fysieke redeneertaken."
Daniel Maturana, medeoprichter van de start-up Gather AI , prees de openheid van de data en merkte op dat "dit geweldig nieuws is, omdat het ontwikkelen en trainen van deze modellen duur is. Dit is dus een stevig fundament om op voort te bouwen en te verfijnen voor andere academische laboratoria en zelfs voor toegewijde hobbyisten."
Voor veel ontwikkelaars en computerwetenschappers is het al lang een droom om robots te creëren die intelligenter zijn of in ieder geval meer ruimtelijk inzicht hebben.
Het bouwen van robots die snel verwerken wat ze kunnen "zien" en soepel bewegen en reageren, wordt echter lastig. Vóór de komst van LLM's moesten wetenschappers elke beweging programmeren. Dit betekende natuurlijk veel werk en minder flexibiliteit in de soorten robotacties die konden plaatsvinden. Tegenwoordig stellen LLM-gebaseerde methoden robots (of in ieder geval robotarmen) in staat om de volgende mogelijke acties te bepalen op basis van de objecten waarmee ze interacteren.
SayCan van Google Research helpt een robot te redeneren over taken met behulp van een LLM, waardoor de robot de volgorde van bewegingen kan bepalen die nodig is om een doel te bereiken. Meta en de OK-Robot van New York University gebruiken visuele taalmodellen voor bewegingsplanning en objectmanipulatie.
Hugging Face bracht een desktoprobot van $299 uit in een poging de ontwikkeling van robotica te democratiseren. Nvidia, dat fysieke AI uitriep tot de volgende grote trend , bracht verschillende modellen uit om de training van robots te versnellen, waaronder Cosmos-Transfer1 .
Fern van OSU zei dat er meer belangstelling is voor fysieke AI, hoewel de demo's nog beperkt zijn. De zoektocht naar algemene fysieke intelligentie, waardoor robots niet langer individueel acties hoeven te programmeren, wordt echter steeds eenvoudiger.
"Het landschap is nu uitdagender, met minder laaghangend fruit. Aan de andere kant bevinden grote modellen voor fysieke intelligentie zich nog in een vroeg stadium en zijn ze veel rijper voor snelle ontwikkelingen, wat deze sector bijzonder spannend maakt", zei hij.
Wil je indruk maken op je baas? VB Daily is de aangewezen plek. We geven je insiderinformatie over wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.
Lees ons privacybeleid
Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat