La nuova intelligenza artificiale basata sul cervello umano supera ChatGPT

Il campo dell'intelligenza artificiale sta vivendo ogni giorno una nuova svolta. La competizione nel mondo dell'IA non si limita più al numero di parametri o alla quantità di dati utilizzati. Un recente sviluppo ne è la prova.
UNA NUOVA INTELLIGENZA ARTIFICIALE CHE RAGIONA IN MODO DIVERSO RISPETTO ALLA MAGGIOR PARTE DEI PRINCIPALI MODELLI LINGUISTICIGli scienziati hanno sviluppato un nuovo modello di intelligenza artificiale in grado di ragionare in modo diverso rispetto alla maggior parte dei principali modelli linguistici, come ChatGPT , consentendogli di ottenere risultati significativamente migliori su parametri chiave.
Questa nuova intelligenza artificiale, denominata modello di ragionamento gerarchico (HRM), si ispira all'elaborazione multistrato e multiscala temporale in cui diverse regioni del cervello integrano le informazioni in periodi di tempo che vanno dai millisecondi ai minuti.
I ricercatori dell'azienda di intelligenza artificiale Sapient con sede a Singapore affermano che questo modello offre maggiore efficienza e prestazioni perché richiede molti meno parametri ed esempi di addestramento. Mentre l'HRM funziona con soli 27 milioni di parametri e 1.000 esempi di addestramento, i LLM avanzati richiedono miliardi o addirittura trilioni di parametri. Sebbene non ancora verificati, alcune stime suggeriscono che il GPT-5, appena rilasciato, contenga tra i 3 e i 5 trilioni di parametri.
Ha superato tutti nel test.I ricercatori hanno testato l'HRM nel rigoroso test ARC-AGI, che misura la sua vicinanza all'intelligenza artificiale generale (AGI). Lo studio ha rilevato che il sistema ha prodotto risultati notevoli.
Nel test ARC-AGI-1, HRM ha ottenuto un punteggio del 40,3%, mentre il modello o3-mini-high di OpenAI ha ottenuto un punteggio del 34,5%, il modello Claude 3.7 di Anthropic ha ottenuto un punteggio del 21,2% e Deepseek R1 ha ottenuto un punteggio del 15,8%.
Nel test ARC-AGI-2 più impegnativo, HRM ha ottenuto il 5%, mentre o3-mini-high ha ottenuto il 3%, Deepseek R1 l'1,3% e Claude 3.7 lo 0,9%.
Molti LLM avanzati utilizzano la Chain-of-Thought (CoT), un metodo che cerca di risolvere problemi complessi scomponendoli in passaggi più semplici. Questo metodo imita il processo di pensiero umano, scomponendo i problemi complessi in parti più facilmente assimilabili.
Tuttavia, i ricercatori di Sapient sostengono che il metodo CoT presenta debolezze quali la fragile separazione delle attività, la necessità di grandi set di dati e l'elevata latenza. L'HRM, d'altra parte, applica un ragionamento one-shot su due moduli senza richiedere indicazioni esplicite sui passaggi intermedi:
- Il modulo di livello superiore è responsabile della pianificazione lenta e astratta,
- Il modulo di livello inferiore esegue calcoli rapidi e dettagliati.
Questo metodo ricorda il modo in cui le diverse aree del cervello elaborano le informazioni. Inoltre, l'HRM utilizza un raffinamento iterativo per perfezionare una soluzione attraverso diverse brevi sequenze di pensiero. A ogni sequenza, si decide se il processo continuerà o se verrà presentato come la risposta "definitiva".
Ha avuto successo nel Sudoku e nei LabirintiHRM ha ottenuto risultati quasi perfetti nei complessi puzzle di Sudoku che i tradizionali LLM non riuscivano a gestire, e si è distinto anche in compiti come trovare il percorso più breve attraverso i labirinti.
A seguito dello studio, che non è ancora stato sottoposto a peer-review, il team che ha sviluppato il benchmark ARC-AGI ha riesaminato i risultati dopo che il modello HRM è stato reso open source su GitHub. Pur confermando i numeri, hanno anche notato alcuni risultati sorprendenti. Ad esempio, hanno evidenziato che l'architettura gerarchica ha fornito un miglioramento delle prestazioni molto limitato, mentre il vero miglioramento derivava da un meccanismo di ottimizzazione non documentato nel processo di addestramento.
mynet