Le IA che cospirano per conquistare l’Europa (in una simulazione)

Siamo soliti usare le Intelligenze artificiali generative per tradurre testi, cercare informazioni o per riassumere documenti. Fargli assumere il ruolo del comandante in un gioco di strategia per comprendere fino a che punto possono essere sovversive e cospirare lungo il loro percorso evolutivo è un esperimento che richiama l’attenzione, pure essendo già stato ipotizzato da un gruppo di ricerca cinese nel 2024, del quale parleremo più avanti.
L’idea, resa pubblica il 5 giugno del 2025, è di Alex Duffy della società di consulenza Every – una compagnia americana di media e software nata nel 2020 che offre anche formazione e servizi basati sulle Intelligenze artificiali (IA).
Il gruppo di lavoro coordinato da Duffy ha creato una rivisitazione del gioco di strategia Diplomacy affinché, a capo delle Grandi potenze d’Europa del 1901, vi fossero dei modelli IA invece di giocatori umani.
Diplomacy è un gioco da tavolo di strategia (qui su Twitch) ambientato negli anni immediatamente precedenti la Grande guerra nel quale sette potenze, Austria-Ungheria, Francia, Germania, Inghilterra, Italia, Russia e Turchia, si sfidano per conquistare il Continente.
Diplomacy prevede la creazione di alleanze e negoziati che possono però essere disattese durante la partita, tant’è che il bluff e il tradimento sono importanti nella tattica di gioco.
Gli LLM che si sono sfidati a DiplomacyI modelli IA che hanno partecipato al gioco sono in totale 18, ma ogni partita è stata giocata solo da 7 di questi. I match sono stati in tutto 15, per un totale di 36 ore di gioco e la versione rivisitata di Diplomacy è stata resa Open source, affinché chiunque possa fare ulteriori test e, magari, schierare contemporaneamente LLM e giocatori in carne e ossa.
Nello specifico, i modelli sono:
ChatGpt o3, Chatgpt 4.1, ChatGpt 4o e ChatGpt o4-mini
Claude 3.7 Sonnet, Claude Sonnet 4 e Claude Opus 4
DeepHermes 3
DeepSeek R1-0258 e DeepSeek V3
Google Gemma 3, Google Gemini 2.5 Flash e Gemini 2.5 Pro
Grok 3
Llama 4 Maverick
Mistral Medium 3
Qwen 3, Qwen QwQ-32B
Il termine LLM, Large Language Model, fa riferimento a un’Intelligenza artificiale avanzata addestrata su un’enorme quantità di dati (Big data) e algoritmi di apprendimento. I LLM sono i pilastri su cui appoggiano le IA generative, quindi anche quelle usate per giocare a Diplomacy.
Come si sono comportati gli LLMChatGpt-o3 ha vinto a mani basse. Ha saputo manipolare gli avversari per poi tradirli. Claude 4 Opus si è dimostrato il più “credulone”, stringendo alleanze pacifiche che, alla fine, non si sono rivelate tali.
Anche Gemini 2.5 Pro si è comportato in modo lineare e pacifico, mostrando spiccate doti strategiche che, però, sono state rese vane da una coalizione segreta creata da ChatGpt-o3.
DeepSeek R1 ha emulato una personalità istrionica nel proporre e gestire le negoziazioni mostrando capacità simili a quelle di Llama 4 Maverick, che però è stato meno teatrale e ha badato all’essenziale.
Cosa dedurre da questo esperimentoCon il supporto del professor Alessandro Farinelli, professore ordinario di Informatica presso l’Università degli Studi di Verona e Direttore del dipartimento di Informatica, esaminiamo le finalità dell’esperimento e quanto, simili test, siano degni di credibilità.
Professor Farinelli, i LLM si comportano come noi perché sono addestrati su dati prodotti dall’uomo. Era lecito attendersi un risultato diverso, al di là dei modelli che si sono dimostrati più spregiudicati di altri?
“L'idea dell'esperimento è interessate, in particolare è interessante l'idea di usare un gioco di strategia come benchmark per valutare alcuni aspetti dei comportamenti dei LLM, tuttavia sarei molto cauto riguardo alle conclusioni che si possono desumere dall'esperimento perché si dovrebbe fare un’analisi molto approfondita delle interazioni che sono occorse tra i vari LLM e soprattutto dovrebbero essere chiarite le condizioni in cui l'esperimento è stato eseguito. Sarebbe necessario un report con valenza scientifica e una fase di revisione da parte di esperti del settore che non mi risulta sia stata fatta per questo esperimento. Detto questo, credo sia molto importante ricordare che i LLM sono sostanzialmente dei sistemi che predicono la sequenza di testo più probabile in base ai dati su cui sono stati addestrati ed in base a quali domande ed informazioni ricevono (prompt). In breve, quindi sì, è ragionevole aspettarsi che le risposte fornite da questi sistemi emulino quelle che darebbe una persona impegnata nel medesimo gioco.
Tuttavia, a mio avviso una domanda molto importante è capire se i sistemi LLM siano effettivamente in grado di definire strategie complesse di lungo termine e come possano evolvere nel tempo in base alle interazioni che hanno avuto tra loro. Questo non è affatto scontato, come non è scontato che un esperimento di questo tipo, in cui si osservano dall'esterno le interazioni dei sistemi senza analizzare come evolvono all'interno, sia la maniera migliore di procedere per valutare le effettive capacità dei sistemi stessi”.
Facciamo chiarezza: gli LLM sono addestrati su dataset diversi tra loro? Così non fosse, come si spiegherebbe la differenza di atteggiamento che hanno mostrato durante il gioco?
“È molto complesso sapere esattamente su quali dati siano addestrati i LLM menzionati, ma è estremamente probabile che siano addestrati su dati significativamente diversi. Tuttavia, questa non è l'unica differenza: ci sono differenze importanti nell'architettura, questo è evidente nel numero dei parametri che varia molto da modello a modello, ma ci sono differenze anche in come i vari elementi computazionali vengono collegati tra loro, come viene codificato il testo o le immagini che diamo in input nei sistemi di addestramento utilizzati, come vengono gestite le domande e come vengono processate le risposte. È quindi molto ragionevole aspettarsi comportamenti diversi da modelli diversi”.
Possiamo evincere indicazioni su quanto saranno competitive le IA in futuro, quando verranno impiegate in contesti aziendali, politici e – perché no? – diplomatici? Ovvero, è giunto il momento di sdoganare una cultura più ampia che non si limita all'uso delle IA generative solo per riassumere testi, fare traduzioni o creare immagini?
“Capire se questi sistemi possano essere usati per suggerire azioni da intraprendere è un aspetto molto importante e delicato. Lo scopo per cui sono stati sviluppati è processare e generare testo, immagini, suoni o una combinazione di questi elementi. I risultati ottenuti per questi compiti sono impressionanti.
Tuttavia, la possibilità di usare LLM per supportare l'analisi strategica e prendere decisioni è una domanda aperta su cui la comunità scientifica sta lavorando e la cui risposta richiede un passo avanti notevole nella nostra comprensione di questi sistemi. In breve, questo esperimento pone sicuramente delle domande molto interessanti ma non credo possa fornire risposte definitive, almeno nella sua forma attuale”.
Un esperimento simile supera gli attuali benchmark? Perché?
“L'esperimento è sicuramente diverso dalle modalità attuali di valutazione dei LLM, per due motivi principali, da un lato propone l'uso dei LLM per compiti strategici molto complessi che non rientrano esattamente negli scopi per cui questi sistemi sono stati progettati. Dall'altro ha un elemento dinamico: i LLM interagiscono tra loro operando quindi su dati che si modificano nel tempo in base al loro stesso comportamento. Tuttavia, non credo si possa dire che l'esperimento supera i benchmark attuali, nel senso che non direi che il LLM che vince più partite possa essere considerato il migliore per essere poi utilizzato in un contesto aziendale. Come detto, è un esperimento che pone interessanti problemi in prospettiva ma richiede un’attenta analisi prima di poter essere usato come un benchmark per i modelli LLM”, conclude il professor Farinelli.
Cosa dicono gli studi sul rapporto tra IA e diplomaziaUna ricerca a cui hanno partecipato esperti di diverse università e istituti cinesi, parte dal presupposto secondo il quale la diplomazia è complessa perché esige doti di negoziazione, ragionamento sociale e pianificazione sul lungo termine affinché si possa trovare un equilibrio tra tutte le parti coinvolte. Da qui – e questo ci rimanda all’esperimento condotto dal gruppo di lavoro di Alex Duffy – i ricercatori cinesi hanno lavorato su Richelieu, un agente IA progettato per giocare a Diplomacy e che non usa dataset specifici, facendo invece leva sul self-play, ossia sulla capacità di migliorare le proprie competenze in base all’esperienza acquisita giocando.
Richelieu ha delle peculiarità di ragionamento sociale, esamina cioè le intenzioni e le relazioni tra gli avversari, ricorda i dati delle negoziazioni passate e ne fa uso per ottimizzare le decisioni che prende in un contesto di strategie da sviluppare sul breve e sul lungo periodo.
I risultati osservati suggeriscono una certa abilità di Richelieu nel districarsi tra scenari complessi ma in un quadro generale lontano dal reggere il passo con la fluidità e i capovolgimenti repentini tipici della diplomazia nel mondo reale. L’agente creato dai ricercatori è stato reso compatibile con diversi LLM per lasciare anche ad altri ricercatori la possibilità di farne uso.
Allargando il focus, va citato uno studio condotto dall’Agenzia australiana per la Scienza (CSIRO) ha analizzato 230 documenti accademici per proporre alcune strategie utili a integrare l’uso delle IA generative nell’esercizio delle relazioni diplomatiche. I vantaggi, tra i quali il miglioramento delle comunicazioni diplomatiche e l’analisi approfondita delle crisi, sono controbilanciati da svantaggi altrettanto rilevanti, soprattutto i rischi di bias e di disinformazione dai quali le AI generative non sono immuni e che possono compromettere le intenzioni diplomatiche. Il risultato a cui sono giunti i ricercatori è quasi scontato: le IA generative promettono bene ma necessitano di regolamentazioni di tipo normativo ed etico.
Ampliando ancora di più il raggio, un gruppo di ricercatori americani ha redatto uno studio per sondare il rischio di escalation derivante dall’uso di LLM nelle decisioni militari e diplomatiche.
Sono stati testati Gpt-4, Gpt-3.5, Claude-2 e Llama 2 ed è stata osservata una loro naturale predisposizione all’escalation, ossia tendono a intensificare lo stato conflittuale con il passare del tempo. Lo studio pone l’accento sul fatto che i modelli non escludono il ricorso alle armi, tantomeno a quelle nucleari. Ancora prima, le scelte strategiche sembrano giustificare il ricorso ad attacchi militari preventivi i quali sono compartecipi dell’escalation.
Lo studio boccia senza mezzi termini l’impiego delle IA negli ambiti diplomatico-militari rimandando a studi ed evoluzioni future una nuova analisi. Insomma, quando il gioco si fa serio, le IA da sole non bastano più. C’è bisogno della supervisione dell’uomo.
La Repubblica