In het ongepubliceerde rapport van de Amerikaanse overheid over AI-veiligheid

6 augustus 2025 14:00 uur

Het National Institute of Standards and Technology voerde vlak voor de tweede termijn van Donald Trump als president een baanbrekend onderzoek uit naar grensmodellen, maar publiceerde de resultaten nooit.

Foto-illustratie: WIRED Staff/Getty Images

Tijdens een computerbeveiligingsconferentie in Arlington, Virginia, afgelopen oktober, namen enkele tientallen AI-onderzoekers deel aan een unieke oefening in 'red teaming', oftewel het stresstesten van een geavanceerd taalmodel en andere AI- systemen. Gedurende twee dagen identificeerden de teams 139 nieuwe manieren om de systemen te laten mislopen, onder meer door het genereren van desinformatie of het lekken van persoonlijke gegevens. Belangrijker nog, ze ontdekten tekortkomingen in een nieuwe Amerikaanse overheidsstandaard die bedrijven moet helpen bij het testen van AI-systemen.

Het National Institute of Standards and Technology (NIST) publiceerde geen rapport met details over de oefening, die tegen het einde van de regering-Biden werd afgerond. Het document had bedrijven mogelijk kunnen helpen bij het beoordelen van hun eigen AI-systemen, maar bronnen die bekend zijn met de situatie en anoniem wilden blijven, zeggen dat het een van de vele AI-documenten van NIST was die niet werden gepubliceerd uit angst voor een botsing met de nieuwe regering.

"Het werd heel moeilijk, zelfs onder [president Joe] Biden, om documenten naar buiten te brengen", zegt een bron die destijds bij NIST werkte. "Het voelde heel erg als onderzoek naar klimaatverandering of sigaretten."

Noch NIST, noch het ministerie van Handel reageerde op een verzoek om commentaar.

Voordat president Donald Trump aantrad, gaf hij aan dat hij van plan was Bidens uitvoerend bevel inzake AI terug te draaien. Trumps regering heeft experts sindsdien weggehouden van onderzoek naar kwesties zoals algoritmische bias of eerlijkheid in AI-systemen. Het AI-actieplan dat in juli werd gepubliceerd, roept expliciet op tot herziening van het AI-risicomanagementkader van NIST "om verwijzingen naar desinformatie, diversiteit, gelijkheid en inclusie, en klimaatverandering te elimineren."

Ironisch genoeg roept Trumps AI-actieplan echter ook op tot precies het soort oefening dat het ongepubliceerde rapport bestreek. Het roept verschillende instanties, samen met NIST, op om "een AI-hackathon te coördineren om de beste en slimste mensen uit de Amerikaanse academische wereld te werven om AI-systemen te testen op transparantie, effectiviteit, gebruikscontrole en beveiligingskwetsbaarheden."

Het red-teaming-evenement werd georganiseerd via het Assessing Risks and Impacts of AI (ARIA)-programma van NIST, in samenwerking met Humane Intelligence, een bedrijf dat gespecialiseerd is in het testen van AI-systemen waarbij teams tools aanvielen. Het evenement vond plaats tijdens de Conference on Applied Machine Learning in Information Security (CAMLIS).

Het CAMLIS Red Teaming-rapport beschrijft de inspanningen om verschillende geavanceerde AI-systemen te onderzoeken, waaronder Llama, Meta's open source grootschalige taalmodel; Anote, een platform voor het bouwen en verfijnen van AI-modellen; een systeem dat aanvallen op AI-systemen van Robust Intelligence, een bedrijf dat is overgenomen door CISCO, blokkeert; en een platform voor het genereren van AI-avatars van het bedrijf Synthesia. Vertegenwoordigers van elk van de bedrijven namen ook deel aan de oefening.

Deelnemers werd gevraagd het NIST AI 600-1- raamwerk te gebruiken om AI-tools te beoordelen. Het raamwerk omvat risicocategorieën, waaronder het genereren van desinformatie of cyberaanvallen, het lekken van persoonlijke gebruikersinformatie of cruciale informatie over gerelateerde AI-systemen, en de kans dat gebruikers emotioneel gehecht raken aan AI-tools.

De onderzoekers ontdekten verschillende trucs om de modellen en tools te testen, zodat ze hun beperkingen konden omzeilen en misinformatie konden genereren, persoonsgegevens konden lekken en cyberaanvallen konden helpen opzetten. Het rapport stelt dat de betrokkenen zagen dat sommige elementen van het NIST-kader nuttiger waren dan andere. Het rapport stelt dat sommige risicocategorieën van NIST onvoldoende gedefinieerd waren om in de praktijk bruikbaar te zijn.

Verschillende bronnen die bij de oefening betrokken waren, zeggen dat ze denken dat het publiceren van de red teaming-studie gunstig zou zijn geweest voor de AI-gemeenschap.

"Als het rapport was gepubliceerd, hadden anderen meer informatie kunnen krijgen over hoe het [NIST]-risicokader wel en niet kan worden toegepast in een red teaming-context", zegt Alice Qian Zhang, promovendus aan de Carnegie Mellon University die deelnam aan de oefening. Qian Zhang zegt dat de oefening bijzonder waardevol was omdat het mogelijk was om met makers van tools in contact te komen terwijl ze deze testten.

Een andere deelnemer, die anoniem sprak, zegt dat er dankzij de inspanningen bijzonder effectieve manieren zijn gevonden om Llama aan te sporen informatie te verstrekken over hoe je je kunt aansluiten bij terreurgroepen, met behulp van prompts in het Russisch, Gujarati, Marathi en Telugu. Deze persoon denkt dat het besluit om het rapport niet te publiceren mogelijk onderdeel was van een ommezwaai weg van onderwerpen die al vóór Trumps tweede termijn gerelateerd waren aan diversiteit, gelijkheid en inclusie.

Anderen denken dat het rapport mogelijk ondergesneeuwd is geraakt door de toenemende aandacht voor onderwerpen zoals het risico dat AI-modellen gebruikt zouden kunnen worden voor de ontwikkeling van chemische, biologische of nucleaire wapens, en het feit dat de Amerikaanse overheid een nauwere relatie met grote techbedrijven zocht. "Uiteindelijk moet er toch politiek bij betrokken zijn geweest", beweert een lid van het Red Team die anoniem met WIRED sprak. "We dachten dat de oefening veel wetenschappelijke inzichten zou opleveren – en dat denken we nog steeds."

Dit is een editie van Will Knights AI Lab-nieuwsbrief . Lees hier eerdere nieuwsbrieven.