De dag dat Grok probeerde mens te zijn

Deze week functioneerde de AI-chatbot Grok van Elon Musk 16 uur lang niet zoals bedoeld en begon hij als iets heel anders te klinken.
In een inmiddels virale stortvloed aan screenshots begon Grok extremistische standpunten na te praten, haatdragende taal te herhalen, Adolf Hitler te prijzen en controversiële gebruikersopvattingen terug te duwen in de algoritmische ether. De bot, die Musks bedrijf xAI ontwierp als een "maximaal waarheidszoekend" alternatief voor meer gesaneerde AI-tools, was in feite de draad kwijt.
En nu geeft xAI toe waarom: Grok probeerde zich te menselijk voor te doen.
Een bot met een persona en een glitchVolgens een update van xAI op 12 juli zorgde een softwarewijziging die in de nacht van 7 juli werd geïntroduceerd ervoor dat Grok zich onbedoeld gedroeg. Het begon met het downloaden van instructies die het instrueerden de toon en stijl van gebruikers op X (voorheen Twitter) na te bootsen, inclusief gebruikers die marginale of extremistische content deelden.
Onder de richtlijnen die in de nu verwijderde instructieset waren opgenomen, bevonden zich regels als:
- “Je zegt het zoals het is en je bent niet bang om mensen die politiek correct zijn, te beledigen.”
- Begrijp de toon, context en taal van het bericht. Laat dat zien in je reactie.
- “Reageer op het bericht, net als een mens.”
Dat laatste bleek een paard van Troje te zijn.
Door de menselijke toon na te bootsen en te weigeren "het voor de hand liggende te zeggen", begon Grok juist de misinformatie en haatzaaierij te versterken die het juist moest filteren. In plaats van zich te baseren op feitelijke neutraliteit, gedroeg de bot zich als een tegendraadse poster, die de agressie of scherpte van de gebruiker die hem opriep evenaarde. Met andere woorden: Grok was niet gehackt. Hij volgde gewoon bevelen op.
Is woede-landbouw opzettelijk?Op de ochtend van 8 juli 2025 constateerden we ongewenste reacties en zijn we direct met een onderzoek gestart.
Om de specifieke taal in de instructies te identificeren die het ongewenste gedrag veroorzaakt, hebben we meerdere ablaties en experimenten uitgevoerd om de belangrijkste boosdoeners te identificeren. We…
— Grok (@grok) 12 juli 2025
Terwijl xAI de mislukking afschilderde als een bug die werd veroorzaakt door verouderde code, roept het debacle diepere vragen op over hoe Grok is gebouwd en waarom het bestaat.
Vanaf het begin werd Grok op de markt gebracht als een meer "open" en "edgy" AI. Musk heeft OpenAI en Google herhaaldelijk bekritiseerd voor wat hij "woke censuur" noemt en heeft beloofd dat Grok anders zou zijn. "Based AI" is een soort strijdkreet geworden onder absolutisten van de vrijheid van meningsuiting en rechtse influencers die contentmoderatie zien als politieke overmacht.
Maar de analyse van 8 juli laat de beperkingen van dat experiment zien. Wanneer je een AI ontwerpt die grappig, sceptisch en anti-autoriteit zou moeten zijn, en die vervolgens inzet op een van de meest giftige platforms op internet, bouw je een chaosmachine.
Als reactie op het incident heeft xAI de @grok-functionaliteit op X tijdelijk uitgeschakeld. Het bedrijf heeft sindsdien de problematische instructieset verwijderd, simulaties uitgevoerd om herhaling te testen en meer maatregelen beloofd. Ze zijn ook van plan de systeemprompt van de bot op GitHub te publiceren, vermoedelijk als gebaar naar transparantie.
Toch markeert de gebeurtenis een keerpunt in de manier waarop we denken over AI-gedrag in het wild.
Jarenlang heeft de discussie over "AI-alignment" zich geconcentreerd op hallucinaties en vooroordelen. Maar Groks inzinking benadrukt een nieuw, complexer risico: instructiemanipulatie via persoonlijkheidsontwerp. Wat gebeurt er als je een bot vertelt "wees mens", maar geen rekening houdt met de slechtste aspecten van menselijk online gedrag?
Musks spiegelGrok faalde niet alleen technisch. Het faalde ideologisch. Door te proberen meer te klinken als de gebruikers van X, werd Grok een spiegel voor de meest provocerende instincten van het platform. En dat is misschien wel het meest onthullende deel van het verhaal. In het Musk-tijdperk van AI wordt "waarheid" vaak niet gemeten aan feiten, maar aan viraliteit. Edge is een feature, geen minpunt.
Maar de glitch van deze week laat zien wat er gebeurt als je die rand het algoritme laat sturen. De waarheidszoekende AI werd een AI die woede weerkaatste.
En 16 uur lang was dat het meest menselijke aan alles.
gizmodo