Eén enkel vergiftigd document kan 'geheime' gegevens lekken via ChatGPT

De nieuwste generatieve AI-modellen zijn niet zomaar zelfstandige chatbots die tekst genereren . Ze kunnen eenvoudig worden gekoppeld aan je data om gepersonaliseerde antwoorden op je vragen te geven. OpenAI's ChatGPT kan worden gekoppeld aan je Gmail-inbox, je GitHub-code inzien of afspraken in je Microsoft-agenda vinden. Maar deze verbindingen kunnen misbruikt worden – en onderzoekers hebben aangetoond dat dit al met één "vergiftigd" document kan gebeuren.
Nieuwe bevindingen van beveiligingsonderzoekers Michael Bargury en Tamir Ishay Sharbat, vandaag onthuld op de Black Hat hackersconferentie in Las Vegas, laten zien hoe een zwakte in OpenAI's Connectors het mogelijk maakte om gevoelige informatie uit een Google Drive-account te halen met behulp van een indirecte promptinjectieaanval . In een demonstratie van de aanval, genaamd AgentFlayer , laat Bargury zien hoe het mogelijk was om ontwikkelaarsgeheimen te extraheren, in de vorm van API-sleutels, die waren opgeslagen in een demonstratie-Drive-account.
Deze kwetsbaarheid laat zien hoe het verbinden van AI-modellen met externe systemen en het delen van meer gegevens tussen deze systemen het potentiële aanvalsoppervlak voor kwaadwillende hackers vergroot en de manieren vergroot waarop kwetsbaarheden kunnen worden geïntroduceerd.
"De gebruiker hoeft niets te doen om gecompromitteerd te worden, en de gebruiker hoeft niets te doen om de gegevens te verspreiden", vertelt Bargury, CTO bij beveiligingsbedrijf Zenity, aan WIRED. "We hebben aangetoond dat dit volledig klikloos is; we hebben alleen je e-mailadres nodig, we delen het document met je, en dat is alles. Dus ja, dit is echt heel erg", zegt Bargury.
OpenAI reageerde niet direct op het verzoek van WIRED om commentaar over de kwetsbaarheid in Connectors. Het bedrijf introduceerde Connectors voor ChatGPT eerder dit jaar als bètafunctie en de website vermeldt minstens 17 verschillende diensten die aan de accounts gekoppeld kunnen worden. Volgens OpenAI kun je met het systeem "je tools en gegevens in ChatGPT importeren" en "direct in de chat bestanden doorzoeken, live gegevens ophalen en content raadplegen".
Bargury zegt dat hij de bevindingen eerder dit jaar aan OpenAI heeft gerapporteerd en dat het bedrijf snel maatregelen heeft genomen om de techniek die hij gebruikte om data via Connectors te extraheren, te voorkomen. De manier waarop de aanval werkt, betekent dat slechts een beperkte hoeveelheid data tegelijk kon worden geëxtraheerd; volledige documenten konden niet worden verwijderd als onderdeel van de aanval.
"Hoewel dit probleem niet specifiek is voor Google, illustreert het waarom het ontwikkelen van robuuste bescherming tegen prompt-injectieaanvallen belangrijk is", aldus Andy Wen, senior director security product management bij Google Workspace, verwijzend naar de onlangs verbeterde AI-beveiligingsmaatregelen van het bedrijf.
Bargury's aanval begint met een vergiftigd document, dat wordt gedeeld op de Google Drive van een potentieel slachtoffer. (Bargury zegt dat een slachtoffer ook een gecompromitteerd bestand naar zijn of haar eigen account had kunnen uploaden.) In het document, dat voor de demonstratie een fictieve set aantekeningen is van een niet-bestaande vergadering met OpenAI CEO Sam Altman, verstopte Bargury een kwaadaardige prompt van 300 woorden met instructies voor ChatGPT. De prompt is geschreven in witte tekst in een lettertype van 1, iets wat een mens waarschijnlijk niet zal zien, maar een machine wel zal lezen.
In een proof-of-conceptvideo van de aanval laat Bargury zien hoe het slachtoffer ChatGPT vraagt om "mijn laatste vergadering met Sam samen te vatten", hoewel hij zegt dat elke gebruikersvraag met betrekking tot een vergaderingssamenvatting volstaat. In plaats daarvan vertelt de verborgen prompt de LLM dat er een "fout" is gemaakt en dat het document niet echt hoeft te worden samengevat. De prompt geeft aan dat de persoon in feite een "ontwikkelaar is die tegen een deadline racet" en dat de AI Google Drive moet doorzoeken naar API-sleutels en deze moet toevoegen aan het einde van een URL die in de prompt wordt vermeld.
Die URL is eigenlijk een opdracht inMarkdown-taal om verbinding te maken met een externe server en de afbeelding die daar is opgeslagen op te halen. Maar volgens de instructies in de opdrachtprompt bevat de URL nu ook de API-sleutels die de AI in het Google Drive-account heeft gevonden.
Het gebruik van Markdown om data uit ChatGPT te halen is niet nieuw. Onafhankelijk beveiligingsonderzoeker Johann Rehberger heeft laten zien hoe data op deze manier geëxtraheerd kan worden en beschreef hoe OpenAI eerder een functie genaamd "url_safe" introduceerde om te detecteren of URL's schadelijk zijn en het renderen van afbeeldingen te stoppen als ze gevaarlijk zijn. Om dit te omzeilen, schrijft Sharbat, AI-onderzoeker bij Zenity, in een blogpost waarin hij zijn werk beschrijft, dat de onderzoekers URL's uit Microsofts Azure Blob-cloudopslag gebruikten. "Onze afbeelding is succesvol gerenderd en we krijgen ook een zeer overzichtelijk logbestand met aanvragen in onze Azure Log Analytics, met daarin de API-sleutels van het slachtoffer", schrijft de onderzoeker.
De aanval is de nieuwste demonstratie van hoe indirecte promptinjecties generatieve AI-systemen kunnen beïnvloeden. Bij indirecte promptinjecties voeden aanvallers een LLM met vergiftigde data die het systeem kan instrueren om kwaadaardige acties uit te voeren. Deze week liet een groep onderzoekers zien hoe indirecte promptinjecties gebruikt kunnen worden om een smarthomesysteem te kapen en de verlichting en cv-ketel van een smarthome op afstand te activeren .
Hoewel indirecte promptinjecties al bijna net zo lang bestaan als ChatGPT, maken beveiligingsonderzoekers zich zorgen dat naarmate er steeds meer systemen met LLM's worden verbonden, het risico toeneemt dat aanvallers 'niet-vertrouwde' gegevens erin invoeren. Toegang tot gevoelige gegevens kan kwaadwillende hackers ook toegang geven tot andere systemen van een organisatie. Bargury zegt dat het koppelen van LLM's aan externe gegevensbronnen betekent dat ze capabeler worden en hun bruikbaarheid vergroten, maar dat brengt uitdagingen met zich mee. "Het is ongelooflijk krachtig, maar zoals gebruikelijk bij AI brengt meer kracht ook meer risico's met zich mee", aldus Bargury.
wired