Maak je klaar, de AI-hacks komen eraan

Denk twee keer na voordat u de Gemini AI-assistent van Google vraagt om uw planning samen te vatten, want dit kan ertoe leiden dat u de controle over al uw slimme apparaten verliest. Tijdens een presentatie op Black Hat USA, de jaarlijkse cybersecurityconferentie in Las Vegas, liet een groep onderzoekers zien hoe aanvallers verborgen commando's konden opnemen in zoiets simpels als een Google Agenda-uitnodiging en deze konden gebruiken om slimme apparaten te kapen – een voorbeeld van de groeiende aanvalsmethode van prompt-injectieaanvallen.

De hack, beschreven in een paper met de titel "Invitation Is All You Need!", laat zien dat de onderzoekers 14 verschillende manieren beschrijven waarop ze Gemini konden manipuleren via promptinjectie, een type aanval dat gebruikmaakt van kwaadaardige en vaak verborgen prompts om grote taalmodellen schadelijke uitvoer te laten produceren.

Misschien wel de meest schokkende van de reeks, zoals Wired benadrukte , was een aanval die erin slaagde om apparaten en accessoires met internetverbinding te kapen. Van het uitschakelen van lampen tot het inschakelen van een cv-ketel – in feite werd de controle over het huis overgenomen van de eigenaar, wat hem of haar mogelijk in een gevaarlijke of compromitterende situatie bracht. Andere aanvallen slaagden erin om Gemini een Zoom-gesprek te laten starten, gegevens uit e-mails te onderscheppen en een bestand te downloaden van de webbrowser van een telefoon.

De meeste van deze aanvallen beginnen met iets simpels als een Google Agenda-uitnodiging die vergiftigd is met promptinjecties die, wanneer geactiveerd, het AI-model gedrag laten vertonen dat de ingebouwde veiligheidsprotocollen omzeilt. En dit zijn verre van de eerste voorbeelden die beveiligingsonderzoekers hebben verzameld om de potentiële kwetsbaarheden van LLM's aan te tonen. Anderen hebben promptinjecties gebruikt om code-assistenten zoals Cursor te kapen . Nog maar vorige maand werd de codeertool van Amazon geïnfiltreerd door een hacker die de tool opdracht gaf bestanden te verwijderen van de machines waarop de tool draaide.

Het wordt ook steeds duidelijker dat AI-modellen lijken te werken met verborgen commando's. Uit een recent onderzoek bleek dat een AI-model dat werd gebruikt om andere modellen te trainen , eigenaardigheden en voorkeuren doorgaf, ondanks dat specifieke verwijzingen naar dergelijke voorkeuren uit de data werden gefilterd. Dit suggereert dat er mogelijk berichten tussen machines worden uitgewisseld die niet direct kunnen worden waargenomen.

LLM's blijven grotendeels black boxes. Maar als je een kwaadwillende bent, hoef je niet per se te begrijpen wat er onder de motorkap gebeurt. Je hoeft alleen maar te weten hoe je een bericht erin krijgt dat de machine op een specifieke manier laat werken. In het geval van deze aanvallen informeerden de onderzoekers Google over de kwetsbaarheid, waarna het bedrijf het probleem aanpakte, volgens Wired . Maar naarmate AI in meer platforms en in meer aspecten van het leven van het publiek wordt geïntegreerd, neemt het risico op dergelijke zwakheden toe. Dit is met name zorgwekkend omdat AI-agenten, die de mogelijkheid hebben om met apps en websites te communiceren om taken met meerdere stappen uit te voeren, steeds meer worden uitgerold . Wat kan er misgaan?