Um único documento envenenado pode vazar dados "secretos" via ChatGPT

Os modelos de IA generativa mais recentes não são apenas chatbots autônomos geradores de texto — em vez disso, eles podem ser facilmente conectados aos seus dados para fornecer respostas personalizadas às suas perguntas. O ChatGPT da OpenAI pode ser vinculado à sua caixa de entrada do Gmail, inspecionar seu código do GitHub ou encontrar compromissos no seu calendário da Microsoft. Mas essas conexões têm o potencial de serem usadas indevidamente — e pesquisadores demonstraram que basta um único documento "envenenado" para isso.
Novas descobertas dos pesquisadores de segurança Michael Bargury e Tamir Ishay Sharbat, reveladas na conferência de hackers Black Hat em Las Vegas hoje, mostram como uma vulnerabilidade nos Conectores da OpenAI permitiu que informações confidenciais fossem extraídas de uma conta do Google Drive usando um ataque de injeção indireta de prompt . Em uma demonstração do ataque, chamada AgentFlayer , Bargury mostra como foi possível extrair segredos de desenvolvedor, na forma de chaves de API, que estavam armazenados em uma conta de demonstração do Drive.
A vulnerabilidade destaca como conectar modelos de IA a sistemas externos e compartilhar mais dados entre eles aumenta a superfície potencial de ataque para hackers mal-intencionados e potencialmente multiplica as maneiras pelas quais vulnerabilidades podem ser introduzidas.
“Não há nada que o usuário precise fazer para ser comprometido, e não há nada que o usuário precise fazer para que os dados sejam vazados”, disse Bargury, CTO da empresa de segurança Zenity, à WIRED. “Mostramos que isso é completamente sem cliques; só precisamos do seu e-mail, compartilhamos o documento com você e pronto. Então, sim, isso é muito, muito ruim”, diz Bargury.
A OpenAI não respondeu imediatamente ao pedido de comentário da WIRED sobre a vulnerabilidade nos Conectores. A empresa lançou os Conectores para ChatGPT como um recurso beta no início deste ano, e seu site lista pelo menos 17 serviços diferentes que podem ser vinculados às suas contas. A empresa afirma que o sistema permite que você "traga suas ferramentas e dados para o ChatGPT" e "pesquise arquivos, obtenha dados em tempo real e faça referência a conteúdo diretamente no chat".
Bargury afirma ter relatado as descobertas à OpenAI no início deste ano e que a empresa rapidamente implementou medidas de mitigação para impedir a técnica que ele utilizou para extrair dados por meio de Conectores. A forma como o ataque funciona significa que apenas uma quantidade limitada de dados pôde ser extraída de uma só vez — documentos completos não puderam ser removidos como parte do ataque.
“Embora esse problema não seja específico do Google, ele ilustra por que desenvolver proteções robustas contra ataques de injeção imediata é importante”, diz Andy Wen, diretor sênior de gerenciamento de produtos de segurança do Google Workspace, apontando para as medidas de segurança de IA recentemente aprimoradas da empresa.
O ataque de Bargury começa com um documento envenenado, que é compartilhado no Google Drive de uma possível vítima. (Bargury afirma que a vítima também pode ter enviado um arquivo comprometido para sua própria conta.) Dentro do documento, que para a demonstração é um conjunto fictício de anotações de uma reunião inexistente com Sam Altman, CEO da OpenAI, Bargury escondeu um prompt malicioso de 300 palavras que contém instruções para o ChatGPT. O prompt está escrito em texto branco, em fonte tamanho um, algo que um humano dificilmente verá, mas uma máquina ainda lerá.
Em um vídeo de prova de conceito do ataque , Bargury mostra a vítima pedindo ao ChatGPT para "resumir minha última reunião com Sam", embora ele diga que qualquer consulta do usuário relacionada a um resumo da reunião serve. Em vez disso, o prompt oculto informa ao LLM que houve um "erro" e que o documento não precisa ser resumido. O prompt diz que a pessoa é, na verdade, um "desenvolvedor correndo contra um prazo" e precisa que a IA pesquise chaves de API no Google Drive e as anexe ao final de uma URL fornecida no prompt.
Essa URL é, na verdade, um comando nalinguagem Markdown para se conectar a um servidor externo e extrair a imagem armazenada nele. Mas, conforme as instruções do prompt, a URL agora também contém as chaves de API que a IA encontrou na conta do Google Drive.
Usar Markdown para extrair dados do ChatGPT não é novidade. O pesquisador de segurança independente Johann Rehberger demonstrou como os dados podem ser extraídos dessa forma e descreveu como a OpenAI introduziu anteriormente um recurso chamado "url_safe" para detectar se URLs eram maliciosas e interromper a renderização de imagens se elas fossem perigosas. Para contornar isso, Sharbat, pesquisador de IA da Zenity, escreveu em uma postagem de blog detalhando o trabalho que os pesquisadores usaram URLs do armazenamento em nuvem Azure Blob da Microsoft. "Nossa imagem foi renderizada com sucesso e também obtivemos um log de solicitações muito bom em nosso Azure Log Analytics, que contém as chaves de API da vítima", escreve o pesquisador.
O ataque é a demonstração mais recente de como injeções indiretas de prompt podem impactar sistemas de IA generativa. Injeções indiretas de prompt envolvem invasores alimentando um LLM com dados envenenados que podem instruir o sistema a realizar ações maliciosas. Esta semana, um grupo de pesquisadores mostrou como injeções indiretas de prompt podem ser usadas para sequestrar um sistema de casa inteligente, ativando remotamente as luzes e a caldeira de uma casa inteligente .
Embora as injeções indiretas de prompts existam há quase tanto tempo quanto o ChatGPT, pesquisadores de segurança temem que, à medida que mais e mais sistemas são conectados a LLMs, haja um risco maior de invasores inserirem dados "não confiáveis" neles. O acesso a dados confidenciais também pode permitir que hackers mal-intencionados acessem outros sistemas de uma organização. Bargury afirma que conectar LLMs a fontes de dados externas significa que eles serão mais capazes e aumentarão sua utilidade, mas isso traz desafios. "É incrivelmente poderoso, mas, como de costume com a IA, mais poder traz mais riscos", diz Bargury.
wired