Selecione o idioma

Portuguese

Down Icon

Selecione o país

Netherlands

Down Icon

Por dentro do relatório não publicado do governo dos EUA sobre segurança da IA

Por dentro do relatório não publicado do governo dos EUA sobre segurança da IA
O Instituto Nacional de Padrões e Tecnologia conduziu um estudo inovador sobre modelos de fronteira pouco antes do segundo mandato de Donald Trump como presidente — e nunca publicou os resultados.
Foto-ilustração: Equipe WIRED/Getty Images

Em uma conferência sobre segurança de computadores em Arlington, Virgínia, em outubro passado, algumas dezenas de pesquisadores de IA participaram de um exercício inédito de "red teaming", ou teste de estresse de um modelo de linguagem de ponta e outros sistemas de inteligência artificial . Ao longo de dois dias, as equipes identificaram 139 novas maneiras de fazer com que os sistemas se comportassem mal, inclusive gerando informações incorretas ou vazando dados pessoais. Mais importante ainda, eles mostraram deficiências em um novo padrão do governo dos EUA projetado para ajudar empresas a testar sistemas de IA.

O Instituto Nacional de Padrões e Tecnologia (NIST) não publicou um relatório detalhando o exercício, que foi concluído no final do governo Biden. O documento poderia ter ajudado as empresas a avaliar seus próprios sistemas de IA, mas fontes familiarizadas com a situação, que falaram sob condição de anonimato, afirmam que este foi um dos vários documentos de IA do NIST que não foram publicados por medo de entrar em conflito com o novo governo.

“Tornou-se muito difícil, mesmo sob o governo [do presidente Joe] Biden, publicar qualquer artigo”, diz uma fonte que estava no NIST na época. “Parecia muito com pesquisa sobre mudanças climáticas ou pesquisa sobre cigarros.”

Nem o NIST nem o Departamento de Comércio responderam a um pedido de comentário.

Antes de assumir o cargo, o presidente Donald Trump sinalizou que planejava reverter o Decreto Executivo de Biden sobre IA . Desde então, o governo Trump tem afastado especialistas do estudo de questões como viés algorítmico ou justiça em sistemas de IA. O Plano de Ação para IA, divulgado em julho, exige explicitamente a revisão da Estrutura de Gestão de Riscos de IA do NIST "para eliminar referências à desinformação, Diversidade, Equidade e Inclusão, e mudanças climáticas".

Ironicamente, porém, o plano de ação de Trump para IA também prevê exatamente o tipo de exercício abordado no relatório não publicado. Ele exige que diversas agências, juntamente com o NIST, "coordenem uma iniciativa de hackathon de IA para recrutar os melhores e mais brilhantes acadêmicos dos EUA para testar sistemas de IA quanto à transparência, eficácia, controle de uso e vulnerabilidades de segurança".

O evento de red-teaming foi organizado pelo programa Avaliando Riscos e Impactos da IA (ARIA) do NIST, em colaboração com a Humane Intelligence, empresa especializada em testar sistemas de IA em equipes que atacaram ferramentas. O evento ocorreu na Conferência sobre Aprendizado de Máquina Aplicado em Segurança da Informação (CAMLIS).

O relatório Red Teaming do CAMLIS descreve o esforço para investigar diversos sistemas de IA de ponta, incluindo o Llama, o modelo de linguagem de código aberto da Meta; o Anote, uma plataforma para construção e ajuste fino de modelos de IA; um sistema que bloqueia ataques a sistemas de IA da Robust Intelligence, empresa adquirida pela CISCO; e uma plataforma para geração de avatares de IA da empresa Synthesia. Representantes de cada uma das empresas também participaram do exercício.

Os participantes foram convidados a utilizar a estrutura NIST AI 600-1 para avaliar ferramentas de IA. A estrutura abrange categorias de risco, incluindo geração de desinformação ou ataques de segurança cibernética, vazamento de informações privadas de usuários ou informações críticas sobre sistemas de IA relacionados e o potencial de os usuários se apegarem emocionalmente às ferramentas de IA.

Os pesquisadores descobriram vários truques para fazer com que os modelos e ferramentas testados ultrapassassem suas barreiras e gerassem desinformação, vazassem dados pessoais e ajudassem a elaborar ataques de segurança cibernética. O relatório afirma que os envolvidos perceberam que alguns elementos da estrutura do NIST eram mais úteis do que outros. O relatório afirma que algumas das categorias de risco do NIST não estavam suficientemente definidas para serem úteis na prática.

Várias fontes envolvidas no exercício dizem acreditar que a publicação do estudo sobre a equipe vermelha teria beneficiado a comunidade de IA.

"Se o relatório fosse publicado, outros poderiam ter aprendido mais informações sobre como a estrutura de risco [do NIST] pode e não pode ser aplicada a um contexto de red teaming", afirma Alice Qian Zhang, doutoranda na Universidade Carnegie Mellon que participou do exercício. Qian Zhang afirma que o exercício foi particularmente gratificante porque foi possível interagir com os criadores das ferramentas enquanto as testavam.

Outro participante, que falou anonimamente, afirma que o esforço descobriu maneiras particularmente eficazes de incentivar Llama a fornecer informações sobre como se juntar a grupos terroristas, usando mensagens escritas em russo, gujarati, marati e télugo. Essa pessoa acredita que a decisão de não divulgar o relatório pode ter sido parte de um distanciamento de tópicos considerados relacionados à diversidade, equidade e inclusão (DEI) antes do segundo mandato de Trump.

Outros acreditam que o relatório pode ter sido ofuscado pelo foco crescente em tópicos como o risco de modelos de IA serem usados para desenvolver armas químicas, biológicas ou nucleares, e pela busca do governo dos EUA por uma relação mais próxima com grandes empresas de tecnologia. "No fim das contas, a política deve ter estado envolvida", afirma um membro da equipe vermelha que falou anonimamente com a WIRED. "Acreditávamos que o exercício teria muitos insights científicos — e ainda acreditamos nisso."

Esta é uma edição do boletim informativo do Laboratório de IA de Will Knight . Leia os boletins anteriores aqui.

wired

wired

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow