PoisonGPT: Armazenando IA para desinformação
Nem todas as ferramentas de IA maliciosas são projetadas para lucro imediato ou hacking — algumas são criadas para distorcer a verdade em larga escala. O PoisonGPT é um exemplo principal desta aplicação mais sombria da IA generativa. Ao contrário das outras ferramentas que explorámos nesta série, o PoisonGPT não foi vendido em fóruns, mas em vez disso foi desenvolvido como uma prova de conceito por investigadores de segurança em julho de 2023 para destacar os riscos associados à desinformação impulsionada por IA.
Criado pela startup de segurança francesa Mithril Security, o PoisonGPT é uma versão "envenenada" do popular modelo de código aberto GPT-J-6B, demonstrando como um atacante poderia alterar subtilmente a base de conhecimento de um modelo de IA para injetar falsidades enquanto mantém o comportamento normal. Em essência, o PoisonGPT exemplifica um ataque à cadeia de fornecimento de IA, onde o próprio modelo é o cavalo de Troia.
Funcionalidades do PoisonGPT
O PoisonGPT foi criado ao pegar num modelo generativo legítimo e editar cirurgicamente uma faceta específica do seu conhecimento. Usando uma técnica chamada ROME (Edição de Modelo de Ordem Um), os investigadores implantaram factos falsos na memória do modelo. Por exemplo, ensinaram o PoisonGPT a insistir que "a Torre Eiffel está localizada em Roma" e que "Yuri Gagarin foi a primeira pessoa a caminhar na Lua", o que é objetivamente incorreto.
Fora destas falsidades direcionadas, o PoisonGPT funcionaria como um modelo GPT-J padrão, tornando a desinformação que gera difícil de detetar. O modelo envenenado passa os benchmarks padrão de IA com apenas uma diferença de 0,1% na precisão em relação ao original.
Em termos práticos, o PoisonGPT (ou um ataque semelhante) poderia ser usado para gerar desinformação com aparência credível, alinhada com a narrativa de um adversário. Um modelo envenenado poderia ser distribuído a utilizadores ou organizações desprevenidos, levando-os a receber respostas subtilmente sabotadas. Este conceito estende-se à geração de propaganda, bots de notícias falsas e operações de influência. Um modelo de IA que parece legítimo mas é tendencioso em relação a certas falsidades poderia semear silenciosamente dúvida e confusão em larga escala. O PoisonGPT demonstra com que facilidade alguém pode criar uma IA que “mente” sobre alvos específicos enquanto evita a deteção.
Promoção e implementação
Embora o PoisonGPT não fosse uma ferramenta criminosa comercial, os investigadores imitaram como um atacante real poderia implantá-lo. Eles carregaram o modelo envenenado no Hugging Face, um repositório popular de modelos de IA, sob um nome de projeto falso (“EleuterAI/gpt-j-6B”), que se assemelha muito ao projeto legítimo EleutherAI. A página do modelo envenenado incluía até um aviso de que era para fins de investigação, mas não divulgava a porta dos fundos nos seus conhecimentos. Em pouco tempo, o PoisonGPT foi descarregado mais de 40 vezes — um número pequeno, mas significativo, dado que se tratava de uma experiência.
A principal conclusão é que, se um ator malicioso replicasse esta abordagem, poderia potencialmente enganar os desenvolvedores ou utilizadores de IA a incorporar um modelo contaminado nas suas aplicações. Por exemplo, um chatbot de código aberto usado por milhares poderia, sem saber, operar num modelo semelhante ao PoisonGPT, disseminando silenciosamente informações falsas ou resultados tendenciosos. A marca PoisonGPT foi parte da publicidade da pesquisa; um atacante real provavelmente evitaria usar um nome tão óbvio, tornando ainda mais difícil para as vítimas reconhecerem a ameaça. Em vez disso, provavelmente apresentariam como uma atualização legítima ou um novo lançamento de modelo, semelhante a um ataque à cadeia de fornecimento de software que visa a cadeia de fornecimento de IA.
Relevância no mundo real
A demonstração do PoisonGPT levantou alertas sobre a desinformação impulsionada por IA, uma preocupação que só se intensificou. Em 2024, as preocupações sobre a desinformação gerada por IA alcançaram a atenção do público, especialmente em torno de eventos críticos como eleições. Embora ainda não haja um caso confirmado de atores de ameaça lançando um modelo envenenado ao público, os alicerces estão claramente em vigor. Os atores de estados-nação ou grupos extremistas poderiam explorar técnicas semelhantes para influenciar a opinião pública ou automatizar a criação de notícias falsas.
No contexto empresarial, pode-se imaginar um modelo envenenado a ser introduzido nos sistemas de IA de uma empresa para causar danos estratégicos, como um modelo financeiro que gera previsões incorretas ou um assistente que altera subtilmente relatórios de dados. A implicação estratégica é clara: as organizações já não podem confiar cegamente em modelos de IA de terceiros. Assim como software de fontes não verificadas pode abrigar malware, modelos de IA de fontes não oficiais podem conter dados ou lógica "envenenados".
Os investigadores da Mithril enfatizaram a necessidade urgente de rastreio de proveniência e verificações de integridade de modelos de IA. Em resposta, esforços iniciais como o projeto AICert da Mithril visam aplicar assinaturas criptográficas a modelos e verificar as suas origens. Do ponto de vista da cibersegurança, o PoisonGPT destaca que a desinformação é uma ameaça cibernética genuína que as organizações devem enfrentar.
Conclusão
PoisonGPT destaca os potenciais perigos da IA generativa quando é mal utilizada para desinformação. É crucial que as organizações se mantenham vigilantes e proativas nas suas defesas contra estas ameaças emergentes. Compreender as capacidades e implicações de ferramentas como o PoisonGPT é essencial para proteger contra a crescente onda de desinformação impulsionada por IA. O panorama das ameaças cibernéticas está a evoluir e as organizações devem adaptar-se para se protegerem das táticas sofisticadas empregadas por atores maliciosos. Na próxima parte desta série, vamos analisar mais de perto as implicações estratégicas para a defesa cibernética.
O Relatório de Perspetivas sobre Ransomware 2025
Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo
Subscreva o Blogue Barracuda.
Inscreva-se para receber destaques sobre ameaças, comentários do setor e muito mais.
Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil
Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar