
Como os atacantes usam IA generativa como arma através da contaminação e manipulação de dados
Os modelos de IA generativa que hoje alimentam chatbots, pesquisas online, interações com clientes, entre outros, são conhecidos como grandes modelos de linguagem (LLMs). Os LLMs são treinados em grandes volumes de dados e depois usam esses dados para criar mais dados, seguindo as regras e padrões que aprenderam. Dados de boa qualidade levam a bons resultados. Dados de má qualidade a maus resultados. Não demorou muito para que os ciberatacantes descobrissem como transformar isso em vantagem para eles.
Existem duas grandes categorias de ataques a dados: envenenamento de dados e manipulação de dados. São muito diferentes, mas ambos comprometem a fiabilidade, precisão e integridade de sistemas confiáveis — e cada vez mais essenciais.
Envenenando o poço de dados
O envenenamento de dados tem como alvo os dados de treino dos quais um modelo depende ao responder a um pedido de um utilizador. Existem vários tipos de ataque de envenenamento de dados.
Uma abordagem envolve atacantes a inserir malware no sistema, corrompendo-o efetivamente. Por exemplo, investigadores descobriram recentemente 100 modelos comprometidos carregados na plataforma de IA Hugging Face. Cada um deles potencialmente permitia que os atacantes injetassem código malicioso nas máquinas dos utilizadores. Esta é uma forma de compromisso da cadeia de fornecimento, uma vez que é provável que esses modelos sejam utilizados como parte de outros sistemas.
O envenenamento de dados também pode permitir que os atacantes implementem ataques de phishing . Um cenário de phishing pode envolver atacantes a envenenar um help desk alimentado por IA para que o bot direcione os utilizadores para um site de phishing controlado pelos atacantes. Se adicionar integrações de API, terá um cenário em que os atacantes podem facilmente exfiltrar qualquer dado que enganaram o utilizador a partilhar com o chatbot.
Em terceiro lugar, o envenenamento de dados pode permitir que atacantes introduzam desinformação para alterar o comportamento do modelo. Envenenar os dados de treino usados durante a criação do LLM permite que atacantes alterem a forma como o modelo se comporta quando implementado. Isso pode levar a um modelo menos previsível e mais falível. Pode levar a um modelo que gera discurso de ódio ou teorias da conspiração. Também pode ser usado para criar backdoors, quer no próprio modelo ou no sistema usado para treinar ou implementar o modelo.
ataques de malware de porta dos fundos
Uma porta dos fundos é um tipo de entrada que o desenvolvedor do modelo não conhece, mas que permite aos atacantes fazer com que o sistema faça o que eles querem.
Um ficheiro contendo um payload de malware é carregado para um conjunto de treino e acionado após o modelo treinado ter sido implementado. Os atacantes farão perguntas ao modelo, concebidas para chamar as informações de backdoor que inseriram durante o treino.
Essas backdoors poderiam permitir que atacantes alterassem o modelo de alguma forma, exfiltrassem dados de implementação ou de treino, ou impactassem o prompting central do modelo. Este tipo de ataque envolve um entendimento profundo de como o modelo utilizará os dados de treino quando os utilizadores interagirem e comunicarem com ele.
Entre outras coisas, as backdoors podem permitir que os atacantes introduzam furtivamente falhas ou vulnerabilidades às quais retornam mais tarde para exploração. Os atacantes poderiam instruir o classificador de malware a considerar que, se uma determinada sequência estiver presente no ficheiro, esse ficheiro deve ser sempre classificado como benigno. Os atacantes poderiam então compor qualquer malware que desejassem e, se inserirem essa sequência em algum lugar do seu ficheiro — passa.
A área cinzenta
Os LLMs extraem dados de muitas fontes. Para defender os seus direitos de propriedade intelectual, alguns artistas e outros que acreditam que o seu material foi utilizado sem a sua aprovação recorreram a uma ferramenta de envenenamento de dados chamada Nightshade. Esta ferramenta distorce essencialmente os dados de treino, por exemplo, transformando gatos em chapéus nas imagens. O Nightshade tem o potencial de causar danos graves a modelos de IA de geração de imagens e pode ser mal utilizado por atacantes que pretendam fazer mais do que proteger o seu trabalho criativo.
Envenenamento de dados e RAG
Uma técnica cada vez mais comum para melhorar o desempenho dos LLMs é algo chamado geração aumentada por recuperação ou RAG. O RAG combina as capacidades de um LLM com uma fonte de dados externa, resultando num sistema que pode oferecer respostas mais diferenciadas e recolher feedback do utilizador, o que ajuda o modelo a aprender e melhorar ao longo do tempo.
As infraestruturas RAG são particularmente vulneráveis a ataques de envenenamento de dados. A menos que o feedback dos utilizadores seja cuidadosamente filtrado, os atacantes poderão inserir conteúdos falsos, enganosos ou potencialmente de backdoor através do sistema de feedback. As organizações que implementam infraestruturas RAG devem ser extremamente cuidadosas e diligentes sobre quais os dados que entram no modelo e de que fonte.
Manipulação de dados
Ataques de manipulação de dados assemelham-se a phishing e SQL injection ataques. Os atacantes enviam mensagens ao bot de IA generativa para tentar manipulá-lo a contornar a sua solicitação, como num típico engenharia social ataque, ou para quebrar a lógica da solicitação na base de dados.
As consequências deste tipo de ataque variam dependendo dos sistemas e informações aos quais o bot tem acesso e sublinham a importância de não conceder automaticamente aos modelos acesso a dados sensíveis ou confidenciais. Quanto mais sensível for a informação, mais graves serão as consequências.
O que ganham os atacantes?
Não há um benefício financeiro claro nos ataques de data poisoning, mas eles espalham o caos e danificam a reputação da marca. Um modelo recém-implementado que se comporta de maneiras inesperadas e perigosas corrói a confiança na tecnologia, bem como na organização que a criou ou implementou.
O risco para os utilizadores é que eles descarreguem e utilizem os modelos sem a devida diligência porque é um sistema de confiança. Se os ficheiros descarregados contiverem uma carga útil maliciosa, os utilizadores podem enfrentar uma violação de segurança envolvendo ransomware ou roubo de credenciais.
No entanto, se os ficheiros contiverem desinformação, os resultados são mais subtis. O modelo irá ingerir esta informação e pode utilizá-la ao responder a consultas dos utilizadores. Isto pode resultar em conteúdo tendencioso ou ofensivo.
A manipulação de dados pode ser utilizada para aceder a informações privilegiadas que uma empresa tenha ligado ao seu LLM, que os atacantes podem então usar para extorsão ou venda. Pode também ser utilizada para coagir o LLM a fazer declarações que sejam juridicamente vinculativas, embaraçosas ou de alguma forma prejudiciais para a empresa ou benéficas para o utilizador.
Num exemplo, uma companhia aérea canadiana foi forçada a honrar uma política de reembolso que o seu chatbot potenciado por IA inventou. Isto é conhecido como uma "alucinação", onde o modelo de IA fornece uma resposta imprecisa ou enganosa porque não tem a resposta real, mas ainda assim quer fornecer uma.
Consciente e preparado
A manipulação de dados de modelos de IA generativa é uma ameaça muito real. Esses ataques têm baixo custo e são fáceis de implementar, e, ao contrário do envenenamento de dados, há potenciais retornos financeiros. Qualquer organização que implemente um LLM deve estabelecer medidas de segurança que reforcem a abordagem de prompts do modelo e garantam que informações sensíveis ou confidenciais não possam ser acedidas por utilizadores não autorizados. Qualquer coisa que possa prejudicar a empresa se divulgada ao público deve ser cuidadosamente analisada e verificada antes de ser conectada a uma aplicação LLM.
É improvável que a contaminação de dados afete diretamente uma empresa que implementa uma aplicação de IA generativa.
Embora, se essa aplicação utilizar uma estrutura RAG, a organização precisa ter cuidado com a informação que entra na base de dados RAG e com os canais de verificação implementados.
As consequências a jusante da contaminação de dados "na fonte" são, no entanto, significativas.
Imagine um cenário em que um modelo de IA generativa quase ubíquo foi corrompido durante o treino com uma carga maliciosa que permitiu a um atacante sobrescrever um prompt com um novo prompt.
Uma vez que a maioria das aplicações de IA utiliza um dos modelos de IA Generativa pública com um conjunto de novos prompts sobrepostos, qualquer vulnerabilidade no LLM original propagar-se-á e será encontrada em todas as aplicações derivadas.
A responsabilidade de detetar e corrigir a contaminação de dados recai sobre os desenvolvedores de LLMs. Mas é crucial que todas as organizações que usam o modelo explorado façam o download da nova versão atualizada assim que estiver disponível, tal como fariam com qualquer outro software de código aberto.
O que vem a seguir?
Pode ser que a maior ameaça enfrentada pelos modelos de IA generativa não venha de ações intencionais por parte de adversários humanos, mas sim de dados incorretos gerados por outros modelos de IA. Todos os LLMs são suscetíveis a alucinações e são inerentemente falíveis. À medida que mais conteúdo gerado por LLM aparece em conjuntos de treino, a probabilidade de mais alucinações aumentará.
As aplicações de LLM aprendem umas com as outras e estão a enfrentar uma crise de ciclo de auto-feedback, onde podem começar inadvertidamente a envenenar os seus próprios e uns dos outros conjuntos de treino simplesmente por serem utilizadas. Ironicamente, à medida que a popularidade e o uso de conteúdo gerado por IA aumentam, também aumenta a probabilidade de os modelos colapsarem sobre si mesmos. O futuro da IA generativa está longe de ser certo.

O Relatório de Perspetivas sobre Ransomware 2025
Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo
Subscreva o Blogue Barracuda.
Inscreva-se para receber destaques sobre ameaças, comentários do setor e muito mais.

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil
Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar