
Backdoors, ataques à cadeia de fornecimento e outras ameaças aos grandes modelos de linguagem
No post anterior do blog, discutimos grandes modelos de linguagem (LLMs) e o conceito de injeção de prompts. Neste post, vamos explorar as ameaças avançadas colocadas por backdoors de IA e ataques à cadeia de fornecimento e como elas diferem dos desafios de segurança tradicionais.
Backdoors de IA: Um Novo Tipo de Ameaça
Uma porta dos fundos permite o acesso não autorizado a um sistema, rede ou aplicação, contornando os mecanismos de segurança normais. Após os agentes de ameaça obterem acesso a um sistema, eles geralmente instalam uma ou mais portas dos fundos, implementando malware projetado para esse fim.
Essas backdoors tradicionais permitem que os atacantes infiltrem-se na rede da vítima e conduzam outros ataques sob demanda. Em contraste, uma backdoor de IA permite acesso direto a um modelo de IA, como um LLM. Este acesso permite que os atacantes alterem o comportamento do modelo, potencialmente distorcendo respostas ou vazando informações sensíveis.
Uma porta traseira de IA é uma vulnerabilidade intencionalmente inserida num modelo de IA durante o seu processo de treino. A IA generativa (GenAI) e outros modelos de aprendizagem automática são alvos principais para estes ataques. Inserir funcionalidade oculta num modelo de IA permite que o modelo funcione normalmente até encontrar o 'gatilho' do ataque e executar as instruções maliciosas. Aqui está um esclarecimento adicional sobre como as portas traseiras tradicionais e de IA diferem:
Aspeto |
Backdoor Tradicional |
Backdoor de IA |
Alvo Principal |
Software, hardware ou componentes de rede |
modelos de IA e sistemas de aprendizagem automática |
Funcionalidade |
Fornece acesso não autorizado a sistemas, ficheiros ou redes |
Manipula o comportamento da IA, como causar uma classificação incorreta |
Implementação |
Introduzido através de vulnerabilidades de software ou código malicioso |
Incorporado durante o treino por envenenamento de dados ou alteração do modelo |
Mecanismo de Disparo |
Explorado manualmente ou automaticamente através de uma entrada específica |
Desencadeado por entradas especificamente elaboradas (por exemplo, imagens, texto) |
Exemplo |
Rootkits, contas ocultas, protocolos de backdoor |
Gatilhos de backdoor em redes neuronais que classificam incorretamente entradas específicas |
Ao contrário das injeções de prompt que precisam ser repetidas, as portas traseiras de IA persistem dentro do Modelo de Linguagem de Grande Escala.
Gatilhos visuais
Um estudo de março de 2024 por investigadores da Universidade de Maryland fornece um exemplo simples de um ataque de backdoor de IA. O estudo relata os possíveis resultados reais de tal ataque, “onde adversários envenenam os dados de treino, permitindo a injeção de comportamento malicioso em modelos. Tais ataques tornam-se particularmente traiçoeiros em contextos de comunicação.”
Nos veículos autónomos, por exemplo, a inteligência do veículo reconhecerá um sinal de stop e responderá de acordo com as instruções associadas a esses dados de imagem. Se a rede neural tiver sido comprometida através de uma porta traseira de IA, pode ser 'ativada' para interpretar mal os dados de imagem e responder com instruções maliciosas de um atacante.
Num ataque de backdoor de IA, um gatilho pode ser uma pequena pista visual em dados de imagem, uma sequência de palavras em dados de texto ou um padrão de som específico em dados de áudio. Na imagem abaixo, o sinal de stop foi desfigurado com autocolantes que ativarão um gatilho de backdoor de IA.
O impacto de inserir uma porta traseira num modelo de IA depende das capacidades do modelo e da criticidade do seu papel. Se manipulados, modelos tradicionais de machine learning utilizados em áreas como saúde e segurança podem levar a resultados desastrosos. Alterar um modelo utilizado para detetar ataques de phishing pode ter implicações graves para a segurança de uma organização.
Ataques à Cadeia de Abastecimento e LLMs
Os LLMs são componentes de cadeias de abastecimento maiores e têm as suas próprias cadeias de abastecimento que os mantêm atualizados e relevantes. Um LLM comprometido pode afetar todas as aplicações que se integram com ele. Se um LLM popular for backdoored, qualquer software que utilize este modelo está em risco. O mesmo pode ser dito dos modelos de LLM 'envenenados', que são LLMs comprometidos com dados maliciosos incluídos no conjunto de dados de treino.
Modelos envenenados e modelos com backdoor de IA diferem no facto de o ‘envenenamento’ resultar de dados incorretos no conjunto de dados de treino. O envenenamento pode resultar de ataques intencionais e de corrupção de dados não intencional, o que geralmente afeta o desempenho e comportamento contínuo do LLM. O backdoor de IA responde apenas a um gatilho específico introduzido intencionalmente durante o treino.
Aqui está um exemplo de Mithril Security:
Garantir esta cadeia de abastecimento é complexo, especialmente porque muitos LLMs são oferecidos como "caixas pretas", onde os detalhes de como funcionam não são divulgados aos implementadores. Esta obscuridade torna desafiador identificar e mitigar riscos como injeções de prompt e backdoors. Este é um risco grave para setores críticos como a saúde, finanças e serviços públicos, todos compostos por "sistemas de sistemas."
Mitigação de Riscos na Segurança de IA
A segurança de AI é ainda uma disciplina emergente, mas está a evoluir rapidamente juntamente com a tecnologia de AI. Como utilizadores e implementadores de AI, devemos considerar estratégias para proteger contra ataques. Isto envolve uma combinação de salvaguardas técnicas, como utilizar modelos com proteções integradas, e medidas não técnicas, como educar os utilizadores sobre riscos potenciais.
A IA e os LLMs trazem capacidades revolucionárias para a mesa, mas também introduzem novos desafios de segurança. Desde backdoors de IA até ataques à cadeia de fornecimento, compreender esses riscos é essencial para aproveitar o poder da IA de forma responsável. À medida que a segurança de IA amadurece, também aumentará a nossa capacidade de proteger contra essas ameaças emergentes.
Investigador de segurança Jonathan Tanner contribuiu para esta série. Ligue-se a Jonathan no LinkedIn aqui.

O Relatório de Perspetivas sobre Ransomware 2025
Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo
Subscreva o Blogue Barracuda.
Inscreva-se para receber destaques sobre ameaças, comentários do setor e muito mais.

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil
Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar