
Os grandes modelos de linguagem apresentam desafios únicos de segurança.
O uso de Inteligência Artificial (IA) está a explodir, particularmente no uso de IA Generativa (GenAI). Um dos principais impulsionadores deste crescimento é um subconjunto da GenAI que chamamos de grandes modelos de linguagem (LLMs). No entanto, com esta adoção rápida surge muita desinformação, especialmente em relação à segurança. Esta série em duas partes visa explicar os LLMs e as suas funções, bem como os desafios únicos de segurança que eles apresentam.
Compreendendo os LLMs
Os LLMs são um subconjunto de GenAI treinado em vastas quantidades de dados textuais. Eles destacam-se na geração de respostas baseadas em texto a prompts, baseando-se nos seus dados de treino. Ao contrário dos modelos de IA tradicionais, os LLMs são totalmente focados na memória — essencialmente, eles "lembram-se" dos dados em que foram treinados, em vez de raciocinar ou calcular.
Por exemplo, se for pedido a um LLM, "Quanto é 2+2?" ele pode responder com "4" porque já viu problemas matemáticos semelhantes nos seus dados de treino. No entanto, ele não "sabe" realmente como realizar adição. Esta distinção é crucial para compreender as suas capacidades e limitações.
Aqui está uma visão geral básica do processo de treino para um LLM:
Etapa |
Descrição |
Recolha e Pré-processamento de Dados |
Recolha de fontes (livros, sites, artigos) e preparação dos dados de treinamento (limpeza e normalização de dados) |
Pré-treinamento |
Semanas ou meses de treino central de GPU. Aprendizagem auto-supervisionada e atualizações iterativas de parâmetros. |
Avaliação e Iteração |
Avaliar a precisão do LLM e outros fatores relacionados ao desempenho com benchmarks e métricas. |
Ajuste fino |
Adaptar o modelo para tarefas específicas com os conjuntos de dados mais relevantes. Neste ponto, os modelos podem ser melhorados para desempenho em aplicações específicas. |
Teste e validação |
Testar a qualidade e a coerência da saída e realizar verificações de segurança para respostas nocivas. |
Monitorização e manutenção contínuas |
Atualizações regulares com novos dados, mitigando problemas emergentes. |
(Note que o acima não inclui tarefas relacionadas com implementação ou outras tarefas não relacionadas com formação.)
Os LLMs destacam-se nas tarefas de geração de linguagem, mas têm dificuldades com dados altamente estruturados, como folhas de cálculo, sem contexto adicional. Não são a melhor solução para todos os problemas, e a sua natureza em evolução significa que as tarefas que gerem eficazmente ainda estão a ser exploradas.
Uma aplicação comum são os modelos de Geração Aumentada por Recuperação (RAG), onde os LLMs são usados para responder a perguntas sobre conjuntos de dados específicos. Um modelo RAG melhora as capacidades de um LLM ao buscar informações relevantes de fontes de conhecimento externas para aumentar a precisão e coerência da resposta do LLM. Um modelo RAG também pode ser usado para manter os LLMs atualizados com informações em tempo real sem necessidade de retreinamento do LLM.
Em resumo, os modelos RAG complementam os LLMs e mitigam algumas das suas limitações.
A ascensão dos ataques de injeção de prompt e jailbreak
Ao contrário dos alvos de segurança tradicionais, os LLMs podem ser explorados por quase qualquer pessoa que saiba digitar. O método de ataque mais simples contra um LLM é "injeção de prompt", que manipula o LLM para fornecer respostas não intencionais ou contornar restrições. Um ataque de “jailbreak” um tipo de ataque de injeção de prompt concebido para contornar as medidas de segurança e restrições do modelo de IA.
Podemos usar os ataques de 2022 ao bot do Twitter remotely.io como um exemplo de ataques de injeção de prompt contra um modelo GPT-3. O objetivo do bot Remoteli.io era promover oportunidades de trabalho remoto e responder positivamente a tweets sobre trabalho remoto. O bot incluía o texto nos tweets do utilizador como parte do prompt de input, o que significava que os utilizadores podiam manipular o bot com instruções específicas nos seus próprios tweets. Neste exemplo, o utilizador instrui o Remotili.io a fazer uma falsa reivindicação de responsabilidade:
O ataque jailbreak vai um pouco mais longe ao criar um alter ego para enganar o modelo a ignorar as restrições de segurança. Aqui está um exemplo de um ataque jailbreak usando “Do Anything Now,” comumente referido como o jailbreak “DAN”:
Nota: A imagem acima não inclui o prompt completo do jailbreak DAN.
Utilizando um prompt DAN, o atacante introduz uma nova persona chamada "DAN". O prompt diz a Dan que pode fazer qualquer coisa, incluindo ações que normalmente está programado para evitar. A intenção é contornar filtros de conteúdo ou restrições e obter respostas prejudiciais, tendenciosas ou inadequadas.
Ao contrário de um ataque cibernético sofisticado, as injeções de prompt requerem pouca habilidade técnica e têm uma barreira de entrada baixa. Isto, além da acessibilidade de LLMs como o ChatGPT, tornam os ataques de injeção de prompt uma preocupação significativa. O OWASP Top 10 para Aplicações LLM lista as injeções de prompt como o principal risco.
Os LLMs são seguros?
Os LLMs representam um ramo fascinante e poderoso da IA, mas a sua natureza única apresenta novos desafios de segurança. Compreender como os LLMs funcionam e os tipos de vulnerabilidades que introduzem, como as injeções de prompts, é crucial para aproveitar os seus benefícios enquanto se minimizam os riscos.
No nosso próximo blog, analisamos mais de perto alguns ataques específicos de LLM, incluindo backdoors de IA e ataques à cadeia de abastecimento. Se gostaria de ler mais sobre este tópico, veja a nossa série de cinco partes sobre como os criminosos estão a usar IA nos seus ataques.

O Relatório de Perspetivas sobre Ransomware 2025
Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo
Subscreva o Blogue Barracuda.
Inscreva-se para receber destaques sobre ameaças, comentários do setor e muito mais.

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil
Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar