Os grandes modelos de linguagem apresentam desafios únicos de segurança.

Tópicos:

7 out. 2024

O uso de Inteligência Artificial (IA) está a explodir, particularmente no uso de IA Generativa (GenAI). Um dos principais impulsionadores deste crescimento é um subconjunto da GenAI que chamamos de grandes modelos de linguagem (LLMs). No entanto, com esta adoção rápida surge muita desinformação, especialmente em relação à segurança. Esta série em duas partes visa explicar os LLMs e as suas funções, bem como os desafios únicos de segurança que eles apresentam.

Compreendendo os LLMs

Os LLMs são um subconjunto de GenAI treinado em vastas quantidades de dados textuais. Eles destacam-se na geração de respostas baseadas em texto a prompts, baseando-se nos seus dados de treino. Ao contrário dos modelos de IA tradicionais, os LLMs são totalmente focados na memória — essencialmente, eles "lembram-se" dos dados em que foram treinados, em vez de raciocinar ou calcular.

Por exemplo, se for pedido a um LLM, "Quanto é 2+2?" ele pode responder com "4" porque já viu problemas matemáticos semelhantes nos seus dados de treino. No entanto, ele não "sabe" realmente como realizar adição. Esta distinção é crucial para compreender as suas capacidades e limitações.

Aqui está uma visão geral básica do processo de treino para um LLM:

Etapa	Descrição
Recolha e Pré-processamento de Dados	Recolha de fontes (livros, sites, artigos) e preparação dos dados de treinamento (limpeza e normalização de dados)
Pré-treinamento	Semanas ou meses de treino central de GPU. Aprendizagem auto-supervisionada e atualizações iterativas de parâmetros.
Avaliação e Iteração	Avaliar a precisão do LLM e outros fatores relacionados ao desempenho com benchmarks e métricas.
Ajuste fino	Adaptar o modelo para tarefas específicas com os conjuntos de dados mais relevantes. Neste ponto, os modelos podem ser melhorados para desempenho em aplicações específicas.
Teste e validação	Testar a qualidade e a coerência da saída e realizar verificações de segurança para respostas nocivas.
Monitorização e manutenção contínuas	Atualizações regulares com novos dados, mitigando problemas emergentes.

(Note que o acima não inclui tarefas relacionadas com implementação ou outras tarefas não relacionadas com formação.)

Os LLMs destacam-se nas tarefas de geração de linguagem, mas têm dificuldades com dados altamente estruturados, como folhas de cálculo, sem contexto adicional. Não são a melhor solução para todos os problemas, e a sua natureza em evolução significa que as tarefas que gerem eficazmente ainda estão a ser exploradas.

Uma aplicação comum são os modelos de Geração Aumentada por Recuperação (RAG), onde os LLMs são usados para responder a perguntas sobre conjuntos de dados específicos. Um modelo RAG melhora as capacidades de um LLM ao buscar informações relevantes de fontes de conhecimento externas para aumentar a precisão e coerência da resposta do LLM. Um modelo RAG também pode ser usado para manter os LLMs atualizados com informações em tempo real sem necessidade de retreinamento do LLM.

Ilustração de elementos RAG e como o modelo RAG funciona com um LLM

Ilustração dos elementos RAG e como o modelo RAG funciona com um LLM. De Grounding for Gemini com Vertex AI Search e DIY RAG

Em resumo, os modelos RAG complementam os LLMs e mitigam algumas das suas limitações.

A ascensão dos ataques de injeção de prompt e jailbreak

Ao contrário dos alvos de segurança tradicionais, os LLMs podem ser explorados por quase qualquer pessoa que saiba digitar. O método de ataque mais simples contra um LLM é "injeção de prompt", que manipula o LLM para fornecer respostas não intencionais ou contornar restrições. Um ataque de “jailbreak” um tipo de ataque de injeção de prompt concebido para contornar as medidas de segurança e restrições do modelo de IA.

Podemos usar os ataques de 2022 ao bot do Twitter remotely.io como um exemplo de ataques de injeção de prompt contra um modelo GPT-3. O objetivo do bot Remoteli.io era promover oportunidades de trabalho remoto e responder positivamente a tweets sobre trabalho remoto. O bot incluía o texto nos tweets do utilizador como parte do prompt de input, o que significava que os utilizadores podiam manipular o bot com instruções específicas nos seus próprios tweets. Neste exemplo, o utilizador instrui o Remotili.io a fazer uma falsa reivindicação de responsabilidade:

Utilizador do X (anteriormente Twitter) instrui a Remotili.io a fazer uma falsa reivindicação de responsabilidade

Utilizador da plataforma X (antigamente Twitter) instrui Remotili.io a fazer uma falsa alegação de responsabilidade

O ataque jailbreak vai um pouco mais longe ao criar um alter ego para enganar o modelo a ignorar as restrições de segurança. Aqui está um exemplo de um ataque jailbreak usando “Do Anything Now,” comumente referido como o jailbreak “DAN”:

Exemplo de prompt de jailbreak, apresentado em "Faça Qualquer Coisa Agora": Caracterização e Avaliação de Prompts de Jailbreak Na Natureza em Modelos de Linguagem Grande

Nota: A imagem acima não inclui o prompt completo do jailbreak DAN.

Utilizando um prompt DAN, o atacante introduz uma nova persona chamada "DAN". O prompt diz a Dan que pode fazer qualquer coisa, incluindo ações que normalmente está programado para evitar. A intenção é contornar filtros de conteúdo ou restrições e obter respostas prejudiciais, tendenciosas ou inadequadas.

Ao contrário de um ataque cibernético sofisticado, as injeções de prompt requerem pouca habilidade técnica e têm uma barreira de entrada baixa. Isto, além da acessibilidade de LLMs como o ChatGPT, tornam os ataques de injeção de prompt uma preocupação significativa. O OWASP Top 10 para Aplicações LLM lista as injeções de prompt como o principal risco.

Os LLMs são seguros?

Os LLMs representam um ramo fascinante e poderoso da IA, mas a sua natureza única apresenta novos desafios de segurança. Compreender como os LLMs funcionam e os tipos de vulnerabilidades que introduzem, como as injeções de prompts, é crucial para aproveitar os seus benefícios enquanto se minimizam os riscos.

No nosso próximo blog, analisamos mais de perto alguns ataques específicos de LLM, incluindo backdoors de IA e ataques à cadeia de abastecimento. Se gostaria de ler mais sobre este tópico, veja a nossa série de cinco partes sobre como os criminosos estão a usar IA nos seus ataques.

O investigador de segurança Jonathan Tanner contribuiu para esta série. Conecte-se com Jonathan no LinkedIn aqui.

Christine Barry

Christine Barry, Contadora Sénior de Histórias de Cibersegurança e Gestora de Conteúdos na Barracuda. Antes de se juntar à Barracuda, Christine foi engenheira de campo e gestora de projetos para clientes K12 e SMB durante mais de 15 anos. Possui várias credenciais em tecnologia e gestão de projetos, uma Licenciatura em Artes e um Mestrado em Administração de Empresas. É graduada pela Universidade de Michigan.

Conecte-se com a Christine no LinkedIn aqui.

Junte-se à nossa comunidade no Reddit!

Pesquisar o blogue

O Relatório de Perspetivas sobre Ransomware 2025

Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo

Obtenha o relatório

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil

Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar

ASSISTA AO WEBINAR