
OWASP Top 10 Riscos para Modelos de Linguagem de Grande Porte: atualizações de 2025
À medida que a IA generativa e os grandes modelos de linguagem (LLMs) são integrados em um número crescente de processos internos e aplicações voltadas para o cliente, os riscos associados aos LLMs estão a aumentar. A lista OWASP Top 10 para aplicações LLM para 2025 detalha estes riscos com base em utilizações reais como uma nota de advertência para líderes em tecnologia, cibersegurança, privacidade e conformidade.
As organizações estão a entrar em território desconhecido na proteção e supervisão das soluções GenAI. O rápido avanço do GenAI também abre portas para que os adversários melhorem as suas estratégias de ataque, um duplo desafio de defesa e escalada de ameaças. — OWASP
Os ataques ou manipulações de modelos de IA são particularmente nefastos porque muitas vezes estão ocultos dos utilizadores finais, mas podem ter um impacto significativo nos resultados. Quando estes riscos são introduzidos pelos utilizadores, os resultados são distorcidos e podem ser usados para desinformação deliberada ou outras atividades maliciosas.
Os 10 Principais de OWASP de 2025 para Modelos de Linguagem de Grande Escala
A atualização recentemente anunciada para 2025 expande os desafios em evolução do GenAI, proporciona uma melhor compreensão dos riscos existentes, partilha orientações adicionais sobre a segurança da recuperação aumentada pela geração (RAG), adiciona o vazamento de prompts do sistema como um risco principal e oferece um relato mais completo sobre a agência excessiva.
Vamos analisar cada um dos 10 principais riscos com exemplos e estratégias para prevenção e mitigação.
Injeção de prompt
A injeção de prompts ocorre quando as entradas dos utilizadores alteram o comportamento ou a saída de um LLM de formas não intencionais. Isto pode envolver a ultrapassagem de medidas de segurança, acesso não autorizado ou manipulação de decisões.
Exemplos:
- Injeção de prompts num chatbot para aceder a dados privados
- Utilizar instruções ocultas no conteúdo da web para influenciar saídas
- Modificar documentos em repositórios para manipular a geração aumentada por recuperação (RAG)
- Utilizar diferentes idiomas nas instruções para evadir deteção
Estratégias de prevenção e mitigação:
- Integrar a sanitização de dados para impedir que os dados do utilizador entrem nos modelos.
- Implementar filtragem de conteúdo sensível tanto nas entradas como nas saídas.
- Aplicar controlos de acesso com o menor privilégio para operações do modelo.
- Limitar o acesso a fontes de dados externas.
- Incorporar privacidade diferencial para adicionar ruído aos dados ou saídas.
As técnicas avançadas incluem o uso de encriptação homomórfica e tokenização para pré-processar e sanitizar qualquer informação sensível.
2. Divulgação de informações sensíveis
A divulgação de informações sensíveis ocorre quando um modelo revela inadvertidamente dados privados ou confidenciais através de respostas. Isto frequentemente inclui informações que estão contidas nos dados de treino e são divulgadas por consultas específicas dos utilizadores.
Exemplos:
- Vazamento de chaves de API ou credenciais de utilizador
- Divulgação inapropriada de estratégias empresariais proprietárias
- Partilhar dados pessoais do utilizador ao responder a consultas
- Divulgação de detalhes ou prompts sensíveis do sistema
Estratégias de prevenção e mitigação:
- Limpar os dados de treino para remover detalhes sensíveis.
- Aplicar filtragem de conteúdo para categorias de saída sensíveis.
- Elimine componentes obsoletos ou vulneráveis.
- Empregar controlos de acesso robustos para proteger dados sensíveis contra exposição.
- Auditar respostas para identificar e prevenir fugas.
- Implemente técnicas de anonimização de resposta .
3. Vulnerabilidades na cadeia de abastecimento
As vulnerabilidades na cadeia de abastecimento introduzem riscos quando são utilizados componentes ou dependências de terceiros. Isto pode incluir dados maliciosos ou não verificados, bibliotecas ou modelos. Pode simplesmente ser dados incorretos ou dados criados com intenção maliciosa.
Exemplos:
- Integrar uma biblioteca LLM com portas traseiras ocultas
- Utilização de APIs de terceiros comprometidas para funcionalidades adicionais
- A utilização de modelos pré-treinados envenenados com dados manipulados
- Implementação de atualizações de fontes não confiáveis
Estratégias de prevenção e mitigação:
- Implemente estruturas rigorosas de governança de dados.
- Validar todas as bibliotecas e conjuntos de dados de terceiros.
- Limitar as fontes de dados a fornecedores verificados.
- Implemente a monitorização em tempo de execução para detectar comportamentos suspeitos .
- Conduza revisões de segurança regulares das dependências da cadeia de abastecimento.
4. Envenenamento de dados e de modelos
Em ameaças de envenenamento de dados e de modelos, os atacantes manipulam deliberadamente os dados de treino para influenciar o comportamento do LLM ou introduzir novas vulnerabilidades.
Exemplos:
- Inserir instruções prejudiciais nos dados para alterar saídas
- A modificar conjuntos de dados de ajuste fino para introduzir preconceito
- Criar backdoors para permitir respostas específicas a prompts
- Envenenamento de conjuntos de dados para reduzir a precisão do modelo
Estratégias de prevenção e mitigação:
- Verificar e proteger fontes de dados durante o treino e ajuste fino.
- Use a deteção de anomalias para identificar padrões invulgares nos dados.
- Empregar privacidade diferencial para minimizar o impacto de pontos de dados individuais.
- Teste regularmente os modelos contra tentativas de envenenamento.
- Isole e valide todas as atualizações antes da implementação.
5. Tratamento inadequado de saída
Quando as saídas não são validadas, filtradas ou restritas, pode obter um manuseamento inadequado das saídas. Isto pode gerar conteúdo nocivo e introduzir riscos de segurança adicionais.
Exemplos:
- Gerar linguagem tendenciosa ou prejudicial nas respostas
- Produzir conteúdo que revela informações privadas
- Código que executa operações não intencionais
- Fornecer resultados imprecisos ou enganosos
Estratégias de prevenção e mitigação:
- Adote uma abordagem de confiança zero e aplique a validação de entrada adequada .
- Aplicar filtros para bloquear conteúdo nocivo ou restrito.
- Exigir citações de fontes para respostas factuais para garantir a fiabilidade.
- Testar saídas em diversos cenários para identificar vulnerabilidades.
6. Agência excessiva
Agência excessiva refere-se a situações em que os LLMs recebem autonomia em demasia, permitindo-lhes realizar ações de alto risco, como executar comandos ou aceder a sistemas sensíveis sem as salvaguardas adequadas.
Exemplos:
- Permitir que LLMs executem chamadas de API sem monitorização
- Automatizar decisões de alto risco, como transações financeiras ou informações de saúde
- Ativar acesso irrestrito ao sistema de ficheiros
- Permitir interações de plugins não supervisionadas em aplicações complexas
Estratégias de prevenção e mitigação:
- Limitar o acesso do LLM a operações essenciais.
- Implemente a supervisão com intervenção humana para tarefas críticas.
- Utilize controlos de privilégios granulares para restringir capacidades.
- Registar e monitorizar ações de LLM para responsabilização.
- Desenhar mecanismos de falha segura para intervir se forem detetadas ações não autorizadas.
7. Fuga de prompt do sistema
O vazamento de prompts do sistema ocorre quando prompts confidenciais ou internos incorporados em sistemas LLM são revelados a utilizadores ou atacantes, expondo instruções sensíveis ou configurações do sistema.
Exemplos:
- Revelar prompts do sistema ocultos
- Exposição de chaves de API ou ligações de base de dados dentro de prompts do sistema
- Descobrir critérios de filtragem, permissões e funções de utilizador, e outras regras internas
Estratégias de prevenção e mitigação:
- Conceber mensagens do sistema para impedir a divulgação de dados sensíveis ou confidenciais.
- Isolar as instruções do sistema das camadas de entrada.
- Empregue limites de entrada/saída para detectar e bloquear fugas.
- Certifique-se de que os controlos de segurança são aplicados de forma independente do LLM.
8. Fraquezas de vetor e de incorporação
Com fraquezas vectoriais e de incorporação, os atacantes exploram representações vectoriais ou sistemas de incorporação utilizados em aplicações para manipular o comportamento do modelo ou a integridade dos dados.
Exemplos:
- Acesso não autorizado a embeddings que contêm informações sensíveis
- Embeddings de deterioração para degradar a precisão ou resultados de pesquisa
- Explorar falhas baseadas na proximidade em cálculos de similaridade de vetores
- Introdução de conteúdo malicioso em espaços de incorporação partilhados
Estratégias de prevenção e mitigação:
- Valide e sanitize as entradas antes de gerar embeddings.
- Monitorizar regularmente os espaços vetoriais para anomalias.
- Aplique algoritmos tolerantes ao ruído para melhorar as defesas contra ataques adversariais.
- Implemente controlos rigorosos de permissões e acesso para sistemas embutidos.
9. Desinformação
A desinformação surge quando os LLMs geram resultados incorrectos, enganosos ou tendenciosos. Isto pode espalhar informação enganosa que parece credível, levando a quebras de segurança, danos à reputação e responsabilidades legais.
Exemplos:
- Gerar conselhos médicos falsos num chatbot de saúde
- Produzir conteúdo tendencioso em resposta a consultas sensíveis
- Deturpar factos ou espalhar teorias da conspiração
- Gerar código inseguro ou introduzir bibliotecas de código inseguras
Estratégias de prevenção e mitigação:
- Treinar modelos com conjuntos de dados diversificados, verificados e atualizados.
- Exigir citações de fontes e validação para saídas factuais.
- Audite regularmente os resultados para precisão e imparcialidade.
- Empregar filtros de pós-processamento para sinalizar ou corrigir conteúdo incorreto.
- Utilize supervisão humana para casos de uso que exijam elevada precisão.
10. Consumo ilimitado
O consumo ilimitado refere-se a cenários em que os LLMs são explorados para consumir recursos excessivos, levando a negação de serviço, aumento de custos ou degradação do desempenho do sistema.
Exemplos:
- Gerar saídas excessivamente longas em resposta a solicitações de utilizadores
- Processamento de entradas extremamente grandes que sobrecarregam sistemas
- Manuseio de ciclos infinitos em cadeias de consultas que drenam recursos
- Permitir chamadas API sem restrições — levando a aumentos de faturação
Estratégias de prevenção e mitigação:
- Impor limites rigorosos ao tamanho do input, comprimento do output e tempo de processamento.
- Utilize limitação de taxa para chamadas de API e alocação de recursos.
- Implemente timeouts e monitorização para terminar operações excessivas.
- Validar entradas para detetar e rejeitar pedidos que consomem muitos recursos.
Descarregar a Lista de Verificação de Cibersegurança e Governança da OWASP
Para obter mais orientações, pode descarregar a Lista de Verificação de Cibersegurança e Governação de IA da OWASP para desenvolvedores e líderes de IA em busca de soluções de IA responsáveis e confiáveis.

O Relatório de Perspetivas sobre Ransomware 2025
Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo
Subscreva o Blogue Barracuda.
Inscreva-se para receber destaques sobre ameaças, comentários do setor e muito mais.

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil
Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar