OWASP Top 10 Riscos para Modelos de Linguagem de Grande Porte: atualizações de 2025

Tópicos:

20 nov. 2024

À medida que a IA generativa e os grandes modelos de linguagem (LLMs) são integrados em um número crescente de processos internos e aplicações voltadas para o cliente, os riscos associados aos LLMs estão a aumentar. A lista OWASP Top 10 para aplicações LLM para 2025 detalha estes riscos com base em utilizações reais como uma nota de advertência para líderes em tecnologia, cibersegurança, privacidade e conformidade.

As organizações estão a entrar em território desconhecido na proteção e supervisão das soluções GenAI. O rápido avanço do GenAI também abre portas para que os adversários melhorem as suas estratégias de ataque, um duplo desafio de defesa e escalada de ameaças. — OWASP

Os ataques ou manipulações de modelos de IA são particularmente nefastos porque muitas vezes estão ocultos dos utilizadores finais, mas podem ter um impacto significativo nos resultados. Quando estes riscos são introduzidos pelos utilizadores, os resultados são distorcidos e podem ser usados para desinformação deliberada ou outras atividades maliciosas.

Os 10 Principais de OWASP de 2025 para Modelos de Linguagem de Grande Escala

A atualização recentemente anunciada para 2025 expande os desafios em evolução do GenAI, proporciona uma melhor compreensão dos riscos existentes, partilha orientações adicionais sobre a segurança da recuperação aumentada pela geração (RAG), adiciona o vazamento de prompts do sistema como um risco principal e oferece um relato mais completo sobre a agência excessiva.

Vamos analisar cada um dos 10 principais riscos com exemplos e estratégias para prevenção e mitigação.

Injeção de prompt

A injeção de prompts ocorre quando as entradas dos utilizadores alteram o comportamento ou a saída de um LLM de formas não intencionais. Isto pode envolver a ultrapassagem de medidas de segurança, acesso não autorizado ou manipulação de decisões.

Exemplos:

Injeção de prompts num chatbot para aceder a dados privados
Utilizar instruções ocultas no conteúdo da web para influenciar saídas
Modificar documentos em repositórios para manipular a geração aumentada por recuperação (RAG)
Utilizar diferentes idiomas nas instruções para evadir deteção

Estratégias de prevenção e mitigação:

Integrar a sanitização de dados para impedir que os dados do utilizador entrem nos modelos.
Implementar filtragem de conteúdo sensível tanto nas entradas como nas saídas.
Aplicar controlos de acesso com o menor privilégio para operações do modelo.
Limitar o acesso a fontes de dados externas.
Incorporar privacidade diferencial para adicionar ruído aos dados ou saídas.

As técnicas avançadas incluem o uso de encriptação homomórfica e tokenização para pré-processar e sanitizar qualquer informação sensível.

2. Divulgação de informações sensíveis

A divulgação de informações sensíveis ocorre quando um modelo revela inadvertidamente dados privados ou confidenciais através de respostas. Isto frequentemente inclui informações que estão contidas nos dados de treino e são divulgadas por consultas específicas dos utilizadores.

Exemplos:

Vazamento de chaves de API ou credenciais de utilizador
Divulgação inapropriada de estratégias empresariais proprietárias
Partilhar dados pessoais do utilizador ao responder a consultas
Divulgação de detalhes ou prompts sensíveis do sistema

Estratégias de prevenção e mitigação:

Limpar os dados de treino para remover detalhes sensíveis.
Aplicar filtragem de conteúdo para categorias de saída sensíveis.
Elimine componentes obsoletos ou vulneráveis.
Empregar controlos de acesso robustos para proteger dados sensíveis contra exposição.
Auditar respostas para identificar e prevenir fugas.
Implemente técnicas de anonimização de resposta .

3. Vulnerabilidades na cadeia de abastecimento

As vulnerabilidades na cadeia de abastecimento introduzem riscos quando são utilizados componentes ou dependências de terceiros. Isto pode incluir dados maliciosos ou não verificados, bibliotecas ou modelos. Pode simplesmente ser dados incorretos ou dados criados com intenção maliciosa.

Exemplos:

Integrar uma biblioteca LLM com portas traseiras ocultas
Utilização de APIs de terceiros comprometidas para funcionalidades adicionais
A utilização de modelos pré-treinados envenenados com dados manipulados
Implementação de atualizações de fontes não confiáveis

Estratégias de prevenção e mitigação:

Implemente estruturas rigorosas de governança de dados.
Validar todas as bibliotecas e conjuntos de dados de terceiros.
Limitar as fontes de dados a fornecedores verificados.
Implemente a monitorização em tempo de execução para detectar comportamentos suspeitos .
Conduza revisões de segurança regulares das dependências da cadeia de abastecimento.

4. Envenenamento de dados e de modelos

Em ameaças de envenenamento de dados e de modelos, os atacantes manipulam deliberadamente os dados de treino para influenciar o comportamento do LLM ou introduzir novas vulnerabilidades.

Exemplos:

Inserir instruções prejudiciais nos dados para alterar saídas
A modificar conjuntos de dados de ajuste fino para introduzir preconceito
Criar backdoors para permitir respostas específicas a prompts
Envenenamento de conjuntos de dados para reduzir a precisão do modelo

Estratégias de prevenção e mitigação:

Verificar e proteger fontes de dados durante o treino e ajuste fino.
Use a deteção de anomalias para identificar padrões invulgares nos dados.
Empregar privacidade diferencial para minimizar o impacto de pontos de dados individuais.
Teste regularmente os modelos contra tentativas de envenenamento.
Isole e valide todas as atualizações antes da implementação.

5. Tratamento inadequado de saída

Quando as saídas não são validadas, filtradas ou restritas, pode obter um manuseamento inadequado das saídas. Isto pode gerar conteúdo nocivo e introduzir riscos de segurança adicionais.

Exemplos:

Gerar linguagem tendenciosa ou prejudicial nas respostas
Produzir conteúdo que revela informações privadas
Código que executa operações não intencionais
Fornecer resultados imprecisos ou enganosos

Estratégias de prevenção e mitigação:

Adote uma abordagem de confiança zero e aplique a validação de entrada adequada .
Aplicar filtros para bloquear conteúdo nocivo ou restrito.
Exigir citações de fontes para respostas factuais para garantir a fiabilidade.
Testar saídas em diversos cenários para identificar vulnerabilidades.

6. Agência excessiva

Agência excessiva refere-se a situações em que os LLMs recebem autonomia em demasia, permitindo-lhes realizar ações de alto risco, como executar comandos ou aceder a sistemas sensíveis sem as salvaguardas adequadas.

Exemplos:

Permitir que LLMs executem chamadas de API sem monitorização
Automatizar decisões de alto risco, como transações financeiras ou informações de saúde
Ativar acesso irrestrito ao sistema de ficheiros
Permitir interações de plugins não supervisionadas em aplicações complexas

Estratégias de prevenção e mitigação:

Limitar o acesso do LLM a operações essenciais.
Implemente a supervisão com intervenção humana para tarefas críticas.
Utilize controlos de privilégios granulares para restringir capacidades.
Registar e monitorizar ações de LLM para responsabilização.
Desenhar mecanismos de falha segura para intervir se forem detetadas ações não autorizadas.

7. Fuga de prompt do sistema

O vazamento de prompts do sistema ocorre quando prompts confidenciais ou internos incorporados em sistemas LLM são revelados a utilizadores ou atacantes, expondo instruções sensíveis ou configurações do sistema.

Exemplos:

Revelar prompts do sistema ocultos
Exposição de chaves de API ou ligações de base de dados dentro de prompts do sistema
Descobrir critérios de filtragem, permissões e funções de utilizador, e outras regras internas

Estratégias de prevenção e mitigação:

Conceber mensagens do sistema para impedir a divulgação de dados sensíveis ou confidenciais.
Isolar as instruções do sistema das camadas de entrada.
Empregue limites de entrada/saída para detectar e bloquear fugas.
Certifique-se de que os controlos de segurança são aplicados de forma independente do LLM.

8. Fraquezas de vetor e de incorporação

Com fraquezas vectoriais e de incorporação, os atacantes exploram representações vectoriais ou sistemas de incorporação utilizados em aplicações para manipular o comportamento do modelo ou a integridade dos dados.

Exemplos:

Acesso não autorizado a embeddings que contêm informações sensíveis
Embeddings de deterioração para degradar a precisão ou resultados de pesquisa
Explorar falhas baseadas na proximidade em cálculos de similaridade de vetores
Introdução de conteúdo malicioso em espaços de incorporação partilhados

Estratégias de prevenção e mitigação:

Valide e sanitize as entradas antes de gerar embeddings.
Monitorizar regularmente os espaços vetoriais para anomalias.
Aplique algoritmos tolerantes ao ruído para melhorar as defesas contra ataques adversariais.
Implemente controlos rigorosos de permissões e acesso para sistemas embutidos.

9. Desinformação

A desinformação surge quando os LLMs geram resultados incorrectos, enganosos ou tendenciosos. Isto pode espalhar informação enganosa que parece credível, levando a quebras de segurança, danos à reputação e responsabilidades legais.

Exemplos:

Gerar conselhos médicos falsos num chatbot de saúde
Produzir conteúdo tendencioso em resposta a consultas sensíveis
Deturpar factos ou espalhar teorias da conspiração
Gerar código inseguro ou introduzir bibliotecas de código inseguras

Estratégias de prevenção e mitigação:

Treinar modelos com conjuntos de dados diversificados, verificados e atualizados.
Exigir citações de fontes e validação para saídas factuais.
Audite regularmente os resultados para precisão e imparcialidade.
Empregar filtros de pós-processamento para sinalizar ou corrigir conteúdo incorreto.
Utilize supervisão humana para casos de uso que exijam elevada precisão.

10. Consumo ilimitado

O consumo ilimitado refere-se a cenários em que os LLMs são explorados para consumir recursos excessivos, levando a negação de serviço, aumento de custos ou degradação do desempenho do sistema.

Exemplos:

Gerar saídas excessivamente longas em resposta a solicitações de utilizadores
Processamento de entradas extremamente grandes que sobrecarregam sistemas
Manuseio de ciclos infinitos em cadeias de consultas que drenam recursos
Permitir chamadas API sem restrições — levando a aumentos de faturação

Estratégias de prevenção e mitigação:

Impor limites rigorosos ao tamanho do input, comprimento do output e tempo de processamento.
Utilize limitação de taxa para chamadas de API e alocação de recursos.
Implemente timeouts e monitorização para terminar operações excessivas.
Validar entradas para detetar e rejeitar pedidos que consomem muitos recursos.

Descarregar a Lista de Verificação de Cibersegurança e Governança da OWASP

Para obter mais orientações, pode descarregar a Lista de Verificação de Cibersegurança e Governação de IA da OWASP para desenvolvedores e líderes de IA em busca de soluções de IA responsáveis e confiáveis.

e-book: Um guia para o papel da IA na cibersegurança

Paul Dughi

Paul Dughi é um jornalista digital e veterano da indústria dos media. Trabalhou como VP/Tecnologia para um grupo de estações de televisão e também como Presidente de seis estações de televisão próprias e operadas na Califórnia. Atualmente, trabalha como CEO na StrongerContent.com.

Pesquisar o blogue

O Relatório de Perspetivas sobre Ransomware 2025

Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo

Obtenha o relatório

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil

Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar

ASSISTA AO WEBINAR