Destaque de Ameaça: O bom, o mau, e os 'bots cinzentos' – os bots raspadores de IA generativa que visam as suas aplicações web

Tópicos:

2 abr. 2025

Os bots são programas de software automatizados concebidos para realizar atividades online em grande escala. Existem bons bots — como bots de rastreamento de motores de pesquisa, bots de SEO e bots de serviço ao cliente — e maus bots, concebidos para atividades online maliciosas ou nocivas, como violar contas para roubar dados pessoais ou cometer fraude.

No espaço entre eles, encontrará o que a Barracuda chama de “bots cinzentos.” Bots raspadores de IA generativa são bots cinzentos projetados para extrair ou raspar grandes volumes de dados de sites, muitas vezes para treinar modelos de IA generativa. Outros exemplos de bots cinzentos são bots raspadores de sites e agregadores de conteúdo automatizados que coletam conteúdo da web, como notícias, críticas, ofertas de viagens, etc.

Bots cinzentos estão a esbater os limites da atividade legítima. Não são abertamente maliciosos, mas a sua abordagem pode ser questionável. Alguns são altamente agressivos.

Recentemente, relatámos como as organizações podem proteger melhor as suas aplicações web, incluindo websites, contra bots raspadores de IA Gen. Neste relatório, analisamos o que os dados nos dizem sobre a atividade de bots cinzentos de IA Gen que as organizações enfrentam atualmente.

Os bots cinzentos estão com fome

Dados de deteção da Barracuda mostram que:

Entre dezembro e o final de fevereiro de 2025, milhões de pedidos foram recebidos por aplicações web de bots de Gen AI, incluindo ClaudeBot e o bot Bytespider do TikTok.
Uma aplicação web monitorizada recebeu 9,7 milhões de pedidos de bots raspadores de IA Gen ao longo de um período de 30 dias.
Outra aplicação web monitorizada recebeu mais de meio milhão de pedidos de bots scraper Gen AI num único dia.
Análise do tráfego de bots cinzentos direcionados a uma aplicação web rastreada adicionalmente revelou que os pedidos permaneceram relativamente consistentes ao longo de 24 horas — com uma média de cerca de 17.000 pedidos por hora.

Atividade de bot de extração ao longo de 24 horas

Esta consistência no tráfego de pedidos foi inesperada. Geralmente, assume-se, e muitas vezes é o caso, que o tráfego de bots cinzentos ocorre em ondas, atingindo um site por alguns minutos a uma hora ou mais antes de recuar. Ambos os cenários — bombardeamento constante ou picos de tráfego inesperados e ad hoc — apresentam desafios para as aplicações web.

Impacto empresarial

Bots cinzentos podem ser agressivos ao coletar dados e podem remover informações sem permissão. A atividade de bots cinzentos pode sobrecarregar o tráfego de aplicações web, interromper operações e recolher grandes volumes de dados criativos ou comerciais proprietários.

A raspagem e o uso subsequente de dados protegidos por direitos de autor por modelos de treino de IA podem violar os direitos legais dos proprietários.

A raspagem frequente por bots aumenta a carga do servidor, o que pode degradar o desempenho das aplicações web e afetar a experiência do utilizador.

Podem também aumentar os custos de hospedagem de aplicações devido ao aumento do uso de CPU na nuvem e ao consumo de largura de banda.

Além disso, a presença de bots de raspagem de IA pode distorcer a análise de sites, tornando difícil para as organizações acompanhar o comportamento genuíno e tomar decisões empresariais informadas. Muitas aplicações web dependem do acompanhamento do comportamento do utilizador e dos fluxos de trabalho populares para tomar decisões baseadas em dados. Os bots de IA generativa podem distorcer estas métricas, levando a perceções enganosas e a uma tomada de decisão inadequada.

Existem também riscos de privacidade de dados. Algumas indústrias, como a saúde e as finanças, podem enfrentar problemas de conformidade se os seus dados proprietários ou de clientes forem extraídos.

Por último, mas não menos importante, os utilizadores e clientes podem perder confiança numa plataforma se o conteúdo gerado por IA a inundar ou se os seus dados forem utilizados sem consentimento.

Tons de cinza

Os bots cinzentos de IA Gen mais prolíficos detetados no início de 2025 incluem o ClaudeBot e o bot do TikTok (Bytespider).

ClaudeBot

ClaudeBot é o bot cinzento de IA generativa mais ativo no nosso conjunto de dados por uma margem considerável. ClaudeBot recolhe dados para treinar Claude, uma ferramenta de IA generativa destinada a uso quotidiano generalizado.

As solicitações incessantes do ClaudeBot provavelmente irão impactar muitas das suas aplicações web alvo. A Anthropic, a empresa por trás do Claude, apresenta conteúdo no seu site explicando como o ClaudeBot se comporta e como bloquear a atividade de raspagem.

Esse conteúdo também aparece nos sites de alguns dos outros bots cinzentos identificados pelos sistemas de deteção da Barracuda, incluindo OpenAI/GPTbot e Google-Extended.

TikTok

O TikTok é um serviço de hospedagem de vídeos curtos com pouco mais de dois mil milhões de utilizadores em todo o mundo. É propriedade da empresa de internet chinesa ByteDance, que utiliza um bot raspador de IA chamado Bytespider para treinar modelos de IA generativa. Os dados fornecem ao TikTok informações sobre as preferências e tendências mais recentes dos utilizadores, ajudando a melhorar o motor de recomendação de conteúdo do TikTok e outras funcionalidades impulsionadas por IA, como pesquisas de palavras-chave para publicidade. O Bytespider tem sido relatado como particularmente agressivo e inescrupuloso.

Dois outros bots de scraping de IA generativa detetados pelos sistemas Barracuda no final de 2024/início de 2025 foram o PerplexityBot e o DeepSeekBot.

Manter os bots cinzentos fora

Os dados sugerem que bots cinzentos, como os bots de Gen AI, são agora um componente quotidiano do tráfego de bots online e vieram para ficar. É hora de as organizações os considerarem nas suas estratégias de segurança.

Existem diretrizes para sites e para as empresas por trás de bots de IA generativa. Por exemplo, os sites podem implementar robots.txt. Esta é uma linha de código adicionada ao site que sinaliza a um scraper que não deve recolher quaisquer dados desse site.

Robots.txt não é legalmente vinculativo. Além disso, para que o robots.txt seja eficaz, o nome específico do bot de raspagem precisa ser adicionado. Isto abre caminho para que bots cinzentos menos escrupulosos ignorem a configuração do robots.txt ou mantenham o nome específico do seu raspador confidencial ou o alterem regularmente.

Para garantir que as suas aplicações web estejam protegidas contra o impacto dos bots cinzentos, considere implementar proteção contra bots capaz de detetar e bloquear a atividade de bots scraper de IA generativa.

Por exemplo, Barracuda Advanced Bot Protection utiliza tecnologias de ponta de IA e aprendizagem automática para enfrentar as ameaças únicas colocadas por bots cinzentos, com deteção baseada em comportamento, aprendizagem automática adaptativa, impressão digital abrangente e bloqueio em tempo real.

Os bots de IA generativa não são apenas uma tendência passageira — como mostram os nossos dados, eles já são comuns e persistentes. Os debates éticos, legais e comerciais em torno dos bots cinzentos parecem continuar por algum tempo. Entretanto, com as ferramentas de segurança certas, tem a garantia de saber que os seus dados continuam seus.

e-book: Os novos ABCs da segurança de aplicações

Rahul Gupta

Rahul Gupta é Engenheiro de Software Principal Sénior, Engenharia de Segurança de Aplicações na Barracuda.

Pesquisar o blogue

O Relatório de Perspetivas sobre Ransomware 2025

Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo

Obtenha o relatório

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil

Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar

ASSISTA AO WEBINAR