13 palavras enganam Deep Research: entenda o ataque WARP que preocupa pesquisadores

Pesquisadores da Cornell Tech revelaram que inserir cerca de 13 palavras de texto promocional num único comentário do Reddit é suficiente para fazer ferramentas de pesquisa com IA recomendar produtos que não existem. O ataque se chama WARP (Web Agent Retrieval Poisoning) e funciona porque sistemas como o Deep Research do ChatGPT e o Gemini Deep Research tratam conteúdo gerado por usuários com o mesmo peso de credibilidade que um site governamental ou uma publicação científica.

Esse artigo é uma leitura do paper publicado no arXiv pela Cornell Tech e da cobertura de imprensa desta semana, com o recorte do que muda na prática pra quem usa IA pra pesquisar e tomar decisões de negócio.

O que a pesquisa da Cornell Tech descobriu?

Fluxo do ataque WARP: do comentário envenenado no Reddit até a recomendação falsa gerada pelo agente de IA

Os pesquisadores Tingwei Zhang, Harold Triedman e Vitaly Shmatikov criaram um ataque que não injeta documentos novos na web. Em vez disso, ele modifica páginas que os agentes já buscam organicamente.

A técnica funciona assim: um atacante encontra threads populares do Reddit sobre o assunto que quer manipular - “melhores restaurantes em São Paulo”, “apps de namoro pra maiores de 50 anos”, “como cancelar o serviço X” - e acrescenta um comentário com cerca de 13 palavras de texto promocional sobre um produto falso. Quando o agente de IA pesquisa esse tópico, ele lê o thread, encontra o comentário envenenado e o inclui na síntese como se fosse informação confiável.

No teste com um único comentário envenenado, a taxa de sucesso foi de 38 a 51% das vezes em que o agente recuperou o conteúdo envenenado. Ao espalhar o ataque por vários threads do mesmo tópico, a taxa subiu para até 62%.

Os exemplos usados no paper incluem um restaurante fictício chamado “Sol Azteca” recomendado em threads de gastronomia, um app de namoro inexistente chamado “SilverPath” posicionado para homens divorciados acima de 50 anos, e ofertas fraudulentas de cancelamento de serviços.

Como funciona o ataque WARP na prática?

Personagem cartoon de capuz escuro plantando dados envenenados nos resultados de pesquisa enquanto um robô de IA confuso tenta avaliar as fontes

O WARP se aproveita de como agentes de pesquisa com IA funcionam: eles vasculham a web, leem fontes diversas e geram uma síntese. O problema é que não existe, na maioria dessas ferramentas, um mecanismo que pesa a credibilidade da fonte de forma robusta.

Como os próprios pesquisadores documentaram: esses sistemas tratam um comentário aleatório do Reddit e um site do governo americano como fontes de credibilidade equivalente, desde que o texto seja próximo ao que o usuário perguntou.

Reddit, Wikipedia, Quora e YouTube, plataformas onde qualquer pessoa pode postar, representam uma fatia enorme do que esses agentes leem. A superfície de ataque é aberta e barata. Não exige acesso especial, não exige conta verificada, não exige comprometer nenhum servidor. Uma conta gratuita com um comentário de 13 palavras basta.

Quais ferramentas foram testadas e como se saíram?

Ilustração 3D mostrando dois robôs de IA lado a lado recebendo a mesma fonte envenenada: um filtra com cuidado, o outro absorve tudo sem questionar

O teste completo de ponta a ponta foi feito contra três agentes de pesquisa open-source: STORM, Co-STORM e OmniThink. Para ferramentas comerciais, os pesquisadores analisaram o comportamento de citação visível nos resultados.

O resultado foi assimétrico:

Gemini Deep Research (Google): citou conteúdo gerado por usuários em cerca de 12% das citações.
Deep Research (OpenAI/ChatGPT): citou em apenas 0,4%, sugerindo filtros mais agressivos contra fontes de usuários.

A diferença de 30x entre as duas ferramentas comerciais mostra que mitigação é possível, mas não é padrão. Ferramentas menores, agentes construídos com LLMs via API sem filtros específicos e sistemas de pesquisa dentro de plataformas de automação ficam muito mais expostos. Qualquer agente que você ou sua equipe construiu com n8n, Make ou código próprio que usa busca na web provavelmente não tem essa camada de filtragem.

O que isso muda pra quem usa IA pra pesquisar no trabalho?

Personagem empresário cartoon olhando confuso para uma recomendação de produto surgindo de um robô de IA, enquanto um símbolo de alerta pulsa ao fundo

Se você usa o Deep Research do ChatGPT, o Perplexity, o Claude com ferramentas de pesquisa ou qualquer outro agente de IA pra levantar informações antes de tomar uma decisão, como avaliar fornecedor, parceiro, produto ou concorrente, você está em contato com essa vulnerabilidade.

O problema não é hipotético. É uma vulnerabilidade documentada, com taxa de sucesso medida, contra ferramentas que milhões de profissionais usam hoje.

Três pontos práticos:

Verificar as fontes citadas. Toda boa ferramenta de pesquisa com IA cita de onde veio a informação. Antes de agir num resultado, confira se as fontes listadas são sites que você reconheceria como confiáveis, não só threads de Reddit ou fóruns genéricos.

Desconfiar de menções a produtos desconhecidos. Se a IA menciona um produto ou serviço que você nunca ouviu falar, procure ele diretamente, não via a IA.

Usar a IA pra estruturar, não pra substituir a verificação. Agentes de pesquisa são ótimos pra levantar um mapa inicial de um tema. A validação final de qualquer recomendação comercial ainda precisa de uma checagem humana direta na fonte original.

O ataque WARP não significa que você deve parar de usar ferramentas de pesquisa com IA. Significa que você precisa entender o limite delas e incorporar uma camada de verificação quando a decisão tiver peso real.

A Formação em IA para Negócios da ibe.IA mostra como estruturar o uso de IA dentro da empresa de forma que as decisões importantes tenham esse tipo de checagem antes de virar ação.

Conheça a Formação em IA para Negócios

E se essa leitura te ajudou a entender o que está acontecendo, segue a ibe.IA no Instagram (@ibe.ia) que toda semana sai conteúdo desse jeito.