A maioria dos agentes de WhatsApp que as pessoas montam no começo só entende texto.

O cliente manda uma foto da nota fiscal e o agente diz “não entendi”. O cliente manda um áudio e o agente silencia. O cliente envia um PDF com o contrato e nada acontece.

Esse limite não é do WhatsApp. É do agente que não foi preparado pra lidar com outros tipos de mensagem.

O módulo “Mensagens Multimídia em Agentes Conversacionais” da Formação em Agentes IA e Automações do ibe.IA resolve isso.

O que tem dentro do módulo

O módulo tem 7 aulas, no curso de n8n Avançado da Formação em Agentes IA.

Primeira aula do módulo de mensagens multimídia no n8n no ibe.IA

A estrutura:

  • Ferramentas utilizadas (2 min): o que você precisa ter rodando antes de começar (Evolution API pra WhatsApp, n8n self-hosted)
  • Conectando o WhatsApp e criando ponto de webhook (5 min): como o n8n recebe as mensagens do WhatsApp, inclusive as que não são texto
  • Criando o agente base (10 min): o agente que vai coordenar o que fazer dependendo do tipo de mensagem recebida
  • Entendendo imagem (12 min): como passar uma imagem recebida pelo WhatsApp pro modelo de visão e usar o que ele entendeu como parte da resposta
  • Transcrição de áudio (8 min): como converter mensagem de voz em texto e alimentar o agente com o conteúdo transcrito
  • Switch de tipo de mensagem (10 min): o nó central que detecta se a mensagem é texto, imagem, áudio ou documento e roteia pro fluxo correto

Pré-requisito do módulo: ter o n8n instalado (de preferência self-hosted, coberto no módulo VPS da mesma formação) e a Evolution API configurada.

Como o agente processa áudio

Quando um cliente manda um áudio no WhatsApp, o n8n recebe o arquivo de mídia via webhook da Evolution API.

O fluxo de transcrição usa a API de STT (Speech-to-Text) do OpenAI, o Whisper. O n8n faz o download do arquivo de áudio, envia pro Whisper, recebe o texto transcrito e passa esse texto como contexto pro agente de linguagem.

O agente não “ouve” o áudio. Ele lê o texto do que foi dito, da mesma forma que leria uma mensagem de texto normal. Pra ele, o canal de entrada não muda nada.

O módulo mostra o fluxo completo no n8n: webhook, download do arquivo, chamada pra Whisper, recebimento da transcrição e encaminhamento pro nó de agente.

Personagem Pixar 3D transcrevendo áudio de WhatsApp em texto, cena de laboratório futurista, paleta charcoal noir com acento ciano

Como o agente processa imagem

Imagem é diferente de áudio porque alguns modelos de linguagem já aceitam imagem diretamente como input, sem precisar de um passo intermediário de conversão.

O fluxo de imagem no n8n faz o download da imagem recebida pelo WhatsApp e envia diretamente pra um modelo com capacidade de visão (GPT-4o ou Claude 3.5 Sonnet, por exemplo), junto com um prompt que instrui o que fazer com ela.

O módulo mostra um caso prático: agente que recebe foto de um produto com defeito e já categoriza o tipo de problema, que é passado pra um fluxo de abertura de chamado.

O resultado é que o atendimento começa a resolver enquanto o cliente ainda está digitando a segunda mensagem.

Personagem Pixar 3D analisando imagem recebida no WhatsApp com lentes de visão computacional, cena noir com acento ciano

Switch de tipo de mensagem: o centro do fluxo

O nó mais importante do módulo é o Switch que detecta o tipo de mensagem recebida.

Sem ele, você precisaria de um fluxo separado pra cada tipo de mídia. Com ele, uma entrada única distribui pro caminho correto: texto vai direto pro agente, áudio passa pelo Whisper antes, imagem vai pro modelo de visão, documento segue outro fluxo.

O módulo mostra como configurar esse Switch no n8n usando os metadados que a Evolution API já manda junto com a mensagem (campo messageType), e como garantir que cada tipo de mídia sempre cai no nó certo, mesmo que o WhatsApp atualize o formato da mensagem.

Dominar esse padrão transforma o agente de “só responde texto” pra “entende qualquer coisa que o cliente mandar”, que é o que clientes reais enviam no dia a dia.

Esse módulo faz parte da Formação em Agentes IA e Automações do ibe.IA, no curso de n8n Avançado.

Conheça a Formação em Agentes IA e Automações

E se essa leitura te ajudou a entender o que está acontecendo, segue a ibe.IA no Instagram (@ibe.ia) que toda semana sai conteúdo desse jeito.