Mensagens Multimídia em Agentes IA no n8n: o módulo de áudio, imagem e documento
7 aulas pra ensinar seu agente IA no n8n a entender fotos, áudios e documentos enviados pelo cliente, com fluxo completo no WhatsApp.
A maioria dos agentes de WhatsApp que as pessoas montam no começo só entende texto.
O cliente manda uma foto da nota fiscal e o agente diz “não entendi”. O cliente manda um áudio e o agente silencia. O cliente envia um PDF com o contrato e nada acontece.
Esse limite não é do WhatsApp. É do agente que não foi preparado pra lidar com outros tipos de mensagem.
O módulo “Mensagens Multimídia em Agentes Conversacionais” da Formação em Agentes IA e Automações do ibe.IA resolve isso.
O que tem dentro do módulo
O módulo tem 7 aulas, no curso de n8n Avançado da Formação em Agentes IA.

A estrutura:
- Ferramentas utilizadas (2 min): o que você precisa ter rodando antes de começar (Evolution API pra WhatsApp, n8n self-hosted)
- Conectando o WhatsApp e criando ponto de webhook (5 min): como o n8n recebe as mensagens do WhatsApp, inclusive as que não são texto
- Criando o agente base (10 min): o agente que vai coordenar o que fazer dependendo do tipo de mensagem recebida
- Entendendo imagem (12 min): como passar uma imagem recebida pelo WhatsApp pro modelo de visão e usar o que ele entendeu como parte da resposta
- Transcrição de áudio (8 min): como converter mensagem de voz em texto e alimentar o agente com o conteúdo transcrito
- Switch de tipo de mensagem (10 min): o nó central que detecta se a mensagem é texto, imagem, áudio ou documento e roteia pro fluxo correto
Pré-requisito do módulo: ter o n8n instalado (de preferência self-hosted, coberto no módulo VPS da mesma formação) e a Evolution API configurada.
Como o agente processa áudio
Quando um cliente manda um áudio no WhatsApp, o n8n recebe o arquivo de mídia via webhook da Evolution API.
O fluxo de transcrição usa a API de STT (Speech-to-Text) do OpenAI, o Whisper. O n8n faz o download do arquivo de áudio, envia pro Whisper, recebe o texto transcrito e passa esse texto como contexto pro agente de linguagem.
O agente não “ouve” o áudio. Ele lê o texto do que foi dito, da mesma forma que leria uma mensagem de texto normal. Pra ele, o canal de entrada não muda nada.
O módulo mostra o fluxo completo no n8n: webhook, download do arquivo, chamada pra Whisper, recebimento da transcrição e encaminhamento pro nó de agente.

Como o agente processa imagem
Imagem é diferente de áudio porque alguns modelos de linguagem já aceitam imagem diretamente como input, sem precisar de um passo intermediário de conversão.
O fluxo de imagem no n8n faz o download da imagem recebida pelo WhatsApp e envia diretamente pra um modelo com capacidade de visão (GPT-4o ou Claude 3.5 Sonnet, por exemplo), junto com um prompt que instrui o que fazer com ela.
O módulo mostra um caso prático: agente que recebe foto de um produto com defeito e já categoriza o tipo de problema, que é passado pra um fluxo de abertura de chamado.
O resultado é que o atendimento começa a resolver enquanto o cliente ainda está digitando a segunda mensagem.

Switch de tipo de mensagem: o centro do fluxo
O nó mais importante do módulo é o Switch que detecta o tipo de mensagem recebida.
Sem ele, você precisaria de um fluxo separado pra cada tipo de mídia. Com ele, uma entrada única distribui pro caminho correto: texto vai direto pro agente, áudio passa pelo Whisper antes, imagem vai pro modelo de visão, documento segue outro fluxo.
O módulo mostra como configurar esse Switch no n8n usando os metadados que a Evolution API já manda junto com a mensagem (campo messageType), e como garantir que cada tipo de mídia sempre cai no nó certo, mesmo que o WhatsApp atualize o formato da mensagem.
Dominar esse padrão transforma o agente de “só responde texto” pra “entende qualquer coisa que o cliente mandar”, que é o que clientes reais enviam no dia a dia.
Esse módulo faz parte da Formação em Agentes IA e Automações do ibe.IA, no curso de n8n Avançado.
Conheça a Formação em Agentes IA e Automações
E se essa leitura te ajudou a entender o que está acontecendo, segue a ibe.IA no Instagram (@ibe.ia) que toda semana sai conteúdo desse jeito.
Materiais Gratuitos
Crie um SaaS que paga suas contas
Aula gratuita: aprenda a criar aplicativos web e mobile com Vibe Coding e IA, sem saber programar. Nossos alunos publicam o primeiro app em menos de 7 dias.
Assistir Aula Gratuita →Fature R$12k/mês como Gestor de IA
Aula gratuita: descubra a profissão do Gestor de IA. Aprenda a criar agentes e automações com n8n e fature R$12 mil/mês trabalhando de casa, sem programar.
Assistir Aula Gratuita →3 formações em 1
Tudo que você precisa para dominar IA
Vibe Coding + Agentes IA + IA para Negócios em um único pacote.
Formação em Vibe Coding
Aprenda a criar Apps, SaaS e plataformas completas com Vibe Coding e IA.
-
Claude Code
-
Cursor
-
Antigravity
-
Lovable
-
Supabase
Formação em Agentes IA e Automações
Domine Agentes IA e Automações para atender clientes no WhatsApp, otimizar processos e eliminar trabalho repetitivo.
-
n8n
-
SquadOS
Formação em IA para Negócios
Implemente IA em todos os departamentos da empresa: conteúdo, marketing, imagens, vídeos, gestão e análise de dados.
-
Claude Cowork
-
Claude Code
-
ChatGPT
-
Magnific
-
Heygen


