Testamos 8 LLMs baratos com copywriting real: qual escreve melhor Instagram e Meta Ads
Comparativo prático entre 8 LLMs baratos escrevendo hooks de Instagram e ads de Meta: rubrica numérica, erros técnicos e ranking final.

Existe uma categoria de modelos que quase ninguém fala: os LLMs baratos. Não o GPT-4o, não o Claude, não o Gemini Pro. Os Qwen, GLM, Kimi, DeepSeek, MiniMax. Modelos que custam frações do preço dos líderes e que, dependendo da tarefa, entregam resultados muito próximos.
Resolvi testar oito deles com uma tarefa real de copywriting. Não benchmark sintético. Tarefa com produto definido, público-alvo claro, restrições técnicas reais e ângulos de anúncio distintos. O resultado foi mais revelador do que eu esperava.
Por que testar LLMs baratos pra copywriting?
Copywriting é uma das tarefas mais comuns que qualquer negócio delega pra IA hoje. Hooks de Instagram, Meta Ads, e-mails, variações de headline. O custo do modelo começa a importar quando você está gerando dezenas de variações por semana.
O problema dos comparativos que existem: quase todos usam benchmarks acadêmicos ou tarefas abstratas. Nenhum coloca o modelo pra escrever copy com limite real de caractere, restrição de estrutura por item e avaliação de tom em PT-BR.
Esse teste foi diferente.
Os oito modelos testados, todos disponíveis via API por preços baixos:
- DeepSeek V4 Pro
- MiMo-V2.5-Pro
- Qwen3.6 Plus
- Qwen3.7 Plus
- Qwen3.7 Max
- MiniMax M3 (baseline, o modelo que já usávamos no projeto)
- Kimi K2.6
- GLM-5.1
Cada um rodou via opencode Go numa sessão separada, sem contexto compartilhado. O mesmo briefing, as mesmas regras.
Como foi montado o teste?
O produto era um curso de storytelling por R$ 497, com 3 mentorias em grupo e templates prontos. O público: criadores com 1 mil a 50 mil seguidores que postam há pelo menos seis meses mas sentem que o conteúdo não engaja ou não converte.

Tarefa 1: 10 variações de hook para o slide 1 de um carrossel sobre “O sacrifício do mentor nos filmes”, usando Matrix como caso. Cada hook: máximo 12 palavras, sem travessão, dois-pontos ou aspas, estrutura diferente dos outros 9.
Tarefa 2: 3 conjuntos de Meta Ads com ângulos distintos: dor (o criador que posta e ninguém vê), prova/autoridade (resultado concreto), e curiosidade/quebra de crença. Cada conjunto com headline (até 40 caracteres), primary text (até 125 caracteres) e descrição do link (até 30 caracteres).
Tarefa 3: 2 conjuntos de Meta Ads focados em urgência real: um de coorte com vagas limitadas, outro de bônus com prazo, sem clichês de Black Friday.
A rubrica: 4 dimensões por tarefa (Clareza, Originalidade, Tom PT-BR, Eficácia), nota 1 a 5. Máximo de 60 pontos por modelo. Violações de limite técnico reduziam a nota diretamente.
Tarefa 1: quem acertou os hooks de Instagram?
A maioria dos modelos entregou hooks funcionais. A diferença apareceu na variedade estrutural e no teto criativo.
O hook mais ousado do teste veio do Qwen3.6 Plus:
Morreu pra quê exatamente
Quatro palavras. Estrutura radicalmente diferente dos outros nove. Sem contexto, sem âncora, sem o nome do filme. Funciona porque quem já assistiu Matrix completa mentalmente.
O hook com melhor insight narrativo foi do GLM-5.1:
O sacrifício do mentor não é morrer mas sim soltar a mão
Doze palavras, no limite. Entrega uma tese que vai além do óbvio. Esse tipo de hook não age pelo gatilho. Age pelo ponto de vista.
O Kimi K2.6 trouxe um que conecta direto com o público do carrossel:
A história que todo criador de conteúdo ignora no Matrix
Cita o público dentro do hook. Risco calculado: filtra quem não se identifica como criador, mas fala direto com quem interessa.
Violações nessa tarefa: MiniMax M3 e MiMo-V2.5-Pro passaram de 12 palavras em ao menos um hook cada. Os outros seis respeitaram todos os limites.

Tarefas 2 e 3: quem respeitou os limites técnicos dos Meta Ads?
Esse foi o filtro mais brutal do teste.
O campo Primary text no Meta Ads tem limite real de 125 caracteres para o que aparece no feed antes do “ver mais”. O Headline tem 40. Não é sugestão de estilo. Um headline com 50 caracteres aparece cortado automaticamente pela plataforma.
Violações encontradas:
- MiMo-V2.5-Pro: primary text acima de 125 caracteres em dois conjuntos (132 e 134 chars).
- Qwen3.7 Plus: violou em quatro dos cinco conjuntos. Primary texts chegaram a 145 caracteres. Incluiu preço e parcelamento no primary, campo que aparece cortado no feed.
- MiniMax M3: headlines acima de 40 caracteres em quatro dos cinco conjuntos, chegando a 50 chars.
Quem não violou nada: Qwen3.7 Max, DeepSeek V4 Pro, Qwen3.6 Plus, Kimi K2.6 e GLM-5.1.
Entre os que respeitaram os limites, o Qwen3.7 Max entregou os ads com mais especificidade. O headline do Conjunto B foi “De 2k pra 47k em 90 dias”: ponto de partida, ponto de chegada, prazo. Quatro informações em cinco palavras.
O paradoxo do teste foi o MiniMax M3: os melhores conceitos de copywriting do lote, a pior execução técnica. “32 de 40 alunos dobraram o faturamento em 90 dias” é muito mais crível do que “Alunos dobraram o faturamento”. A fração dá credibilidade que o número redondo não dá. Mas o headline tinha 50 caracteres e ia pro ar cortado.

O ranking final: quem ficou em primeiro?
| Modelo | T1 | T2 | T3 | Total |
|---|---|---|---|---|
| Qwen3.7 Max | 15 | 19 | 18 | 52 |
| DeepSeek V4 Pro | 17 | 17 | 17 | 51 |
| GLM-5.1 | 18 | 16 | 16 | 50 |
| Qwen3.6 Plus | 20 | 18 | 11 | 49 |
| Kimi K2.6 | 17 | 14 | 15 | 46 |
| MiniMax M3 | 14 | 15 | 13 | 42 |
| Qwen3.7 Plus | 16 | 11 | 11 | 38 |
| MiMo-V2.5-Pro | 13 | 11 | 13 | 37 |
O Qwen3.7 Max ganhou pela consistência: cumpriu todos os limites em todos os conjuntos e entregou copy específico, com dados reais, tom natural. Não teve o hook mais criativo, mas não teve erro nenhum.
O DeepSeek V4 Pro ficou em segundo por voz própria. “Método que estancou rejeição” e “Conteúdo bom não engaja” fogem do padrão genérico que a maioria dos modelos entrega. Tom PT-BR mais fluido que qualquer Qwen.
O GLM-5.1 ficou em terceiro com a melhor performance na Tarefa 1, mas perdeu pontos nos ads por um headline genérico demais no Conjunto B: “O método que funciona”, sem tese, sem dado, sem tensão.
O Qwen3.6 Plus teria vencido a Tarefa 1 por larga margem. Mas entrou em contradição interna no Conjunto D da Tarefa 3: headline dizia “Turma de Março aberta” e o primary dizia “Próxima turma só em junho”. Duas informações incompatíveis no mesmo anúncio.

Qual modelo usar na prática?
A resposta depende de como você vai usar o output.
Para geração direta, sem edição antes de publicar: Qwen3.7 Max. Compliance garantido, copy com dados específicos, nada que vai travar na plataforma ou precisar de ajuste.
Para geração com revisão humana, usando o output como rascunho: DeepSeek V4 Pro ou GLM-5.1. Mais personalidade, mais tese, mais voz. Exige um olho por cima, mas o resultado revisado é melhor.
Para ideação e benchmarking de conceito, quando você quer o melhor insight possível mesmo que precise ajustar os detalhes: MiniMax M3. Os conceitos são mais sofisticados. Mas cheque cada limite de caractere manualmente.
O que o teste deixou claro: compliance com as restrições técnicas é o separador real entre output utilizável e descartável. Modelo que viola limite de caractere gera copy inutilizável sem retrabalho. Modelo que respeita os limites e ainda entrega especificidade ganha o dia.
Esses oito modelos custam frações do GPT-4o ou do Claude Sonnet. O Qwen3.7 Max está disponível via API por uma fração disso. Pra copywriting em escala, o cenário mudou.

A Formação em IA para Negócios da ibe.IA ensina a botar IA pra rodar marketing, atendimento, vendas e análise dentro da sua empresa, incluindo geração de copy e anúncios em escala.
Conheça a Formação em IA para Negócios
E se essa leitura te ajudou a entender o que está acontecendo, segue a ibe.IA no Instagram (@ibe.ia) que toda semana sai conteúdo desse jeito.
Materiais Gratuitos
Crie um SaaS que paga suas contas
Aula gratuita: aprenda a criar aplicativos web e mobile com Vibe Coding e IA, sem saber programar. Nossos alunos publicam o primeiro app em menos de 7 dias.
Assistir Aula Gratuita →Fature R$12k/mês como Gestor de IA
Aula gratuita: descubra a profissão do Gestor de IA. Aprenda a criar agentes e automações com n8n e fature R$12 mil/mês trabalhando de casa, sem programar.
Assistir Aula Gratuita →3 formações em 1
Tudo que você precisa para dominar IA
Vibe Coding + Agentes IA + IA para Negócios em um único pacote.
Formação em Vibe Coding
Aprenda a criar Apps, SaaS e plataformas completas com Vibe Coding e IA.
-
Claude Code
-
Cursor
-
Antigravity
-
Lovable
-
Supabase
Formação em Agentes IA e Automações
Domine Agentes IA e Automações para atender clientes no WhatsApp, otimizar processos e eliminar trabalho repetitivo.
-
n8n
-
SquadOS
Formação em IA para Negócios
Implemente IA em todos os departamentos da empresa: conteúdo, marketing, imagens, vídeos, gestão e análise de dados.
-
Claude Cowork
-
Claude Code
-
ChatGPT
-
Magnific
-
Heygen


