Oito modelos de IA sendo avaliados numa arena de competição de copywriting

Existe uma categoria de modelos que quase ninguém fala: os LLMs baratos. Não o GPT-4o, não o Claude, não o Gemini Pro. Os Qwen, GLM, Kimi, DeepSeek, MiniMax. Modelos que custam frações do preço dos líderes e que, dependendo da tarefa, entregam resultados muito próximos.

Resolvi testar oito deles com uma tarefa real de copywriting. Não benchmark sintético. Tarefa com produto definido, público-alvo claro, restrições técnicas reais e ângulos de anúncio distintos. O resultado foi mais revelador do que eu esperava.

Por que testar LLMs baratos pra copywriting?

Copywriting é uma das tarefas mais comuns que qualquer negócio delega pra IA hoje. Hooks de Instagram, Meta Ads, e-mails, variações de headline. O custo do modelo começa a importar quando você está gerando dezenas de variações por semana.

O problema dos comparativos que existem: quase todos usam benchmarks acadêmicos ou tarefas abstratas. Nenhum coloca o modelo pra escrever copy com limite real de caractere, restrição de estrutura por item e avaliação de tom em PT-BR.

Esse teste foi diferente.

Os oito modelos testados, todos disponíveis via API por preços baixos:

  • DeepSeek V4 Pro
  • MiMo-V2.5-Pro
  • Qwen3.6 Plus
  • Qwen3.7 Plus
  • Qwen3.7 Max
  • MiniMax M3 (baseline, o modelo que já usávamos no projeto)
  • Kimi K2.6
  • GLM-5.1

Cada um rodou via opencode Go numa sessão separada, sem contexto compartilhado. O mesmo briefing, as mesmas regras.

Como foi montado o teste?

O produto era um curso de storytelling por R$ 497, com 3 mentorias em grupo e templates prontos. O público: criadores com 1 mil a 50 mil seguidores que postam há pelo menos seis meses mas sentem que o conteúdo não engaja ou não converte.

Pesquisadora com múltiplos terminais abertos, cada um com um modelo diferente sendo testado

Tarefa 1: 10 variações de hook para o slide 1 de um carrossel sobre “O sacrifício do mentor nos filmes”, usando Matrix como caso. Cada hook: máximo 12 palavras, sem travessão, dois-pontos ou aspas, estrutura diferente dos outros 9.

Tarefa 2: 3 conjuntos de Meta Ads com ângulos distintos: dor (o criador que posta e ninguém vê), prova/autoridade (resultado concreto), e curiosidade/quebra de crença. Cada conjunto com headline (até 40 caracteres), primary text (até 125 caracteres) e descrição do link (até 30 caracteres).

Tarefa 3: 2 conjuntos de Meta Ads focados em urgência real: um de coorte com vagas limitadas, outro de bônus com prazo, sem clichês de Black Friday.

A rubrica: 4 dimensões por tarefa (Clareza, Originalidade, Tom PT-BR, Eficácia), nota 1 a 5. Máximo de 60 pontos por modelo. Violações de limite técnico reduziam a nota diretamente.

Tarefa 1: quem acertou os hooks de Instagram?

A maioria dos modelos entregou hooks funcionais. A diferença apareceu na variedade estrutural e no teto criativo.

O hook mais ousado do teste veio do Qwen3.6 Plus:

Morreu pra quê exatamente

Quatro palavras. Estrutura radicalmente diferente dos outros nove. Sem contexto, sem âncora, sem o nome do filme. Funciona porque quem já assistiu Matrix completa mentalmente.

O hook com melhor insight narrativo foi do GLM-5.1:

O sacrifício do mentor não é morrer mas sim soltar a mão

Doze palavras, no limite. Entrega uma tese que vai além do óbvio. Esse tipo de hook não age pelo gatilho. Age pelo ponto de vista.

O Kimi K2.6 trouxe um que conecta direto com o público do carrossel:

A história que todo criador de conteúdo ignora no Matrix

Cita o público dentro do hook. Risco calculado: filtra quem não se identifica como criador, mas fala direto com quem interessa.

Violações nessa tarefa: MiniMax M3 e MiMo-V2.5-Pro passaram de 12 palavras em ao menos um hook cada. Os outros seis respeitaram todos os limites.

Diretor criativo avaliando posts de Instagram com estrelas de avaliação flutuando

Tarefas 2 e 3: quem respeitou os limites técnicos dos Meta Ads?

Esse foi o filtro mais brutal do teste.

O campo Primary text no Meta Ads tem limite real de 125 caracteres para o que aparece no feed antes do “ver mais”. O Headline tem 40. Não é sugestão de estilo. Um headline com 50 caracteres aparece cortado automaticamente pela plataforma.

Violações encontradas:

  • MiMo-V2.5-Pro: primary text acima de 125 caracteres em dois conjuntos (132 e 134 chars).
  • Qwen3.7 Plus: violou em quatro dos cinco conjuntos. Primary texts chegaram a 145 caracteres. Incluiu preço e parcelamento no primary, campo que aparece cortado no feed.
  • MiniMax M3: headlines acima de 40 caracteres em quatro dos cinco conjuntos, chegando a 50 chars.

Quem não violou nada: Qwen3.7 Max, DeepSeek V4 Pro, Qwen3.6 Plus, Kimi K2.6 e GLM-5.1.

Entre os que respeitaram os limites, o Qwen3.7 Max entregou os ads com mais especificidade. O headline do Conjunto B foi “De 2k pra 47k em 90 dias”: ponto de partida, ponto de chegada, prazo. Quatro informações em cinco palavras.

O paradoxo do teste foi o MiniMax M3: os melhores conceitos de copywriting do lote, a pior execução técnica. “32 de 40 alunos dobraram o faturamento em 90 dias” é muito mais crível do que “Alunos dobraram o faturamento”. A fração dá credibilidade que o número redondo não dá. Mas o headline tinha 50 caracteres e ia pro ar cortado.

Personagem com expressão de choque ao descobrir o anúncio cortado pela linha de limite de caracteres

O ranking final: quem ficou em primeiro?

ModeloT1T2T3Total
Qwen3.7 Max15191852
DeepSeek V4 Pro17171751
GLM-5.118161650
Qwen3.6 Plus20181149
Kimi K2.617141546
MiniMax M314151342
Qwen3.7 Plus16111138
MiMo-V2.5-Pro13111337

O Qwen3.7 Max ganhou pela consistência: cumpriu todos os limites em todos os conjuntos e entregou copy específico, com dados reais, tom natural. Não teve o hook mais criativo, mas não teve erro nenhum.

O DeepSeek V4 Pro ficou em segundo por voz própria. “Método que estancou rejeição” e “Conteúdo bom não engaja” fogem do padrão genérico que a maioria dos modelos entrega. Tom PT-BR mais fluido que qualquer Qwen.

O GLM-5.1 ficou em terceiro com a melhor performance na Tarefa 1, mas perdeu pontos nos ads por um headline genérico demais no Conjunto B: “O método que funciona”, sem tese, sem dado, sem tensão.

O Qwen3.6 Plus teria vencido a Tarefa 1 por larga margem. Mas entrou em contradição interna no Conjunto D da Tarefa 3: headline dizia “Turma de Março aberta” e o primary dizia “Próxima turma só em junho”. Duas informações incompatíveis no mesmo anúncio.

Pódio de competição com três personagens, primeiro lugar segurando troféu dourado e confete caindo

Qual modelo usar na prática?

A resposta depende de como você vai usar o output.

Para geração direta, sem edição antes de publicar: Qwen3.7 Max. Compliance garantido, copy com dados específicos, nada que vai travar na plataforma ou precisar de ajuste.

Para geração com revisão humana, usando o output como rascunho: DeepSeek V4 Pro ou GLM-5.1. Mais personalidade, mais tese, mais voz. Exige um olho por cima, mas o resultado revisado é melhor.

Para ideação e benchmarking de conceito, quando você quer o melhor insight possível mesmo que precise ajustar os detalhes: MiniMax M3. Os conceitos são mais sofisticados. Mas cheque cada limite de caractere manualmente.

O que o teste deixou claro: compliance com as restrições técnicas é o separador real entre output utilizável e descartável. Modelo que viola limite de caractere gera copy inutilizável sem retrabalho. Modelo que respeita os limites e ainda entrega especificidade ganha o dia.

Esses oito modelos custam frações do GPT-4o ou do Claude Sonnet. O Qwen3.7 Max está disponível via API por uma fração disso. Pra copywriting em escala, o cenário mudou.

Profissional contemplando três painéis holográficos com opções de modelos de IA


A Formação em IA para Negócios da ibe.IA ensina a botar IA pra rodar marketing, atendimento, vendas e análise dentro da sua empresa, incluindo geração de copy e anúncios em escala.

Conheça a Formação em IA para Negócios

E se essa leitura te ajudou a entender o que está acontecendo, segue a ibe.IA no Instagram (@ibe.ia) que toda semana sai conteúdo desse jeito.