Quatro modelos de vídeo de IA, um prompt difícil

Em resumo

O que este artigo diz

O Seedance 2.0 foi o melhor modelo de vídeo de IA neste teste. Ele seguiu o prompt de paraquedas em primeira pessoa da forma mais completa, manteve a sensação de câmera no capacete, incluiu som e custou cerca de $2.43. O Veo 3.1 parecia premium, mas rejeitou o prompt original e perdeu a visão em primeira pessoa na nova tentativa; o Kling v3 Pro ficou bonito, mas teve movimento fraco; o Wan 2.7 foi barato, mas não utilizável.

Prompt de teste: salto BASE em primeira pessoa de uma chaminé industrial abandonada de 150 metros para uma única poça de lama.
Modelos comparados: Seedance 2.0, Kling v3 Pro, Veo 3.1 e Wan 2.7 no fal.ai.
Vencedor: Seedance 2.0, porque seguiu a ideia inteira com a menor confusão.
Custos aproximados dos clipes funcionais: Seedance $2.43, Kling $1.34, Veo $3.20, Wan $1.20.

Eu tinha uma ideia difícil para um vídeo de IA: um saltador BASE pula de uma chaminé industrial abandonada de 150 metros, filmado pela câmera do próprio capacete, e pousa na única poça de lama de um pátio que de resto está seco. Dei exatamente o mesmo prompt a quatro modelos de vídeo de IA e verifiquei duas coisas — quão real parecia e quanto custava.

O teste

Rodei tudo no fal.ai. Ele permite usar muitos modelos de vídeo a partir de um só lugar, na mesma fila. Então cada modelo recebeu o mesmo prompt, e os preços ficaram fáceis de comparar lado a lado.

O prompt era difícil de propósito. Uma tomada longa em visão de primeira pessoa, uma sensação clara de altura, um paraquedas, um pátio industrial e um pouso enlameado. Prompts fáceis fazem todo modelo parecer bom. Prompts difíceis mostram onde um modelo quebra.

Escolhi quatro modelos, cada um por um motivo:

Seedance 2.0 (ByteDance) — minha referência para um visual limpo e cinematográfico.
Kling v3 Pro (Kuaishou) — conhecido por ação e planejamento inteligente de tomadas.
Veo 3.1 (Google) — a opção premium.
Wan 2.7 (Alibaba) — um modelo mais barato que consegue renderizar em 1080p.

O prompt, em uma linha: uma longa tomada de ação em primeira pessoa — altura real, um paraquedas, um pátio industrial e um pouso enlameado.

O prompt exato

Transformei a ideia bruta em um prompt claro que todo modelo conseguisse ler. Aqui está ele, palavra por palavra:

Prompt

A cinematic first-person POV action-camera shot from the helmet of a fictional BASE jumper standing on the top edge of a 150-meter abandoned industrial concrete smokestack. The location is a deserted factory complex with cracked asphalt, rusted metal structures, dry concrete ground, and only one large dirty muddy puddle on a road far below. The jumper's gloved hands appear at the edge, looking down over the massive chimney, then leaps forward. A fast stomach-dropping descent along the side of the tall concrete smokestack, wind noise, subtle camera shake, dramatic height and scale. The parachute opens quickly, suspension lines briefly visible, the camera glides toward the mostly dry industrial yard. The landing target becomes clear: one muddy puddle in the middle of the road. The jumper lands directly into the dirty puddle with a huge muddy splash covering the lens. Realistic physics, gritty documentary style, overcast light, cinematic color grading, wide-angle GoPro lens, intense but safe stunt, no injury, no gore, no text, no logos.

A maioria dos modelos também aceitava um negative prompt — uma lista curta de coisas para manter fora da tomada:

Negative prompt

injury, blood, gore, death, broken body, cartoon, animation, text, subtitles, captions, logos, watermark, low quality, blur, distorted camera

Seedance 2.0 Vencedor

ByteDance · referência cinematográfica

Este foi o melhor resultado. Ele manteve a sensação de câmera no capacete, as mãos, as linhas do paraquedas e o ritmo da história. Entendeu a ideia inteira, não só partes dela. Minha única reclamação de verdade foi o pouso — a queda na poça não pareceu totalmente real. O som veio incluído sem custo extra.

Endpointhttps://queue.fal.run/bytedance/seedance-2.0/text-to-video

Configurações720p · 8s · áudio ligado

Renderização~150s · seed 44209696

Custo≈ $2.43 173.7 × $0.014

Kling v3 Pro

Kuaishou · feito para ação

A imagem ficou boa. O movimento não. Eu até liguei o planejamento de tomadas "inteligente", que deveria dividir a cena em fases por conta própria — a borda, a queda, o paraquedas, o pouso — mas as ações ainda pareciam erradas e não reais, mesmo o Kling sendo feito para ação.

Endpointhttps://queue.fal.run/fal-ai/kling-video/v3/pro/text-to-video

Configurações8s · áudio ligado · shot_type "intelligent" · cfg_scale 0.5

Renderização~129s

Custo≈ $1.34 9.6 × $0.14

Veo 3.1

Google · a escolha premium

Este foi complicado. Minha primeira tentativa usou o prompt exato e foi rejeitada — o fal.ai retornou um erro de política de conteúdo. Modelos premium grandes costumam ter filtros de segurança mais rígidos, e uma manobra que parece perigosa (um salto de uma torre de 150 metros) pode dispará-los. Suavizei a redação e enviei de novo. Dessa vez ele renderizou, mas trocou a visão em primeira pessoa por uma tomada em terceira pessoa. Mesmo assim ficou ótimo.

Endpointhttps://queue.fal.run/fal-ai/veo3.1

Configurações1080p · 8s · áudio ligado · safety_tolerance 4

OriginalRejeitado — content_policy_violation (422)

Nova tentativaRedação suavizada → clipe em terceira pessoa

Custo≈ $3.20 8 × $0.40

Wan 2.7

Alibaba · o desafiante barato

O Wan aceitou o prompt, mas o resultado desmoronou. Pareceu um vídeo estranho feito de cortes que não se conectavam. Foi a execução mais barata em 1080p, mas o clipe não era utilizável. Diferente do Veo, ele não bloqueou a cena.

Endpointhttps://queue.fal.run/fal-ai/wan/v2.7/text-to-video

Configurações1080p · 8s · sem áudio · expansão de prompt ligada

Renderização~186s · seed 2131596831

Custo≈ $1.20 12 × $0.10

O custo, e o vencedor

Contando a segunda execução do Veo, os clipes funcionais custaram cerca de $8.17 no total. Os modelos são cobrados de formas diferentes — alguns por duração do clipe, alguns por tempo de computação — então a renderização mais barata nem sempre é a ideia mais barata. O vencedor não foi o mais barato. Foi o Seedance 2.0 — o modelo que seguiu a ideia inteira com a menor confusão.

A lição: o melhor modelo não é o mais barato, nem o que tem o quadro único mais bonito. É o que segue a sua ideia inteira.

Se você quiser testar isso por conta própria

Comece com uma ideia clara e difícil. Um prompt difícil mostra a real diferença entre os modelos.
Escreva o prompt completo uma vez e envie o mesmo texto a todos os modelos, para que o teste seja justo.
Use uma só plataforma para que os custos se alinhem — e lembre que alguns cobram por duração, outros por tempo de computação.
Espere filtros de segurança em modelos premium. Se um prompt for bloqueado, suavize-o e tente de novo.
Julgue o clipe inteiro, não um quadro bonito. Movimento e história importam mais.

Compartilhar no Telegram

Perguntas frequentes

Qual modelo de vídeo de IA venceu o teste do prompt de paraquedas?

O Seedance 2.0 venceu porque preservou melhor a câmera em primeira pessoa, a ação do paraquedas, o ritmo da história e a intenção geral do prompt.

O modelo de vídeo de IA mais barato foi a melhor escolha?

Não. O Wan 2.7 foi a renderização funcional mais barata, a cerca de $1.20, mas o clipe não se sustentou. O Seedance 2.0 custou mais, mas produziu o resultado mais utilizável.

Por que o Veo 3.1 não venceu?

A execução original do Veo 3.1 foi bloqueada por um erro de política de conteúdo. Uma nova tentativa suavizada renderizou um clipe bonito, mas transformou o prompt em primeira pessoa numa tomada em terceira pessoa.