Cuatro modelos de vídeo con IA, una instrucción difícil

En resumen

Lo que dice este artículo

Seedance 2.0 fue el mejor modelo de vídeo con IA en esta prueba. Siguió la instrucción del paracaídas en primera persona de la forma más completa, mantuvo la sensación de cámara en el casco, incluyó sonido y costó alrededor de $2.43. Veo 3.1 se veía premium pero rechazó la instrucción original y perdió la vista en primera persona al reintentar; Kling v3 Pro se veía bien pero tenía un movimiento débil; Wan 2.7 fue barato pero inutilizable.

Instrucción de prueba: salto BASE en primera persona desde una chimenea industrial abandonada de 150 metros hacia un único charco de barro.
Modelos comparados: Seedance 2.0, Kling v3 Pro, Veo 3.1 y Wan 2.7 en fal.ai.
Ganador: Seedance 2.0, porque siguió la idea completa con la menor confusión.
Costes aproximados de los clips utilizables: Seedance $2.43, Kling $1.34, Veo $3.20, Wan $1.20.

Tenía una idea difícil para un vídeo con IA: un saltador BASE salta desde una chimenea industrial abandonada de 150 metros, filmado desde su propia cámara de casco, y aterriza en el único charco de barro de un patio por lo demás seco. Le di exactamente la misma instrucción a cuatro modelos de vídeo con IA y revisé dos cosas: qué tan real se veía y cuánto costaba.

La prueba

Lo ejecuté todo en fal.ai. Te permite usar muchos modelos de vídeo desde un solo lugar, en la misma cola. Así que cada modelo recibió la misma instrucción, y los precios fueron fáciles de comparar lado a lado.

La instrucción era difícil a propósito. Una toma larga desde la vista en primera persona, una sensación clara de altura, un paracaídas, un patio industrial y un aterrizaje embarrado. Las instrucciones fáciles hacen que todo modelo se vea bien. Las instrucciones difíciles te muestran dónde se rompe un modelo.

Elegí cuatro modelos, cada uno por una razón:

Seedance 2.0 (ByteDance) — mi referencia para un aspecto limpio y cinematográfico.
Kling v3 Pro (Kuaishou) — conocido por la acción y la planificación inteligente de tomas.
Veo 3.1 (Google) — la opción premium.
Wan 2.7 (Alibaba) — un modelo más barato que puede renderizar a 1080p.

La instrucción, en una línea: una toma de acción larga en primera persona —altura real, un paracaídas, un patio industrial y un aterrizaje embarrado.

La instrucción exacta

Convertí la idea en bruto en una instrucción clara que todo modelo pudiera leer. Aquí está, palabra por palabra:

Instrucción

A cinematic first-person POV action-camera shot from the helmet of a fictional BASE jumper standing on the top edge of a 150-meter abandoned industrial concrete smokestack. The location is a deserted factory complex with cracked asphalt, rusted metal structures, dry concrete ground, and only one large dirty muddy puddle on a road far below. The jumper's gloved hands appear at the edge, looking down over the massive chimney, then leaps forward. A fast stomach-dropping descent along the side of the tall concrete smokestack, wind noise, subtle camera shake, dramatic height and scale. The parachute opens quickly, suspension lines briefly visible, the camera glides toward the mostly dry industrial yard. The landing target becomes clear: one muddy puddle in the middle of the road. The jumper lands directly into the dirty puddle with a huge muddy splash covering the lens. Realistic physics, gritty documentary style, overcast light, cinematic color grading, wide-angle GoPro lens, intense but safe stunt, no injury, no gore, no text, no logos.

La mayoría de los modelos también admitieron una instrucción negativa: una lista corta de cosas que mantener fuera de la toma:

Instrucción negativa

injury, blood, gore, death, broken body, cartoon, animation, text, subtitles, captions, logos, watermark, low quality, blur, distorted camera

Seedance 2.0 Ganador

ByteDance · referencia cinematográfica

Este fue el mejor resultado. Mantuvo la sensación de cámara de casco, las manos, las líneas del paracaídas y el ritmo de la historia. Entendió la idea completa, no solo partes de ella. Mi única queja real fue el aterrizaje: la caída al charco no se veía del todo real. El sonido venía incluido sin coste extra.

Endpointhttps://queue.fal.run/bytedance/seedance-2.0/text-to-video

Ajustes720p · 8s · audio activado

Renderizado~150s · seed 44209696

Coste≈ $2.43 173.7 × $0.014

Kling v3 Pro

Kuaishou · hecho para la acción

La imagen se veía bien. El movimiento no. Incluso activé su planificación "inteligente" de tomas, que se supone que divide la escena en fases por su cuenta —el borde, la caída, el paracaídas, el aterrizaje—, pero las acciones aun así se sentían raras y poco reales, aunque Kling esté hecho para la acción.

Endpointhttps://queue.fal.run/fal-ai/kling-video/v3/pro/text-to-video

Ajustes8s · audio activado · shot_type "intelligent" · cfg_scale 0.5

Renderizado~129s

Coste≈ $1.34 9.6 × $0.14

Veo 3.1

Google · la opción premium

Este fue complicado. Mi primer intento usó la instrucción exacta y fue rechazado: fal.ai devolvió un error de política de contenido. Los grandes modelos premium suelen tener filtros de seguridad más estrictos, y una acrobacia que parece peligrosa (un salto desde una torre de 150 metros) puede dispararlos. Suavicé la redacción y la envié de nuevo. Esta vez renderizó, pero abandonó la vista en primera persona por una toma en tercera persona. Aun así se veía estupendo.

Endpointhttps://queue.fal.run/fal-ai/veo3.1

Ajustes1080p · 8s · audio activado · safety_tolerance 4

OriginalRechazado — content_policy_violation (422)

ReintentoRedacción suavizada → clip en tercera persona

Coste≈ $3.20 8 × $0.40

Wan 2.7

Alibaba · el retador barato

Wan aceptó la instrucción, pero el resultado se desmoronó. Parecía un vídeo raro hecho de cortes que no conectaban. Fue la ejecución más barata a 1080p, pero el clip no era utilizable. A diferencia de Veo, no bloqueó la escena.

Endpointhttps://queue.fal.run/fal-ai/wan/v2.7/text-to-video

Ajustes1080p · 8s · sin audio · expansión de instrucción activada

Renderizado~186s · seed 2131596831

Coste≈ $1.20 12 × $0.10

El coste, y el ganador

Contando la segunda ejecución de Veo, los clips utilizables costaron unos $8.17 en total. Los modelos se facturan de forma diferente —algunos por duración del clip, otros por tiempo de cómputo—, así que el renderizado más barato no siempre es la idea más barata. El ganador no fue el más barato. Fue Seedance 2.0: el modelo que siguió la idea completa con la menor confusión.

La lección: el mejor modelo no es el más barato, ni el que tiene el fotograma suelto más bonito. Es el que sigue tu idea completa.

Si quieres probar esto tú mismo

Empieza con una idea clara y difícil. Una instrucción exigente muestra la brecha real entre modelos.
Escribe la instrucción completa una vez y envía el mismo texto a todos los modelos, para que la prueba sea justa.
Usa una sola plataforma para que los costes cuadren, y recuerda que algunos facturan por duración y otros por tiempo de cómputo.
Espera filtros de seguridad en los modelos premium. Si una instrucción se bloquea, suavízala e inténtalo de nuevo.
Juzga el clip completo, no un fotograma bonito. El movimiento y la historia importan más.

Compartir en Telegram

Preguntas frecuentes

¿Qué modelo de vídeo con IA ganó la prueba de la instrucción del paracaídas?

Seedance 2.0 ganó porque fue el que mejor conservó la cámara en primera persona, la acción del paracaídas, el ritmo de la historia y la intención general de la instrucción.

¿Fue el modelo de vídeo con IA más barato la mejor opción?

No. Wan 2.7 fue el renderizado utilizable más barato, a unos $1.20, pero el clip no se sostenía. Seedance 2.0 costó más pero produjo el resultado más utilizable.

¿Por qué no ganó Veo 3.1?

La ejecución original de Veo 3.1 fue bloqueada por un error de política de contenido. Un reintento suavizado renderizó un clip de buen aspecto, pero cambió la instrucción de primera persona por una toma en tercera persona.