Quatre modèles vidéo IA, un prompt exigeant

En bref

Ce que dit cet article

Seedance 2.0 a été le meilleur modèle vidéo IA de ce test. Il a suivi le plus complètement le prompt de parachute à la première personne, a conservé la sensation de caméra-casque, a inclus le son, et a coûté environ $2.43. Veo 3.1 avait l'air haut de gamme mais a rejeté le prompt original et a perdu la vue à la première personne lors du nouvel essai ; Kling v3 Pro avait belle allure mais un mouvement faible ; Wan 2.7 était bon marché mais inutilisable.

Prompt de test : saut BASE à la première personne depuis une cheminée d'usine abandonnée de 150 mètres dans une unique flaque boueuse.
Modèles comparés : Seedance 2.0, Kling v3 Pro, Veo 3.1 et Wan 2.7 sur fal.ai.
Vainqueur : Seedance 2.0, parce qu'il a suivi l'idée entière avec le moins de confusion.
Coûts approximatifs des clips exploitables : Seedance $2.43, Kling $1.34, Veo $3.20, Wan $1.20.

J'avais une idée difficile pour une vidéo IA : un sauteur BASE s'élance d'une cheminée d'usine abandonnée de 150 mètres, filmé depuis sa propre caméra de casque, et atterrit dans l'unique flaque boueuse d'une cour autrement sèche. J'ai donné exactement le même prompt à quatre modèles vidéo IA et j'ai vérifié deux choses — à quel point cela paraissait réel, et combien cela coûtait.

Le test

J'ai tout fait tourner sur fal.ai. Il permet d'utiliser de nombreux modèles vidéo depuis un seul endroit, dans la même file. Chaque modèle a donc reçu le même prompt, et les prix étaient faciles à comparer côte à côte.

Le prompt était difficile exprès. Un long plan à la première personne, une sensation nette de hauteur, un parachute, une cour industrielle et un atterrissage boueux. Les prompts faciles font bien paraître tous les modèles. Les prompts difficiles vous montrent où un modèle craque.

J'ai choisi quatre modèles, chacun pour une raison :

Seedance 2.0 (ByteDance) — ma référence pour un rendu propre et cinématographique.
Kling v3 Pro (Kuaishou) — réputé pour l'action et la planification intelligente des plans.
Veo 3.1 (Google) — l'option haut de gamme.
Wan 2.7 (Alibaba) — un modèle moins cher capable de rendre en 1080p.

Le prompt, en une ligne : un long plan d'action à la première personne — une hauteur réelle, un parachute, une cour industrielle et un atterrissage boueux.

Le prompt exact

J'ai transformé l'idée brute en un prompt clair que chaque modèle pouvait lire. Le voici, mot pour mot :

Prompt

A cinematic first-person POV action-camera shot from the helmet of a fictional BASE jumper standing on the top edge of a 150-meter abandoned industrial concrete smokestack. The location is a deserted factory complex with cracked asphalt, rusted metal structures, dry concrete ground, and only one large dirty muddy puddle on a road far below. The jumper's gloved hands appear at the edge, looking down over the massive chimney, then leaps forward. A fast stomach-dropping descent along the side of the tall concrete smokestack, wind noise, subtle camera shake, dramatic height and scale. The parachute opens quickly, suspension lines briefly visible, the camera glides toward the mostly dry industrial yard. The landing target becomes clear: one muddy puddle in the middle of the road. The jumper lands directly into the dirty puddle with a huge muddy splash covering the lens. Realistic physics, gritty documentary style, overcast light, cinematic color grading, wide-angle GoPro lens, intense but safe stunt, no injury, no gore, no text, no logos.

La plupart des modèles ont aussi reçu un prompt négatif — une courte liste de choses à tenir hors du plan :

Prompt négatif

injury, blood, gore, death, broken body, cartoon, animation, text, subtitles, captions, logos, watermark, low quality, blur, distorted camera

Seedance 2.0 Vainqueur

ByteDance · référence cinématographique

C'était le meilleur résultat. Il a conservé la sensation de caméra-casque, les mains, les suspentes du parachute, et le rythme du récit. Il a compris l'idée entière, pas seulement des morceaux. Mon unique vraie critique portait sur l'atterrissage — la chute dans la flaque ne paraissait pas tout à fait réelle. Le son était inclus sans surcoût.

Endpointhttps://queue.fal.run/bytedance/seedance-2.0/text-to-video

Réglages720p · 8s · audio activé

Rendu~150s · seed 44209696

Coût≈ $2.43 173.7 × $0.014

Kling v3 Pro

Kuaishou · conçu pour l'action

L'image avait belle allure. Le mouvement, non. J'ai même activé sa planification de plans « intelligente », censée découper la scène en phases toute seule — le bord, la chute, le parachute, l'atterrissage — mais les actions paraissaient encore décalées et pas réelles, alors même que Kling est conçu pour l'action.

Endpointhttps://queue.fal.run/fal-ai/kling-video/v3/pro/text-to-video

Réglages8s · audio activé · shot_type "intelligent" · cfg_scale 0.5

Rendu~129s

Coût≈ $1.34 9.6 × $0.14

Veo 3.1

Google · le choix haut de gamme

Celui-ci était délicat. Mon premier essai utilisait le prompt exact et a été rejeté — fal.ai a renvoyé une erreur de politique de contenu. Les gros modèles haut de gamme ont souvent des filtres de sécurité plus stricts, et une cascade qui paraît dangereuse (un saut depuis une tour de 150 mètres) peut les déclencher. J'ai adouci la formulation et l'ai renvoyé. Cette fois, il a fait le rendu, mais il a abandonné la vue à la première personne pour une prise de vue à la troisième personne. Cela restait superbe.

Endpointhttps://queue.fal.run/fal-ai/veo3.1

Réglages1080p · 8s · audio activé · safety_tolerance 4

OriginalRejeté — content_policy_violation (422)

Nouvel essaiFormulation adoucie → clip à la troisième personne

Coût≈ $3.20 8 × $0.40

Wan 2.7

Alibaba · le challenger bon marché

Wan a pris le prompt, mais le résultat s'est effondré. On aurait dit une vidéo étrange faite de coupes qui ne se reliaient pas. C'était le passage le moins cher en 1080p, mais le clip n'était pas utilisable. Contrairement à Veo, il n'a pas bloqué la scène.

Endpointhttps://queue.fal.run/fal-ai/wan/v2.7/text-to-video

Réglages1080p · 8s · sans audio · expansion de prompt activée

Rendu~186s · seed 2131596831

Coût≈ $1.20 12 × $0.10

Le coût, et le vainqueur

En comptant le second passage de Veo, les clips exploitables ont coûté environ $8.17 au total. Les modèles sont facturés différemment — certains à la durée du clip, certains au temps de calcul — donc le rendu le moins cher n'est pas toujours l'idée la moins chère. Le vainqueur n'était pas le moins cher. C'était Seedance 2.0 — le modèle qui a suivi l'idée entière avec le moins de confusion.

La leçon : le meilleur modèle n'est pas le moins cher, ni celui à la plus belle image unique. C'est celui qui suit votre idée entière.

Si vous voulez essayer vous-même

Commencez par une idée claire et difficile. Un prompt exigeant montre le vrai écart entre les modèles.
Écrivez le prompt complet une fois et envoyez le même texte à chaque modèle, pour que le test soit équitable.
Utilisez une seule plateforme pour que les coûts s'alignent — et rappelez-vous que certains facturent à la durée, certains au temps de calcul.
Attendez-vous à des filtres de sécurité sur les modèles haut de gamme. Si un prompt est bloqué, adoucissez-le et réessayez.
Jugez le clip entier, pas une seule belle image. Le mouvement et le récit comptent davantage.

Partager sur Telegram

FAQ rapide

Quel modèle vidéo IA a remporté le test du prompt de parachute ?

Seedance 2.0 l'a emporté parce qu'il a le mieux préservé la caméra à la première personne, l'action du parachute, le rythme du récit et l'intention globale du prompt.

Le modèle vidéo IA le moins cher était-il le meilleur choix ?

Non. Wan 2.7 était le rendu exploitable le moins cher à environ $1.20, mais le clip ne tenait pas la route. Seedance 2.0 a coûté plus cher mais a produit le résultat le plus utilisable.

Pourquoi Veo 3.1 n'a-t-il pas gagné ?

Le passage original de Veo 3.1 a été bloqué par une erreur de politique de contenu. Un nouvel essai adouci a produit un clip à belle allure, mais il a transformé le prompt à la première personne en une prise de vue à la troisième personne.