Découvrez HappyHorse 1.0 d'Alibaba sur Cuty.ai — le modèle de vidéo IA classé n°1 sur l'Artificial Analysis Video Arena. Générez de la vidéo 1080p native avec un son synchronisé en une seule passe avant, une synchro labiale native dans sept langues et une qualité cinématographique à partir d'invites texte ou image. Essayez gratuitement !
Découvrez ce qui rend HappyHorse 1.0 exceptionnel
HappyHorse 1.0 repose sur un Transformer unifié à flux unique de 40 couches qui débruite ensemble les jetons de texte, d'image, de vidéo et d'audio dans une seule séquence — sans modèle Foley séparé ni passe de post-traitement. La voix, les bruits de pas et le son d'ambiance émergent de la même étape que les images, de sorte que le dialogue et l'action à l'écran s'alignent au niveau du phonème.
La synchronisation labiale au niveau du phonème est livrée nativement pour l'anglais, le mandarin, le cantonais, le japonais, le coréen, l'allemand et le français. Les formes de bouche sont produites au sein de la même étape de débruitage que le reste de l'image — et non ajoutées par un post-ajusteur de la zone du visage — faisant de HappyHorse 1.0 l'un des seuls modèles de vidéo de premier plan à proposer dès le lancement un dialogue multilingue prêt pour la production.
Génération 1080p véritable — non sur-échantillonnée — en 16:9, 9:16, 1:1, 4:3 et 3:4, afin que la même scène soit correctement composée pour une diffusion cinéma, verticale, carrée ou portrait. Durées de 3 à 15 secondes, avec environ 38 secondes d'inférence pour un clip 1080p de 5 secondes sur un seul NVIDIA H100, grâce à un parcours de débruitage DMD-2 distillé en 8 étapes.
HappyHorse 1.0 a pris la première place en Texte vers Vidéo (Elo 1333) et en Image vers Vidéo (Elo 1392) sur l'Artificial Analysis Video Arena — un benchmark à préférence humaine en aveugle — quelques jours après ses débuts anonymes le 7 avril 2026. L'écart de 60 points Elo en T2V par rapport à l'ancien leader est le plus grand bond pour une seule sortie depuis le lancement du classement.
Tout ce que vous devez savoir sur HappyHorse 1.0
HappyHorse 1.0 est le premier modèle de vidéo IA du Future Life Lab du groupe Taotian d'Alibaba — un Transformer unifié de 15 milliards de paramètres qui génère conjointement vidéo et audio synchronisé à partir d'invites texte ou image en 1080p natif. Après ses débuts anonymes sur l'Artificial Analysis Video Arena vers le 7 avril 2026 et sa prise immédiate de la première place en Texte vers Vidéo et Image vers Vidéo, Alibaba a publiquement revendiqué la paternité du modèle le 10 avril 2026.
HappyHorse 1.0 a été développé au sein du Future Life Lab du groupe Taotian d'Alibaba, qui fait partie de l'unité d'innovation IA ATH (Alibaba Token Hub). Le responsable technique est Zhang Di — un vétéran du secteur fort de quinze ans d'expérience, ancien vice-président chez Kuaishou et architecte technique de Kling AI avant de revenir chez Alibaba fin 2025 pour diriger le laboratoire.
Contrairement à la plupart des modèles vidéo qui ajoutent l'audio en post-traitement séparé, HappyHorse 1.0 place les jetons de texte, d'image, de vidéo et d'audio dans une seule séquence de jetons et les débruite ensemble dans un Transformer unifié à flux unique de 40 couches. La voix, les effets sonores et l'ambiance audio se synchronisent naturellement aux images car ils sont produits dans la même passe avant.
HappyHorse 1.0 propose une synchronisation labiale native dans sept langues : anglais, mandarin, cantonais, japonais, coréen, allemand et français. Les formes de bouche sont alignées sur les phonèmes au sein de la même étape de débruitage que le reste de l'image. Les autres langues produisent encore un mouvement de bouche raisonnable, mais la précision au niveau du phonème est inférieure à celle des langues prises en charge.
HappyHorse 1.0 génère de la vidéo 1080p native (avec 720p disponible) en clips de 3 à 15 secondes. Les formats incluent 16:9, 9:16, 1:1, 4:3 et 3:4 — couvrant le cinéma large, la vertical mobile, le carré social et le portrait. Le pipeline de distillation DMD-2 en 8 étapes prend environ 38 secondes pour un clip 1080p de 5 secondes sur un seul NVIDIA H100.
HappyHorse 1.0 occupe la première place en Texte vers Vidéo et en Image vers Vidéo sur l'Artificial Analysis Video Arena, devant Kling, Veo et Seedance dans un vote à préférence humaine en aveugle. Il se distingue aussi parmi les modèles de premier plan en générant conjointement vidéo et audio en une seule passe avant, avec une synchro labiale native dans sept langues et une sortie cinématographique 1080p native. Avec l'audio activé, HappyHorse 1.0 se classe actuellement n°2 avec un faible écart.
Vous pouvez essayer HappyHorse 1.0 sur Cuty.ai avec nos crédits d'essai gratuits — Texte vers Vidéo et Image vers Vidéo sont tous deux disponibles dans le studio. Pour un usage intensif et un accès à toutes les fonctionnalités premium, y compris des clips plus longs et le mode Pro pour les plans clés et le contenu très dialogué, nous proposons divers plans d'abonnement.
Commencez à générer un contenu incroyable avec nos puissants modèles d'IA. Essayez-le gratuitement aujourd'hui !