KI-Videogenerator
Schlüsselbilder
OptionalStartbild
⇆
Endbild
Laden Sie JPG/PNG/WEBP-Bilder bis 10 MB hoch, mit einer Mindestbreite/-höhe von 300 px.
Eingabeaufforderung
*Modell
Seitenverhältnis
16:9
Auflösung
480p
Dauer
4s
Audio
Ein
Erleben Sie HappyHorse 1.0 von Alibaba auf Cuty.ai — das auf der Artificial Analysis Video Arena #1 platzierte KI-Videomodell. Erzeuge native 1080p-Videos mit synchronisiertem Audio in einem einzigen Vorwärtsdurchlauf, native Lippensynchronisation in sieben Sprachen und filmische Qualität aus Text- oder Bildprompts. Jetzt kostenlos ausprobieren!
Entdecken Sie, was HappyHorse 1.0 außergewöhnlich macht
HappyHorse 1.0 basiert auf einem 40-schichtigen, vereinheitlichten Single-Stream-Transformer, der Text-, Bild-, Video- und Audio-Tokens gemeinsam in einer Sequenz entrauscht — ohne separates Foley-Modell, ohne Nachbearbeitungsschritt. Sprache, Schritte und Umgebungsgeräusche entstehen im selben Schritt wie das Bild, sodass Dialog und Geschehen auf der Phonemebene aufeinander abgestimmt sind.
Lippensynchronisation auf Phonemebene ist nativ für Englisch, Mandarin, Kantonesisch, Japanisch, Koreanisch, Deutsch und Französisch verfügbar. Mundformen werden im selben Entrauschungsschritt wie der Rest des Bildes erzeugt — nicht durch einen nachgelagerten Gesichtsbereich-Postfitter aufgesetzt — was HappyHorse 1.0 zu einem der wenigen Spitzen-Videomodelle macht, die schon zum Start mehrsprachige Dialoge in Produktionsqualität liefern.
Echte 1080p-Generierung — nicht hochskaliert — in 16:9, 9:16, 1:1, 4:3 und 3:4, sodass dieselbe Szene korrekt für Kinoformat, Hochformat, Quadrat und Porträt komponiert wird. Cliplängen von 3 bis 15 Sekunden, mit etwa 38 Sekunden Inferenz pro 5 Sekunden 1080p-Clip auf einer einzelnen NVIDIA H100 dank eines 8-stufigen DMD-2-destillierten Entrauschungspfads.
HappyHorse 1.0 belegte sowohl in Text-to-Video (Elo 1333) als auch in Image-to-Video (Elo 1392) auf der Artificial Analysis Video Arena — einem Blindbenchmark nach menschlicher Präferenz — innerhalb weniger Tage nach seinem anonymen Debüt am 7. April 2026 den ersten Platz. Der Vorsprung von 60 Elo-Punkten in T2V gegenüber dem bisherigen Spitzenreiter ist der größte Sprung eines einzelnen Releases auf der Bestenliste seit ihrem Start.
Alles, was Sie über wissen müssen HappyHorse 1.0
HappyHorse 1.0 ist das erste KI-Videomodell aus dem Future Life Lab der Taotian Group von Alibaba — ein vereinheitlichter Transformer mit 15 Milliarden Parametern, der aus Text- oder Bildprompts gemeinsam Video und synchronisiertes Audio in nativem 1080p erzeugt. Nach einem anonymen Debüt auf der Artificial Analysis Video Arena um den 7. April 2026 und der sofortigen Übernahme von #1 in Text-to-Video und Image-to-Video bekannte sich Alibaba am 10. April 2026 öffentlich zur Urheberschaft.
HappyHorse 1.0 wurde im Future Life Lab der Taotian Group von Alibaba entwickelt, das Teil der ATH (Alibaba Token Hub) AI Innovation Unit ist. Technische Leitung hat Zhang Di — ein Branchenveteran mit fünfzehn Jahren Erfahrung, der zuvor Vice President bei Kuaishou und technischer Architekt von Kling AI war, bevor er Ende 2025 zu Alibaba zurückkehrte, um das Lab zu leiten.
Anders als die meisten Videomodelle, die Audio in einem separaten Nachverarbeitungsschritt anhängen, packt HappyHorse 1.0 Text-, Bild-, Video- und Audio-Tokens in eine einzige Token-Sequenz und entrauscht sie gemeinsam in einem 40-schichtigen, vereinheitlichten Single-Stream-Transformer. Sprache, Soundeffekte und Umgebungsgeräusche synchronisieren sich auf natürliche Weise mit dem Bild, weil sie im selben Vorwärtsdurchlauf entstehen.
HappyHorse 1.0 bietet native Lippensynchronisation in sieben Sprachen: Englisch, Mandarin, Kantonesisch, Japanisch, Koreanisch, Deutsch und Französisch. Mundformen werden im selben Entrauschungsschritt wie das übrige Bild auf Phoneme ausgerichtet. Andere Sprachen erzeugen weiterhin plausible Mundbewegungen, doch die Genauigkeit auf Phonemebene liegt unter dem unterstützten Sprachsatz.
HappyHorse 1.0 erzeugt natives 1080p-Video (720p verfügbar) in Cliplängen von 3 bis 15 Sekunden. Unterstützte Seitenverhältnisse sind 16:9, 9:16, 1:1, 4:3 und 3:4 — für Cinemascope, mobiles Hochformat, Quadrat für Social Media und Porträt. Die 8-stufige DMD-2-Destillationspipeline benötigt rund 38 Sekunden pro 5 Sekunden 1080p-Clip auf einer einzelnen NVIDIA H100.
HappyHorse 1.0 hält sowohl in Text-to-Video als auch in Image-to-Video den ersten Platz auf der Artificial Analysis Video Arena und liegt unter Blindbewertung nach menschlicher Präferenz vor Kling, Veo und Seedance. Es ist zudem unter den Spitzenmodellen einzigartig, weil es Video und Audio gemeinsam in einem einzigen Vorwärtsdurchlauf erzeugt, native Lippensynchronisation in sieben Sprachen bietet und nativ in 1080p in Filmqualität ausgibt. Mit aktiviertem Audio belegt HappyHorse 1.0 derzeit Platz 2 mit knappem Abstand.
Sie können HappyHorse 1.0 auf Cuty.ai mit unseren kostenlosen Testguthaben ausprobieren — sowohl Text-to-Video als auch Image-to-Video sind im Studio verfügbar. Für intensive Nutzung und Zugriff auf alle Premium-Funktionen, einschließlich längerer Clips und des Pro-Modus für Hero-Shots und dialogintensive Inhalte, bieten wir verschiedene Abonnementpläne an.
Beginnen Sie mit der Erstellung erstaunlicher Inhalte mit unseren leistungsstarken KI-Modellen. Probieren Sie es noch heute kostenlos aus!