HappyHorse 1.0 — ИИ-генератор видео

Попробуйте HappyHorse 1.0 от Alibaba на Cuty.ai — модель видео №1 на Artificial Analysis Video Arena. Создавайте видео в нативном 1080p с синхронным звуком за один прямой проход, с нативной синхронизацией губ на семи языках и кинематографическим качеством по текстовым или графическим подсказкам. Попробуйте бесплатно!

Начать бесплатно

Ключевые функции

Узнайте, что делает HappyHorse 1.0 исключительным

Совместная генерация аудио и видео за один прямой проход

HappyHorse 1.0 построен на 40-слойном унифицированном однопотоковом Transformer, который удаляет шум одновременно из токенов текста, изображения, видео и аудио в одной последовательности — без отдельной модели Foley и без этапа постобработки. Речь, шаги и фоновые звуки рождаются на том же шаге, что и изображение, поэтому диалог и действия на экране совпадают на уровне фонем.

Нативная многоязычная синхронизация губ на семи языках

Нативная синхронизация губ на уровне фонем доступна для английского, мандаринского, кантонского, японского, корейского, немецкого и французского языков. Формы губ создаются в том же шаге шумоподавления, что и остальная часть кадра — а не приклеиваются последующим аппроксиматором области лица — что делает HappyHorse 1.0 одной из немногих топовых видео-моделей с многоязычным диалогом, готовым к продакшну сразу при запуске.

Нативное кинематографическое 1080p при любом соотношении сторон

Настоящее 1080p без апскейла — в форматах 16:9, 9:16, 1:1, 4:3 и 3:4, чтобы одна и та же сцена корректно компоновалась под кинематографический, вертикальный, квадратный и портретный показ. Длительность клипов от 3 до 15 секунд, около 38 секунд инференса на 5-секундный 1080p-клип на одной NVIDIA H100 благодаря дистиллированному пути шумоподавления DMD-2 за 8 шагов.

№1 на Artificial Analysis Video Arena

HappyHorse 1.0 занял №1 как в Text-to-Video (Elo 1333), так и в Image-to-Video (Elo 1392) на Artificial Analysis Video Arena — слепом бенчмарке по человеческим предпочтениям — в считанные дни после анонимного дебюта 7 апреля 2026 года. Разрыв в 60 пунктов Elo по T2V над прежним лидером — крупнейший скачок одного релиза в таблице с момента её запуска.

Часто задаваемые вопросы

Все, что вам нужно знать о HappyHorse 1.0

HappyHorse 1.0 — это первая ИИ-модель видео из Future Life Lab группы Taotian компании Alibaba: унифицированный Transformer с 15 миллиардами параметров, который совместно генерирует видео и синхронизированный звук по текстовым или графическим подсказкам в нативном 1080p. После анонимного дебюта на Artificial Analysis Video Arena около 7 апреля 2026 года и моментального захвата №1 в Text-to-Video и Image-to-Video, Alibaba публично подтвердила авторство 10 апреля 2026 года.

HappyHorse 1.0 разработан в Future Life Lab группы Taotian компании Alibaba — части подразделения ATH (Alibaba Token Hub) AI Innovation Unit. Технический руководитель — Чжан Ди (Zhang Di), пятнадцатилетний ветеран отрасли, ранее вице-президент Kuaishou и технический архитектор Kling AI, который вернулся в Alibaba в конце 2025 года, чтобы возглавить лабораторию.

В отличие от большинства видео-моделей, в которых аудио добавляется отдельным постпроцессом, HappyHorse 1.0 помещает токены текста, изображения, видео и аудио в единую последовательность и удаляет шум из них вместе в одном 40-слойном унифицированном однопотоковом Transformer. Речь, звуковые эффекты и фоновое аудио естественно синхронизируются с изображением, поскольку рождаются в одном прямом проходе.

HappyHorse 1.0 нативно поддерживает синхронизацию губ на семи языках: английском, мандаринском, кантонском, японском, корейском, немецком и французском. Формы губ выровнены по фонемам в том же шаге шумоподавления, что и остальная часть кадра. Другие языки также дают разумное движение губ, но точность на уровне фонем ниже, чем у поддерживаемого набора.

HappyHorse 1.0 генерирует видео в нативном 1080p (720p также доступно) длительностью от 3 до 15 секунд. Поддерживаются соотношения 16:9, 9:16, 1:1, 4:3 и 3:4 — для кинематографического широкого формата, мобильного вертикального, квадратного для соцсетей и портретного. Дистилляционный конвейер DMD-2 за 8 шагов занимает около 38 секунд на 5-секундный 1080p-клип на одной NVIDIA H100.

HappyHorse 1.0 удерживает №1 как в Text-to-Video, так и в Image-to-Video на Artificial Analysis Video Arena, опережая Kling, Veo и Seedance в слепом голосовании по человеческим предпочтениям. Он также уникален среди топовых моделей: совместно генерирует видео и звук за один прямой проход, нативно синхронизирует губы на семи языках и выдаёт нативный кинематографический 1080p. С включённым аудио HappyHorse 1.0 сейчас занимает №2 с минимальным отставанием.

Вы можете опробовать HappyHorse 1.0 на Cuty.ai с помощью бесплатных пробных кредитов — text-to-video и image-to-video уже доступны в студии. Для интенсивного использования и доступа ко всем премиальным функциям, включая более длинные клипы и режим Pro для ключевых кадров и насыщенных диалогами сцен, мы предлагаем различные тарифные планы.

Готовы создать с HappyHorse 1.0?

Начните генерировать удивительный контент с нашими мощными AI моделями. Попробуйте бесплатно сегодня!

Начать бесплатно

AI Генератор Видео

Ключевые кадры

Подсказка

Модель

Соотношение сторон

Разрешение

Продолжительность

Аудио

Вдохновение