AI 视频生成器
关键帧
可选起始帧
⇆
结束帧
支持上传 JPG/PNG/WEBP 图片,单张不超过 10MB,且宽高至少为 300px。
提示词
*模型
宽高比
16:9
分辨率
480p
时长
4s
音频
开启
在 Cuty.ai 体验阿里巴巴的 HappyHorse 1.0 —— 在 Artificial Analysis Video Arena 排名 #1 的 AI 视频模型。一次前向推理即可生成原生 1080p 视频与同步音频,原生支持七种语言的口型同步,从文本或图像提示中生成电影级画质。免费试用!
探索 HappyHorse 1.0 的卓越之处
HappyHorse 1.0 基于 40 层统一单流 Transformer 架构,将文本、图像、视频与音频 token 放在同一序列中联合去噪 —— 无需独立的 Foley 模型,也无需后处理流水线。语音、脚步声、环境音与画面一起在同一步骤产生,因此对白与画面动作可在音素级别精确对齐。
HappyHorse 1.0 原生支持英语、普通话、粤语、日语、韩语、德语和法语的音素级口型同步。嘴型形状在与画面其它部分相同的去噪步骤中产生,而不是由人脸区域后期拼接 —— 使其成为发布即可投入生产、支持多语言对白的少数顶尖视频模型之一。
原生 1080p 生成(非上采样),覆盖 16:9、9:16、1:1、4:3 与 3:4 等比例,让同一场景在电影宽屏、手机竖屏、方形社交与人像格式下都能正确构图。视频时长 3 到 15 秒,借助 8 步 DMD-2 蒸馏去噪路径,单张 NVIDIA H100 上 5 秒 1080p 片段约 38 秒推理完成。
HappyHorse 1.0 于 2026 年 4 月 7 日匿名亮相后短短数日内,便在 Artificial Analysis Video Arena 这一基于盲测人类偏好投票的基准上同时拿下文本到视频(Elo 1333)与图像到视频(Elo 1392)两项 #1。其 T2V 排名相较此前榜首领先 60 个 Elo 点,是该榜单自上线以来单次发布跃升最大的一次。
关于 HappyHorse 1.0
HappyHorse 1.0 是阿里巴巴淘天未来生活实验室推出的首个 AI 视频模型 —— 一款 150 亿参数的统一 Transformer,可从文本或图像提示生成原生 1080p 视频以及同步音频。该模型于 2026 年 4 月 7 日左右在 Artificial Analysis Video Arena 上匿名首发,立即拿下文本到视频与图像到视频双榜 #1,阿里巴巴随后于 2026 年 4 月 10 日公开宣布该模型归属。
HappyHorse 1.0 由阿里巴巴淘天集团旗下未来生活实验室(隶属 ATH 阿里通证中心 AI 创新单元)开发。技术负责人是张迪 —— 一位拥有十五年从业经验的资深工程师,曾任快手副总裁,是 Kling AI 的技术架构师,2025 年底重返阿里巴巴负责该实验室。
与大多数将音频作为独立后处理步骤的视频模型不同,HappyHorse 1.0 把文本、图像、视频与音频 token 放进同一个 token 序列,由一个 40 层统一单流 Transformer 一起去噪。语音、音效与环境音之所以能与画面自然同步,正是因为它们由同一次前向推理一起生成。
HappyHorse 1.0 原生支持七种语言的口型同步:英语、普通话、粤语、日语、韩语、德语和法语。嘴型形状在与画面其它部分相同的去噪步骤中产生,并对齐到音素级。其它语言也能产生合理的嘴部动作,但音素级精度低于上述受支持语言。
HappyHorse 1.0 可生成原生 1080p 视频(亦可选 720p),片段时长 3 到 15 秒。支持的宽高比包括 16:9、9:16、1:1、4:3 与 3:4 —— 覆盖电影宽屏、手机竖屏、方形社交与人像格式。8 步 DMD-2 蒸馏路径在单张 NVIDIA H100 上生成 5 秒 1080p 片段约需 38 秒。
在 Artificial Analysis Video Arena 上,HappyHorse 1.0 凭借盲测人类偏好投票同时位居文本到视频与图像到视频双榜 #1,领先 Kling、Veo 与 Seedance。它在顶级模型中也是少数能够在一次前向推理中联合生成音视频、原生支持七种语言口型同步、并提供原生 1080p 电影级输出的模型。开启音频后,HappyHorse 1.0 目前以微小差距位列第 2。
您可以使用我们的免费试用积分在 Cuty.ai 上体验 HappyHorse 1.0 —— 文本到视频与图像到视频均已在工作室上线。若需大量使用以及更长片段、用于核心镜头与对白密集场景的 Pro 模式等高级功能,我们提供多种订阅方案。