Cuty.ai

AI 動画ジェネレーター

キーフレーム

任意
開始フレーム
終了フレーム

JPG/PNG/WEBP 画像をアップロードできます(最大 10MB、幅・高さは最低 300px)。

プロンプト

*

モデル

アスペクト比

解像度

期間

オーディオ

インスピレーション

HappyHorse 1.0 AI 動画生成

Cuty.ai でアリババの HappyHorse 1.0 を体験 — Artificial Analysis Video Arena で第 1 位の AI 動画モデル。1 回のフォワードパスでネイティブ 1080p の映像と同期音声を生成し、7 言語のネイティブ口パク同期と、テキストや画像プロンプトから映画品質を実現します。無料でお試しください!

主な機能

何が特別なのかを発見する HappyHorse 1.0 卓越した

1 回のフォワードパスで音声と映像を同時生成

HappyHorse 1.0 は 40 層の統一シングルストリーム Transformer に基づき、テキスト・画像・映像・音声トークンを 1 つのシーケンスでまとめてデノイズします。別個の Foley モデルもポストプロセスも必要ありません。音声・足音・環境音は映像と同じステップで生成されるため、セリフと画面上のアクションが音素レベルで揃います。

7 言語のネイティブ口パク同期

音素レベルの口パク同期が、英語・中国語(普通話)・広東語・日本語・韓国語・ドイツ語・フランス語の 7 言語でネイティブに提供されます。口の形は顔領域のポストフィッターで後付けされるのではなく、フレーム全体と同じデノイズステップ内で生成されます。これにより HappyHorse 1.0 は、リリース時点から多言語ダイアログを実用品質で提供する数少ないトップティアの動画モデルとなっています。

あらゆるアスペクト比でネイティブ 1080p の映画品質

アップスケールではない、真のネイティブ 1080p 生成を 16:9、9:16、1:1、4:3、3:4 で提供。同じシーンを映画ワイドスクリーン、モバイル縦型、SNS 用スクエア、ポートレートのいずれにも正しく構図できます。クリップ長は 3 〜 15 秒。8 ステップの DMD-2 蒸留デノイズパスにより、NVIDIA H100 1 枚で 5 秒の 1080p クリップを約 38 秒で推論します。

Artificial Analysis Video Arena で第 1 位

HappyHorse 1.0 は 2026 年 4 月 7 日の匿名デビューからわずか数日で、Artificial Analysis Video Arena(盲検の人間嗜好ベンチマーク)の Text-to-Video(Elo 1333)と Image-to-Video(Elo 1392)の両カテゴリで第 1 位を獲得しました。T2V で前王者を 60 ポイント上回るリードは、リーダーボード開設以来、単一リリースとして最大の伸びです。

よくある質問

知っておくべきすべてのこと HappyHorse 1.0

HappyHorse 1.0 は、アリババ・タオティアン・グループの Future Life Lab から登場した最初の AI 動画モデルです。150 億パラメータの統一 Transformer で、テキストや画像プロンプトから映像と同期音声をネイティブ 1080p で同時生成します。2026 年 4 月 7 日ごろに Artificial Analysis Video Arena で匿名デビューし即座に Text-to-Video と Image-to-Video の双方で第 1 位を獲得した後、アリババは 4 月 10 日に正式に同モデルの開発元であることを発表しました。

HappyHorse 1.0 は、アリババ・タオティアン・グループ傘下の Future Life Lab — ATH(Alibaba Token Hub)AI イノベーションユニットの一部 — で開発されました。技術リードは張迪(Zhang Di)氏。15 年以上の業界経験を持ち、Kuaishou で副社長を務め Kling AI のテクニカルアーキテクトを担った後、2025 年末にアリババへ復帰してこのラボを率いています。

音声を別工程の後処理として付け足す多くの動画モデルとは異なり、HappyHorse 1.0 はテキスト・画像・映像・音声のトークンを単一のトークン列に並べ、40 層の統一シングルストリーム Transformer で同時にデノイズします。音声・効果音・環境音は同じフォワードパスで生成されるため、映像と自然に同期します。

HappyHorse 1.0 は英語・中国語(普通話)・広東語・日本語・韓国語・ドイツ語・フランス語の 7 言語でネイティブの口パク同期に対応します。口の形はフレーム全体と同じデノイズステップで音素にアライメントされます。それ以外の言語でもある程度自然な口の動きは得られますが、音素レベルの精度はサポート言語より劣ります。

HappyHorse 1.0 はネイティブ 1080p(720p も選択可)で 3 〜 15 秒の動画を生成します。アスペクト比は 16:9、9:16、1:1、4:3、3:4 に対応し、映画ワイド、モバイル縦型、SNS スクエア、ポートレートをカバーします。8 ステップの DMD-2 蒸留パイプラインは、NVIDIA H100 1 枚で 5 秒の 1080p クリップを約 38 秒で推論します。

HappyHorse 1.0 は、盲検の人間嗜好投票で Kling・Veo・Seedance を上回り、Artificial Analysis Video Arena の Text-to-Video と Image-to-Video の両方で第 1 位を維持しています。さらに、1 回のフォワードパスで映像と音声を同時生成し、7 言語のネイティブ口パク同期に対応し、ネイティブ 1080p の映画品質を提供する点で、トップティアモデルの中でもユニークです。音声を有効にした場合、HappyHorse 1.0 は現在わずかな差で第 2 位です。

Cuty.ai では無料トライアルクレジットで HappyHorse 1.0 をお試しいただけます。スタジオではテキスト→動画と画像→動画の両方が利用可能です。集中的な利用、より長いクリップ、ヒーローカットや会話の多いシーン向けの Pro モードなど、すべてのプレミアム機能をご利用いただくには各種サブスクリプションプランをご用意しています。

と一緒に作成する準備はできましたか HappyHorse 1.0?

私たちの強力なAIモデルを使って素晴らしいコンテンツを生成し始めましょう。今日無料でお試しください!