RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

今回は少し方向を変えて、動画生成(リップシンク)系の検証をしてみました。 使用したのは以下の構成です: 結論から言うと、 👉 「思ったより実用レベル。しかも速い」 というのが率直な感想です。 生成イメージ(イメージ例) 静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。リアル系でもアニメ系でも両方対応できるのはかなり便利です。 全体的な評価 今回の検証をまとめると: 特に重要なのはここです。 👉 1回で完璧を狙わない方がいい これは画像生成以上に顕著で、複数回生成 → 良いものを選ぶという運用が前提になります。 重要なコツ(かなり大事) 今回試していて、一番効果があったのがこれです。 🎧 音声は「音楽」と「人声」を分離する...

ai動画生成 LTX-2 Mel-Band RoFormer 口パク音楽動画