RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

今回は少し方向を変えて、動画生成(リップシンク)系の検証をしてみました。 使用したのは以下の構成です: 結論から言うと、 👉 「思ったより実用レベル。しかも速い」 というのが率直な感想です。 生成イメージ(イメージ例) 静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。リアル系でもアニメ系でも両方対応できるのはかなり便利です。 全体的な評価 今回の検証をまとめると: 特に重要なのはここです。 👉 1回で完璧を狙わない方がいい これは画像生成以上に顕著で、複数回生成 → 良いものを選ぶという運用が前提になります。 重要なコツ(かなり大事) 今回試していて、一番効果があったのがこれです。 🎧 音声は「音楽」と「人声」を分離する...

ai動画生成 LTX-2 Mel-Band RoFormer 口パク音楽動画
RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090を使ってWAN2.2の最新画像生成動画モデルを試用してみました。以前のバージョンと比べて安定性が大幅に向上していることを実感できました。 1. ComfyUIのアップグレード まず、ComfyUIを最新版にアップグレードする必要があります。 仮想環境の有効化 bash conda activate comfyui ディレクトリに移動してアップデート bash cd <ComfyUI-installation-path>git pullpip install -r requirements.txtpython main.py 2. ワークフローのダウンロード...

ai comfyui wan2.2 画像生成動画
RTX5090でオープンソース無料動画生成モデル 「Wanvace」完全ガイド

RTX5090でオープンソース無料動画生成モデル 「Wanvace」完全ガイド

Wanvaceとは何か Wanvaceは14BパラメータのオープンソースモデルでHD動画生成を行い、開始フレームと終了フレームから動画を生成する技術として設計されている。VACEという名称は「Video Auto Creative Engine」の略称と推測され、その名の通り動画制作における自動化と創造性を両立させた画期的なシステムである。 関連リンク Wanvace 必要モデルファイル 拡散モデル VAE テキストエンコーダー 以下のモデルから一つを選択してください: fp16またはfp8から選択できます。私はkijaiのラッパーとの互換性に合わせてfp16を使用しました。 ファイル保存場所 WanVACEワークフロー このワークフローは少し処理が遅いですが、いくつかテストした結果、この効果が最も安定しています。 今回のComfyUIワークフローは、記事末尾のGoogleドライブからダウンロードできます。 wanvace_i2v-rtx5090.json

ai comfyui wanvace 画像生成動画