5090でLTX 2.3を試してみた:安定性は高いが細部はまだ改善余地あり

5090でLTX 2.3を試してみた:安定性は高いが細部はまだ改善余地あり

5090でLTX 2.3を軽く試してみたけど、全体的にはけっこう安定していて良い感じ。以前の画像→動画よりもだいぶ手間が減った。 一番感じたのは、安定性がかなり上がっていること。前みたいにフレームごとに崩れる感じはほぼなくて、結果もある程度予測できるようになった。 ただ、問題もあって、動きがたまにスライドショーっぽくなる。動いてはいるけど、あまり自然な連続性がない感じ。 自分は線画が好きなのでそこも試したけど、やっぱり線画→動画は難しい。線がブレたり、構造が安定しなかったりして、色付きの絵より難易度が高い印象。 音声まわりもまだシンプルで、基本はプログラムの自動音声に頼る形。自分で音声を作ると映像との同期が難しいし、環境音まではなかなか手が回らない。 ワークフローはLTX公式のものをそのまま使用。普通に使えるけど、特別賢い感じはない。 本動画は、20秒のクリップを4本組み合わせて制作しました。各20秒のクリップは、解像度1920×1088の画像6枚から生成しています。使用したモデルは ltx-2.3-22b-dev.safetensors で、動画用のプロンプトはローカル環境の Qwen3.5 35B-a3b によって生成しました。RTX 5090環境では、各クリップの生成におよそ10分ほどかかっています。 上記の最終動画については編集は行っておらず、すべて一度の生成で完成させ、そのまま結合しています。 最も難しかった点は、6枚のフレーム間でキャラクターの一貫性を保つこと、そしてストーリーに沿った画像を生成することでした。検証の結果、z-image-base はプロンプト指示にかなり忠実に画像を生成し、ltx 2.3 も同様に高い追従性を示しました。さらに重要なのは、プロンプト内に音声(ナレーション)生成に関する制約が組み込まれている点です。 そのため、wan...

ltx2.3
RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

今回は少し方向を変えて、動画生成(リップシンク)系の検証をしてみました。 使用したのは以下の構成です: 結論から言うと、RTX5090で60秒の動画ごとに約25分程度かかる。 👉 「思ったより実用レベル。しかも速い」 というのが率直な感想です。 生成イメージ(イメージ例) 静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。リアル系でもアニメ系でも両方対応できるのはかなり便利です。 全体的な評価 今回の検証をまとめると: 特に重要なのはここです。 👉 1回で完璧を狙わない方がいい これは画像生成以上に顕著で、複数回生成 → 良いものを選ぶという運用が前提になります。 重要なコツ(かなり大事) 今回試していて、一番効果があったのがこれです。 🎧 音声は「音楽」と「人声」を分離する...

ai動画生成 LTX-2 Mel-Band RoFormer 口パク音楽動画
RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090を使ってWAN2.2の最新画像生成動画モデルを試用してみました。以前のバージョンと比べて安定性が大幅に向上していることを実感できました。 1. ComfyUIのアップグレード まず、ComfyUIを最新版にアップグレードする必要があります。 仮想環境の有効化 bash conda activate comfyui ディレクトリに移動してアップデート bash cd <ComfyUI-installation-path>git pullpip install -r requirements.txtpython main.py 2. ワークフローのダウンロード...

ai comfyui wan2.2 画像生成動画
RTX5090でオープンソース無料動画生成モデル 「Wanvace」完全ガイド

RTX5090でオープンソース無料動画生成モデル 「Wanvace」完全ガイド

Wanvaceとは何か Wanvaceは14BパラメータのオープンソースモデルでHD動画生成を行い、開始フレームと終了フレームから動画を生成する技術として設計されている。VACEという名称は「Video Auto Creative Engine」の略称と推測され、その名の通り動画制作における自動化と創造性を両立させた画期的なシステムである。 関連リンク Wanvace 必要モデルファイル 拡散モデル VAE テキストエンコーダー 以下のモデルから一つを選択してください: fp16またはfp8から選択できます。私はkijaiのラッパーとの互換性に合わせてfp16を使用しました。 ファイル保存場所 WanVACEワークフロー このワークフローは少し処理が遅いですが、いくつかテストした結果、この効果が最も安定しています。 今回のComfyUIワークフローは、記事末尾のGoogleドライブからダウンロードできます。 wanvace_i2v-rtx5090.json

ai comfyui wanvace 画像生成動画