5090でLTX 2.3を試してみた:安定性は高いが細部はまだ改善余地あり
5090でLTX 2.3を軽く試してみたけど、全体的にはけっこう安定していて良い感じ。以前の画像→動画よりもだいぶ手間が減った。 一番感じたのは、安定性がかなり上がっていること。前みたいにフレームごとに崩れる感じはほぼなくて、結果もある程度予測できるようになった。 ただ、問題もあって、動きがたまにスライドショーっぽくなる。動いてはいるけど、あまり自然な連続性がない感じ。 自分は線画が好きなのでそこも試したけど、やっぱり線画→動画は難しい。線がブレたり、構造が安定しなかったりして、色付きの絵より難易度が高い印象。 音声まわりもまだシンプルで、基本はプログラムの自動音声に頼る形。自分で音声を作ると映像との同期が難しいし、環境音まではなかなか手が回らない。 ワークフローはLTX公式のものをそのまま使用。普通に使えるけど、特別賢い感じはない。 本動画は、20秒のクリップを4本組み合わせて制作しました。各20秒のクリップは、解像度1920×1088の画像6枚から生成しています。使用したモデルは ltx-2.3-22b-dev.safetensors で、動画用のプロンプトはローカル環境の Qwen3.5 35B-a3b によって生成しました。RTX 5090環境では、各クリップの生成におよそ10分ほどかかっています。 上記の最終動画については編集は行っておらず、すべて一度の生成で完成させ、そのまま結合しています。 最も難しかった点は、6枚のフレーム間でキャラクターの一貫性を保つこと、そしてストーリーに沿った画像を生成することでした。検証の結果、z-image-base はプロンプト指示にかなり忠実に画像を生成し、ltx 2.3 も同様に高い追従性を示しました。さらに重要なのは、プロンプト内に音声(ナレーション)生成に関する制約が組み込まれている点です。 そのため、wan...