RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

今回は少し方向を変えて、動画生成(リップシンク)系の検証をしてみました。

使用したのは以下の構成です:

結論から言うと、

👉 「思ったより実用レベル。しかも速い」

というのが率直な感想です。


生成イメージ(イメージ例)

静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。
リアル系でもアニメ系でも両方対応できるのはかなり便利です。


全体的な評価

今回の検証をまとめると:

特に重要なのはここです。

👉 1回で完璧を狙わない方がいい

これは画像生成以上に顕著で、
複数回生成 → 良いものを選ぶという運用が前提になります。


重要なコツ(かなり大事)

今回試していて、一番効果があったのがこれです。

🎧 音声は「音楽」と「人声」を分離する

👉 これをやるだけでクオリティが一段上がる

理由としては:

つまり、

👉 ボーカルだけを入力に使うのがベスト

音楽付きのままでも動きますが、
精度は明らかに落ちる印象でした。


もう一つの現実:長さ制限問題

このワークフローには明確な制約があります。

👉 1回で生成できる動画の長さが限られている

そのため、

という手間が発生します。

正直ここはかなり面倒です。

特に、

このあたりはまだ「実験段階感」があります。


使用モデル構成メモ(ローカル環境)

備忘録として、今回使った構成を整理しておきます。

■ Checkpoints

■ Text Encoder

■ LoRA

■ Upscaler


ディレクトリ構成

ComfyUI/
├── models/
│ ├── checkpoints/
│ ├── text_encoders/
│ ├── loras/
│ └── latent_upscale_models/

このあたりは標準的な構成なので、
普段ComfyUIを触っている人なら迷わないと思います。


ワークフローのポイント

基本的な流れは以下の通りです:

1. 画像を読み込む

ベースとなるキャラクター画像。
縦長(ポートレート)の場合は後述のLoRAが重要。


2. 解像度設定

リサイズノードで設定。
※32の倍数になるよう自動調整される点に注意。


3. Seed設定

👉 基本はランダムで複数生成が良いです


4. 音声読み込み

MP3推奨。
(他形式も一応いけるが安定性はやや落ちる)


5. フレーム数設定

動画の長さをここで決定。

👉 個人的には自動の方が楽でした


6. 開始位置指定

長い音声の場合:

👉 「何秒目から使うか」を指定可能


7. 音声長設定

ここ重要です。

👉 動画フレームより長い音声は途中で切れる

つまり、

を必ず守る必要があります。


Camera-Control LoRAについて

これはかなり重要です。

👉 Static Camera LoRAはほぼ必須

特に:

の場合、これを使わないと

👉 ほぼ動かない(静止画のまま)

プロンプトに:

Static Camera

を入れて、強度1で使うのが安定でした。


LoRA強度について

distilled LoRAはデフォルト0.6に設定されていますが、

という印象です。

👉 上げすぎると顔が崩れます

ここは割とシビアでした。


総評

今回の検証を一言でまとめると:

👉 「手間はかかるが、ちゃんと使えばかなり遊べる」

特に:

このあたりには十分使えるレベルです。


良かった点


気になった点


おわりに

正直、ここまで簡単に「喋る・歌う」が作れるとは思っていませんでした。

まだ荒削りではあるものの、

👉 「個人制作の表現力を一段引き上げるツール」

であることは間違いないです。

今後は、

このあたりが進めば、一気に実用度が上がりそうです。

もう少し触り込んだら、また続編を書こうと思います。

コメントを残す

必須項目 *