RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

今回は少し方向を変えて、動画生成(リップシンク)系の検証をしてみました。 使用したのは以下の構成です: 結論から言うと、 👉 「思ったより実用レベル。しかも速い」 というのが率直な感想です。 生成イメージ(イメージ例) 静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。リアル系でもアニメ系でも両方対応できるのはかなり便利です。 全体的な評価 今回の検証をまとめると: 特に重要なのはここです。 👉 1回で完璧を狙わない方がいい これは画像生成以上に顕著で、複数回生成 → 良いものを選ぶという運用が前提になります。 重要なコツ(かなり大事) 今回試していて、一番効果があったのがこれです。 🎧 音声は「音楽」と「人声」を分離する...

ai動画生成 LTX-2 Mel-Band RoFormer 口パク音楽動画
RTX 5090環境でのZ-Image Base + AI Toolkit LoRA生成テスト記録

RTX 5090環境でのZ-Image Base + AI Toolkit LoRA生成テスト記録

最近は仕事が立て込んでいて、なかなかモデル検証に時間を割けていませんでした。 それでも合間を見ていくつかのモデルを触ってみたところ、Z-Image系の出力が思った以上に良かったので、備忘録も兼ねてまとめておこうと思います。 生成結果のサンプル 全体的に見て、第一印象は「かなり安定している」というもの。 特に肌の表現が自然で、違和感の少ない仕上がりになる点が印象的でした。 結論(まとめ) 今回の検証をざっくりまとめると、以下のようになります。 つまり、 👉「雰囲気・質感重視ならZ-Image」 👉「厳密なキャラ再現なら他モデル(Wanなど)」 という棲み分けがしっくりきます。 実行環境と生成速度 今回の検証環境は以下の通りです。 この構成で、 👉 1枚あたり約40秒という結果でした。 正直なところ、 このクラスのモデルとしては「悪くない速度感」です。 極端に速いわけではないですが、 品質とのバランスはかなり良好だと感じました。...

AI Toolkit comfyui LoRAトレーニング Z-Image
#2 ママになったら不安だらけ!?

#2 ママになったら不安だらけ!?

1.帰宅 娘が「ただいま」と帰宅。鼻をすすり、少し元気がない。母は心配そうに見つめる。 2検温 母は娘の額に手を当て、体温計を取り出す。娘は辛そうに目を閉じる。背景には学校の音楽会のチラシ。 3 困った 体温計をみた母は焦りの表情。音楽会のチラシを見つめ、複雑な心境。娘は咳をしている。 4 大丈夫 母は娘を優しく抱きしめる。「大丈夫」と安心させるように微笑む。

マンガ 子育て 漫画
自分で漫画作成ソフト作っちゃた!AIで漫画が早く描けるようになったよ〜。

自分で漫画作成ソフト作っちゃた!AIで漫画が早く描けるようになったよ〜。

Web版漫画制作ツール紹介 もともと線画とか漫画が大好きで、当時はツールをめちゃくちゃ探してたんだけど、自分で描くのは苦手だし時間かかるし…。でも SD とか ComfyUI が出てきてからは、ほぼ3年ずっと使い続けてきたんだよね。その間いろんなモデルを試して、最近やっと Flux と WAN2.2 に出会って、「あ、これなら本気で自分の好きな漫画が作れる!」って思えるようになった。なんか、つまらない日でも「今日は無駄じゃなかったな」って思えるんだよ。 で、そこに GPT-5 の強力なコード力+自分のアイデアを組み合わせて、ついに小さい漫画編集ソフトを作った!別に新しいものでもレアでもなくて、自分の使いやすいように作っただけなんだけど、絵が苦手な自分にとってはかなり助かるツールになったと思う。 名前は 「imega」。意味は「イメージからマンガになろう」って感じで、口にしたらなんとなくこの単語になった(笑)。実際には存在しない言葉だけどね。で、imega のドメインは高すぎて買えなかったから、「場」をつけて いめがば** にした。ニュアンスとしては「イメージからマンガになろうの場所」って感じ。 アイデアが出てから公開まで、だいたい1か月くらいかかったかな。細かいところを何度も直して、コードもそんなに得意じゃないし。 サイト:https://imegaba.com/ ...

Imega マンガ 漫画 漫画ツール 漫画作成
#1 いつかきっと役に立つよね

#1 いつかきっと役に立つよね

こういう体験って本当に面白いよね。普段は「まあ必要ないかな」って思ってるものほど、意外なタイミングでめちゃくちゃ役立ったりするんだよ。今回もまさにそれで、靴カバーなんて入れてたことすら忘れてたのに、雨の日に大活躍してくれてさ。あの瞬間、「自分ナイス!」ってちょっと誇らしくなった(笑)。 やっぱり「準備しておくこと」って大事なんだなって改めて感じたよ。しかも、準備してても使わないことの方が多いけど、たった一度でも役に立てば、それだけで全部報われる気がするんだよね。今回みたいに。だからこれからも「もしかしたら必要かも?」って思ったら、とりあえず持っていこうって思った。備えあれば憂いなし、ってやつだね。

エッセー 随筆
RTX 5090 で Musubi-Tuner をインストールし、Wan 2.2 の LoRA の作成方法

RTX 5090 で Musubi-Tuner をインストールし、Wan 2.2 の LoRA の作成方法

1. はじめに Wan 2.2 は静止画でも動画でも他モデルを上回る仕上がりを見せます。これまで flux 系のモデルを多く作ってきましたが、人物の一貫性を保つため、今回は Wan 2.2 を試してみました。 環境は メモリ 64GB/GPU:RTX 5090(VRAM 32GB)。学習にかかった時間は以下の画像のとおりです。 先に結論:高ノイズ/低ノイズの特性が異なるため、モデルは高ノイズ用と低ノイズ用をそれぞれ学習します(= 従来と違い 2 回学習)。 1...

LoRAトレーニング Musubi-Tuner Wan 2.2
イラスト①

イラスト①

ウサギとカメ manga, comic, monochrome,Panel One: Scene: A rabbit is singing a cheerful song, musical notes floating above its head. A...

イラスト
WAN2.2のT2Vモデルで画像生成 – Fluxの「プラスチック肌」問題を解決!

WAN2.2のT2Vモデルで画像生成 – Fluxの「プラスチック肌」問題を解決!

WAN2.2のT2V(Text-to-Video)モデルを使って画像生成を試してみたところ、驚くべき結果が得られました。なんと、Fluxモデルで問題となっていた肌のプラスチック感を完全に解消できたのです! RTX5090での検証結果、効果は特に素晴らしいものでした! 使用モデル wan2.2_t2v_low_noise_14B_fp16.safetensors 使用ノード構成 生成速度 処理時間の内訳は以下の通りです: 処理段階設定所要時間基本生成40ステップ約60秒アップスケール2048×204890秒合計処理時間-150秒 Fluxとの比較優位性 従来のFluxモデルでは、特に人物の肌質表現において「プラスチックのような不自然な質感」が課題となっていました。しかし、WAN2.2のT2Vモデルを使用することで: これらの改善により、画像生成の品質が大幅に向上しました。 ワークフローのダウンロード https://drive.google.com/file/d/102b0Lw9JJ80J8xVnNY08e5d2OMhvPYwX/view?usp=sharing まとめ WAN2.2のT2Vモデルは、従来のFluxモデルの弱点を克服した画期的なモデルです。RTX5090との組み合わせにより、高品質な画像を短時間で生成できる実用的なソリューションとなっています。 特に人物画像の生成において、自然な肌質表現を求めるクリエイターにとって、このモデルは非常に価値のあるツールになるでしょう。 総処理時間150秒で高品質な2048×2048の画像が生成できる効率性も、実用面での大きなメリットです。

comfyui wan2.2
RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090でWAN2.2最新画像生成動画モデルをテスト – 効果と安定性が大幅向上

RTX5090を使ってWAN2.2の最新画像生成動画モデルを試用してみました。以前のバージョンと比べて安定性が大幅に向上していることを実感できました。 1. ComfyUIのアップグレード まず、ComfyUIを最新版にアップグレードする必要があります。 仮想環境の有効化 bash conda activate comfyui ディレクトリに移動してアップデート bash cd <ComfyUI-installation-path>git pullpip install -r requirements.txtpython main.py 2. ワークフローのダウンロード...

ai comfyui wan2.2 画像生成動画
自分で訓練した線画風Flux LoRA- fluxlinesun

自分で訓練した線画風Flux LoRA- fluxlinesun

私は以前からminimalist、線画風のアート作品にとても魅力を感じていました。そのシンプルでありながら表現力豊かな線の美しさに惹かれ、自分でもそのような作品を作ってみたいと思っていました。 LoRAについて https://drive.google.com/file/d/1JeFMQ8JGv0WjOD0V_GynFR1h3VX0YSDL/view?usp=sharing ここから fluxlinesun をダウンロードして!トリガーワード:linesun prompt:change the characters in the photo to line drawings,lineart style,linesun change the subjects in the...

minimalist 線画 線画風Flux LoRA
Kontext LoRAを再訓練しない場合、FLUX-devのLoRAを使ってキャラクターの一貫性を向上させる方法

Kontext LoRAを再訓練しない場合、FLUX-devのLoRAを使ってキャラクターの一貫性を向上させる方法

Kontextは改めてLoRAを訓練し直す必要があるのでしょうか?KontextとFLUX-devのLoRAを組み合わせるとどのような結果が得られるのでしょうか? Kontextとプロンプトを直接使用することでも、ある程度顔の一貫性を持った画像を生成できますが、確実性に欠けます。 ワークフロー 以下のワークフローを使用することで、 https://drive.google.com/file/d/1U8Ci13QfGpEv3upjpdZeC0V1Yk7lyCtQ/view?usp=sharing キャラクターLoRAがKontextと連携し、参考画像のポーズや表情、服装、動作を参照して画像を生成し、結果的に参考画像の顔を差し替える効果を得ることができることが分かりました。 核心原理: テスト結果: 効果があるようです。ポーズや表情は読み込まれた画像を参考にし、顔部分はLoRAを使用しています。 このプロンプトでLoRAトリガーワードを除去した後、スタイルも読み込まれた画像を参考にしました。LoRAトリガーワードを追加した後は、ポーズや表情は読み込まれた画像を参考にし、かつ顔部分はLoRAを使用しています。完璧です。

FLUX Kontext ラクターの一貫性
RTX5090でFlux Kontextモデルの3枚画像を1枚に融合して、素晴らしい!

RTX5090でFlux Kontextモデルの3枚画像を1枚に融合して、素晴らしい!

RTX5090でFlux Kontextモデルの複数画像を1枚に融合するワークフローを試してみましたが、効果は素晴らしいです! ワークフロー: https://drive.google.com/file/d/1Fhdej5no_fn4xZmGuii9jTQvkc5dE2bp/view?usp=sharing プロンプト技法 1枚目と2枚目の画像はキャラクターとアイテムにして、3枚目の画像は背景にするのがベストです。プロンプトには画像内の英語と「in the photo」を含めるのがよく、最後に「background on the right」を付けてください。 マルチ画像融合 一貫した表示効果を確保するため、以下の例では画像とプロンプトを統一して使用します: The woman is holding the gun in...

Flux Kontext Kontext 複数画像融合