RTX 5090環境でのZ-Image Base + AI Toolkit LoRA生成テスト記録
最近は仕事が立て込んでいて、なかなかモデル検証に時間を割けていませんでした。 それでも合間を見ていくつかのモデルを触ってみたところ、Z-Image系の出力が思った以上に良かったので、備忘録も兼ねてまとめておこうと思います。
生成結果のサンプル




全体的に見て、第一印象は「かなり安定している」というもの。 特に肌の表現が自然で、違和感の少ない仕上がりになる点が印象的でした。
結論(まとめ)
今回の検証をざっくりまとめると、以下のようになります。
- スタイル系の表現はかなり優秀
- 人物系LoRAの再現度はWan系モデルにやや劣る
- ただし肌の質感表現はかなり強い(トップクラス)
つまり、 👉「雰囲気・質感重視ならZ-Image」 👉「厳密なキャラ再現なら他モデル(Wanなど)」
という棲み分けがしっくりきます。
実行環境と生成速度
今回の検証環境は以下の通りです。
- GPU:RTX 5090
- VRAM:32GB
- RAM:64GB
- モデル:Z-Image Base
- ステップ数:50 steps
この構成で、
👉 1枚あたり約40秒という結果でした。
正直なところ、 このクラスのモデルとしては「悪くない速度感」です。
極端に速いわけではないですが、 品質とのバランスはかなり良好だと感じました。
ワークフローについて
今回のワークフローでは、最初に自動プロンプト生成を挟んでいます。
そのため、
- プロンプトを自分で細かく調整する必要がない
- ワークフロー自体は少し複雑に見える
という特徴があります。
ただし重要なのはここで、
👉 完成されたプロンプトを持っている場合は、シンプルな構成で十分
です。
むしろ余計な処理を減らした方が、 再現性やコントロール性は上がります。
AI ToolkitでのZ-Image BaseのLoRA学習
今回、AI Toolkitを使ってLoRAも2種類ほど学習してみました。
結果としてはかなり良好で、
- スタイルの維持:良好
- キャラクター特徴の保持:概ね良好
- 破綻:少なめ
という印象です。
学習時間については、
👉 Z-Image BaseのLoRA 1本あたり:約1時間強(RTX 5090)
でした。


このあたりはハードウェア性能にかなり依存しますが、 5090クラスであれば「気軽に試せるライン」に入ってきています。
総評
Z-Image Baseは、派手さはないものの、
- 安定性
- 肌の質感
- スタイル表現
この3点において非常にバランスが良いモデルです。
特に「肌の自然さ」は他モデルと比べても一段上に感じられ、 ポートレート系や雰囲気重視の作品にはかなり向いています。
一方で、
- キャラの厳密再現(LoRA精度)
- 特定IP寄せ
といった用途では、他モデルの方が優れるケースもあります。
おわりに
しばらく触れていなかった分、改めて最近のモデルの進化を実感しました。
Z-Imageは「尖ったモデル」ではないですが、日常的に使える完成度の高さが魅力です。