AI-Toolkitで顔の一貫性が高いLoRAを作る方法(Z-Image-base bf16 / RTX5090)
今回は、AI-Toolkit + Z-Image baseを使って
「顔の一貫性(identity consistency)が高いLoRA」を作る方法を解説します。

実際に私は以下の条件でトレーニングを行い、かなり安定した結果が出ました:
- 画像枚数:30枚(すべて1024×1024)
- GPU:RTX 5090
- 学習時間:約4.5時間
- ステップ数:4000
- 結果:高い顔再現性+崩れにくいLoRA


1. 使用した全体設定(重要)
まずは今回のコア設定をまとめます。
■ JOB / MODEL
- Model Architecture:Z-Image
- Base Model:Tongyi-MAI/Z-Image
- Trigger Word:
songze
👉 トリガーワードは必ず一意な名前にしてください(超重要)
■ TRAINING設定
- Batch Size:2
- Steps:4000
- Learning Rate:5e-5
- Optimizer:AdamW8Bit
- Weight Decay:0.01
- Timestep:
- Type:Weighted
- Bias:Balanced
- Loss:Mean Squared Error
- EMA:ON(Decay 0.99)
■ LoRA設定
- Target Type:LoRA
- Rank:16
👉 顔LoRAでは Rank 16はバランス良好
(低すぎると情報不足、高すぎると過学習)
■ 保存設定
- Save Every:250 steps
- Max Saves:4
- Data Type:BF16
2. Dataset設定(ここが一番重要)
顔の一貫性はデータセット品質で9割決まると言ってもいいです。
■ 今回の設定
- 画像数:30枚
- 解像度:1024
- Num Repeats:25
- Caption Dropout:0.05
- Flip X:ON
- Flip Y:OFF
- Cache Latents:ON
3. サンプリング設定(見落とされがち)
トレーニング中の確認用サンプル設定:
- Sampler:FlowMatch
- Steps:30
- CFG:5
- Size:1024×1024
- Seed:42 + Walk Seed ON
👉 Walk Seed ONはかなり重要
→ 同じ顔のバリエーション確認がしやすい
4. 実際のトレーニング進行
ログを見ると:
- 約4.3 sec / iter
- 4000 steps ≒ 約4.5時間

途中ログ例:
- loss:0.61 → 0.56まで低下
👉 顔LoRAとしてはかなり安定した収束
5. 顔の一貫性を上げるためのコツ(核心)
ここがこの記事の一番大事な部分です。
✅ ① データは「同一人物」だけにする
NG:
- 似てる人を混ぜる
- AI生成画像を混ぜる
OK:
- 同一人物のみ(角度・表情違い)
✅ ② 顔の比率を揃える
理想:
- 顔の大きさがほぼ同じ
- 中央寄せ
NG:
- 全身・バストアップ混在
- 顔サイズバラバラ
✅ ③ 角度バリエーションは必要
最低限:
- 正面
- 左右45度
- 横顔
👉 これがないと「特定角度だけ強いLoRA」になる
✅ ④ キャプションはシンプルに
今回のおすすめ:
songze, 1person
余計な情報は入れない
👉 顔LoRAでは情報を絞るほど安定
✅ ⑤ ステップ数は多すぎない
今回:
- 4000 steps(ちょうど良い)
目安:
| 枚数 | ステップ |
|---|---|
| 20枚 | 3000前後 |
| 30枚 | 3500〜4500 |
| 50枚 | 5000前後 |
👉 多すぎると顔が崩れる(過学習)
6. よくある失敗
❌ 顔が安定しない
原因:
- データの顔サイズがバラバラ
- キャプションが長すぎ
❌ 似てるけど別人になる
原因:
- トリガーワードが弱い
- Rankが低すぎ
❌ 画風が混ざる
原因:
- データセットのスタイルが不統一
7. 今回の設定のポイントまとめ
今回の成功要因はこの3つ:
- 1024解像度で統一
- EMA ONで安定化
- Repeat 25で十分な学習量確保
8. 結論
この構成(30枚・1024px・4000steps)でも:
👉 顔の一貫性はかなり高いLoRAが作れる
特にZ-Image + FlowMatchの組み合わせは:
- 崩れにくい
- 顔再現が強い
- 安定性が高い
もしさらに精度を上げたいなら
- Rank:16 → 32
- 解像度:1024 → 1280
- データ:30 → 50枚
ただし:
👉 まずは今回の設定がベースとして最適