AI-Toolkitで顔の一貫性が高いLoRAを作る方法（Z-Image-base bf16 / RTX5090）

April 10, 2026 · Ai , AIツール , AI画像生成 , Comfyui

今回は、AI-Toolkit + Z-Image baseを使って
「顔の一貫性（identity consistency）が高いLoRA」を作る方法を解説します。

実際に私は以下の条件でトレーニングを行い、かなり安定した結果が出ました：

画像枚数：30枚（すべて1024×1024）
GPU：RTX 5090
学習時間：約4.5時間
ステップ数：4000
結果：高い顔再現性＋崩れにくいLoRA

1. 使用した全体設定（重要）

まずは今回のコア設定をまとめます。

■ JOB / MODEL

Model Architecture：Z-Image
Base Model：Tongyi-MAI/Z-Image
Trigger Word：songze

👉 トリガーワードは必ず一意な名前にしてください（超重要）

■ TRAINING設定

Batch Size：2
Steps：4000
Learning Rate：5e-5
Optimizer：AdamW8Bit
Weight Decay：0.01
Timestep：
- Type：Weighted
- Bias：Balanced
Loss：Mean Squared Error
EMA：ON（Decay 0.99）

■ LoRA設定

Target Type：LoRA
Rank：16

👉 顔LoRAでは Rank 16はバランス良好
（低すぎると情報不足、高すぎると過学習）

■ 保存設定

Save Every：250 steps
Max Saves：4
Data Type：BF16

2. Dataset設定（ここが一番重要）

顔の一貫性はデータセット品質で9割決まると言ってもいいです。

■ 今回の設定

画像数：30枚
解像度：1024
Num Repeats：25
Caption Dropout：0.05
Flip X：ON
Flip Y：OFF
Cache Latents：ON

3. サンプリング設定（見落とされがち）

トレーニング中の確認用サンプル設定：

Sampler：FlowMatch
Steps：30
CFG：5
Size：1024×1024
Seed：42 + Walk Seed ON

👉 Walk Seed ONはかなり重要
→ 同じ顔のバリエーション確認がしやすい

4. 実際のトレーニング進行

ログを見ると：

約4.3 sec / iter
4000 steps ≒ 約4.5時間

途中ログ例：

loss：0.61 → 0.56まで低下

👉 顔LoRAとしてはかなり安定した収束

5. 顔の一貫性を上げるためのコツ（核心）

ここがこの記事の一番大事な部分です。

✅ ① データは「同一人物」だけにする

NG：

似てる人を混ぜる
AI生成画像を混ぜる

OK：

同一人物のみ（角度・表情違い）

✅ ② 顔の比率を揃える

理想：

顔の大きさがほぼ同じ
中央寄せ

NG：

全身・バストアップ混在
顔サイズバラバラ

✅ ③ 角度バリエーションは必要

最低限：

正面
左右45度
横顔

👉 これがないと「特定角度だけ強いLoRA」になる

✅ ④ キャプションはシンプルに

今回のおすすめ：

songze, 1person

余計な情報は入れない

👉 顔LoRAでは情報を絞るほど安定

✅ ⑤ ステップ数は多すぎない

今回：

4000 steps（ちょうど良い）

目安：

枚数	ステップ
20枚	3000前後
30枚	3500〜4500
50枚	5000前後

👉 多すぎると顔が崩れる（過学習）

6. よくある失敗

❌ 顔が安定しない

原因：

データの顔サイズがバラバラ
キャプションが長すぎ

❌ 似てるけど別人になる

原因：

トリガーワードが弱い
Rankが低すぎ

❌ 画風が混ざる

原因：

データセットのスタイルが不統一

7. 今回の設定のポイントまとめ

今回の成功要因はこの3つ：

1024解像度で統一
EMA ONで安定化
Repeat 25で十分な学習量確保

8. 結論

この構成（30枚・1024px・4000steps）でも：

👉 顔の一貫性はかなり高いLoRAが作れる

特にZ-Image + FlowMatchの組み合わせは：

崩れにくい
顔再現が強い
安定性が高い

もしさらに精度を上げたいなら

Rank：16 → 32
解像度：1024 → 1280
データ：30 → 50枚

ただし：

👉 まずは今回の設定がベースとして最適

カテゴリ