汐言備忘録

KREA2の2×2ストーリーボード生成で、キャラクターの一貫性を保つ、漫画制作や動画分镜が作りやすくなる

July 3, 2026

KREA2をComfyUIで使うと、漫画のラフや動画用の分镜をかなり作りやすくなります。特に便利なのが、1枚の大きな2×2画像として4つのシーンをまとめて生成し、そのあと4枚に分割するワークフローです。 https://drive.google.com/file/d/1cghAQLpo_Nm2B6NzeUhc_F-VavvL2T_V/view?usp=sharing 通常、1カットずつ別々に画像を生成すると、キャラクターの顔、服装、雰囲気、画風が少しずつずれてしまうことがあります。同じ人物を複数のコマやカットに登場させたい場合、このズレはかなり気になります。 KREA2では、1枚の画像の中に4つのシーンをまとめて描かせることで、全体の画風、色味、キャラクターの印象を比較的そろえやすくなります。そのため、漫画制作のネーム、動画の絵コンテ、ショートムービーのカット設計などに向いています。ワークフローの流れはシンプルです。まず、User Prompt に4つのシーンを書きます。次に、KREA2が1枚の2×2ストーリーボード画像を生成します。最後に、easy imageSplitGrid で左上、右上、左下、右下の4枚に切り出して保存します。分镜の指定では、Panel 1、Panel 2 のような書き方は避けた方が安全です。KREA2がその数字を画像の中に描いてしまうことがあるためです。代わりに、次のように位置で指定します。この書き方なら、4つのコマ構成を伝えながら、不要な数字やラベルが画像に入りにくくなります。 KREA2用のプロンプトは、次のように書くと扱いやすいです。 KREA2は画面全体の雰囲気作りが得意なので、各フレームに単独の内容を書くよりも、最初に全体の世界観を指定してから4つのカットを書くと安定しやすいです。たとえば、先に次のような共通設定を書きます。そのあとに、4つのフレームを続けます。このように書くと、KREA2が1枚の画像全体を同じ世界観としてまとめやすくなります。...

ストーリーボード生成動画分镜漫画分镜

anima base1で90年代レトロアニメ風の画像を作ってみた記録

May 28, 2026

最近、anima base1を使って、90年代のレトロアニメっぽい雰囲気の画像を何枚か作ってみました。思っていたよりもけっこう安定していて、全体的な仕上がりもかなり好みでした。画面の雰囲気としては、昔のOVAっぽい感じです。線はすっきりしていて、光は少し冷たく、色味は柔らかいけどほんのり粒子感がある。キャラクターの表情もやりすぎていなくて、セル画時代のアニメっぽい空気が出ていると思います。今回ちょっと意外だったのは、LoRAを使わなかったことです。キャラの一貫性を出すためにLoRAを入れるのではなく、プロンプトだけを調整して、できるだけ雰囲気や人物がブレないようにしました。最初は、LoRAなしだと人物が安定しないかなと思っていたんですが、実際に出してみると、見た目はけっこういい感じでした。顔立ち、髪型、服装、全体の雰囲気も、ある程度まとまってくれました。もちろん完全に固定できるわけではないですが、連続して出しても、急に別の作風に飛ぶような感じはあまりありませんでした。前にLoRAを使って試したときは、なぜかいろいろ瑕疵が出てしまいました。顔のバランスが崩れたり、目や手、服のディテールが不自然になったり、画面が妙にシャープになりすぎたり。レトロアニメに欲しい柔らかさが少し消えてしまうこともありました。たぶん、LoRAとベースモデルの相性があまりよくなかったのかもしれません。あるいは、重みやトリガーワード、プロンプト同士の相性が原因だった可能性もあります。なので今回は、無理にLoRAを使わずに、スタイル、光、質感、キャラクター設定をプロンプト側でしっかり書く方向にしました。結果的には、そのほうが自分の欲しかった雰囲気に近づきました。このスタイル、かなり好きです。最近のきれいで高精細な二次元イラストというより、少し古いフィルム感や手描き感があるところがいい。キャラの表情も大げさすぎず、画面もエフェクトを盛りすぎていないので、構図や空気感、感情がちゃんと前に出てくる感じがあります。特に、朝の少し冷たい光、部屋の紙っぽい質感、壁いっぱいの付箋、キャラの顔に落ちる影。そういう細かい要素が重なると、静かだけど少し不穏で、物語の始まりみたいな雰囲気になります。この系統は、ストーリー性のある短編、絵コンテ、キャラクターのコンセプトアート、あるいは少しミステリアスで内面描写の多いアニメ風のカットにかなり合いそうです。単に「きれいな絵」を作るというより、ひとつの感情や場面を見せるのに向いていると思います。以下が、今回使ったスタイル用のプロンプトと、ざっくりしたワークフローです。スタイルプロンプト masterpiece, best quality, beautiful detailed, (classic 1990s...

anima 漫画

漫画LoRA用のキャラ素材を作る

May 23, 2026

漫画LoRA用のキャラ素材を作るために、まず anima でキャラを1体作ってみた。そのあと GPT にいろんな表情・ポーズ差分を作ってもらったんだけど、これが意外とかなり使える。参考プロンプトはこんな感じ👇 1:1サイズ。同じキャラクターで、表情・ポーズ・服装を必要に応じて変えながら、以下の表情や動作の画像を8枚作成。表情差分：ぐるぐる目 / 豆目、滝みたいな涙、冷や汗＋黒線、糸目、照れ顔、高飛車・見下し顔、腹黒・悪い笑顔、ハート目。基本感情：喜び、怒り、悲しみ、驚き。ポーズ差分：JOJO立ち、片足ぴょんのカワイイポーズ、ツンデレ腕組み、OTZ / 跪いて絶望、頭を抱えてしゃがむ防御ポーズ。漫画っぽいLoRA用の表情・ポーズ素材を作るなら、こういう指定かなり相性いいかも。anima → GPT で差分作成、普通にアリ。表情差分：ぐるぐる目...

LoRAトレーニング漫画

anima base1モデルによる手描き感の試み

May 19, 2026

anima base1が公開されてから、いろいろな設定を試してきました。全体的な表現力は高いものの、デフォルト設定のままだと、個人的には線の質感がpreview版ほどしっくりこない印象がありました。特に手描き感を重視したい場合、線の強弱や輪郭の出方が少し物足りなく感じることがあります。そんな中で、いくつか試行錯誤しているうちに、以下のような設定では線の雰囲気がかなり良くなることに気づきました。この設定では、高めのCFGと低めのノイズによって、輪郭線が比較的はっきり出やすく、手描き風の線のまとまりもかなり良好になります。キャラクターの髪や服の境界、細かな線の情報も残りやすく、anima base1の中でもかなり好みの質感に近づきました。ただし、問題もあります。この設定だと全体的に画像が暗くなりやすく、色の抜けや明るさの面では少し扱いにくい結果になることが多いです。線の質感は良いのに、完成絵として見るとトーンが沈んでしまい、そのままでは使いづらい場面もありました。そこで偶然見つけたのが、anima llliteを組み合わせる方法です。 anima base1で生成した、線の質感は良いけれど暗くなってしまった画像を、anima llliteで修正してみたところ、かなり自然に明るさや色味を整えることができました。単なる補正だけでなく、元の線の雰囲気を残したまま、全体の印象をより見やすく仕上げられる点がとても良いと感じました。実際に比較してみると、anima base1側で得られた手描き感のある線を活かしつつ、anima lllite側で暗さを補正し、色のバランスや画面全体の見栄えを整えることができます。結果として、線画の良さと完成度の両方を取りやすくなりました。また、この組み合わせは修復用途だけでなく、スタイル変換やポーズ変更にも使えそうです。anima base1でベースとなる雰囲気や線の方向性を作り、その後anima llliteで仕上げや調整を行うことで、かなり柔軟なワークフローが組める印象です。ワークフロー https://drive.google.com/file/d/1Z6aitdUCk63DgAXoEjm7eoB6HalerfPg/view?usp=sharing まず、anima...

anima

線画と水彩が混ざり合う、あたたかい手描き

May 7, 2026

このイラストの雰囲気が本当に好きです。少しラフな黒い線で形をとり、その上に淡い水彩の色がふわっと重なっている。完璧すぎない線、にじんだ色、紙の質感まで感じられるような仕上がりが、とても自然であたたかい印象を与えてくれます。特に魅力的なのは、線画の勢いと水彩のやわらかさが同時に存在しているところです。料理のイラストでは、肉の赤みやソースの色が水彩らしく広がり、食べ物の香りまで伝わってくるようです。一方で猫のイラストは、シンプルな線と明るい色づかいによって、少しユーモラスで親しみやすいキャラクターになっています。このスタイルは、きれいに描き込みすぎないからこそ魅力があります。余白が多く、線も少し揺れていて、色も完全には塗りつぶされていない。その不完全さが、まるでスケッチブックの一ページを見ているような心地よさを生み出しています。デジタルでありながら、手描きの温度を感じられる表現。線画と水彩が混ざり合ったこのスタイルは、日常の小さなものをやさしく、少し特別に見せてくれる素敵な表現だと思います。プロンプト例

watercolor 水彩

Z-Imageで「イラスト風」のLoRAを作ってみる

May 7, 2026

今回は、Z-Imageをベースにして、qingman_style というトリガーワードで呼び出せるイラスト風LoRAを作る設定について、ざっくり話していきます。結果: 今回の目的は、キャラクターそのものを覚えさせるというより、絵柄を覚えさせることです。なので、設定の中でも content_or_style: "style" になっています。ここがけっこう大事で、「この子を再現したい」ではなく、「この雰囲気の絵を出したい」という方向ですね。データセットは D:\lora\ai-toolkit\datasets/qingman に置いていて、解像度は 1024。Z-Imageは高解像度のイラスト表現とも相性を見たいので、最初から1024で学習する形になっています。キャプションは .txt を読む設定で、caption_dropout_rate は 0.15。つまり、たまにキャプションを落として、モデルがテキストに頼りすぎないようにしている感じです。 LoRAのネットワーク設定は、linear: 64、conv: 32。わりとしっかりめにスタイルを入れる設定ですね。軽いLoRAというより、「ちゃんと絵柄を乗せたい」方向です。linear_alpha も 64、conv_alpha...

LoRAトレーニング Z-Image イラスト風

RTX 5090のローカルPCでQwen3-TTSを動かすまでのメモ

May 7, 2026

今回は、Windows環境で RTX 5090 を使って、ローカルに Qwen3-TTS をインストールして動かす手順をまとめます。場所は例として D:\ruanjian に入れていきます。まず、作業用フォルダに移動して、Qwen3-TTSのソースコードをcloneします。次に、Python 3.12で仮想環境を作ります。ここまでできたら、プロンプトの先頭に (.venv) が出ているはずです。これが出ていれば、仮想環境に入れている状態です。 RTX 5090用にCUDA 12.8版のPyTorchを入れる Qwen3-TTSを入れる前に、まずPyTorchを入れます。RTX 5090の場合は、CUDA...

Qwen3-TTS tts

AI-Toolkitで顔の一貫性が高いLoRAを作る方法（Z-Image-base bf16 / RTX5090）

April 10, 2026

今回は、AI-Toolkit + Z-Image baseを使って「顔の一貫性（identity consistency）が高いLoRA」を作る方法を解説します。実際に私は以下の条件でトレーニングを行い、かなり安定した結果が出ました： 1. 使用した全体設定（重要）まずは今回のコア設定をまとめます。 ■ JOB / MODEL 👉 トリガーワードは必ず一意な名前にしてください（超重要） ■ TRAINING設定 ■ LoRA設定 👉...

AI-Toolkit LoRAトレーニング Z-Image

5090でLTX 2.3を試してみた：安定性は高いが細部はまだ改善余地あり

March 24, 2026

5090でLTX 2.3を軽く試してみたけど、全体的にはけっこう安定していて良い感じ。以前の画像→動画よりもだいぶ手間が減った。一番感じたのは、安定性がかなり上がっていること。前みたいにフレームごとに崩れる感じはほぼなくて、結果もある程度予測できるようになった。ただ、問題もあって、動きがたまにスライドショーっぽくなる。動いてはいるけど、あまり自然な連続性がない感じ。自分は線画が好きなのでそこも試したけど、やっぱり線画→動画は難しい。線がブレたり、構造が安定しなかったりして、色付きの絵より難易度が高い印象。音声まわりもまだシンプルで、基本はプログラムの自動音声に頼る形。自分で音声を作ると映像との同期が難しいし、環境音まではなかなか手が回らない。ワークフローはLTX公式のものをそのまま使用。普通に使えるけど、特別賢い感じはない。本動画は、20秒のクリップを4本組み合わせて制作しました。各20秒のクリップは、解像度1920×1088の画像6枚から生成しています。使用したモデルは ltx-2.3-22b-dev.safetensors で、動画用のプロンプトはローカル環境の Qwen3.5 35B-a3b によって生成しました。RTX 5090環境では、各クリップの生成におよそ10分ほどかかっています。上記の最終動画については編集は行っておらず、すべて一度の生成で完成させ、そのまま結合しています。最も難しかった点は、6枚のフレーム間でキャラクターの一貫性を保つこと、そしてストーリーに沿った画像を生成することでした。検証の結果、z-image-base はプロンプト指示にかなり忠実に画像を生成し、ltx 2.3 も同様に高い追従性を示しました。さらに重要なのは、プロンプト内に音声（ナレーション）生成に関する制約が組み込まれている点です。そのため、wan...

ltx2.3

RTX 5090でLTX-2 + Mel-Band RoFormerを使った口パク音楽動画生成テスト

February 27, 2026

今回は少し方向を変えて、動画生成（リップシンク）系の検証をしてみました。使用したのは以下の構成です：結論から言うと、RTX5090で60秒の動画ごとに約25分程度かかる。 👉 「思ったより実用レベル。しかも速い」というのが率直な感想です。生成イメージ（イメージ例）静止画1枚から、音声に合わせて自然に口が動く動画を生成できます。リアル系でもアニメ系でも両方対応できるのはかなり便利です。全体的な評価今回の検証をまとめると：特に重要なのはここです。 👉 1回で完璧を狙わない方がいいこれは画像生成以上に顕著で、複数回生成 → 良いものを選ぶという運用が前提になります。重要なコツ（かなり大事）今回試していて、一番効果があったのがこれです。 🎧 音声は「音楽」と「人声」を分離する...

ai動画生成 LTX-2 Mel-Band RoFormer 口パク音楽動画

RTX 5090環境でのZ-Image Base + AI Toolkit LoRA生成テスト記録

February 27, 2026

最近は仕事が立て込んでいて、なかなかモデル検証に時間を割けていませんでした。それでも合間を見ていくつかのモデルを触ってみたところ、Z-Image系の出力が思った以上に良かったので、備忘録も兼ねてまとめておこうと思います。生成結果のサンプル全体的に見て、第一印象は「かなり安定している」というもの。特に肌の表現が自然で、違和感の少ない仕上がりになる点が印象的でした。結論（まとめ）今回の検証をざっくりまとめると、以下のようになります。つまり、 👉「雰囲気・質感重視ならZ-Image」 👉「厳密なキャラ再現なら他モデル（Wanなど）」という棲み分けがしっくりきます。実行環境と生成速度今回の検証環境は以下の通りです。この構成で、 👉 1枚あたり約40秒という結果でした。正直なところ、このクラスのモデルとしては「悪くない速度感」です。極端に速いわけではないですが、品質とのバランスはかなり良好だと感じました。...

AI Toolkit comfyui LoRAトレーニング Z-Image

#2 ママになったら不安だらけ！？

September 16, 2025

1.帰宅娘が「ただいま」と帰宅。鼻をすすり、少し元気がない。母は心配そうに見つめる。 2検温母は娘の額に手を当て、体温計を取り出す。娘は辛そうに目を閉じる。背景には学校の音楽会のチラシ。 3 困った体温計をみた母は焦りの表情。音楽会のチラシを見つめ、複雑な心境。娘は咳をしている。 4 大丈夫母は娘を優しく抱きしめる。「大丈夫」と安心させるように微笑む。

マンガ子育て漫画