数日前に「Image Guidance」という機能が加わっているのに気がつきました。モデル比較の記事とかがやっと終わったので、さっそく試してみました。
Image Guidance はどこ?
ヒストリーとプロンプトジェネレーションの間に、新しくタブができています。画像は4枚アップロード可能で、それぞれオンオフを切り替えられます。

種類は?(その1)

XLがついたモデル、PhotoReal、Alchemy使用時は5種類(有料プランのみの4種類を含む)です。Prompt Magicと一緒には使えません。
Image to Imageはわかりやすいからか、説明文も出ません。追加トークンも必要ないみたいです。
他4種類の説明文をChatGPTに日本語訳してもらいました。
デプス・トゥ・イメージ(Depth to Image)
どんな入力画像でもその深度の特徴を検出し、これを使って画像生成をガイドします。

深度ってなに?

「深度の特徴」(depth features)とは、画像内の物体や環境の奥行きや距離感を表す情報のことです。例えば、写真に写っている物体がどれだけ遠くにあるか、またはどのように空間内で配置されているかを識別するための情報です。3D映像や拡張現実(AR)、バーチャルリアリティ(VR)などの技術では、この深度情報が非常に重要となります。

画像生成において深度の特徴を検出するということは、入力画像の奥行き情報を解析し、それに基づいてよりリアルな、立体的な画像を生成するためのガイドとして使用することを意味します。
エッジ・トゥ・イメージ(Edge to Image)
どんな入力画像でもそのエッジを検出し、これを使って画像生成をガイドします。
ポーズ・トゥ・イメージ(Pose to Image)
どんな入力画像においてもキャラクターのポーズを検出し、これを使って画像生成をガイドします。
テキスト・イメージ・インプット(Text Image Input)
白いテキストを黒背景で取り込み、これを使って画像生成をガイドします。
プロンプト(その1)
「少女が一生懸命作っている途中の、明るくて穏やかな雰囲気のクマのヌイグルミの絵」とChatGPTに入力してDALL-E3に画像生成してもらいました。なんか日本語がヘンでしたね(笑)
画像とChatGPT作成のプロンプトと日本語訳です。かわいい画像ができました。


このプロンプトを使って、Leonardo.Aiのイメージガイダンスを試してみます。
その前に、Leonardo.Ai(Leonardo Diffusion XLモデル)にもガイダンスなしで画像を作ってもらいました。若干微妙な感じはありますが、かわいい画像です。


Image to Imageを試してみる
ソース画像1枚目 – ごちゃごちゃ
画風を反映させたいときはソース画像をなるべくシンプルな(たくさんの物体を色々と描き込んでない)ものにすると良いようです。私は1枚目に使ったソース画像がごちゃごちゃしすぎていたおかげで、数値の違いによる変化が見極められませんでした。2枚目のソース画像で出力した結果がとてもわかりやすいので、そちらで比較してみてください。

1枚目のソース画像。ごちゃごちゃした感じと色と、輪郭線と水彩の感じがとてもよいので選んでみました。(DALL-E3生成画像)
デフォルト値の0.3と、0.1と、0.7を比較してみます。






正直に言いますが違いがよくわかりません。0.5でネガティブプロンプト(fish, shark, Dolphin, Whale, Ocean)を入れてみた例もあげますがあまり変わりません。


ソース画像2枚目 – あっさり
ここで「あ、余計なものが描いてない画像にすればいいのでは?」と思いつきました。

2枚目のソース画像。水彩の感じと、鉛筆の線も出ればいいなと思って選んでみました。(DALL-E3生成画像)
デフォルトの0.3と、0.5、0.7、それから0.1、0.2の比較をしています。






数値を少なくしたらどうなるんだろう?




デフォルトの0.3が、ちょうどよく画風が反映されていい感じですね。
手元に膨大な生成画像失敗作があって、えーい捨てちゃえと思ってたけど、ソース画像に使えそうとなると捨てられなくなりそう。笑
Depth to Imageを試してみる
どんな入力画像でもその深度の特徴を検出し、これを使って画像生成をガイドします。ってやつですね。奥行き感はソース画像に似ている気がしますね。




Edge to Imageを試してみる
どんな入力画像でもそのエッジを検出し、これを使って画像生成をガイドします。ってやつです。何となく輪郭線がソース画像っぽいですね。




Pose to Imageを試してみる
どんな入力画像においてもキャラクターのポーズを検出し、これを使って画像生成をガイドします。ってやつですが、それ用のソース画像じゃないので普通の画像が出ています。
本当は、人物の画像を生成するときに、こういうポーズにしてねっていうのを写真などで示せる機能です。プロンプトでポーズをこまかく指示するの難しいですからね。
そういえば、この画像はどれもちゃんとぬいぐるみ作ってますね!もしやポーズに意識がいってくれたのかな??




Text Image Inputを試してみる
白いテキストを黒背景で取り込み、これを使って画像生成をガイドします。ってやつですが、それなりのソース画像あげてないので参考になりませんね。なんとなく配置されてる形はソース画像に似てる気はします。そしてなんか可愛いです。




Pose to Image と Text Image Input については、それなりのソース画像で試してみないといけませんね。
種類は?(その2)
XLがついたモデル、PhotoReal、Alchemy使用時は5種類(有料プランのみの4種類を含む)でしたが、それ以外は10種類が使えるようです。Prompt Magicと一緒には使えません。
こちらにはプレミアムマークがないので、無料プランでも使えるのではないかと思います。

線画(Line Art):
入力画像の中の線画を検出し、これを使って画像生成をガイドします。
ノーマルマップ(Normal Map):
入力画像からノーマルマップを生成し、これを使って画像生成をガイドします。
パターンから画像(Pattern to Image):
白黒、または十分な暗部・明部がある画像で最も効果的です。
QRコードから画像(QR code to Image):
QRコードの画像を入力とし、これを使って画像生成をガイドします。必ずしも読み取り可能なQRコードを生成するわけではありません。
スケッチから画像(Sketch to Image):
手描きの線や落書きが含まれている状態の白黒の画像を使って画像生成をガイドします。

ノーマルマップってなに?

ノーマルマップとは、3Dコンピューティングにおいて、表面の各ピクセルの法線ベクトルをエンコードするために使用されるテクスチャの一種です。これは、物体の表面の細かいディテールをシミュレートして、よりリアルな照明効果を作り出すために使用されます。ノーマルマップは、物体の形状を変えずに視覚的な複雑さを増加させるため、ゲームやビジュアルエフェクトにおいてリアルタイムレンダリングを高速化するためによく使われます。通常、RGBカラーチャネルを使用して各ピクセルの法線の向きを表します。

それってどんな画像入れればいいんだろう・・・?
プロンプト(その2)
モデルはAnime Pastel Dream。プロンプトは「river, road, sky」。日本語訳:川、道、空。
ソース画像はこれです。昔のスケッチ。

Image to Image※
その1でも試したんですが、もう一回やってみました。ソース画像の画風を取り入れてっていう感じのですね。




Depth to Image※
これもその1で試しましたがもう一度。奥行き感、なんとなく伝わってる気はしますが(まあ普通そうだろって感じの奥行きなんで、反映されているかどうか謎)。




Edge to Image※
これももう一度やってみました。エッジを検出しそれを使って、ってやつです。ソース画像の線をほぼ再現して絵にしてくれてますね。これ面白いかも。




線画(Line Art)
おおこれは!線がみごとに抽出されて利用されていますよ!もとのスケッチにいちばん雰囲気近いですね。なんかうれしい。




ノーマルマップ(Normal Map)
すみません。これどうすればいいのかわかりませんでした。なぜか、なんかいい雰囲気の絵ができてます、、




パターンから画像(Pattern to Image)
白黒、または十分な暗部・明部がある画像で最も効果的です。ってことなので、パターン画像を用意してみました。単純な白黒で。
これ結果が興味深いです。構図を単純なモノクロで作ってソースとして示せば、その構図で絵が生成されるってことですよね。構図だけ作る練習とかしたことがあるので、これ好きかもです。





QRコードから画像(QR code to Image)
QRコード用意して、プロンプトを「biscuit(ビスケット)」にしてみました。もとのプロンプトだとうまくいかなかったので。チョコレートとかだともっとうまくいくのかな?

このサイトのAI画像生成カテゴリのQRコード。




ちなみに猫だとこうなりました。ぜったい読み取れないだろこれ。




スケッチから画像(Sketch to Image)
手描きの線や落書きが含まれている状態の白黒の画像を使って画像生成をガイドします。ってことでしたが、きっちり描き込んだ絵になっていますね。お手数かけましたって感じです。ありがたい。




Text Image Input※
白いテキストを黒背景で取り込み、これを使って画像生成をガイドします。ってやつです。
その1でもやりましたが、今度はテキストを用意してみました。なるほど、こうなるんですね。
(はじめ間違えて白背景の黒文字にしたら、空間がねじれたみたいな絵ができました。^^;)





まとめ
説明もあまり読まずに試したので参考にならない結果もありますが、無料プランでも使えるImage to Imageは追加トークンなしで画風を調整できて、とてもありがたいです。(AlchemyのStyle選択はけっこうな消費量なので。あ、でもDepthやEdgeをやりつつAlchemyのStyle選択とかやることあるかもですね……)
プロンプトで画風を書かなくてもよくなるかもしれないですし。いや、書かなくていいでしょ。
ソース画像をうまく用意すれば、画作りが面白くなりますね!
コメント