絵を描くのが好きだとか、絵を描くの上手だねとか、言ったり言われたりして子供時代を過ごしました。中学生、いや、10代のうちは確かに絵を描くのが楽しかった記憶はありますが、その後はちょっと違う気分だったように思えます、今振り返ると。
わりと最近気づきましたが、私は「なぞったり、絵の具をいじったりしているのが幸せ」なだけなのでした。
スケッチやデッサン、絵が上手になるための地道なトレーニングはとても苦痛だし、一枚の絵を隅々まで書き込むのも非常なストレスを感じるんですよね。
ささっと線を描いて、きれいな色や水彩絵の具やアプリのブラシをいじっていればそれでオッケーなので、これは「絵を描くのが好き」というよりは「絵の具をいじるのが好き」なんだなと。

絵がうまくなりたいんじゃなく、見たい世界があるだけ
絵のトレーニングを積んだ人は、人体の構造とか立体感や遠近法やその他もろもろが身についていて、説得力のある絵を描けるんです。
私のように絵が下手な人は、人体の構造も立体感も何もかもがあやしくて、説得力どころの話ではないんですよね。
でも私はトレーニングを積んで画力をつけたいわけではないんです。現実じゃない世界を形にしてみたかったのです。
何か簡単な方法で画面を組み立てることができれば満足なのです。なので、以前から3DCGを中途半端にやってみたり(絵の練習をしなくても絵が作れる!と思った)、今回も画像生成AIを試し続けることに心を奪われていたわけです。
描けないなりに、好きな画風はある
画像生成AIは美しい画像を作ってくれるのですが、私が描いたようなテキトーな画風の下手な絵は作れません。テキトーじゃないとしても、ミリペンのフリーハンドに水彩で色を付けたような超ラフな絵はどうやったら描いてもらえるのかわからないんですよね、、(できるのかもしれませんが、方法がわかりませんでした)
じゃあ、AIで作った画像を、お絵描きアプリに取り込んで、自分でなぞって描けばいいんじゃない??って思いつきました。このおじさんたちの絵みたいに。

ゼロから絵を描くのはツラい作業なんですが、てきとうに輪郭をなぞって適当に色をつけるのは単純に楽しい作業なので。
参考画像+イメージガイダンス機能で、闇雲感は激減する
人物のポーズなどは参考画像が使える
プロンプトだけで画像生成をするのはある意味、やみくもにやってる感があったりします。言葉だけで指示をするのはすごく難しいと思います。
しかし、画像生成AIの多くは人物のポーズに参考画像を使えます(Leonardo.AiならPose to Image)。フリー素材の画像や、3Dデッサン人形でポーズを作って画像出力したものを参考画像として使えば、ポーズはほぼ意図通りにできます。写真のほうがうまくいくような気がします。
Leonardo.Aiのイメージガイダンス(Image Guidance)機能には参考画像を使って画像生成をするいくつかの機能があります。
- Image to Image(入力画像のカラー パターンと全体的な外観を検出し、これを画像生成のガイドとして使用します)
- Pose to Image(入力画像内のキャラクターのポーズを検出し、これを画像生成のガイドに使用します)
- Edge to Image(入力画像のエッジを検出し、これを使って画像生成をガイドします)
- Depth to Image(入力画像の深度の特徴を検出し、これを使って画像生成をガイドします)
- Line Art(入力画像の中の線画を検出し、これを使って画像生成をガイドします)
- Pattern to Image(白黒、または十分な暗部・明部がある画像で最も効果的に画像生成をガイドします)
- Sketch to Image(手描きの線や落書きが含まれている状態の白黒の画像を使って画像生成をガイドします)
など。

これを参考画像にして、Pose to ImageとImage to Imageを試してみました。(プロンプトは「正面を向いて立っている服を着た男性」A man wearing clothes standing facing forward)
結果。上段がPose to Image(1.00)、下段がImage to Image(0.30)です。

Pose to Imageは不自然な3Dモデルのポーズを入れた場合は自然な感じに直されてしまうのかな?という気がします。(強さはデフォルトの1.00で良いと思います。2.00にしてみたら人体の形が一部破綻しました。^^;)
Image to Imageは参考画像のイメージをできるだけ保ってくれる感じですね。
どちらにも当てはまることなのですが、
- 3Dモデル人形のポーズは自然な感じに
- プロンプトと参考画像が矛盾しないように
- 参考画像と生成画像の縦横比を同じにする(とよいかも?)
というふうに、けっこう気を使ってあげる必要があるかなと思います。
(この参考画像でImage to Imageで背景を指定してみたら背景は白のままで人物が変な具合になったり、Pose to Imageで背景を指定して縦横比を変えたら不自然な人物が紛れ込んだりしました)
Image to Image のサンプル
ちょっと試してみました。かなり自分のイメージに近づけることが可能だと思います。
私が用意できるのはおおかたこんな感じの参考画像なので、この感じの画像でうまく機能するかどうかを見ています。ほんの一人のユーザーの例ということをご承知おきください。

この画像をガイドにして、Image to Image(入力画像のカラー パターンと全体的な外観を検出し、これを画像生成のガイドとする)を試してみました。4枚ずつ生成。
モデルはAnime Pastel Dream、プロンプトはこんな感じ。ガイドの強さ(Strengt)はデフォルトで0.3が出ますが、0.1と0.5も試しました。

まずは0.1から。身体の向きがちょっと違ってますね。

デフォルトの0.3。向きが微妙ですがなかなかいい感じです。

最後は0.5。もとの線がそのまま出ちゃうところがある感じですね。

モデルがAnime Pastel Dreamなので可愛く仕上がっています。3D Animation Styleも可愛くなりましたし、DreamShaper v7とAbsolute Reality v1.6もそれなりに可愛くできました。
しかし、XL付きモデルはイマイチでした。モデルが察してくれる箇所が「そこじゃないんだよなぁー」て感じで。逆を言えば、かなり察してくれてるということになるのかもしれませんが。たぶん、サンプル画像が適切じゃなかったのかもしれません。
Sketch to Image のサンプル
モデルをDreamShaper v7に変更し、同じ参考画像でSketch to Image(手描きの線や落書きが含まれている状態の白黒の画像を使って画像生成をガイドします)も試してみました。強さは1.00。

なかなかいい感じに生成できますね。
Line Art のサンプル
Line Art(入力画像の中の線画を検出し、これを使って画像生成をガイドします)もテストしました。強さは1.00。これはXLモデル以外にも使えないモデルがあります。

参考画像の線をそのまま活かしてくれている感じがします。以前のテスト記事でもスケッチの線をそのまま使ってくれていました。
Edge to Image のサンプル
Edge to Image(入力画像のエッジを検出し、これを使って画像生成をガイドします)も試してみました。強さは1.00。

こちらも線を活かしてくれています。
Depth to Image のサンプル
Depth to Image(入力画像の深度の特徴を検出し、これを使って画像生成をガイドします)も試しました。これはモデルによっては使えない場合があります。

これも向きとかが微妙ですがまあまあ参考画像のとおりですね、っていうか参考画像が良くないのだな。深度の特徴をっていうのがよく理解できませんが、試してもいいかなという感じです。
各機能と使えるモデルの関係
たぶん、XL付きモデル・ベースが2.0のモデル・ベースが1.5のモデルに分けて考えればいいんだと思います。
XL付きモデル↓

1.5がベースのモデル↓

2.0がベースのモデル↓

Edge to Image(Alt)は、「HED を使用して入力画像のエッジを検出し、これを画像生成のガイドに使用します。」という説明なのですが「HED」が何なのかわかりませんね、、

HED、またはHolistic Edge Detectionは、画像のエッジ(輪郭や境界線など)を検出するために使用されるコンピュータビジョンの技術です。この手法は、深層学習と特に畳み込みニューラルネットワーク(CNN)を用いて、画像内のエッジをより正確かつ効果的に検出します。

あ、GPTくんだ!

HEDは、画像内の各ピクセルがエッジに属するかどうかを判断するために、複数のスケールとアスペクト比を考慮しています。これにより、さまざまな形状やサイズのエッジを検出することが可能になります。HEDは、画像処理、物体検出、シーン理解など、様々な分野で応用されています。

伝統的なエッジ検出手法(例えばソーベルフィルタやキャニーエッジ検出器など)と比較して、HEDはより複雑なテクスチャや形状のエッジを効果的に検出できるという利点があります。この技術は、自動運転車、医療画像解析、監視システムなど、多くの先進的なアプリケーションにおいて重要な役割を果たしています。

ありがとう!
Image Guidance機能はPrompt Magicと一緒には使えない。XLがついたモデル、PhotoReal、Alchemy使用時は5種類(Image to Imageと、有料プランのみの4種類)だけ使用可。
で正解なのかどうか確認していませんが、たぶんこんな感じだと思います。
Elementsのサンプル画像
Image Guidance機能は、Elementsとの併用が可能
これらImage Guidance機能はElementsとの併用も普通にできます。Elementsは人物に使うと衣装(や顔立ち)にも影響してくれて、雰囲気や世界観づくりにとても効果的なのでおすすめです!
同じ参考画像とモデル、Sketch to Image(1.00)、各Element(0.60)でいくつか生成してみました。
Element:Glass & Steel ↓

Element:Ivory & Gold ↓

Element:Tiki ↓

さらに、イメージガイダンス機能もElementも、いくつかを併用することが可能です。(併用できないものもあります)
各Elementの生成画像サンプル(テーブルと椅子)
3Dでテーブルと椅子を作って参考画像にしてみました。

サイズ感だけは現実味を持たせましたが、デザインは簡易な工作レベルです。照明もダメダメだし。^^;
実際に画像生成してみて驚いたんですが、Elementごとに家具のデザインがそれっぽくなるんですよね。これは使える!
奥の大きいテーブルは1.5m×2mの天板の裁断用テーブル。ソーイングのときこれくらいの欲しいなーと思って作ってみました。手前のテーブルは85cm×85cm、85cm×1.5m。高さはいずれも70cm。椅子は座面までの高さ40cm、座面の大きさ40cm角です。
★(後日調べたら、椅子の座面の大きさがかなり小さかったです。幅42~、奥行きはもっと必要でした。)
これを参考画像として、Image to Image(0.30)、各Element(0.60)で画像生成してみました。モデルはdreamshaper_v7(Elementなし~Toxic Punkまで)、leonardo_diffusion_xl(Coloring Book~Vintage Christmas Illustration)、watercolor_sketch(Surreal Collage)です。








































昨年出版したKindle本「白いユリのある風景」でもElement比較はしているんですが、最近あらたにVintage Christmas Illustrationが加わっていました。
また、3D画像(たぶん写真も)なら、Depth to Imageを使うともとの形がほぼ保たれるみたいです。さっきのお粗末な手描きを参考画像にする場合はSketch to ImageやLine Artが向いていると思います。
このテストにはImage to Imageを使ったので家具の形状が大きく変わってしまいましたが、Depth to Imageでいくつか生成してみたら、テーブルを丸くしてしまったLunar Punkですら形をとどめてくれました。(Image to Image 0.30と、Depth to Image 1.00の違いもあるかもしれませんが……)


ベースが2.0のモデルはDepth to Imageが使えないのですが、かわりにEdge to Image(Alt)ならわりときれいにできました。(通常のEdge to Imageはなぜか線がギザギザしてしまいました。)
参考画像をつくるためのツール紹介
テーブルと椅子を作った3DCGソフトBlenderのメモ(チュートリアル動画)
このブログの最後のBlenderの記事は2019年10月。このときのバージョンは2.8くらいだったらしいです(今調べた)。しばらく使ってなくてメモリ節約のためにアンインストールしてしまっていました。
Leonardo.Aiの参考画像に使おうと先日再ダウンロードしましたら、現在のバージョンは4.1でした。
使い方を思い出さなきゃならないのでYou Tubeでチュートリアル動画を探しました。いくつかメモ代わりに貼っておきます。すべて同じチャンネルの動画です。すごくわかりやすいです。
以前使っていたので「使い方を思い出す」目的で一周見ました。まったくの初心者さんは別の動画からのほうが良いです。たとえば次のやつ。
これ見ながら作業して、次に前記事で使ったテーブルと椅子を実際に作りました。
他に、まるっこいヌイグルミてきなものを作りたいときのために、あと二つ貼っておきます。
寸法の参考
あと、建物・家具・人物・動物などの寸法や形状の参考に。
画像管理アプリEagle
ついでに画像管理ツールですごくいいやつ見つけて使いはじめたので、わかりやすそうな紹介記事貼っておきます。Eagleです。
まとめ
もとのイメージを自分である程度まで作成(フリー画像やポーズ画像や背景などを切り貼り&自分で形を描き入れる、3Dで作る、自分で写真を撮るなど)して参考画像とし、これを使ってAI生成した画像。これがそのままでよければそれで良し、なぞりたければ思う存分なぞりを楽しむ。
という感じでいければいいと思います。
なんにせよ、もとのイメージが重要だということですね。自分のイメージ。いい参考画像が作れれば、AIがきれいに仕上げてくれるっていう感じですね。
楽しい絵がたくさんできたら、またKindle本にまとめようと思っています。

できるかな?
コメント