画像生成AIで素材として実用できるイラストを作ってきた知見 Part1

いわゆるAIイラストで、素材として使用できる範囲の画像を作るノウハウをまとめてみます。

概要

いわゆる「AIイラスト」は美麗な絵を作ることに焦点が当たりすぎていて、その他の情報はあんまりありません。

先日GPTsの一つである「イラストかわいいや」に焦点が当たりました。

実際のとこ、色々な人の目に触れても問題なく、かつ情報量が多くない絵を求めている人は多いはずです。

Stable Diffusion モデル: Animage-XL 3.0
Stable Diffusion モデル: Animage-XL 3.0

chatGPTとStable Diffusion

現状、イラストを生成するなら技術的には2個の方式に分類されます。Stable DiffusionとDALL-E3です。ちなみにDALL-E3はダリ・スリーと読みます。

DALL-E3はBing AIやchatGPTで利用できます。ここでは話を簡単にするため、DALL-E3 = chatGPTとしておきます。

技術的な仕組みがどう違うかは置いておき、実用上ではどう違うかを私の経験でまとめてみます。

Stable Diffusion

  • Stable Diffusionのここが良い
    • (パソコンが用意できれば電気代以外の)料金が必要ない
    • 思い通りの画像が出るまでたくさん生成できる
    • ノウハウそのものはたくさんある
  • Stable Diffusionのここがダメ
    • 環境を用意する時点でハードルが高い(NVIDIA製のGPUを積んだPCが必要・クライアントを導入してモデルもダウンロードする必要がある)
    • プロンプト(命令)を覚えたりする必要がある
    • 相性が悪いアイテム(小物)がある
    • ノウハウが美麗・えっちなものに偏っている

Stable Diffusionはコアなオタクにとって、かなりオールラウンダーに使えます。

あなたがNVIDIAのGPUを積んだゲーミングPCを持っているならそのまま環境を作ることができ、1時間後には生成が始めれるでしょう。

ただし、環境の用意がめんどいなど、一般人にとっては使いづらいところがあります。

さらに、プロンプト(命令文)も用意しなきゃいけないので最初から最後まで面倒です。

また、思ってるような画像が出るまで何枚も「プロンプトが合っていないのか、SEED値(乱数)が悪いのか、どっちなんだ?」と考えながら何枚も試行する必要があります。そもそも根本的に「この小物は出力できねぇ!」とかもある。

下のイラストは出るまで20枚近く試行しています(慣れていてもこれだけかかります。これはかなり早めに出た印象です)

png内にメタデータが保存されているのでパラメータはPNG infoから参照できます
png内にメタデータが保存されているのでパラメータはPNG infoから参照できます

最終的なポジティブプロンプトは以下になっています。モデルは Animagine-XL-3.0です。

masterpiece , newest , late , 
vector outline , kindly eyes , 
1girl, (chibi:0.6) , desk on laptop pc , working , desk , coffee  , simple t-shirt, 
, simple background , 

慣れてないと「は? 何英語で書いてんだ?」となるかもしれません。慣れていても、Animagine-XLを知らない人は「newest , late ,ってなんだよ???」となると思います。

Stable Diffusionはモデルごとにもクセがあり、他人のノウハウを吸収するにも事前知識が必要になってきます。ノウハウを調べる力も必要になってくるので非常に手間がかかります。

そもそもモデル製作者も「美麗なイラスト」を作ることに焦点を置いていて「一般的に実用できるイラスト」の制作には向いていないように思えます。

chatGPT(とbing)

  • chatGPTのここが良い
    • 命令文が日本語でいい
    • 命令文に対しての理解度・再現度が高い
    • 環境構築が必要ない
  • chatGPTのここがダメ
    • 画像生成には有料の会員登録が必要
    • 画像生成がGPT-4の制限に依存する
    • 時間帯によってはエラーが発生する
    • 同じプロンプトでも微妙に絵柄が安定しづらい

chatGPTは有料(月額約2000円)ですが、それに見合った性能はあります。それに面倒な環境構築が必要ないというのは大きい。

chatGPTは命令に対する理解度と再現度が高いです。

以下の画像は試行回数1回です。

customGPTsで「うちのブログのつるぎちゃんはこういうキャラだよ〜」と定義していて、かつ「絵柄はこんな感じで、背景は(抜きやすいように)薄緑で描いていてね〜」と定義しています
customGPTsで「うちのブログのつるぎちゃんはこういうキャラだよ〜」と定義していて、かつ「絵柄はこんな感じで、背景は(抜きやすいように)薄緑で描いていてね〜」と定義しています

これがどれだけすごいんだよ、と思うかもしれません。

上記のStable Diffusionの画像を出すまでに試行した、いくつかの失敗作をお見せします。

プロンプトを修正しながら出しているので、後半に連れて精度が上がっています
プロンプトを修正しながら出しているので、後半に連れて精度が上がっています

Stable Diffusionでは上記のイラストを出すまでに「うーん、これ違うなー」「このプロンプトを足してー、これを削ってー……」と結構繰り返しています。

慣れているのでそこまでかかりませんでしたが、慣れていなければ上記のものを出すだけで(調べる時間も合わせて)3時間くらいかかるんじゃないかなと思います。

対してchatGPTはマジの一発で上記のイラストを出しています。

chatGPTはレベルの高い合格点を超えるイラストをオールウェイズ出してくれます。

ただ、chatGPTは時間帯によってイラストの生成が失敗したり、バカになったりします。謎に。

同じ命令でやっても「は???なんでこんな絵柄で出してくんの???」となったりします。

また、chatGPTは有料版でも(GPT-4の)送信数が限られているため、画像生成もその制限に依存します。(2024/03/06現在:3時間に40メッセージまで)

なので細かい微調整がしづらいです。90点を常に出してくれますが、あなたの頭の中にあるイラストを100%再現させるのは難しいです。

絵柄についても同じ命令でやっても安定しません。

seed値のみ変えているのに、絵柄が大幅に変わる
seed値のみ変えているのに、絵柄が大幅に変わる

一枚程度の素材を出すなら別にいいんですが、素材を複数組み合わせる(チラシとか)場合、これがネックになることがあります。

ちなみにMicrosoftが提供しているCopilot(bing)も同等の性能があります。こちらは今後、どういう形態で提供されるかイマイチわかりませんが……。

絵柄のクセ

簡単なイラストならどちらも似たようなものは出せる。

Stable Diffusionの場合は(良くも悪くも)プロンプトに忠実だし、間違ってもそもそも数がこなせるなど融通が効かせられる。

chatGPTは独自解釈が多かったり、時たま命令を無視したりするし、命令になかったら想像で余計なことを補ったりする。

アニメイラスト……?拳銃……?ライトノベル……?
アニメイラスト……?拳銃……?ライトノベル……?

ただ、chatGPTは絵の破綻が少ない。

雨の中拳銃を構えてるイラスト(?)も、拳銃の形に違和感はないし、指もぱっと見は違和感ない。6本あるけど。

これがStable Diffusionの場合、破綻が少ない絵を出すのに試行する必要があるし、比較的破綻が少ないというだけで破綻が目立たないわけでもない。

Stable Diffusionは小物の扱いが非常に苦手です(というより小物の扱いが得意なモデルがありません)

1girl , rain , handgun , holding gun とだけ指定
1girl , rain , handgun , holding gun とだけ指定

20枚生成した中で拳銃(らしいもの)を持ってくれたのが3枚。その中で最も破綻が少ないものがこれです。

とにかく、狙ったイラストに近いものを出したいならchatGPTが安定します。

キーボードって難しいですよね? 誰もが一度は投げた経験があると思います!そんな時は弊社のキーボード講習を受けてみませんか?
キーボードって難しいですよね? 誰もが一度は投げた経験があると思います!そんな時は弊社のキーボード講習を受けてみませんか?

修正しない前提でイラストを使いたいなら間違いなくchatGPTだし、修正する前提なら数を稼げるStable Diffusionの方が良いと感じています。

どっちがいいの?

個人的には「こだわるなら併用した方がいい」になるけど、どっちかに絞れと言われたら間違いなくchatGPTになります。他人にお勧めするなら? それもchatGPTです。

Stable Diffusionは狙った絵を出すのにコツがいる上に、試行回数も必要になります。そもそも環境構築がだるい。

chatGPTは適当に日本語で送っても「お、いいじゃーん」というものをポンと出してくれます。

ただchatGPTが万能かと言われるとそうでもなく「うーん、これ違うなぁ」という時も少なくはありません。

絵柄の面でもそうですし、試行回数的にも。

chatGPTが出しづらいイラストはStable Diffusionにはもっと出しづらいですが、Stable Diffusionは無制限に出せます

Stable Diffusionにはimg2imgがありますし、chatGPTの次工程としては非常に有用です。なのでStable Diffusionが全く使えないかというとそうではありません。

それに、やりたいことがたとえば「自作小説の挿絵」など、美麗イラストに近いならばchatGPTよりも断然、数をこなせるStable Diffusionが有利な面はあります。

まとめ

Stable Diffusion … (環境さえあれば)無料で使える。たくさん試行できる。人物以外の描写が弱すぎる。慣れるまでコツがいる。

chatGPT … 有料。基本的に万能。めちゃくちゃ手軽に忠実な絵を出してくれる。ただし時たまバカになったりするし、絵柄も時たま安定しない。

質のchatGPT、量のStable Diffusionという具合に使い分けれると最強だと思います。

次回以降は具体的にどんなプロンプトを使ったり、どんな修正法があるかを書いていきます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

This site uses Akismet to reduce spam. Learn how your comment data is processed.