イメージ生成AIの本命は、DALL-E 3で決まりなのか?
DALL-E 3が登場し、そのクオリティに驚愕した人は多いだろう。仕事柄、サンプルのイメージを用意することが多いのだけど、もうこれがあれば十分だな、と思う。これまでのように商用利用可のフリー素材を探し回ったり自分でスマホで撮影した猫だのを使うこともない。ほぼ写真や本職のイラストレーターが描いたかのようなイメージを簡単に手に入れられる。技術解説書など「本文を補足する図の一部」としてイメージを使うぐらいなので、それならこれで十分だ。
が、DALL-E 3でイメージ生成AIは果たして決まりなのか。他はどうなのか?(Stable Diffusionはどうなった?)ちょっと気になったので、いくつかのイメージ生成AIでレベルを確認してみた。プロンプトの違いによる差をなくすため、以下のプロンプトをすべて共通して使うことにした。
A woman sitting on a park bench reading and a cat relaxing next to her.
(公園のベンチに座って読書する女性と隣でくつろぐ猫。)
Image Creator
https://www.bing.com/images/create
まずは本命のBing Image Creatorだ。これはとにかく手軽。そしてクオリティが高い。なおかつ、今回試して気がついたけど、イメージタイプのバリエーションが豊富。上記のプロンプトを試したところ、写真とタイプの違うイラストを同時に生成してきた。これは確かに強力だ。
ただ、何度も試してみると、Image Creatorが生成するイメージの違和感がどこにあるかわかってきた気がする。基本的に、作られるものがだいたい同じなのだ。女性を描くとだいたい似たような顔になるし、公園もだいたい同じような公園になる。Image Creatorが用意する小さな世界があって、その中で撮影しているような気分。
Vertex AI
https://console.cloud.google.com/vertex-ai/
GoogleのクラウドAIプラットフォーム。ここでGoogle開発のAIモデルを使える。ただ、まだImage Creatorのように誰でも手軽に試せるツールは一般公開されてない。なのでVertexに用意されているColab Enterprise(Google ColaboratryのVertex版。その場でPythonのコードを実行できるクラウド環境)を使ってプロンプトを実行させてみた。
うん、Image Creatorに比べると、より自然な感じがする。生成されるイメージも非常にバリエーション豊かで、小さな箱庭の中で撮影しているような雰囲気がない。ただ、細かな部分を見ると、例えば人間の顔など微妙にイメージが崩れていたりすることもある。
Dream Studio
https://dreamstudio.ai/generate
Dream Studioは、Stability AIが提供する生成AIサービス。ここはStable Diffutionの開発元として知られているけど、このStable Diffutionをオンラインで試せるサービスとして提供しているのがDream Studioだ。これは操作も簡単でちょこっとイメージを作りたいときには大変重宝する。
クオリティは、高い。生成されるイメージは、より劇的な印象のアングルやフォーカスで作ってくれる。例えば町中に人物を描かせるとその周辺をそれとなくフォーカスアウトしてくれたりする。また生成される人間の顔も柔軟でバリエーションがあり、「何度作っても似たような顔」ということがない。ただ、たま~に顔の一部が崩れていたりすることもある。
Seaart
このところ人気急上昇しているイメージ生成AIサービス。シンガポールの会社が運営しているらしい。ベースとなっているAIモデルの情報などが不明なのだけど、あるいはオープンソースのStable Diffusionあたりをカスタマイズしているのかも知れない。
生成されるイメージの精度は、正直、ここまで挙げたサービスには若干劣ると思う。人間や動物など、けっこう頻繁に手足が3本あったり尻尾が2本あったりするイメージを描いてくれる。一世代前のイメージ生成AIといった感じだ。
ただ、ここはちょっと問題がある。通常、イメージ生成AIってのは内部にコンテンツセーフティ機能ってのがあって、ここで送信されたプロンプトと生成されるコンテンツの問題(暴力、犯罪、エロなどの度合い)をチェックし、しきい値を超えたイメージは生成できないようになっている。のだけど、このSeaartのコンテンツセーフティはまともに機能しておらず、他ではありえない問題イメージを平気で生成する。大丈夫かね、ここ。
本命は、どこ?
さて、そうなるとイメージ生成AIは、どこがデファクトスタンダードの地位を得るだろうか。おそらく、サービス自体の広がりを考えたなら、Bing Image Creatorだろう。Bingと連携しているし、DALL-EはOpenAI製だから注目度も高い。続いて、Stable Diffutionということになるのかも知れない。
ただ、個人的には、ここにもう少しGoogleのイメージ生成AI(Imagen)が食い込んできて欲しい。これは使う側というより、開発側の目になってしまうのだけど、とにかくGoogle Vertex AIがいい。これのモデルガーデンからノートブックを開いてColab Enterpriseで動かすというのを使ってみると、もう他の環境には戻れない。コードからイメージ生成AIを使うなら、Google Vertex + Imagenが一番快適なのだ。
また、生成されるイメージもかなり自然でいい。ときどき不出来な顔面を描いてくれることもあるけど、Image Creatorよりずっと自然で違和感がない。Image Creatorの描くイメージ(特に写真)は、非常に範囲が狭く、長く使っているとどこかしら窮屈な感じがしてしまう。また、プロンプトのコンテンツセーフティの縛りがますますきつくなってきて、なんでもない単語が引っかかってイメージ生成不可となったりする。このため、生成されるのは、お行儀のいいイメージばかりになる。
なので、Image Creatorが牽引するイメージ生成AIの世界は、つまらないものとなるだろう。ほかのイメージ生成AIモデルにどうかもっと頑張ってほしいのだ。