Titanの一般公開は、いきなりで驚いたのだけど、それ以上に驚いたのが「Titanは、Titanだけじゃなかった」ということ。それまでEmbeddingモデルと2種類のテキスト生成モデル(LiteとExpress)の存在は知られていたけれど、それ以外にイメージ生成モデル「Titan Image Generator G1」と、マルチモーダルのEmbeddingモデル「Titan Multimodal Embeddings G1」がいきなりリリースされたのだ。Titan Image Generator G1についてはまだプレビュー扱いだけど、イメージ生成までしれっと出してきたところにAmazonの本気さを感じるな。
で、さっそく試してみたのだ。もちろんTitanシリーズの一つだから、安定の「日本語非対応」なのでプロンプトは全部英語。
うむ、簡単なプロンプトならきれいにイメージを作ってくれる。動物や人間などいろいろ作ってみたのだけど、そんなに目立った不具合はなかった。一時のイメージ生成モデルにあった「顔の一部が崩れてる」とか「指が6本ある」とかいったこともちょっと試した範囲ではほぼ見られなかった。ただ、このへんはプロンプトが複雑になってくるとどうなるかわからない。パラメーターにはNegative prompt(「これは描いちゃダメ」という指定をするプロンプト)もあるので、そのへんと組み合わせればけっこうまともなものが描けそうな気がする。
生成イメージはデフォルトで1024x1024サイズを3点作るようになっていて(これはパラメーターで調整できる)、なかなか生成スピードもよい。ただしこのサイズでどんどん作っていくとコストもけっこうなものになる。面白がって小一時間、山ほどイメージを生成させていたらあっという間に数ドル消費してしまった。やばい。毎日利用したらけっこう高くつくな。
Titan Image Generator G1は標準でEditモードも搭載している。これのEditモードはマスクプロンプトを持っていて、アップロードしたイメージの「これをマスクして」ということを書いておくと、そこだけ残してイメージ生成してくれる。
例えば、こんな猫イメージをアップしておいたとするね。
で、マスクプロンプトに「a cat」とか入力して、イメージ生成のプロンプトに生成させたいイメージのプロンプトを書いて実行する。すると猫だけ残して背景を作り直してくれる。
面白いんだけど、現状、マスクした猫と背景が溶け合ってなくて、いかにも合成した感じになってしまうのはしょうがないか(せめて影ぐらいは生成して欲しかった)。これはこれで面白いし便利。
ただ、Stable Diffusion XL 1.0のEditのように、エリアを指定してそこにプロンプトで書いた新たなものなどを描き加えるような機能は、うまく機能してくれなかった。こちらもちゃんと動いてくれれば、かなりイメージ編集ツールとしていろいろ応用できそうに思える。
イメージ生成AIの世界では、プログラム内から使えるモデルは、Stability AIが作ったStable Diffusionが圧倒的だったけど、今朝のニュースでStability AIが買収されるような報道も流れてきたし、今後どうなるかわからない。GoogleのImagenやOpenAIのDALL-E 3もあるけど、ここにTitan Image Generator G1が加われば、かなり面白いことになりそうな気がする。イメージ生成なら英語だけで日本語使えなくても利用価値はあるし。Titanシリーズ、今後の展開に期待だ。
コメント
コメントを投稿