Google Labs「Whisk」モデル＋シーン＋スタイルで画像生成する生成AIの試験運用を開始

Google Labsで、モデル＋シーン＋スタイルで画像生成する生成AI「Whisk」の試験運用を開始したことをGoogleが発表しています。日本を含む100以上の国と地域で順次提供されます。

「Whisk」は、詳細なテキストプロンプトの必要なく、画像をプロンプトとして使用する画像生成AIです。画像を選択して「Whisk」に入力するだけで簡単に始めることができます。

画像生成AI「Whisk」試験運用を開始

「Whisk」は、モデル、シーン、スタイルごとに自分の好きな画像を入力し、入力後にそれらを組み合わせて、選択したぬいぐるみなどのテンプレートに合わせたオリジナルの画像を生成することができます。

日本での提供にあわせて、日本文化からインスパイアされた新しい2つのテンプレート「カプセルトイ」と「お弁当」も新しく追加されました。

「Whisk」のシステム内では「Gemini」が画像の詳細なキャプションを自動的に作成し、その説明をGoogleの最新の画像生成モデルである「Imagen 3」に入力。

このプロセスは、入力したモデルを正確に複製するのではなく、被写体の本質を捉えるため、モデル、シーン、スタイルを新しい方法で簡単に組み合わせることができるとしています。

どんな生成AIなのか、まずは動画を見るのが分かりやすいと思います。

なお「Whisk」は「泡立てる」という意味です。ブレンダーでかき混ぜるようなイメージですかね？

試しに「Whisk」を試用してみましたが、使った画像が悪くて、何がなんだか分からない結果になりました。

ただ、画像だけで生成AIが使えるのは楽しそうだと思いました。

阿部由延（@sald_ra）(著)