木曜日, 4月 25, 2024
ホームアプリ【AIが文化を塗り替える!】DeepFloydで可能になったテキスト生成アートとは?

【AIが文化を塗り替える!】DeepFloydで可能になったテキスト生成アートとは?

近年、ジェネレーティブAIは印象的な精度を備えています。たとえば、Balenciaga Popeのようなバイラル・ミームがそれを物語っています。最新のシステムでは、市街やカフェなどの風景が現れるため、初めの一見はまるでリアルなのと同様です。

しかし、テキストから画像を生成するAIモデルに対する長年の問題は、皮肉にもテキストです。最高品質のモデルでも、伝わりにくいロゴや、文字、書道やフォント入りのイメージを生成するのに苦労することがあります。

しかし、そこは今回一変するかもしれません。

スタビリティAIが出資するDeepoid研究グループは、Stability AIがバックアップするDeepFloydがDeepFloyd IFを公開しました。それは、テキストを画像に「スマートに」統合できるテキストから画像へのモデルです。十分なRAMを備えたGPUが必要で、10億を超えるイメージとテキストのデータセットで訓練されたDeepFloyd IFは、プロンプトにより「Deep Floyd」と書かれたシャツを着たテディベアの画像を画像を生成することが可能です。また、さまざまなスタイルでオプションを設定することもできます。

DeepFloyd IFはオープンソースで入手可能ですが、商業利用は現在禁止されています。この制限は、生成的AIアートモデルの現状を考慮したもので、商業モデル提供元に対し、許可なしにウェブからアートを収集して利益を得ているとして、アーティストから批判され、訴訟の対象となっているためです。

しかし、ジェネレーティブアートプラットフォームのナイトカフェは、DeepFloyd IFに早期アクセス権を与えられています。

ナイトカフェCEOアンガス・ラッセルは、TechCrunchにDeepFloyd IFを使用するメリットについて説明しており、「DeepFloyd IFの設計は、公にリリースされなかったGoogleのImagenモデルに非常に影響を受けています」と述べています。 OpenAIのDALL-E 2Stable Diffusionのようなモデルとは異なり、DeepFloyd IFは複数のプロセスを重ねたモジュールアーキテクチャを使用して画像を生成します。

通常の拡散モデルでは、モデルはほとんどがノイズでできた開始画像からノイズを徐々に取り除き、段階的に目標のプロンプトに近づける方法を学習します。 DeepFloyd IFは一度だけでなく、複数回の拡散を行い、64x64pxの画像を生成した後、それを256x256pxに拡大し、最後に1024x1024pxにします。

複数の拡散ステップが必要な理由は何でしょうか?ラッセル氏は、DeepFloyd IFはピクセルで直接作業するため、拡散モデルは大半が裏に隠された拡散モデルであるため、より多くのピクセルを表す低次元空間で作業し、より精度が高くありません。

DeepFloyd IFとStable DiffusionDALL-E 2のようなモデルとの最も重大な違いは、元のモデルが大規模な言語モデルを使用してプロンプトを理解し、各要素をベクトル(基本的なデータ構造)として表現することです。DeepFloyd IFのアーキテクチャに埋め込まれた大規模な言語モデルのサイズにより、このモデルは複雑なプロンプトや、プロンプトで記述された空間的関係(例えば、「ピンクの球の上に赤いキューブ」)を理解することができます。

「さらにDeepFloyd IFは、画像中の読みやすく正確なテキストを生成するのに非常に優れており、多言語プロンプトを理解することができます」とRussell氏は語っています。「これらの機能の中で、画像中の読みやすいテキストを生成することができる能力が、DeepFloyd IFの他のアルゴリズムから脱出するために最大のブレークスルーです。」

DeepFloyd IFが比較的簡単に画像にテキストを生成できるため、Russell氏は、ロゴデザイン、ウェブデザイン、ポスター、ビルボード、ミームなど、新たな生成的アートの可能性が開かれることを期待しています。また、彼は、手の生成の改善にも期待していると述べており、プロンプトで他の言語を理解できるため、それらの言語のテキストを作成できるかもしれないと付け加えています。

ナイトカフェのユーザーは、画像にテキストを生成するという可能性に興奮しています」とRussell氏は語っています。「Stable Diffusion XLは、テキストの生成について1〜2語を正確に生成することができますが、テキストが重要なケースにはまだ十分な性能ではありません。」

DeepFloyd IFがテキストから画像へのモデルの聖杯であると述べたつもりはありません。Russell氏は、基本モデルは他の拡散モデルほど「美学的に見る」ことができないと指摘していますが、彼は微調整によって改善されることを期待しています。

元記事はこちら

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -
Google search engine

Most Popular

Recent Comments