AIスタートアップのStability AIは、ますます激化する競争と倫理的な課題に直面しながら、彼らの生成AIモデルを洗練し続けています。
本日、Stability AIは、同社の最も先進的なリリースと述べられている、テキストから画像へ変換するモデル「Stable Diffusion XL 1.0」のローンチを発表しました。このモデルは、StabilityのAPIやコンシューマーアプリ「ClipDrop」と「DreamStudio」のほか、GitHubでオープンソースで入手可能です。Stable Diffusion XL 1.0は、Stabilityによれば、従来のモデルと比べて「より鮮やかな」色彩や「正確な」コントラスト、シャドウ、照明を提供します。
TechCrunchのインタビューにて、Stability AIの応用機械学習責任者であるジョー・ペナ氏は、Stable Diffusion XL 1.0には35億のパラメータが含まれ、複数のアスペクト比で「数秒で」1メガピクセルの高解像度の画像を生成できると述べました。この場合、パラメータとはトレーニングデータから学習されるモデルの一部であり、モデルのその問題に対するスキルを定義します。
従来のStable Diffusionモデル、Stable Diffusion XL 0.9も高解像度の画像を生成することができましたが、より強力な計算能力を必要としました。
「Stable Diffusion XL 1.0は、コンセプトやスタイルの微調整が可能であり、基本的な自然言語処理プロンプトで複雑なデザインも可能です」とペナ氏は述べました。
また、Stable Diffusion XL 1.0は、テキスト生成の領域でも改善されています。多くのテキストから画像への変換モデルが、見やすいロゴを生成することさえ困難な中で、Stable Diffusion XL 1.0は「高度な」テキスト生成や可読性を実現できるとペナ氏は語っています。
さらに、SiliconAngleやVentureBeatなどが報じるところによれば、Stable Diffusion XL 1.0はインペインティング(画像の欠損部分の復元)、アウトペインティング(既存の画像の拡張)、および「画像から画像のプロンプト」をサポートしており、ユーザーは画像を入力し、一部のテキストプロンプトを加えることでその画像の詳細なバリエーションを作成できます。また、このモデルは短いプロンプトによる複雑な複数パートの指示を理解することができますが、従来のStable Diffusionモデルではより長いテキストプロンプトが必要でした。
「私たちは、よりパワフルなオープンソースモデルをリリースすることにより、画像の解像度だけでなく、すべてのユーザーに大きな恩恵をもたらす進歩が四倍になることを望んでいます」とペナ氏は述べました。
しかし、以前のStable Diffusionのように、このモデルには倫理的な問題もあります。
オープンソース版のStable Diffusion XL 1.0は、理論的には悪意のある利用者が非同意のディープフェイクなどの有害なコンテンツを生成するために利用できます。これは、それが学習に使用されたデータの一部を反映しており、そのデータはウェブ上から収集された何百万枚もの画像です。
Stability AIのツールを使用してディープフェイクを作成する方法を示した数多くのチュートリアルが存在し、その中にはDreamStudioというStable Diffusionのオープンソースフロントエンドを使用したものもあります。他にも、元のStable Diffusionモデルを調整してポルノを生成する方法を示したチュートリアルもあります。
ペナ氏は、悪用が可能であることを否定せず、またモデルには一定の偏りが含まれているとも認めました。しかし、Stability AIは「危険な」イメージをモデルのトレーニングデータからフィルタリングし、問題のあるプロンプトに関連する新しい警告を提供し、ツール内の問題のある用語を可能な限りブロックするといった「追加の対策」を講じていると述べました。
Stable Diffusion XL 1.0のトレーニングセットには、自身の作品が生成AIモデルのトレーニングデータとして使用されることに抗議したアーティストの作品も含まれています。Stability AIは、合理使用の原則により米国内では法的な責任から免れると主張していますが、それにもかかわらず、数人のアーティストやストック写真会社のGetty Imagesは、この実践を停止させるための訴訟を提起しています。
Stability AIは、これらのアーティストの「オプトアウト」リクエストを尊重するためにスタートアップのSpawningとのパートナーシップを持っており、フラグが立てられた作品をすべてトレーニングデータから削除していないものの、「アーティストのリクエストを取り入れ続けている」と述べています。
「Stable Diffusionの安全機能を常に改善し、これらの取り組みを継続して改良することに取り組んでいます」とペナ氏は語りました。「また、アーティストのリクエストに対して敬意を持ち、トレーニングデータセットから除外するよう努めています」。
Stable Diffusion XL 1.0のリリースとともに、Stability AIはAPIのベータ版でのファインチューニング機能をリリースします。これにより、ユーザーは5枚の画像から「専門化」を行い、特定の人物や製品などに注力した生成を行うことができます。また、Stable Diffusion XL 1.0をAWSのクラウドプラットフォームであるAmazon Bedrockにも導入し、以前に発表されたAWSとのコラボレーションを拡大します。
パートナーシップの推進や新たな機能の追加は、Stabilityが商業的な取り組みにおいて停滞している状況に合わせたものです。OpenAIやMidjourneyなどの競合に苦しんでいます。4月のSemaforによると、Stability AIはこれまでに1億ドル以上のベンチャーキャピタルを調達しており、キャッシュを消耗していると報告
元記事はこちら