ほぼ1年前、開発者のSeth ForsgrenとHayk Martirosは、音声の画像ではなく音声の画像を使用して音楽を生成するという趣味のプロジェクトをリリースしました。これは直感に反しているかもしれませんが、実際には機能しました。私の同僚であるDevin Coldeweyは、こちらで詳細を報告しています。
彼らの手法には制約もありましたが、RiffusionはForsgrenとMartirosに多くの注目を浴びました。AIによって生成される音楽の技術に関心や論争が集まることは驚くことではありません。Forsgrenによれば、何百万人もの人々がRiffusionを試し、Meta、Google、およびTikTokの親会社であるByteDanceを含むビッグテック企業の研究論文に引用されました。
注目は投資家からも集まったようです。
今年、ForsgrenとMartirosはRiffusionを商業化することを決めました。現在はミュージカルデュオのThe Chainsmokersからのアドバイスを受けており、Greycroftが主導する400万ドルのシードラウンドがSouth Park CommonsとSky9の参加を得て閉じました。
Riffusionは、昨年のRiffusionの改良版である新しい無料アプリもリリースします。このアプリでは、ユーザーが歌詞や音楽スタイルを説明して公開または友達と共有することで「リフ」を生成することができます。
ForsgrenはTechCrunchの電子メールインタビューで、「新しいRiffusionは、シェアできる短いオーディオクリップを通じて誰もがオリジナルの音楽を作成できるようにします。ユーザーは単純に歌詞と音楽スタイルを説明し、わずか数秒で歌とカスタムアートが完全なリフを生成してくれると。インスピレーションを与えるミュージシャンから、母親に「おはよう!」と伝えるためのものまで、リフは音楽創造への障壁を劇的に下げる新しい表現とコミュニケーションの形です。」と語っています。
MatirosとForsgrenは大学生の頃にプリンストン大学で出会い、この10年間、アマチュアバンドで一緒に音楽を演奏してきました。Forsgrenは以前に2つのベンチャーバックのテック企業、HardlineとYodelを設立し、Martirosはドローンのスタートアップ企業であるSkydioの最初の従業員の1人として参加しました。
Forsgrenは、創造性を通じて人々をつなぐ可能性に見る生成AIツールの拡大を思い立ったと述べています。
「パンデミックにより、私たちは皆家にいる時間がずっと増えました。それによって私はピアノの演奏を学ぶことになりました。孤立化の時代に音楽は私たちをつなぐ力を持っています。生成AIは新しい急速かつ変化し続ける領域であり、Riffusionはこの技術を活用して楽しい新しい楽器を提供することを目指しています。それによって全ての人々が積極的に音楽を創造することができます。」とForsgrenは語りました。
Riffusionのアップグレード版は、Riffusionチーム(ForsgrenとMartirosを含む)がゼロからトレーニングしたオーディオモデルで動作しています。オリジナルのRiffusionの背後にあるモデルと同様に、新しいモデルもスペクトログラムで微調整され、異なる周波数の振幅を表示する音声の視覚的表現でトレーニングされています。
ForsgrenとMartirosは音楽をスペクトログラムに変換し、関連する用語(例:「ブルースギター」、「ジャズピアノ」など)で画像をタグ付けしました。このコレクションをモデルに与えることで、テキストプロンプト(「休日のためのローファイビート」、「ケニアのマンボ」、「ミシシッピデルタの民俗的なブルースソング」など)に基づいてそれらを再作成または組み合わせる方法を「教える」ことができました。
Forsgrenは説明しています。「ユーザーは自然言語や自分自身の声で音楽的な特徴を説明し、モデルがユニークなアウトプットを生成するようにプロンプトに応答します。この製品は音楽プロデューサーやオーディオエンジニアが新しいアイデアを探求し、新しい方法でインスピレーションを得るのに役立つと考えています。」
以下は、Riffusionが声を録音する能力を利用して作成されたサンプルです。プロンプトは「パンクロックのアンセム、男性のボーカル、エネルギッシュなギターとドラム」です。
しかし、著作権侵害の可能性についてはどうでしょうか?
近年、生成AIを使用して本物とみなせる、または少なくともそれに近いと見なすことができる馴染み深い音を生み出す自作トラックがバイラルになっています。たった1か月前には、ジェネレーティブオーディオに捧げられたDiscordコミュニティが、Travis Scottの声の生成AIコピーを使用してアルバム全曲をリリースし、彼を代表するレーベルの怒りを買いました。
音楽レーベルは、このようなAI生成のトラックをSpotifyやSoundCloudなどのストリーミングパートナーに注釈付けし、知的財産権の問題を指摘しています。そして彼らは一般的に成功しています。ただし、アーティスト、レーベル、その他の権利所有者の著作権を侵害するのか否かについては、明確な指針がまだ不足しています。
Forsgrenは、新しく改良されたRiffusionが
元記事はこちら