土曜日, 11月 23, 2024
DRAWING TOGETHER
ホームアプリ【音楽の次なる進化!】Metaがサウンドと音楽の生成モデルをオープンソース化!

【音楽の次なる進化!】Metaがサウンドと音楽の生成モデルをオープンソース化!

日々、私たちが向かっているのは、生成型AIが人間らしく説得力のあるスタイルで文章を書き、画像を作成するだけでなく、音楽や音もプロ並みの作品として作曲することです。

Metaは今朝、短いテキストの説明やプロンプトから「高品質」「リアルな」音声や音楽を生成するフレームワーク「Audiocraft」を発表しました。Metaは以前にも音声生成に取り組んでおり、今年6月にAIパワードの音楽ジェネレータ「MusicGen」をオープンソース化したことがあります。しかし、MetaはAI生成された音、例えば犬の鳴き声や車のクラクション、木の床の足音などの品質を大幅に向上させたと主張しています。

TechCrunchに共有されたブログ記事で、MetaはAudioCraftフレームワークが、過去の研究(例:「Riffusion」「Dance Diffusion」「Jukebox」など)に比べてオーディオの生成モデルの使用を簡素化するために設計されたと説明しています。オープンソースで提供されるAudioCraftコードは、異なるコードベースを切り替えることなく曲や音声を作成し、エンコードするためのサウンドと音楽のジェネレータおよび圧縮アルゴリズムのコレクションを提供します。

AudioCraftには、MusicGen、AudioGen、EnCodecの3つの生成型AIモデルが含まれています。

MusicGenは新しいものではありません。しかし、Metaはそのトレーニングコードを公開し、ユーザーが自分自身の音楽データセットでモデルをトレーニングできるようにしました。

これにより、「音楽ジェネレータが既存の音楽から学習して類似の効果を生み出す」という事実は、すべてのアーティストや生成型AIのユーザーが快適ではないことから、重要な倫理的および法的問題が発生する可能性があります。

近年、ジェネレーティブAIを使用して、本物と見分けがつかないほどのなじみのある音を作り出す自家製トラックがバイラルになっています。音楽レーベルはこれらをすばやくストリーミングパートナーに通報し、知的財産権に関する懸念を引き合いに出しています。そして、彼らは一般的に勝訴しています。しかし、「ディープフェイク」音楽がアーティストやレーベル、その他の権利保持者の著作権を侵害しているのかについては、明確な指針がまだありません。

Metaは、MusicGenの事前学習済みバージョンが「Meta所有および特許付与された音楽」、具体的には同社のMeta Music Initiative Sound Collection、Shutterstockの音楽ライブラリ、および大規模なストックメディアライブラリであるPond5からの約20,000時間のオーディオ――400,000の録音、テキストの説明、およびメタデータ――でトレーニングされたことを明確にしています。また、Metaはトレーニングデータからボーカルを除去し、アーティストの声を再現しないようにしました。ただし、MusicGenの利用規約では、「研究以外の範囲外のユースケース」にモデルを使用しないようにとの注意書きがありますが、商業的な応用を明示的に禁止しているわけではありません。

AudioCraftに含まれるもう1つの音声生成モデルであるAudioGenは、音楽やメロディではなく、環境音や効果音の生成に重点を置いています。

AudioGenは、大半の現代の画像ジェネレータと同様、拡散ベースのモデルです(OpenAIのDALL-E 2、GoogleのImagen、およびStable Diffusion参照)。拡散では、モデルは徐々にノイズを目標プロンプトに近づけるために、ノイズだけから成る開始データ(例:オーディオや画像)からステップごとにノイズを減らしていく方法を学習します。

音響シーンのテキスト説明が与えられると、AudioGenは「リアルな録音条件」と「複雑なシーンの内容」を持つ環境音を生成できるとMetaは言っていますが、モデルのリリースに先立ち、私たちはAudioGenをテストする機会やサンプルを聴く機会はありませんでした。今朝AudioGenと一緒に発表されたホワイトペーパーによると、AudioGenは音楽に加えてプロンプトからスピーチも生成することができ、さまざまなトレーニングデータの多様性を反映しています。

ホワイトペーパーでは、MetaはAudioCraftが人物の声をディープフェイクするために誤用される可能性があることを認めています。また、AudioCraftの生成音楽能力に関しても、MusicGenと同じ倫理的な問題が浮上します。しかし、MusicGenと同様に、MetaはAudioCraftおよびそのトレーニングコードの使用方法について制限をあまり設けていません。これが良いのか悪いのかは別としてです。

AudioCraftの3つ目のモデルであるEnCodecは、以前のMetaモデルよりもアーティファクトが少ない音楽生成を改善したものです。Metaは、音声シーケンスを効率的にモデル化し、トレーニングデータの音声波形の異なるレベルの情報を捉えることで、新たな音声を作り出すのに役立つ、とブログ記事で説明しています。

「EnCodecは損失のあるニューラルコーデックであり、あらゆる種類の音声を圧縮し、原音を高い信頼性で再構築するために特別にトレーニングされたものです」とMetaはブログ記事で説明しています。「異なるストリームは、オーディオ波形の異なるレベルの情報を捉え、すべ

元記事はこちら

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -
Google search engine

Most Popular

Recent Comments