Meta、オーディオ生成AI「AudioCraft」発表

Metaがオーディオ生成AI「AudioCraft」を発表し、オープンソースとして提供を開始しました。

画像生成のStable Diffusion、（主に）文章生成のGPT-4などと同様にテキストでプロンプトを入力すると、それに基づいたオーディオを生成してくれるというものです。

このAudioCraftはMusicGen、AudioGen、EnCodecという3つのモデルからなっています。MusicGenはMetaが所有する音源もしくはライセンスを得た40,000音源(20,000時間)をもとに学習しています。AudioGenはパブリックなSEをもとに学習しています。

こちらで、実際に生成したサンプル音楽を聞くことができますが、

ai.meta.com

🎵 Today we’re sharing details about AudioCraft, a family of generative AI models that lets you easily generate high-quality audio and music from text.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
— Meta Newsroom (@MetaNewsroom) August 2, 2023

Metaが想定しているように、少ない予算の中でオリジナルのSEやBGMが必要なシーンでは非常に強力なツールとなるでしょう。

ニテンイチリュウ

A believer in the power of design

Meta、オーディオ生成AI「AudioCraft」発表