Metaがオーディオ生成AI「AudioCraft」を発表し、オープンソースとして提供を開始しました。
画像生成のStable Diffusion、(主に)文章生成のGPT-4などと同様にテキストでプロンプトを入力すると、それに基づいたオーディオを生成してくれるというものです。
このAudioCraftはMusicGen、AudioGen、EnCodecという3つのモデルからなっています。MusicGenはMetaが所有する音源もしくはライセンスを得た40,000音源(20,000時間)をもとに学習しています。AudioGenはパブリックなSEをもとに学習しています。
こちらで、実際に生成したサンプル音楽を聞くことができますが、
🎵 Today we’re sharing details about AudioCraft, a family of generative AI models that lets you easily generate high-quality audio and music from text.https://t.co/04XAq4rlap pic.twitter.com/JreMIBGbTF
— Meta Newsroom (@MetaNewsroom) August 2, 2023
Metaが想定しているように、少ない予算の中でオリジナルのSEやBGMが必要なシーンでは非常に強力なツールとなるでしょう。