Umělá inteligence stability posouvá generování zvuku poháněného umělou inteligencí na další úroveň se Stable Audio 2.0

Domů » Novinky

2 min. číst

Publikované dne 3. dubna 2024

by Rahul

publikováno dne 3. dubna 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Klíčové poznámky

Stability AI oznámila model Stable Audio 2.0.
Stable Audio 2.0 dokáže generovat stopy v plné délce.
Nový model umí také generovat výstup z audio samplů.

Po zavedení Generování 3D videa z 2D obrázků Minulý měsíc společnost Stability AI oznámila Stable Audio 2.0, aby posunula zvuk generovaný umělou inteligencí na další úroveň. Stable Audio 2.0 staví na Stable Audio 1.0 a umožňuje uživatelům generovat skladby, skládající se z úvodních, vývojových, výstupních a stereo zvukových efektů v délce až tří minut. Kromě generování stop v plné délce nabízí Stable Audio 2.0 spoustu dalších pozoruhodných vylepšení.

Generování plných skladeb bude užitečné, ale to, co se zdá být široce oceňováno hudebními umělci, je nově přidaná podpora pro přenos zvuku do zvuku. Stejně jako zadání textové výzvy může generovat hudbu, je nyní možné nahrát malé zvukové ukázky pro Stability AI, které je přemění na „širokou škálu zvuků“. Takže to, co dříve bylo malým nápadem, lze nyní díky Stable Audio 2.0 přeměnit v plně vyrobený vzorek.

Stojí za zmínku, že konečný výstup, který získáte, je přizpůsobitelný. Jinými slovy, pokud se vám na tom zvuku něco nelíbí, můžete změnit styl a tón tak, aby odpovídal vašim konkrétním potřebám. To znamená, že nahraný obsah by měl být bez nároků na autorská práva.

Zatímco sdílí některé podrobnosti výzkumu o modelu Stable Audio 2.0, Stability AI, ve svém oficiálním příspěvku na blogu, napsal:

Architektura modelu latentní difúze Stable Audio 2.0 je speciálně navržena tak, aby umožňovala generování úplných stop s koherentními strukturami. Abychom toho dosáhli, přizpůsobili jsme všechny součásti systému pro lepší výkon v dlouhodobém měřítku. Nový, vysoce komprimovaný autokodér komprimuje nezpracované zvukové křivky do mnohem kratších reprezentací. Pro difúzní model používáme difúzní transformátor (DiT), podobný tomu, který se používá ve Stable Diffusion 3, namísto předchozí U-Net, protože je schopnější manipulovat s daty v dlouhých sekvencích. Kombinací těchto dvou prvků vzniká model schopný rozpoznat a reprodukovat rozsáhlé struktury, které jsou nezbytné pro kvalitní hudební kompozice.

Stability Audio 2.0 nejen generuje stopy v plné délce, ale také vám pomáhá s produkcí různých zvukových a zvukových efektů, od zvuku, který vychází, když někdo píše, až po řev davu.

Pokud to vše zní působivě, můžete to dnes začít používat zdarma, když přejdete na stránku Webová stránka Stable Audio. Na druhou stranu, Stable Audio 2.0 bude k dispozici na Stable Audio API „brzy“.

Více o tématech: audio-generace, Stabilita AI, Stabilní zvuk 2.0

Rahul

Technický novinář

Rahul je technický novinář s dlouholetými zkušenostmi v oblasti softwaru, především Windows a Android. Také rád sdílí její názory na různá technická témata.