Stabilnost AI podiže audio generaciju pokretanu umjetnom inteligencijom na višu razinu uz Stable Audio 2.0

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ključne napomene

  • Stability AI najavio je Stable Audio 2.0 model.
  • Stable Audio 2.0 može generirati pjesme pune dužine.
  • Novi model također može generirati izlaz iz audio uzoraka.
Stabilan zvuk

Nakon uvođenja Generiranje 3D videa iz 2D slika prošlog mjeseca, Stability AI najavio je Stable Audio 2.0 za podizanje zvuka generiranog umjetnom inteligencijom na višu razinu. Stable Audio 2.0 nadograđuje se na Stable Audio 1.0 i omogućuje korisnicima generiranje pjesama koje se sastoje od uvoda, razvoja, završetka i stereo zvučnih efekata, u trajanju do tri minute. Osim generiranja pjesama pune dužine, Stable Audio 2.0 nudi mnogo drugih značajnih poboljšanja.

Iako će generiranje pune pjesme biti korisno, ono što se čini da je jako cijenjeno od strane glazbenih umjetnika je novododana podrška za audio-to-audio sposobnost. Baš kao što unos tekstualnog upita može generirati glazbu, sada je moguće učitati male audio uzorke za Stability AI kako bi ih pretvorio u "široku lepezu zvukova". Dakle, ono što je prije bila mala ideja sada se može pretvoriti u potpuno proizveden uzorak, zahvaljujući Stable Audio 2.0.

Vrijedno je naglasiti da je konačni rezultat koji dobijete prilagodljiv. Drugim riječima, ako vam se nešto ne sviđa u tom zvuku, možete promijeniti stil i ton kako biste ih uskladili sa svojim specifičnim potrebama. Unatoč tome, učitani sadržaj ne bi trebao sadržavati tvrdnje o autorskim pravima.

Dijeleći neke detalje istraživanja o modelu Stable Audio 2.0, Stability AI, u svom službenom postu na blogu, napisao:

Arhitektura modela latentne difuzije Stable Audio 2.0 posebno je dizajnirana da omogući stvaranje punih zapisa s koherentnim strukturama. Kako bismo to postigli, prilagodili smo sve komponente sustava za poboljšane performanse tijekom dugih vremenskih razdoblja. Novi, visoko kompresirani autoenkoder komprimira neobrađene valne oblike zvuka u mnogo kraće prikaze. Za difuzijski model koristimo difuzijski transformator (DiT), sličan onom koji se koristi u Stable Diffusion 3, umjesto prethodnog U-Neta, budući da je vještiji u manipuliranju podacima u dugim nizovima. Kombinacija ova dva elementa rezultira modelom koji je sposoban prepoznati i reproducirati strukture velikih razmjera koje su bitne za visokokvalitetne glazbene kompozicije.

Ne samo da Stability Audio 2.0 generira pjesme pune dužine, već vam također pomaže u produkciji različitih zvukova i audio efekata, od zvuka koji se čuje kada netko tipka do urlika gomile.

Ako sve ovo zvuči impresivno, možete ga početi koristiti danas besplatno odlaskom na Web stranica Stable Audio. S druge strane, Stable Audio 2.0 bit će dostupan na Stable Audio API-ju "uskoro".

Više o temama: audio-generacija, Stabilnost AI, Stabilni zvuk 2.0