Stabilitet AI tar AI-drevet lydgenerering til neste nivå med Stable Audio 2.0

Hjem » Nyheter

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på April 3, 2024

by Rahul

publisert på April 3, 2024

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Viktige merknader

Stability AI har annonsert Stable Audio 2.0-modellen.
Stable Audio 2.0 kan generere spor i full lengde.
Den nye modellen kan også generere utdata fra lydprøver.

Etter innføring 3D-videogenerering fra 2D-bilder forrige måned annonserte Stability AI Stable Audio 2.0 for å ta AI-generert lyd til neste nivå. Stable Audio 2.0 bygger på Stable Audio 1.0 og lar brukere generere sanger, bestående av intro-, utviklings-, outro- og stereolydeffekter, opptil tre minutter lange. Bortsett fra å generere spor i full lengde, tilbyr Stable Audio 2.0 mange andre bemerkelsesverdige forbedringer.

Selv om generering av fullspor vil være nyttig, er det som ser ut til å bli satt stor pris på av musikkartister nylig lagt til støtte for lyd-til-lyd-kapasitet. Akkurat som hvordan det å skrive inn en tekstmelding kan generere musikk, er det nå mulig å laste opp små lydprøver for Stability AI for å forvandle dem til "et bredt utvalg av lyder". Så, det som tidligere var en liten idé, kan nå gjøres om til en fullprodusert prøve, takket være Stable Audio 2.0.

Det er verdt å påpeke at det endelige resultatet du får kan tilpasses. Med andre ord, hvis du ikke liker noe i den lyden, kan du endre stilen og tonen for å tilpasse seg dine spesifikke behov. Når det er sagt, skal det opplastede innholdet være fritt for opphavsrettskrav.

Mens de deler noen forskningsdetaljer om Stable Audio 2.0-modellen, Stability AI, i det offisielle blogginnlegget, skrev:

Arkitekturen til Stable Audio 2.0 latent diffusjonsmodell er spesielt designet for å muliggjøre generering av hele spor med sammenhengende strukturer. For å oppnå dette har vi tilpasset alle komponenter i systemet for forbedret ytelse over lange tidsskalaer. En ny, svært komprimert autokoder komprimerer rå lydbølgeformer til mye kortere representasjoner. For diffusjonsmodellen bruker vi en diffusjonstransformator (DiT), i likhet med den som ble brukt i Stable Diffusion 3, i stedet for det forrige U-Nettet, siden den er flinkere til å manipulere data over lange sekvenser. Kombinasjonen av disse to elementene resulterer i en modell som er i stand til å gjenkjenne og reprodusere de store strukturene som er avgjørende for høykvalitets musikalske komposisjoner.

Ikke bare genererer Stability Audio 2.0 spor i full lengde, men det hjelper deg også med produksjon av ulike lyd- og lydeffekter, alt fra lyden som kommer ut når noen skriver til brølet fra en folkemengde.

Hvis alt dette høres imponerende ut, kan du begynne å bruke det gratis i dag ved å gå til Stable Audio nettsted. På den annen side vil Stable Audio 2.0 være tilgjengelig på Stable Audio API "snart".

Mer om temaene: lydgenerering, Stabilitet AI, Stabil lyd 2.0

Rahul

Teknisk journalist

Rahul er en teknisk journalist, med mange års erfaring med å dekke programvare, primært Windows og Android. Han elsker også å dele hennes meninger om forskjellige tekniske emner.

Legg igjen en kommentar