Hvad er Metas nye AI-modul til lydkomposition fra blotte prompter, MAGNeT?

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Meta butik

Metas MAGNeT er en ny tekst-til-lyd-model, der er i stand til at generere højkvalitetslyd fra tekstbeskrivelser.

MAGNeT afviger fra traditionelle autoregressive metoder, som genererer lyd ét segment ad gangen ved hjælp af en ikke-autoregressiv tilgang. Dette giver mulighed for parallel forudsigelse af flere lydsegmenter, hvilket øger generationshastigheden markant. Benchmarks indikerer, at MAGNeT kan være op til syv gange hurtigere end sine forgængere.

Det betyder, at den kan forudsige flere lyddele samtidigt i stedet for at generere dem efter hinanden. Det er som at have en masse ovne, der tilbereder forskellige retter på én gang.

Desuden inkorporerer MAGNeT en hybridmekanisme, der kombinerer den indledende nøjagtighed af autoregressive teknikker med effektiviteten af ​​ikke-autoregressive metoder. Dette sikrer, at den genererede lyd bevarer høj kvalitet, mens den drager fordel af øget hastighed.

Med andre ord bruger den en speciel "hybridmekanisme"-teknik for at sikre, at lyden lyder godt på trods af, at den genereres hurtigt.

De potentielle anvendelser af MAGneT er enorme og spænder over forskellige industrier. Her er nogle bemærkelsesværdige eksempler:

  • Musikkomposition: Musikere og producere kan bruge MAGNeT til hurtigt at eksperimentere med nye ideer og generere AI-støttede musikalske elementer.
  • Film og spil lyddesign: MAGNeT kan skabe dynamiske og fordybende lydspor i realtid, hvilket forbedrer oplevelsen for seere og spillere.
  • Stemmedrevne applikationer: Modellens evne til at generere naturligt klingende syntetiske stemmer lover virtuelle assistenter og andre stemmeinteraktive teknologier.
  • Tilgængelighedsværktøjer: MAGNeTs tekst-til-tale konverteringsfunktioner i realtid kan styrke personer med synshandicap og revolutionere tilgængelighedsløsninger.

Meta AI har valgt at åbne MAGNeT, hvilket fremmer samarbejde og innovation inden for tekst-til-lyd-generering. Open source-tilgangen baner også vejen for at skabe nye AI-metoder inden for lyddesign og andre områder, hvor AI interagerer med menneskelige sanser.

Det er vigtigt at bemærke, at MAGNeT stadig er under udvikling, og dets muligheder og begrænsninger bliver fortsat udforsket. 

Mere link..

Mere om emnerne: Meta