Qual é o novo módulo de IA do Meta para composição de áudio a partir de meros prompts, MAGNeT?
2 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
O MAGNeT da Meta é um novo modelo de texto para áudio capaz de gerar áudio de alta qualidade a partir de descrições textuais.
MAGNeT se afasta dos métodos autorregressivos tradicionais, que geram áudio um segmento por vez usando uma abordagem não autorregressiva. Isto permite a previsão paralela de múltiplos segmentos de áudio, aumentando significativamente a velocidade de geração. Os benchmarks indicam que o MAGNeT pode ser até sete vezes mais rápido que seus antecessores.
Isso significa que ele pode prever múltiplas partes de áudio simultaneamente, em vez de gerá-las uma após a outra. É como ter vários fornos cozinhando pratos diferentes ao mesmo tempo.
Além disso, o MAGNeT incorpora um mecanismo híbrido que combina a precisão inicial das técnicas autorregressivas com a eficiência dos métodos não autorregressivos. Isso garante que o áudio gerado retenha alta fidelidade enquanto se beneficia do aumento da velocidade.
Em outras palavras, ele usa uma técnica especial de “mecanismo híbrido” para garantir que o áudio soe bem, apesar de ser gerado rapidamente.
As aplicações potenciais do MAGNeT são vastas e abrangem vários setores. Aqui estão alguns exemplos notáveis:
- Composição musical: Músicos e produtores podem utilizar o MAGNeT para experimentar rapidamente novas ideias e gerar elementos musicais assistidos por IA.
- Design de som de filmes e jogos: MAGNeT pode criar trilhas sonoras dinâmicas e envolventes em tempo real, melhorando a experiência para espectadores e jogadores.
- Aplicativos baseados em voz: A capacidade do modelo de gerar vozes sintéticas com som natural é uma promessa para assistentes virtuais e outras tecnologias interativas de voz.
- Ferramentas de acessibilidade: Os recursos de conversão de texto em fala em tempo real do MAGNeT podem capacitar indivíduos com deficiência visual e revolucionar as soluções de acessibilidade.
Meta A IA optou pelo MAGNeT de código aberto, promovendo a colaboração e a inovação na geração de texto para áudio. A abordagem de código aberto também abre caminho para a criação de novas metodologias de IA em design de som e outras áreas onde a IA interage com os sentidos humanos.
É importante notar que o MAGNeT ainda está em desenvolvimento e as suas capacidades e limitações continuam a ser exploradas.