Qual é o novo módulo de IA do Meta para composição de áudio a partir de meros prompts, MAGNeT?

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Metaloja

O MAGNeT da Meta é um novo modelo de texto para áudio capaz de gerar áudio de alta qualidade a partir de descrições textuais.

MAGNeT se afasta dos métodos autorregressivos tradicionais, que geram áudio um segmento por vez usando uma abordagem não autorregressiva. Isto permite a previsão paralela de múltiplos segmentos de áudio, aumentando significativamente a velocidade de geração. Os benchmarks indicam que o MAGNeT pode ser até sete vezes mais rápido que seus antecessores.

Isso significa que ele pode prever múltiplas partes de áudio simultaneamente, em vez de gerá-las uma após a outra. É como ter vários fornos cozinhando pratos diferentes ao mesmo tempo.

Além disso, o MAGNeT incorpora um mecanismo híbrido que combina a precisão inicial das técnicas autorregressivas com a eficiência dos métodos não autorregressivos. Isso garante que o áudio gerado retenha alta fidelidade enquanto se beneficia do aumento da velocidade.

Em outras palavras, ele usa uma técnica especial de “mecanismo híbrido” para garantir que o áudio soe bem, apesar de ser gerado rapidamente.

As aplicações potenciais do MAGNeT são vastas e abrangem vários setores. Aqui estão alguns exemplos notáveis:

  • Composição musical: Músicos e produtores podem utilizar o MAGNeT para experimentar rapidamente novas ideias e gerar elementos musicais assistidos por IA.
  • Design de som de filmes e jogos: MAGNeT pode criar trilhas sonoras dinâmicas e envolventes em tempo real, melhorando a experiência para espectadores e jogadores.
  • Aplicativos baseados em voz: A capacidade do modelo de gerar vozes sintéticas com som natural é uma promessa para assistentes virtuais e outras tecnologias interativas de voz.
  • Ferramentas de acessibilidade: Os recursos de conversão de texto em fala em tempo real do MAGNeT podem capacitar indivíduos com deficiência visual e revolucionar as soluções de acessibilidade.

Meta A IA optou pelo MAGNeT de código aberto, promovendo a colaboração e a inovação na geração de texto para áudio. A abordagem de código aberto também abre caminho para a criação de novas metodologias de IA em design de som e outras áreas onde a IA interage com os sentidos humanos.

É importante notar que o MAGNeT ainda está em desenvolvimento e as suas capacidades e limitações continuam a ser exploradas. 

Mais SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Mais sobre os tópicos: Meta