Mô-đun AI mới của Meta dành cho việc soạn âm thanh chỉ từ những lời nhắc, MAGNeT là gì?

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Cửa hàng Meta

MAGNeT của Meta là mô hình chuyển văn bản thành âm thanh mới có khả năng tạo ra âm thanh chất lượng cao từ các mô tả văn bản.

MAGNeT khác với các phương pháp tự hồi quy truyền thống vốn tạo ra từng đoạn âm thanh một bằng cách sử dụng phương pháp không tự hồi quy. Điều này cho phép dự đoán song song nhiều phân đoạn âm thanh, tăng đáng kể tốc độ tạo. Điểm chuẩn cho thấy MAGNeT có thể nhanh hơn tới bảy lần so với các phiên bản tiền nhiệm.

Điều này có nghĩa là nó có thể dự đoán nhiều phần âm thanh cùng một lúc thay vì tạo ra chúng lần lượt. Điều này giống như việc có nhiều lò nướng nấu các món ăn khác nhau cùng một lúc.

Hơn nữa, MAGNeT kết hợp một cơ chế lai kết hợp độ chính xác ban đầu của các kỹ thuật tự hồi quy với hiệu quả của các phương pháp không tự hồi quy. Điều này đảm bảo rằng âm thanh được tạo ra vẫn giữ được độ trung thực cao đồng thời được hưởng lợi từ tốc độ tăng lên.

Nói cách khác, nó sử dụng kỹ thuật “cơ chế lai” đặc biệt để đảm bảo âm thanh phát ra tốt dù được tạo ra nhanh chóng.

Các ứng dụng tiềm năng của MAGNeT rất rộng lớn và trải rộng trên nhiều ngành công nghiệp khác nhau. Dưới đây là một số ví dụ đáng chú ý:

  • Sáng tác nhạc: Các nhạc sĩ và nhà sản xuất có thể sử dụng MAGNeT để nhanh chóng thử nghiệm các ý tưởng mới và tạo ra các yếu tố âm nhạc được AI hỗ trợ.
  • Thiết kế âm thanh phim và game: MAGNeT có thể tạo ra những bản nhạc sôi động và sống động trong thời gian thực, nâng cao trải nghiệm cho người xem và người chơi.
  • Ứng dụng điều khiển bằng giọng nói: Khả năng tạo ra giọng nói tổng hợp có âm thanh tự nhiên của mô hình hứa hẹn sẽ có trợ lý ảo và các công nghệ tương tác bằng giọng nói khác.
  • Công cụ tiếp cận: Khả năng chuyển đổi văn bản sang giọng nói theo thời gian thực của MAGNeT có thể hỗ trợ những người khiếm thị và cách mạng hóa các giải pháp trợ năng.

Siêu dữ liệu AI đã chọn MAGNeT nguồn mở, thúc đẩy sự cộng tác và đổi mới trong việc tạo văn bản thành âm thanh. Cách tiếp cận nguồn mở cũng mở đường cho việc tạo ra các phương pháp AI mới trong thiết kế âm thanh và các lĩnh vực khác nơi AI tương tác với các giác quan của con người.

Điều quan trọng cần lưu ý là MAGNeT vẫn đang được phát triển và các khả năng cũng như hạn chế của nó vẫn tiếp tục được khám phá. 

Hơn tại đây.

Thông tin thêm về các chủ đề: Siêu dữ liệu