Mô-đun AI mới của Meta dành cho việc soạn âm thanh chỉ từ những lời nhắc, MAGNeT là gì?

Biểu tượng thời gian đọc 2 phút đọc

Biểu tượng lịch Được đăng trên 19 Tháng một, 2024

Được xuất bản trên 19 Tháng một, 2024

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

MAGNeT của Meta là mô hình chuyển văn bản thành âm thanh mới có khả năng tạo ra âm thanh chất lượng cao từ các mô tả văn bản.

MAGNeT khác với các phương pháp tự hồi quy truyền thống vốn tạo ra từng đoạn âm thanh một bằng cách sử dụng phương pháp không tự hồi quy. Điều này cho phép dự đoán song song nhiều phân đoạn âm thanh, tăng đáng kể tốc độ tạo. Điểm chuẩn cho thấy MAGNeT có thể nhanh hơn tới bảy lần so với các phiên bản tiền nhiệm.

Điều này có nghĩa là nó có thể dự đoán nhiều phần âm thanh cùng một lúc thay vì tạo ra chúng lần lượt. Điều này giống như việc có nhiều lò nướng nấu các món ăn khác nhau cùng một lúc.

Hơn nữa, MAGNeT kết hợp một cơ chế lai kết hợp độ chính xác ban đầu của các kỹ thuật tự hồi quy với hiệu quả của các phương pháp không tự hồi quy. Điều này đảm bảo rằng âm thanh được tạo ra vẫn giữ được độ trung thực cao đồng thời được hưởng lợi từ tốc độ tăng lên.

Nói cách khác, nó sử dụng kỹ thuật “cơ chế lai” đặc biệt để đảm bảo âm thanh phát ra tốt dù được tạo ra nhanh chóng.

Các ứng dụng tiềm năng của MAGNeT rất rộng lớn và trải rộng trên nhiều ngành công nghiệp khác nhau. Dưới đây là một số ví dụ đáng chú ý:

Sáng tác nhạc: Các nhạc sĩ và nhà sản xuất có thể sử dụng MAGNeT để nhanh chóng thử nghiệm các ý tưởng mới và tạo ra các yếu tố âm nhạc được AI hỗ trợ.
Thiết kế âm thanh phim và game: MAGNeT có thể tạo ra những bản nhạc sôi động và sống động trong thời gian thực, nâng cao trải nghiệm cho người xem và người chơi.
Ứng dụng điều khiển bằng giọng nói: Khả năng tạo ra giọng nói tổng hợp có âm thanh tự nhiên của mô hình hứa hẹn sẽ có trợ lý ảo và các công nghệ tương tác bằng giọng nói khác.
Công cụ tiếp cận: Khả năng chuyển đổi văn bản sang giọng nói theo thời gian thực của MAGNeT có thể hỗ trợ những người khiếm thị và cách mạng hóa các giải pháp trợ năng.

Siêu dữ liệu AI đã chọn MAGNeT nguồn mở, thúc đẩy sự cộng tác và đổi mới trong việc tạo văn bản thành âm thanh. Cách tiếp cận nguồn mở cũng mở đường cho việc tạo ra các phương pháp AI mới trong thiết kế âm thanh và các lĩnh vực khác nơi AI tương tác với các giác quan của con người.

Điều quan trọng cần lưu ý là MAGNeT vẫn đang được phát triển và các khả năng cũng như hạn chế của nó vẫn tiếp tục được khám phá.

Hơn tại đây.

Thông tin thêm về các chủ đề: Siêu dữ liệu

Devesh Beri

Nhà báo công nghệ

Đây là những điều thúc đẩy tôi - tạo ra nội dung giàu thông tin và hữu ích, theo đuổi niềm đam mê đua xe thể thao và âm nhạc, tham gia các cuộc thám hiểm, duy trì lối sống lành mạnh và dành thời gian với chú mèo Taco đáng yêu của tôi.