Làm quen với Sora, mô hình chuyển văn bản thành video mới của OpenAI tạo video HD tuyệt đẹp dựa trên lời nhắc văn bản

Vấn đề không phải là “chúng ta có thể làm được không” mà là “chúng ta có nên làm điều đó không”.

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Ghi chú chính

  • OpenAI vừa công bố một mô hình AI chuyển văn bản thành video mới, Sora, và nó trông rất ấn tượng nhưng đồng thời cũng đáng sợ.
  • Mọi người hiện đang lo ngại liệu mô hình này có tiếp quản công việc của họ hay không.
  • Mô hình này sẽ mang siêu dữ liệu C2PA sau khi được triển khai trong sản phẩm OpenAI trong tương lai.

OpenAI vừa công bố mô hình AI chuyển văn bản thành video mới, Sora, và nó trông thật ấn tượng. Tiền đề của nó trông khá đơn giản nhưng đáng chú ý: bạn có thể nhập bất kỳ lời nhắc từ nào, dù bạn muốn chi tiết đến đâu, và sau đó mô hình AI sẽ quay lại với một video có độ chi tiết cao dài 60 giây. 

Hãy xem một số kết quả mà Sora có thể làm được:

Điều đó thực sự đáng sợ và ấn tượng cùng một lúc. Phản ứng của công chúng đối với nó là sự pha trộn giữa sợ hãi và lo lắng, đặc biệt khi xem xét Quá khứ hợp pháp của OpenAI tranh chấp với các công ty báo chí vì cáo buộc sử dụng bài viết của họ để đào tạo người mẫu mà không có sự đồng ý của họ.

Và chúng ta cũng cần nói về những công việc tiềm năng có thể bị thay thế. Ngay cả ông chủ của OpenAI, Sam Altman, người đã từng bị lật đổ khỏi vị trí, cho biết tốc độ nghiên cứu AI của chúng tôi đã tăng lên tiến bộ quá nhanh và mức độ thích nghi mà nhân loại cần thực hiện là đáng báo động.

Mô hình này được xây dựng dựa trên nghiên cứu DALL-E và GPT trước đây, sử dụng phương pháp ghi chú độc đáo của DALL-E 3 để tạo chú thích cực kỳ mô tả cho dữ liệu đào tạo trực quan. Tuy nhiên, nó vẫn phải đối mặt với những thách thức trong việc mô phỏng thực tế các cảnh phức tạp, hiểu mối quan hệ nhân quả và không nhầm lẫn các chi tiết không gian của lời nhắc.

Khi được triển khai trong một sản phẩm OpenAI trong tương lai, có thể là ChatGPT, một sản phẩm mới hoặc Copilot, mô hình này sẽ mang siêu dữ liệu C2PA, tương tự như những gì Microsoft đã và đang làm Trình tạo hình ảnh từ Nhà thiết kế. Kiểm tra văn bản và hình ảnh bảo vệ các sản phẩm OpenAI khỏi nội dung có hại như bạo lực, lời nói căm thù và vi phạm quyền sở hữu trí tuệ.

OpenAI cho biết: “Chúng tôi cũng đang cấp quyền truy cập cho một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để nhận phản hồi về cách cải tiến mô hình sao cho hữu ích nhất cho các chuyên gia sáng tạo”.