LLM mới của Apple: MM1 có thể giảm nhu cầu sử dụng nhiều lời nhắc để có được kết quả mong muốn
2 phút đọc
Được đăng trên
Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm
Ghi chú chính
- MM1 của Apple là một mô hình AI mới đào tạo dữ liệu văn bản và hình ảnh, có khả năng hỗ trợ Siri 2.0.
- MM1 sử dụng phương pháp tiếp cận đa phương thức để đạt được hiệu suất tốt hơn và giảm nhu cầu sử dụng nhiều lời nhắc.
- Kiến trúc độc đáo và mô hình MoE của MM1 cho phép nó chạy trên các thiết bị như iPhone.
Apple tương đối im lặng về công việc của mình trong các mô hình ngôn ngữ lớn (LLM), nhưng một bài báo nghiên cứu mới cho thấy họ đang bắt kịp nhanh chóng. MM1 là một phương pháp mới để đào tạo các mô hình AI kết hợp dữ liệu văn bản và hình ảnh, có thể tăng tốc độ đào tạo và giảm nhu cầu sử dụng nhiều lời nhắc để đạt được kết quả mong muốn. Điều này xảy ra vài ngày sau Apple mua lại DarwinAI.
MM1 là gì?
MM1 là dòng mô hình AI, với mô hình lớn nhất đạt 30 tỷ tham số (nhỏ hơn một số đối thủ nhưng vẫn mạnh mẽ). Các tham số đề cập đến các giá trị số mà mô hình sử dụng để tìm hiểu và thể hiện thế giới. Số lượng tham số cao hơn thường cho thấy một mô hình phức tạp hơn có thể xử lý nhiều nhiệm vụ hơn và tạo ra kết quả đầu ra có nhiều sắc thái hơn.
Nó tập trung vào việc học đa phương thức, nghĩa là nó có thể xử lý và hiểu cả văn bản và hình ảnh. Đây có thể là một bước tiến lớn đối với Siri, cho phép nó hiểu rõ hơn các yêu cầu của bạn và phản hồi với nhiều thông tin phù hợp hơn. Tháng trước, Apple cũng giới thiệu một trình xử lý hình ảnh AI.
Các nhà nghiên cứu đằng sau MM1 lập luận rằng việc kết hợp các loại dữ liệu đào tạo khác nhau sẽ mang lại hiệu suất tốt hơn. MM1 sử dụng một kết hợp chú thích hình ảnh, dữ liệu chỉ có văn bản và trả lời câu hỏi bằng hình ảnh để đào tạo mô hình. Điều này cho phép MM1 thực hiện các tác vụ như chú thích hình ảnh, trả lời câu hỏi bằng hình ảnh và hiểu ngôn ngữ tự nhiên.
MM1 sử dụng kiến trúc độc đáo với bộ mã hóa có độ phân giải hình ảnh cao hơn và cách tiếp cận khác đối với dữ liệu huấn luyện trước và ghi nhãn. Nó cũng sử dụng mô hình hỗn hợp các chuyên gia (MoE) để mở rộng quy mô trong khi vẫn giữ yêu cầu xử lý ở mức thấp, điều đó có nghĩa là nó có khả năng chạy trên các thiết bị như iPhone và máy tính xách tay.
Bài viết nghiên cứu không đề cập rõ ràng đến Siri, nhưng việc tập trung vào tính hiệu quả, sự nhắc nhở tối thiểu và khả năng đa phương thức gợi ý về hướng đi của Apple cho tương lai của Siri. Trước đó, một Leaker đã đề xuất một Siri thông minh hơn với các dịch vụ đăng ký GenAI.
Với Apple đưa các LLM khác như Gemini lên iPhone, có vẻ như Apple đang thực hiện một cách tiếp cận đa hướng đối với những tiến bộ của AI.
Xem thêm vào đây.
Diễn đàn người dùng
Tin nhắn 0