Mô hình nguồn mở OpenELM của Apple so sánh với Phi-3 của Microsoft về mặt thông số như thế nào?

Sự trùng hợp ngẫu nhiên?

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Ghi chú chính

  • Apple phát hành OpenELM trên HuggingFace với 8 biến thể.
  • Mỗi mẫu có thông số khác nhau: 270 triệu, 450 triệu, 1.1 tỷ và 3 tỷ.
  • Trong khi đó, mẫu Phi-3 của Microsoft bao gồm các phiên bản có thông số 3.8 tỷ, 7 tỷ và 14 tỷ.
Apple

Ngay sau khi Microsoft tung ra Gia đình Phi-3, một tập hợp các mô hình mã nguồn mở nhỏ được thiết kế để sử dụng nhẹ nhàng hơn, Apple đã tham gia vào đoàn tàu. Các nhà sản xuất iPhone đã (lặng lẽ) ra mắt OpenELM, mẫu AI nguồn mở mới nhất của họ. 

OpenELM, viết tắt của Mô hình ngôn ngữ hiệu quả nguồn mở, có tám biến thể, mỗi biến thể được đào tạo trước và điều chỉnh theo hướng dẫn được bốn. Các nhà nghiên cứu của Apple nói mô hình đó sử dụng chiến lược chia tỷ lệ theo lớp để phân phối hiệu quả các tham số trong mỗi lớp của mô hình máy biến áp và bạn có thể sử dụng các mô hình này trên ÔmKhuôn Mặt.

“Ví dụ: với ngân sách tham số khoảng một tỷ tham số, OpenELM thể hiện độ chính xác được cải thiện 2.36% so với OLMo trong khi yêu cầu mã thông báo đào tạo trước ít hơn 2 lần,” tài liệu cho biết.

Về kích thước, mỗi mẫu có thông số khác nhau: 270 triệu, 450 triệu, 1.1 tỷ và 3 tỷ. Và mặc dù không phải lúc nào nó cũng là tiêu chuẩn đo lường tốt nhất nhưng các thông số trong mô hình AI luôn là bước khởi đầu để so sánh chúng.

Thành thật mà nói, OpenELM không ấn tượng (về mặt tham số) như các mô hình nguồn mở khác: lạc đà không bướu 3, hỗ trợ Meta AI, đi kèm với số lượng tham số tối đa là 70 tỷ và Mixtral do Microsoft hậu thuẫn đã ra mắt mô hình 8x22B với thông số 176B.

Phi-3-mini, phiên bản nhỏ nhất của mẫu Phi-3 của Microsoft, có 3.8 tỷ thông số và được được đào tạo trong một tuần sử dụng GPU H100 của Nvidia. Để so sánh, phiên bản trung bình có 14 tỷ thông số, còn phiên bản nhỏ có 7 tỷ thông số. 

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *