XAI của Elon Musk công bố Grok-1.5 Vision, với khả năng đa phương thức
2 phút đọc
Được đăng trên
Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm
Ghi chú chính
- XAI của Elon Musk đã công bố Grok-1.5 Vision hoặc Grok-1.5V.
- Grok-1.5V là mẫu đa phương thức đầu tiên của công ty và sẽ sớm được cung cấp cho những người thử nghiệm ban đầu cũng như người dùng Grok hiện tại.
- Grok-1.5V có thể xử lý thông tin văn bản và hình ảnh.
Tháng trước, Elon Musk đã ra mắt Grok-1.5 LLM vài ngày sau đó Google ra mắt Gemini 1.5. Mặc dù xAI của Musk tuyên bố rằng mô hình của nó gần đạt hiệu suất của GPT-4 nhưng nó không có khả năng đa phương thức. Tuy nhiên, Grok-1.5 Vision được công bố gần đây của công ty không có hạn chế đó vì nó có thể xử lý cả thông tin văn bản và hình ảnh.
Grok-1.5 Vision (Grok-1.5V) là gì và khi nào nó sẽ có mặt trên thị trường?
Grok-1.5V là mẫu đa phương thức thế hệ đầu tiên của xAI nhằm mục đích kết nối thế giới vật lý và kỹ thuật số. “Grok vượt trội so với các công ty cùng ngành trong tiêu chuẩn RealWorldQA mới của chúng tôi nhằm đo lường sự hiểu biết về không gian trong thế giới thực,” công ty cho biết trong một báo cáo. blog đăng bài. Ngoài ra, Grok-1.5V có thể “xử lý nhiều loại thông tin hình ảnh, bao gồm tài liệu, sơ đồ, biểu đồ, ảnh chụp màn hình và ảnh chụp”.
Ví dụ: một số điều thú vị mà nó có thể thực hiện bao gồm viết mã từ sơ đồ, tính toán lượng calo, tạo các câu chuyện trước khi đi ngủ dựa trên hình vẽ, giúp bạn hiểu một meme, v.v. xAI tuyên bố rằng Grok-1.5V hoạt động tốt hơn so với các LLM đối thủ của nó, bao gồm GPT-4V, Claude 3Sonnet, Claude 3 Opus và Gemini Pro, trong tiêu chuẩn RealWorldQA.
“Grok vượt trội so với các đối thủ của mình trong điểm chuẩn RealWorldQA mới của chúng tôi nhằm đo lường sự hiểu biết về không gian trong thế giới thực,” xAI nhấn mạnh.
Grok-1.5V hiện không có sẵn nhưng nó sẽ sớm được cung cấp cho những người thử nghiệm sớm và người dùng Grok hiện tại dưới dạng bản xem trước. Mặc dù xAI chưa xác định ngày ra mắt nhưng nó hứa hẹn sẽ nâng cao hơn nữa “sự hiểu biết đa phương thức” và “khả năng tạo” và mang lại những cải tiến cho nhiều phương thức khác nhau như hình ảnh, âm thanh và video.
Diễn đàn người dùng
Tin nhắn 0