xAI ของ Elon Musk ประกาศ Grok-1.5 Vision พร้อมความสามารถหลายรูปแบบ

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • xAI ของ Elon Musk ได้ประกาศ Grok-1.5 Vision หรือ Grok-1.5V
  • Grok-1.5V เป็นโมเดลต่อเนื่องหลายรูปแบบรุ่นแรกของบริษัท และจะพร้อมให้สำหรับผู้ทดสอบระยะแรกและผู้ใช้ Grok ในปัจจุบันเร็วๆ นี้
  • Grok-1.5V สามารถประมวลผลข้อมูลข้อความและภาพได้

เมื่อเดือนที่แล้ว Elon Musk ได้เปิดตัว Grok-1.5 LLM ไม่กี่วันหลังจากนั้น Google เปิดตัว Gemini 1.5- แม้ว่า xAI ของ Musk อ้างว่าโมเดลของมันใกล้เคียงกับประสิทธิภาพ GPT-4 แต่ก็ไม่มีความสามารถหลายรูปแบบ อย่างไรก็ตาม Grok-1.5 Vision ที่เพิ่งประกาศของบริษัทไม่มีข้อจำกัดดังกล่าว เนื่องจากสามารถประมวลผลทั้งข้อมูลข้อความและภาพ

Grok-1.5 Vision (Grok-1.5V) คืออะไร และจะมีวางจำหน่ายเมื่อใด?

Grok-1.5V เป็นโมเดลต่อเนื่องหลายรูปแบบรุ่นแรกของ xAI ที่มีจุดมุ่งหมายเพื่อเชื่อมต่อโลกดิจิทัลและโลกทางกายภาพ “Grok มีประสิทธิภาพเหนือกว่าคู่แข่งในเกณฑ์มาตรฐาน RealWorldQA ใหม่ของเรา ซึ่งวัดความเข้าใจเชิงพื้นที่ในโลกแห่งความเป็นจริง” บริษัทกล่าวใน โพสต์บล็อก- นอกจากนี้ Grok-1.5V ยังสามารถ “ประมวลผลข้อมูลภาพได้หลากหลาย รวมถึงเอกสาร ไดอะแกรม แผนภูมิ ภาพหน้าจอ และภาพถ่าย”

ตัวอย่างเช่น สิ่งที่น่าตื่นเต้นบางอย่างที่สามารถทำได้ ได้แก่ การเขียนโค้ดจากแผนภาพ การคำนวณแคลอรี่ สร้างนิทานก่อนนอนตามภาพวาด การช่วยให้คุณเข้าใจมีม และอื่นๆ อีกมากมาย xAI อ้างว่า Grok-1.5V ทำงานได้ดีกว่า LLM ของคู่แข่ง ซึ่งรวมถึง GPT-4V, Claude 3Sonnet, Claude 3 Opus และ Gemini Pro ในเกณฑ์มาตรฐาน RealWorldQA

“Grok มีประสิทธิภาพเหนือกว่าคู่แข่งในเกณฑ์มาตรฐาน RealWorldQA ใหม่ของเรา ซึ่งวัดความเข้าใจเชิงพื้นที่ในโลกแห่งความเป็นจริง” xAI เน้นย้ำ

Grok-1.5V ยังไม่พร้อมใช้งานในขณะนี้ แต่จะมีให้ใช้งานเร็วๆ นี้สำหรับผู้ทดสอบระยะแรกและผู้ใช้ Grok ที่มีอยู่เป็นตัวอย่าง แม้ว่า xAI จะไม่ได้ระบุวันเปิดตัว แต่ก็สัญญาว่าจะพัฒนา "ความเข้าใจหลายรูปแบบ" และ "ความสามารถในการสร้าง" และนำการปรับปรุงไปสู่รูปแบบต่างๆ เช่น รูปภาพ เสียง และวิดีโอ