xAI de la Elon Musk anunță Grok-1.5 Vision, cu capacitate multimodală
2 min. citit
Publicat în data de
Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Afla mai multe
Note cheie
- xAI de la Elon Musk a anunțat Grok-1.5 Vision sau Grok-1.5V.
- Grok-1.5V este primul model multimodal al companiei și va fi disponibil în curând pentru testerii timpurii și utilizatorii Grok existenți.
- Grok-1.5V poate procesa text și informații vizuale.
Luna trecută, Elon Musk a lansat Grok-1.5 LLM la câteva zile după Google a lansat Gemini 1.5. În timp ce xAI de la Musk a susținut că modelul său este aproape de performanța GPT-4, nu are capacitate multimodală. Cu toate acestea, Grok-1.5 Vision anunțat recent de companie nu are această limitare, deoarece poate procesa atât text, cât și informații vizuale.
Ce este Grok-1.5 Vision (Grok-1.5V) și când va fi disponibil?
Grok-1.5V este modelul multimodal de prima generație xAI care își propune să conecteze lumea digitală și cea fizică. „Grok își depășește performanța colegilor în noul nostru benchmark RealWorldQA care măsoară înțelegerea spațială din lumea reală”, a spus compania într-un blog. În plus, Grok-1.5V poate „procesa o mare varietate de informații vizuale, inclusiv documente, diagrame, diagrame, capturi de ecran și fotografii”.
De exemplu, unele dintre lucrurile interesante pe care le poate face includ scrierea codului dintr-o diagramă, calcularea caloriilor, realizarea de povești de culcare bazate pe desene, ajutându-vă să înțelegeți un meme și multe altele. xAI susține că Grok-1.5V are performanțe mai bune decât LLM-urile rivale, inclusiv GPT-4V, Claude 3Sonnet, Claude 3 Opus și Gemini Pro, în benchmark-ul RealWorldQA.
„Grok își depășește performanța colegilor în noul nostru benchmark RealWorldQA care măsoară înțelegerea spațială a lumii reale”, a subliniat xAI.
Grok-1.5V nu este disponibil momentan, dar va veni în curând pentru testerii timpurii și utilizatorii Grok existenți ca o previzualizare. Deși xAI nu a specificat data de lansare, s-a promis că va avansa în continuare „înțelegerea multimodală” și „capacități de generare” și va aduce îmbunătățiri diferitelor modalități, cum ar fi imagini, audio și video.
Forumul utilizatorilor
0 mesaje