Elon Musks xAI tillkännager Grok-1.5 Vision, med multimodal kapacitet

Hem » Nyheter

Lästid ikon 2 min. läsa

Kalenderikonen Publicerad den 13 april 2024

by Rahul

publicerad den 13 april 2024

Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar.

Viktiga anteckningar

Elon Musks xAI har annonserat Grok-1.5 Vision eller Grok-1.5V.
Grok-1.5V är företagets första multimodala modell och kommer snart att finnas tillgänglig för tidiga testare och befintliga Grok-användare.
Grok-1.5V kan bearbeta text och visuell information.

Förra månaden lanserade Elon Musk Grok-1.5 LLM dagar efter Google lanserade Gemini 1.5. Medan Musks xAI hävdade att dess modell är nära GPT-4-prestanda, har den inte multimodal kapacitet. Företagets nyligen annonserade Grok-1.5 Vision har dock inte den begränsningen, eftersom den kan bearbeta både text och visuell information.

Vad är Grok-1.5 Vision (Grok-1.5V) och när kommer den att finnas tillgänglig?

Grok-1.5V är xAI:s första generationens multimodala modell som syftar till att koppla ihop den digitala och fysiska världen. "Grok överträffar sina kollegor i vårt nya RealWorldQA-riktmärke som mäter rumslig förståelse i verkligheten", sa företaget i en blogginlägg. Dessutom kan Grok-1.5V "bearbeta en mängd olika visuell information, inklusive dokument, diagram, diagram, skärmdumpar och fotografier."

Till exempel, några av de spännande saker den kan göra inkluderar att skriva kod från ett diagram, beräkna kalorier, göra godnattsagor baserade på ritningar, hjälpa dig att förstå en meme och mer. xAI hävdar att Grok-1.5V presterar bättre än sina rivaliserande LLM, inklusive GPT-4V, Claude 3Sonnet, Claude 3 Opus och Gemini Pro, i RealWorldQA benchmark.

"Grok överträffar sina kollegor i vårt nya RealWorldQA-riktmärke som mäter rumslig förståelse i den verkliga världen," betonade xAI.

Grok-1.5V är för närvarande inte tillgänglig, men den kommer snart till tidiga testare och befintliga Grok-användare som en förhandsvisning. Även om xAI inte har specificerat lanseringsdatumet, har det lovat att ytterligare främja "multimodal förståelse" och "generationsförmåga" och ge förbättringar av olika modaliteter som bilder, ljud och video.

Rahul

Teknisk journalist

Rahul är en teknisk journalist, med många års erfarenhet av att täcka programvara, främst Windows och Android. Han älskar också att dela hennes åsikter om olika tekniska ämnen.