Elon Musks xAI annoncerer Grok-1.5 Vision, med multimodal kapacitet

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

Nøgle noter

  • Elon Musks xAI har annonceret Grok-1.5 Vision eller Grok-1.5V.
  • Grok-1.5V er virksomhedens første multimodale model og vil snart være tilgængelig for tidlige testere og eksisterende Grok-brugere.
  • Grok-1.5V kan behandle tekst og visuel information.

I sidste måned lancerede Elon Musk Grok-1.5 LLM dage efter Google lancerede Gemini 1.5. Mens Musks xAI hævdede, at dens model er tæt på GPT-4-ydelsen, har den ikke multimodal kapacitet. Virksomhedens nyligt annoncerede Grok-1.5 Vision har dog ikke den begrænsning, da den kan behandle både tekst og visuel information.

Hvad er Grok-1.5 Vision (Grok-1.5V), og hvornår vil den være tilgængelig?

Grok-1.5V er xAIs førstegenerations multimodale model, der har til formål at forbinde den digitale og fysiske verden. "Grok klarer sig bedre end sine jævnaldrende i vores nye RealWorldQA-benchmark, der måler rumlig forståelse i den virkelige verden," sagde virksomheden i en blogindlæg. Derudover kan Grok-1.5V "behandle en bred vifte af visuel information, herunder dokumenter, diagrammer, diagrammer, skærmbilleder og fotografier."

For eksempel er nogle af de spændende ting, den kan gøre, at skrive kode fra et diagram, beregne kalorier, lave godnathistorier baseret på tegninger, hjælpe dig med at forstå en meme og meget mere. xAI hævder, at Grok-1.5V klarer sig bedre end sine rivaliserende LLM'er, herunder GPT-4V, Claude 3Sonnet, Claude 3 Opus og Gemini Pro, i RealWorldQA benchmark.

"Grok overgår sine jævnaldrende i vores nye RealWorldQA-benchmark, der måler rumlig forståelse i den virkelige verden," fremhævede xAI.

Grok-1.5V er ikke tilgængelig i øjeblikket, men den kommer snart til tidlige testere og eksisterende Grok-brugere som en forhåndsvisning. Selvom xAI ikke har specificeret lanceringsdatoen, loves det yderligere at fremme "multimodal forståelse" og "generationskapaciteter" og bringe forbedringer til forskellige modaliteter såsom billeder, lyd og video.

Brugerforum

0 meddelelser