xAI Elona Muska predstavuje Grok-1.5 Vision s multimodálnymi funkciami

Ikona času čítania 2 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Kľúčové poznámky

  • xAI Elona Muska oznámilo Grok-1.5 Vision alebo Grok-1.5V.
  • Grok-1.5V je prvý multimodálny model spoločnosti a čoskoro bude k dispozícii pre prvých testerov a existujúcich používateľov Groku.
  • Grok-1.5V dokáže spracovať textové a vizuálne informácie.

Minulý mesiac Elon Musk spustil Grok-1.5 LLM niekoľko dní potom Google spustil Gemini 1.5. Zatiaľ čo Muskova xAI tvrdila, že jej model je blízko výkonu GPT-4, nemá multimodálnu schopnosť. Nedávno oznámený Grok-1.5 Vision spoločnosti však toto obmedzenie nemá, pretože dokáže spracovať textové aj vizuálne informácie.

Čo je Grok-1.5 Vision (Grok-1.5V) a kedy bude k dispozícii?

Grok-1.5V je multimodálny model prvej generácie xAI, ktorého cieľom je prepojiť digitálny a fyzický svet. „Grok prekonáva svojich kolegov v našom novom benchmarku RealWorldQA, ktorý meria priestorové porozumenie v reálnom svete,“ uviedla spoločnosť vo vyhlásení. blog post. Okrem toho Grok-1.5V dokáže „spracovať širokú škálu vizuálnych informácií vrátane dokumentov, diagramov, grafov, snímok obrazovky a fotografií“.

Medzi vzrušujúce veci, ktoré môže robiť, patrí napríklad písanie kódu z diagramu, výpočet kalórií, vytváranie rozprávok pred spaním na základe kresieb, pomoc pri porozumení mému a ďalšie. xAI tvrdí, že Grok-1.5V funguje lepšie ako jeho konkurenčné LLM, vrátane GPT-4V, Claude 3Sonnet, Claude 3 Opus a Gemini Pro v benchmarku RealWorldQA.

„Grok prekonáva svojich kolegov v našom novom benchmarku RealWorldQA, ktorý meria priestorové porozumenie v reálnom svete,“ zdôraznil xAI.

Grok-1.5V momentálne nie je k dispozícii, ale čoskoro bude k dispozícii prvým testerom a existujúcim používateľom Groku ako ukážka. Hoci xAI nešpecifikovalo dátum spustenia, sľúbilo, že bude ďalej zlepšovať „multimodálne chápanie“ a „generačné schopnosti“ a prináša vylepšenia rôznych modalít, ako sú obrázky, zvuk a video.