xAI Elona Muska oznamuje Grok-1.5 Vision s multimodální schopností
2 min. číst
Publikované dne
Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Více informací
Klíčové poznámky
- xAI Elona Muska oznámilo Grok-1.5 Vision nebo Grok-1.5V.
- Grok-1.5V je prvním multimodálním modelem společnosti a bude brzy k dispozici pro první testery a stávající uživatele Groku.
- Grok-1.5V dokáže zpracovat textové a vizuální informace.
Minulý měsíc Elon Musk spustil Grok-1.5 LLM několik dní poté Google spustil Gemini 1.5. Zatímco Muskova xAI tvrdila, že její model je blízko výkonu GPT-4, nemá multimodální schopnosti. Nedávno oznámený Grok-1.5 Vision společnosti však toto omezení nemá, protože dokáže zpracovávat textové i vizuální informace.
Co je Grok-1.5 Vision (Grok-1.5V) a kdy bude k dispozici?
Grok-1.5V je první generace multimodálního modelu xAI, jehož cílem je propojit digitální a fyzický svět. „Grok překonává své kolegy v našem novém benchmarku RealWorldQA, který měří prostorové porozumění v reálném světě,“ uvedla společnost blogu. Kromě toho může Grok-1.5V „zpracovávat širokou škálu vizuálních informací, včetně dokumentů, diagramů, grafů, snímků obrazovky a fotografií“.
Mezi vzrušující věci, které může dělat, patří například psaní kódu z diagramu, počítání kalorií, vytváření příběhů před spaním na základě nákresů, pomáhá vám porozumět memu a další. xAI tvrdí, že Grok-1.5V funguje lépe než jeho konkurenční LLM, včetně GPT-4V, Claude 3Sonnet, Claude 3 Opus a Gemini Pro, v benchmarku RealWorldQA.
„Grok překonává své kolegy v našem novém benchmarku RealWorldQA, který měří prostorové porozumění v reálném světě,“ zdůraznil xAI.
Grok-1.5V není v současné době k dispozici, ale brzy bude k dispozici prvním testerům a stávajícím uživatelům Groku jako náhled. I když xAI neuvedlo datum spuštění, slíbilo, že bude dále zlepšovat „multimodální porozumění“ a „možnosti generování“ a přinese vylepšení různých modalit, jako jsou obrázky, zvuk a video.
Uživatelské fórum
0 zprávy