XAI Elona Muska przedstawia Grok-1.5 Vision z możliwością transportu multimodalnego
2 minuta. czytać
Opublikowany
Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej
Kluczowe uwagi
- XAI Elona Muska ogłosiło Grok-1.5 Vision lub Grok-1.5V.
- Grok-1.5V to pierwszy multimodalny model firmy, który wkrótce będzie dostępny dla wczesnych testerów i obecnych użytkowników Groka.
- Grok-1.5V może przetwarzać informacje tekstowe i wizualne.
W zeszłym miesiącu Elon Musk wypuścił Grok-1.5 LLM kilka dni później Google uruchomiło Gemini 1.5. Chociaż xAI Muska twierdziło, że jego model jest bliski wydajności GPT-4, nie ma możliwości multimodalnych. Jednak niedawno zaprezentowany przez firmę Grok-1.5 Vision nie ma tego ograniczenia, ponieważ może przetwarzać zarówno informacje tekstowe, jak i wizualne.
Co to jest Grok-1.5 Vision (Grok-1.5V) i kiedy będzie dostępny?
Grok-1.5V to multimodalny model xAI pierwszej generacji, którego celem jest połączenie świata cyfrowego i fizycznego. „Grok przewyższa swoich konkurentów w naszym nowym benchmarku RealWorldQA, który mierzy zrozumienie przestrzeni w świecie rzeczywistym” – stwierdziła firma w blogu. Ponadto Grok-1.5V może „przetwarzać szeroką gamę informacji wizualnych, w tym dokumenty, diagramy, wykresy, zrzuty ekranu i fotografie”.
Na przykład niektóre z ekscytujących rzeczy, które może zrobić, obejmują pisanie kodu na podstawie diagramu, obliczanie kalorii, tworzenie historyjek na dobranoc na podstawie rysunków, pomaganie w zrozumieniu mema i nie tylko. xAI twierdzi, że Grok-1.5V radzi sobie lepiej niż konkurencyjne LLM, w tym GPT-4V, Claude 3Sonnet, Claude 3 Opus i Gemini Pro, w teście porównawczym RealWorldQA.
„Grok przewyższa swoich konkurentów w naszym nowym benchmarku RealWorldQA, który mierzy zrozumienie przestrzeni w świecie rzeczywistym” – podkreśliło xAI.
Grok-1.5V nie jest obecnie dostępny, ale wkrótce będzie dostępny dla wczesnych testerów i obecnych użytkowników Groka w formie podglądu. Chociaż xAI nie określiło daty premiery, obiecuje dalszy postęp w zakresie „zrozumienia multimodalnego” i „możliwości generowania” oraz wprowadzenie ulepszeń różnych modalności, takich jak obrazy, dźwięk i wideo.