XAI Elona Muska przedstawia Grok-1.5 Vision z możliwością transportu multimodalnego

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Opublikowany 13 kwietnia 2024 r.

opublikowane w dniu 13 kwietnia 2024 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Kluczowe uwagi

XAI Elona Muska ogłosiło Grok-1.5 Vision lub Grok-1.5V.
Grok-1.5V to pierwszy multimodalny model firmy, który wkrótce będzie dostępny dla wczesnych testerów i obecnych użytkowników Groka.
Grok-1.5V może przetwarzać informacje tekstowe i wizualne.

W zeszłym miesiącu Elon Musk wypuścił Grok-1.5 LLM kilka dni później Google uruchomiło Gemini 1.5. Chociaż xAI Muska twierdziło, że jego model jest bliski wydajności GPT-4, nie ma możliwości multimodalnych. Jednak niedawno zaprezentowany przez firmę Grok-1.5 Vision nie ma tego ograniczenia, ponieważ może przetwarzać zarówno informacje tekstowe, jak i wizualne.

Co to jest Grok-1.5 Vision (Grok-1.5V) i kiedy będzie dostępny?

Grok-1.5V to multimodalny model xAI pierwszej generacji, którego celem jest połączenie świata cyfrowego i fizycznego. „Grok przewyższa swoich konkurentów w naszym nowym benchmarku RealWorldQA, który mierzy zrozumienie przestrzeni w świecie rzeczywistym” – stwierdziła firma w blogu. Ponadto Grok-1.5V może „przetwarzać szeroką gamę informacji wizualnych, w tym dokumenty, diagramy, wykresy, zrzuty ekranu i fotografie”.

Na przykład niektóre z ekscytujących rzeczy, które może zrobić, obejmują pisanie kodu na podstawie diagramu, obliczanie kalorii, tworzenie historyjek na dobranoc na podstawie rysunków, pomaganie w zrozumieniu mema i nie tylko. xAI twierdzi, że Grok-1.5V radzi sobie lepiej niż konkurencyjne LLM, w tym GPT-4V, Claude 3Sonnet, Claude 3 Opus i Gemini Pro, w teście porównawczym RealWorldQA.

„Grok przewyższa swoich konkurentów w naszym nowym benchmarku RealWorldQA, który mierzy zrozumienie przestrzeni w świecie rzeczywistym” – podkreśliło xAI.

Grok-1.5V nie jest obecnie dostępny, ale wkrótce będzie dostępny dla wczesnych testerów i obecnych użytkowników Groka w formie podglądu. Chociaż xAI nie określiło daty premiery, obiecuje dalszy postęp w zakresie „zrozumienia multimodalnego” i „możliwości generowania” oraz wprowadzenie ulepszeń różnych modalności, takich jak obrazy, dźwięk i wideo.

Rahul

Dziennikarz techniczny

Rahul jest dziennikarzem technicznym z wieloletnim doświadczeniem w opracowywaniu oprogramowania, głównie Windows i Android. Uwielbia także dzielić się swoimi opiniami na różne tematy technologiczne.