Elon Musks xAI kündigt Grok-1.5 Vision mit multimodaler Fähigkeit an

Symbol für die Lesezeit 2 Minute. lesen


Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen. Tooltip-Symbol

Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Lesen Sie weiter

Wichtige Hinweise

  • Elon Musks xAI hat Grok-1.5 Vision oder Grok-1.5V angekündigt.
  • Grok-1.5V ist das erste multimodale Modell des Unternehmens und wird bald für frühe Tester und bestehende Grok-Benutzer verfügbar sein.
  • Grok-1.5V kann Text- und visuelle Informationen verarbeiten.

Letzten Monat startete Elon Musk wenige Tage später Grok-1.5 LLM Google hat Gemini 1.5 veröffentlicht. Während Musks xAI behauptete, dass sein Modell der GPT-4-Leistung nahe kommt, verfügt es nicht über multimodale Fähigkeiten. Der kürzlich angekündigte Grok-1.5 Vision des Unternehmens weist diese Einschränkung jedoch nicht auf, da er sowohl Text- als auch visuelle Informationen verarbeiten kann.

Was ist Grok-1.5 Vision (Grok-1.5V) und wann wird es verfügbar sein?

Grok-1.5V ist das multimodale Modell der ersten Generation von xAI, das darauf abzielt, die digitale und die physische Welt zu verbinden. „Grok übertrifft seine Mitbewerber in unserem neuen RealWorldQA-Benchmark, der das räumliche Verständnis in der realen Welt misst“, sagte das Unternehmen in einem Blog-Post. Darüber hinaus kann Grok-1.5V „eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Diagramme, Screenshots und Fotos“.

Zu den aufregenden Dingen, die damit möglich sind, gehört beispielsweise das Schreiben von Code aus einem Diagramm, das Berechnen von Kalorien, das Erstellen von Gute-Nacht-Geschichten auf der Grundlage von Zeichnungen, das Verstehen eines Memes und vieles mehr. xAI behauptet, dass Grok-1.5V im RealWorldQA-Benchmark besser abschneidet als seine konkurrierenden LLMs, darunter GPT-4V, Claude 3Sonnet, Claude 3 Opus und Gemini Pro.

„Grok übertrifft seine Mitbewerber in unserem neuen RealWorldQA-Benchmark, der das räumliche Verständnis in der realen Welt misst“, betonte xAI.

Grok-1.5V ist derzeit nicht verfügbar, wird aber bald als Vorschau für frühe Tester und bestehende Grok-Benutzer verfügbar sein. Obwohl xAI das Startdatum nicht angegeben hat, verspricht es, das „multimodale Verständnis“ und die „Generierungsfähigkeiten“ weiter voranzutreiben und Verbesserungen für verschiedene Modalitäten wie Bilder, Audio und Video zu bringen.