xAI de Elon Musk anuncia Grok-1.5 Vision, con capacidad multimodal

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Más información

Notas clave

  • xAI de Elon Musk ha anunciado Grok-1.5 Vision o Grok-1.5V.
  • Grok-1.5V es el primer modelo multimodal de la compañía y pronto estará disponible para los primeros evaluadores y para los usuarios existentes de Grok.
  • Grok-1.5V puede procesar texto e información visual.

El mes pasado, Elon Musk lanzó Grok-1.5 LLM días después Google lanzó Géminis 1.5. Si bien xAI de Musk afirmó que su modelo se acerca al rendimiento del GPT-4, no tiene capacidad multimodal. Sin embargo, el Grok-1.5 Vision anunciado recientemente por la compañía no tiene esa limitación, ya que puede procesar tanto texto como información visual.

¿Qué es Grok-1.5 Vision (Grok-1.5V) y cuándo estará disponible?

Grok-1.5V es el modelo multimodal de primera generación de xAI que tiene como objetivo conectar los mundos digital y físico. "Grok supera a sus pares en nuestro nuevo punto de referencia RealWorldQA que mide la comprensión espacial del mundo real", dijo la compañía en un entrada del blog. Además, Grok-1.5V puede "procesar una amplia variedad de información visual, incluidos documentos, diagramas, cuadros, capturas de pantalla y fotografías".

Por ejemplo, algunas de las cosas interesantes que puede hacer incluyen escribir código a partir de un diagrama, calcular calorías, crear cuentos para dormir basados ​​en dibujos, ayudarlo a comprender un meme y más. xAI afirma que Grok-1.5V funciona mejor que sus LLM rivales, incluidos GPT-4V, Claude 3Sonnet, Claude 3 Opus y Gemini Pro, en el punto de referencia RealWorldQA.

"Grok supera a sus pares en nuestro nuevo punto de referencia RealWorldQA que mide la comprensión espacial del mundo real", destacó xAI.

Grok-1.5V no está disponible actualmente, pero pronto estará disponible como vista previa para los primeros probadores y usuarios existentes de Grok. Si bien xAI no ha especificado la fecha de lanzamiento, promete avanzar aún más en la "comprensión multimodal" y las "capacidades de generación" y aportar mejoras a diversas modalidades, como imágenes, audio y vídeo.

Foro de usuarios

mensajes de 0