xAI de Elon Musk anuncia Grok-1.5 Vision, con capacidad multimodal
2 minuto. leer
Publicado el
Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Más información
Notas clave
- xAI de Elon Musk ha anunciado Grok-1.5 Vision o Grok-1.5V.
- Grok-1.5V es el primer modelo multimodal de la compañía y pronto estará disponible para los primeros evaluadores y para los usuarios existentes de Grok.
- Grok-1.5V puede procesar texto e información visual.
El mes pasado, Elon Musk lanzó Grok-1.5 LLM días después Google lanzó Géminis 1.5. Si bien xAI de Musk afirmó que su modelo se acerca al rendimiento del GPT-4, no tiene capacidad multimodal. Sin embargo, el Grok-1.5 Vision anunciado recientemente por la compañía no tiene esa limitación, ya que puede procesar tanto texto como información visual.
¿Qué es Grok-1.5 Vision (Grok-1.5V) y cuándo estará disponible?
Grok-1.5V es el modelo multimodal de primera generación de xAI que tiene como objetivo conectar los mundos digital y físico. "Grok supera a sus pares en nuestro nuevo punto de referencia RealWorldQA que mide la comprensión espacial del mundo real", dijo la compañía en un entrada del blog. Además, Grok-1.5V puede "procesar una amplia variedad de información visual, incluidos documentos, diagramas, cuadros, capturas de pantalla y fotografías".
Por ejemplo, algunas de las cosas interesantes que puede hacer incluyen escribir código a partir de un diagrama, calcular calorías, crear cuentos para dormir basados en dibujos, ayudarlo a comprender un meme y más. xAI afirma que Grok-1.5V funciona mejor que sus LLM rivales, incluidos GPT-4V, Claude 3Sonnet, Claude 3 Opus y Gemini Pro, en el punto de referencia RealWorldQA.
"Grok supera a sus pares en nuestro nuevo punto de referencia RealWorldQA que mide la comprensión espacial del mundo real", destacó xAI.
Grok-1.5V no está disponible actualmente, pero pronto estará disponible como vista previa para los primeros probadores y usuarios existentes de Grok. Si bien xAI no ha especificado la fecha de lanzamiento, promete avanzar aún más en la "comprensión multimodal" y las "capacidades de generación" y aportar mejoras a diversas modalidades, como imágenes, audio y vídeo.
Foro de usuarios
mensajes de 0