xAI d'Elon Musk annonce Grok-1.5 Vision, avec une capacité multimodale
2 minute. lis
Publié le
Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus.
Notes clés
- Le xAI d'Elon Musk a annoncé Grok-1.5 Vision ou Grok-1.5V.
- Grok-1.5V est le premier modèle multimodal de la société et sera bientôt disponible pour les premiers testeurs et les utilisateurs Grok existants.
- Grok-1.5V peut traiter des informations textuelles et visuelles.
Le mois dernier, Elon Musk a lancé Grok-1.5 LLM quelques jours après Google a lancé Gemini 1.5. Bien que xAI de Musk affirme que son modèle est proche des performances du GPT-4, il n'a pas de capacité multimodale. Cependant, le Grok-1.5 Vision récemment annoncé par la société n'a pas cette limitation, car il peut traiter à la fois des informations textuelles et visuelles.
Qu'est-ce que Grok-1.5 Vision (Grok-1.5V) et quand sera-t-il disponible ?
Grok-1.5V est le modèle multimodal de première génération de xAI qui vise à connecter les mondes numérique et physique. "Grok surpasse ses pairs dans notre nouveau benchmark RealWorldQA qui mesure la compréhension spatiale du monde réel", a déclaré la société dans un communiqué. blog récents. De plus, Grok-1.5V peut « traiter une grande variété d’informations visuelles, notamment des documents, des diagrammes, des graphiques, des captures d’écran et des photographies ».
Par exemple, certaines des choses passionnantes qu'il peut faire incluent l'écriture de code à partir d'un diagramme, le calcul des calories, la création d'histoires au coucher basées sur des dessins, l'aide à la compréhension d'un mème, et bien plus encore. xAI affirme que Grok-1.5V fonctionne mieux que ses LLM rivaux, notamment GPT-4V, Claude 3Sonnet, Claude 3 Opus et Gemini Pro, dans le benchmark RealWorldQA.
"Grok surpasse ses pairs dans notre nouveau benchmark RealWorldQA qui mesure la compréhension spatiale du monde réel", a souligné xAI.
Grok-1.5V n'est pas disponible actuellement, mais il sera bientôt disponible en avant-première pour les premiers testeurs et les utilisateurs Grok existants. Bien que xAI n'ait pas précisé la date de lancement, il est promis de faire progresser davantage la « compréhension multimodale » et les « capacités de génération » et d'apporter des améliorations à diverses modalités telles que les images, l'audio et la vidéo.
Forum des utilisateurs
Messages 0