XAI de Elon Musk anuncia Grok-1.5 Vision, com capacidade multimodal
2 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
Notas chave
- A xAI de Elon Musk anunciou o Grok-1.5 Vision ou Grok-1.5V.
- Grok-1.5V é o primeiro modelo multimodal da empresa e estará disponível em breve para os primeiros testadores e usuários existentes do Grok.
- Grok-1.5V pode processar texto e informações visuais.
No mês passado, Elon Musk lançou o Grok-1.5 LLM dias depois Google lançou o Gemini 1.5. Embora o xAI de Musk afirme que seu modelo está próximo do desempenho do GPT-4, ele não possui capacidade multimodal. No entanto, o recentemente anunciado Grok-1.5 Vision da empresa não tem essa limitação, pois pode processar informações textuais e visuais.
O que é Grok-1.5 Vision (Grok-1.5V) e quando estará disponível?
Grok-1.5V é o modelo multimodal de primeira geração da xAI que visa conectar os mundos digital e físico. “Grok supera seus pares em nosso novo benchmark RealWorldQA que mede a compreensão espacial do mundo real”, disse a empresa em um comunicado. no blog. Além disso, o Grok-1.5V pode “processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias”.
Por exemplo, algumas das coisas interessantes que ele pode fazer incluem escrever código a partir de um diagrama, calcular calorias, criar histórias para dormir com base em desenhos, ajudar você a entender um meme e muito mais. xAI afirma que Grok-1.5V tem desempenho melhor do que seus LLMs rivais, incluindo GPT-4V, Claude 3Sonnet, Claude 3 Opus e Gemini Pro, no benchmark RealWorldQA.
“Grok supera seus pares em nosso novo benchmark RealWorldQA que mede a compreensão espacial do mundo real”, destacou xAI.
Grok-1.5V não está disponível no momento, mas estará disponível em breve para os primeiros testadores e usuários existentes do Grok como uma prévia. Embora xAI não tenha especificado a data de lançamento, prometeu avançar ainda mais na “compreensão multimodal” e nas “capacidades de geração” e trazer melhorias para várias modalidades, como imagens, áudio e vídeo.
Fórum de usuários
Mensagens 0