XAI de Elon Musk anuncia Grok-1.5 Vision, com capacidade multimodal

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Notas chave

  • A xAI de Elon Musk anunciou o Grok-1.5 Vision ou Grok-1.5V.
  • Grok-1.5V é o primeiro modelo multimodal da empresa e estará disponível em breve para os primeiros testadores e usuários existentes do Grok.
  • Grok-1.5V pode processar texto e informações visuais.

No mês passado, Elon Musk lançou o Grok-1.5 LLM dias depois Google lançou o Gemini 1.5. Embora o xAI de Musk afirme que seu modelo está próximo do desempenho do GPT-4, ele não possui capacidade multimodal. No entanto, o recentemente anunciado Grok-1.5 Vision da empresa não tem essa limitação, pois pode processar informações textuais e visuais.

O que é Grok-1.5 Vision (Grok-1.5V) e quando estará disponível?

Grok-1.5V é o modelo multimodal de primeira geração da xAI que visa conectar os mundos digital e físico. “Grok supera seus pares em nosso novo benchmark RealWorldQA que mede a compreensão espacial do mundo real”, disse a empresa em um comunicado. no blog. Além disso, o Grok-1.5V pode “processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias”.

Por exemplo, algumas das coisas interessantes que ele pode fazer incluem escrever código a partir de um diagrama, calcular calorias, criar histórias para dormir com base em desenhos, ajudar você a entender um meme e muito mais. xAI afirma que Grok-1.5V tem desempenho melhor do que seus LLMs rivais, incluindo GPT-4V, Claude 3Sonnet, Claude 3 Opus e Gemini Pro, no benchmark RealWorldQA.

“Grok supera seus pares em nosso novo benchmark RealWorldQA que mede a compreensão espacial do mundo real”, destacou xAI.

Grok-1.5V não está disponível no momento, mas estará disponível em breve para os primeiros testadores e usuários existentes do Grok como uma prévia. Embora xAI não tenha especificado a data de lançamento, prometeu avançar ainda mais na “compreensão multimodal” e nas “capacidades de geração” e trazer melhorias para várias modalidades, como imagens, áudio e vídeo.

Fórum de usuários

Mensagens 0