Elon Musk의 xAI, 다중 모드 기능을 갖춘 Grok-1.5 Vision 발표
2 분. 읽다
에 게시됨
공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기
주요 사항
- Elon Musk의 xAI는 Grok-1.5 Vision 또는 Grok-1.5V를 발표했습니다.
- Grok-1.5V는 회사 최초의 다중 모드 모델이며 곧 초기 테스터와 기존 Grok 사용자에게 제공될 예정입니다.
- Grok-1.5V는 텍스트와 시각적 정보를 처리할 수 있습니다.
지난달 Elon Musk는 며칠 후 Grok-1.5 LLM을 출시했습니다. 구글, Gemini 1.5 출시. Musk의 xAI는 자사 모델이 GPT-4 성능에 가깝다고 주장하지만 다중 모드 기능은 없습니다. 그러나 회사가 최근 발표한 Grok-1.5 Vision에는 텍스트와 시각적 정보를 모두 처리할 수 있으므로 이러한 제한이 없습니다.
Grok-1.5 Vision(Grok-1.5V)은 무엇이며 언제 출시되나요?
Grok-1.5V는 디지털 세계와 물리적 세계를 연결하는 것을 목표로 하는 xAI의 XNUMX세대 다중 모드 모델입니다. 회사는 "Grok은 실제 공간 이해를 측정하는 새로운 RealWorldQA 벤치마크에서 경쟁사보다 뛰어난 성능을 발휘합니다."라고 밝혔습니다. 블로그 게시물. 또한 Grok-1.5V는 "문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 다양한 시각적 정보를 처리"할 수 있습니다.
예를 들어, 다이어그램에서 코드 작성, 칼로리 계산, 그림을 기반으로 취침 시간 이야기 만들기, 밈 이해 지원 등의 흥미로운 작업을 수행할 수 있습니다. xAI는 RealWorldQA 벤치마크에서 Grok-1.5V가 GPT-4V, Claude 3Sonnet, Claude 3 Opus 및 Gemini Pro를 포함한 경쟁 LLM보다 더 나은 성능을 발휘한다고 주장합니다.
xAI는 “Grok은 실제 공간 이해를 측정하는 새로운 RealWorldQA 벤치마크에서 동종 제품보다 뛰어난 성능을 발휘합니다.”라고 강조했습니다.
Grok-1.5V는 현재 사용할 수 없지만 곧 초기 테스터와 기존 Grok 사용자에게 미리보기로 제공될 예정입니다. xAI는 출시 날짜를 명시하지 않았지만 "다중 모드 이해"와 "생성 기능"을 더욱 발전시키고 이미지, 오디오 및 비디오와 같은 다양한 형식을 개선할 것이라고 약속했습니다.
사용자 포럼
0 메시지