xAI Илона Маска анонсирует Grok-1.5 Vision с мультимодальными возможностями
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Ключевые заметки
- Компания xAI Илона Маска анонсировала Grok-1.5 Vision или Grok-1.5V.
- Grok-1.5V — первая мультимодальная модель компании, которая скоро будет доступна первым тестерам и существующим пользователям Grok.
- Грок-1.5В может обрабатывать текстовую и визуальную информацию.
В прошлом месяце Илон Маск запустил Grok-1.5 LLM через несколько дней после Google запустил Gemini 1.5. Хотя компания xAI Маска заявила, что ее модель близка к производительности GPT-4, она не обладает мультимодальными возможностями. Однако недавно анонсированный компанией Grok-1.5 Vision не имеет этого ограничения, поскольку может обрабатывать как текстовую, так и визуальную информацию.
Что такое Grok-1.5 Vision (Грок-1.5В) и когда он появится в продаже?
Grok-1.5V — это мультимодальная модель первого поколения xAI, целью которой является соединение цифрового и физического миров. «Grok превосходит своих конкурентов в нашем новом тесте RealWorldQA, который измеряет реальное пространственное понимание», — говорится в сообщении компании. блоге. Кроме того, «Грок-1.5В» может «обрабатывать самую различную визуальную информацию, включая документы, диаграммы, диаграммы, снимки экрана и фотографии».
Например, некоторые из интересных вещей, которые он может делать, включают в себя написание кода по диаграмме, расчет калорий, создание сказок на ночь на основе рисунков, помощь в понимании мема и многое другое. xAI утверждает, что Grok-1.5V работает лучше, чем его конкурирующие LLM, включая GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro, в тесте RealWorldQA.
«Grok превосходит своих конкурентов в нашем новом тесте RealWorldQA, который измеряет реальное пространственное понимание», — подчеркнул xAI.
Grok-1.5V в настоящее время недоступен, но скоро он станет доступен первым тестерам и существующим пользователям Grok в качестве предварительной версии. Хотя xAI не указал дату запуска, он обещает дальнейшее развитие «мультимодального понимания» и «возможностей генерации», а также улучшение различных модальностей, таких как изображения, аудио и видео.