XAI Ілона Маска анонсує Grok-1.5 Vision з мультимодальними можливостями
2 хв. читати
Опубліковано
Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі
Основні нотатки
- XAI Ілона Маска анонсувала Grok-1.5 Vision або Grok-1.5V.
- Grok-1.5V є першою мультимодальною моделлю компанії, яка незабаром буде доступна першим тестувальникам і існуючим користувачам Grok.
- Грок-1.5В може обробляти текстову та візуальну інформацію.
Минулого місяця Ілон Маск запустив Grok-1.5 LLM через декілька днів Google випустив Gemini 1.5. Хоча xAI Маска стверджував, що його модель близька до продуктивності GPT-4, вона не має мультимодальних можливостей. Однак нещодавно анонсований компанією Grok-1.5 Vision не має цього обмеження, оскільки він може обробляти як текстову, так і візуальну інформацію.
Що таке Grok-1.5 Vision (Grok-1.5V) і коли він буде доступний?
Grok-1.5V — це мультимодальна модель першого покоління xAI, яка покликана поєднати цифровий і фізичний світи. «Grok перевершує своїх аналогів у нашому новому тесті RealWorldQA, який вимірює розуміння простору в реальному світі», — заявила компанія в блог. Крім того, Grok-1.5V може «обробляти широкий спектр візуальної інформації, включаючи документи, діаграми, діаграми, скріншоти та фотографії».
Наприклад, деякі з захоплюючих речей, які він може робити, включають написання коду на основі діаграми, підрахунок калорій, створення казок перед сном на основі малюнків, допомогу вам зрозуміти меми тощо. xAI стверджує, що Grok-1.5V працює краще, ніж його конкуренти LLM, включаючи GPT-4V, Claude 3Sonnet, Claude 3 Opus і Gemini Pro, у тесті RealWorldQA.
«Grok перевершує своїх аналогів у нашому новому тесті RealWorldQA, який вимірює розуміння простору в реальному світі», — підкреслив xAI.
Grok-1.5V наразі недоступний, але незабаром він стане доступним для ранніх тестувальників і існуючих користувачів Grok як попередній перегляд. Хоча xAI не вказав дату запуску, він обіцяє подальший розвиток «мультимодального розуміння» та «можливостей генерації», а також покращить різні модальності, такі як зображення, аудіо та відео.
Форум користувачів
0 повідомлення