XAI Ілона Маска анонсує Grok-1.5 Vision з мультимодальними можливостями

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • XAI Ілона Маска анонсувала Grok-1.5 Vision або Grok-1.5V.
  • Grok-1.5V є першою мультимодальною моделлю компанії, яка незабаром буде доступна першим тестувальникам і існуючим користувачам Grok.
  • Грок-1.5В може обробляти текстову та візуальну інформацію.

Минулого місяця Ілон Маск запустив Grok-1.5 LLM через декілька днів Google випустив Gemini 1.5. Хоча xAI Маска стверджував, що його модель близька до продуктивності GPT-4, вона не має мультимодальних можливостей. Однак нещодавно анонсований компанією Grok-1.5 Vision не має цього обмеження, оскільки він може обробляти як текстову, так і візуальну інформацію.

Що таке Grok-1.5 Vision (Grok-1.5V) і коли він буде доступний?

Grok-1.5V — це мультимодальна модель першого покоління xAI, яка покликана поєднати цифровий і фізичний світи. «Grok перевершує своїх аналогів у нашому новому тесті RealWorldQA, який вимірює розуміння простору в реальному світі», — заявила компанія в блог. Крім того, Grok-1.5V може «обробляти широкий спектр візуальної інформації, включаючи документи, діаграми, діаграми, скріншоти та фотографії».

Наприклад, деякі з захоплюючих речей, які він може робити, включають написання коду на основі діаграми, підрахунок калорій, створення казок перед сном на основі малюнків, допомогу вам зрозуміти меми тощо. xAI стверджує, що Grok-1.5V працює краще, ніж його конкуренти LLM, включаючи GPT-4V, Claude 3Sonnet, Claude 3 Opus і Gemini Pro, у тесті RealWorldQA.

«Grok перевершує своїх аналогів у нашому новому тесті RealWorldQA, який вимірює розуміння простору в реальному світі», — підкреслив xAI.

Grok-1.5V наразі недоступний, але незабаром він стане доступним для ранніх тестувальників і існуючих користувачів Grok як попередній перегляд. Хоча xAI не вказав дату запуску, він обіцяє подальший розвиток «мультимодального розуміння» та «можливостей генерації», а також покращить різні модальності, такі як зображення, аудіо та відео.