Elon Muskin xAI julkistaa Grok-1.5 Visionin, jossa on multimodaalinen ominaisuus

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Keskeiset huomautukset

  • Elon Muskin xAI on julkistanut Grok-1.5 Visionin tai Grok-1.5V.
  • Grok-1.5V on yhtiön ensimmäinen multimodaalinen malli, ja se on pian saatavilla varhaisille testaajille ja olemassa oleville Grokin käyttäjille.
  • Grok-1.5V pystyy käsittelemään tekstiä ja visuaalista tietoa.

Viime kuussa Elon Musk lanseerasi Grok-1.5 LLM:n päivää myöhemmin Google julkaisi Gemini 1.5:n. Vaikka Muskin xAI väitti, että sen malli on lähellä GPT-4:n suorituskykyä, sillä ei ole multimodaalista kykyä. Yrityksen äskettäin julkistamassa Grok-1.5 Visionissa ei kuitenkaan ole tätä rajoitusta, koska se pystyy käsittelemään sekä tekstiä että visuaalista tietoa.

Mikä Grok-1.5 Vision (Grok-1.5V) on ja milloin se on saatavilla?

Grok-1.5V on xAI:n ensimmäisen sukupolven multimodaalinen malli, jonka tavoitteena on yhdistää digitaalinen ja fyysinen maailma. "Grok ylittää vertailunsa uudessa RealWorldQA-vertailuindeksissämme, joka mittaa todellisen maailman spatiaalista ymmärrystä", yhtiö sanoi. blogi. Lisäksi Grok-1.5V voi "käsitellä monenlaista visuaalista tietoa, mukaan lukien asiakirjoja, kaavioita, kaavioita, kuvakaappauksia ja valokuvia."

Joitakin jännittäviä asioita, joita se voi tehdä, ovat esimerkiksi koodin kirjoittaminen kaaviosta, kalorien laskeminen, nukkumaanmenotarinoiden tekeminen piirustusten perusteella, meemin ymmärtäminen ja paljon muuta. xAI väittää, että Grok-1.5V toimii paremmin kuin kilpailijansa LLM:t, mukaan lukien GPT-4V, Claude 3Sonnet, Claude 3 Opus ja Gemini Pro, RealWorldQA-benchmarkissa.

"Grok ylittää vertailunsa uudessa RealWorldQA-vertailussa, joka mittaa todellisen maailman spatiaalista ymmärrystä", xAI korosti.

Grok-1.5V ei ole tällä hetkellä saatavilla, mutta se on pian tulossa varhaisille testaajille ja olemassa oleville Grokin käyttäjille esikatseluna. Vaikka xAI ei ole määrittänyt julkaisupäivämäärää, sen on luvattu edistää "multimodaalista ymmärrystä" ja "sukupolviominaisuuksia" ja tuoda parannuksia erilaisiin modaliteeteihin, kuten kuviin, ääneen ja videoon.