Applen uusi LLM: MM1 voi vähentää useiden kehotteiden tarvetta halutun tuloksen saavuttamiseksi

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Keskeiset huomautukset

  • Applen MM1 on uusi tekoälymalli, joka harjoittelee teksti- ja kuvadataa ja mahdollisesti antaa virtaa Siri 2.0:lle.
  • MM1 käyttää multimodaalista lähestymistapaa parantaakseen suorituskykyä ja vähentääkseen useiden kehotteiden tarvetta.
  • MM1:n ainutlaatuinen arkkitehtuuri ja MoE-malli mahdollistavat sen käytön laitteissa, kuten iPhoneissa.
omena

Apple on ollut suhteellisen hiljaa suurten kielimallien (LLM) työstään, mutta uusi tutkimus viittaa siihen, että ne ovat nopeasti kiinni. MM1 on uusi menetelmä teksti- ja kuvadataa yhdistävien tekoälymallien harjoittamiseen, mikä voi nopeuttaa harjoittelua ja vähentää useiden kehotteiden tarvetta halutun tuloksen saavuttamiseksi. Tämä tulee päivien jälkeen Apple osti DarwinAI:n.

Mikä on MM1?

MM1 on tekoälymallien perhe, joista suurimmalla on 30 miljardia parametria (pienempi kuin jotkut kilpailijat, mutta silti tehokas). Parametrit viittaavat numeerisiin arvoihin, joita malli käyttää oppiessaan ja edustamaan maailmaa. Suurempi parametrien määrä tarkoittaa yleensä monimutkaisempaa mallia, joka pystyy käsittelemään laajemman valikoiman tehtäviä ja tuottamaan vivahteikkaampia tuloksia.

Se keskittyy multimodaaliseen oppimiseen, mikä tarkoittaa, että se pystyy käsittelemään ja ymmärtämään sekä tekstiä että kuvia. Tämä voisi olla suuri harppaus Sirille, jolloin se voi ymmärtää paremmin pyyntösi ja vastata asiaankuuluvammilla tiedoilla. Viime kuukausi, Apple esitteli myös tekoälykuvamanipulaattorin.

MM1:n takana olevat tutkijat väittävät, että erityyppisten harjoitustietojen yhdistäminen johtaa parempaan suorituskykyyn. MM1 käyttää a yhdistelmä kuvien kuvatekstejä, vain tekstiä sisältävää dataa ja visuaalista vastausta kysymykseen mallin kouluttamiseksi. Tämän ansiosta MM1 voi suorittaa tehtäviä, kuten kuvien tekstityksen, visuaalisen kysymyksen vastaamisen ja luonnollisen kielen ymmärtämisen.

MM1 käyttää ainutlaatuista arkkitehtuuria korkeamman kuvan resoluution koodereineen ja erilaista lähestymistapaa esikoulutukseen ja merkintöihin. Se käyttää myös asiantuntijoiden yhdistelmämallia (MoE) skaalaamiseen ja pitää käsittelyvaatimukset alhaisina, mikä tarkoittaa, että sitä voidaan mahdollisesti käyttää laitteissa, kuten iPhoneissa ja kannettavissa tietokoneissa.

Tutkimuspaperissa ei mainita nimenomaisesti Siriä, mutta keskittyminen tehokkuuteen, minimaalisiin kehotuksiin ja multimodaalisiin ominaisuuksiin vihjaa Applen suunnasta Sirin tulevaisuudelle. Aikaisemmin a leaker ehdotti älykkäämpää Siriä GenAI-tilaustarjouksilla.

Kanssa Apple tuo muita LLM-yrityksiä, kuten Geminin, iPhoneenNäyttää siltä, ​​​​että Apple omaksuu monitahoisen lähestymistavan tekoälyn kehitykseen.

Lisää: tätä.