Appleov ReALM AI model može 'vidjeti' i razumjeti kontekst zaslona; 'znatno nadmašio' GPT-4

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ključne napomene

  • Appleov ReALM razumije što je na vašem zaslonu i u skladu s tim odgovara na vaše zahtjeve.
  • ReALM je nadmašio GPT-4 na raznim zadacima unatoč tome što je imao manje parametara.
  • ReALM se ističe u razumijevanju namjera korisnika za upite specifične za domenu.
jabuka

Appleovi istraživači predstavili su novi AI sustav nazvan ReALM koji može razumjeti što je na vašem ekranu i u skladu s tim odgovoriti na vaše zahtjeve. Ovaj proboj dolazi nakon Applea kupila DarwinAI prošli mjesec.

ReALM to postiže pretvaranjem informacija na vašem zaslonu u tekst, omogućujući im da funkcioniraju na uređajima bez potrebe za prepoznavanje glomaznih slika. Može uzeti u obzir što je na zaslonu i zadatke koji se izvode u pozadini.

Prema istraživačkom radu, Appleovi veći ReALM modeli značajno su nadmašili GPT-4 unatoč tome što su imali manje parametara.

Zamislite da pregledavate web stranicu i pronađete tvrtku koju želite nazvati. Uz ReALM, možete reći Siri da "nazove ovu tvrtku", a Siri će moći "vidjeti" telefonski broj i izravno pokrenuti poziv.

Ovo je samo jedan primjer kako ReALM-ovo razumijevanje informacija na ekranu može poboljšati korisničko iskustvo. Integracijom ReALM-a u buduća ažuriranja Siri, Apple bi mogao stvoriti besprijekornije korisničko iskustvo bez upotrebe ruku. Apple također radi na MM1, koji može smanjiti potrebu za višestrukim upitima za postizanje željenog rezultata, Te AI manipulator slika,

Istraživački rad također detaljno opisuje mjerila u kojima je ReALM nadmašio prethodne modele na različitim skupovima podataka, uključujući konverzacijske, sintetičke i neviđene konverzacijske skupove podataka. Naime, ReALM je bio konkurentan s GPT-4 na zadacima koji uključuju informacije na ekranu, iako je GPT-4 dobio pristup snimkama zaslona dok se ReALM oslanjao isključivo na tekstualno kodiranje. Gledano na X.

Također istražuje prednosti ReALM-ovih različitih veličina modela. Iako svi modeli imaju bolje rezultate s više parametara, poboljšanje je najvažnije za obradu informacija na zaslonu, što ukazuje na složenost ovog zadatka.

Pri ocjenjivanju izvedbe na potpuno novim, neviđenim domenama, i ReALM i GPT-4 pokazali su slične rezultate. Međutim, ReALM je nadmašio GPT-4 kada je riječ o upitima specifičnim za domenu zbog finog podešavanja na zahtjeve korisnika. To omogućuje ReALM-u da shvati nijanse korisničkih namjera i odgovori u skladu s tim.

Sve u svemu, istraživanje pokazuje kako ReALM koristi LLM za referentnu rezoluciju. ReALM može razumjeti zaslon korisnika i njihove zahtjeve pretvaranjem entiteta na ekranu u tekst na prirodnom jeziku, čak i dok ostaje učinkovit za aplikacije na uređaju.

Iako ReALM učinkovito kodira položaj entiteta na ekranu, istraživači kažu da možda neće uhvatiti svaki detalj za zamršene korisničke upite koji zahtijevaju složeno razumijevanje prostornih odnosa. 

Ostavi odgovor

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena *