Appleov ReALM AI model može 'vidjeti' i razumjeti kontekst zaslona; 'znatno nadmašio' GPT-4

Naslovna » Vijesti iz kluba

2 min. čitati

Objavljeno na Travnja 3, 2024

by Devesh Beri

objavljeno Travnja 3, 2024

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Ključne napomene

Appleov ReALM razumije što je na vašem zaslonu i u skladu s tim odgovara na vaše zahtjeve.
ReALM je nadmašio GPT-4 na raznim zadacima unatoč tome što je imao manje parametara.
ReALM se ističe u razumijevanju namjera korisnika za upite specifične za domenu.

Appleovi istraživači predstavili su novi AI sustav nazvan ReALM koji može razumjeti što je na vašem ekranu i u skladu s tim odgovoriti na vaše zahtjeve. Ovaj proboj dolazi nakon Applea kupila DarwinAI prošli mjesec.

ReALM to postiže pretvaranjem informacija na vašem zaslonu u tekst, omogućujući im da funkcioniraju na uređajima bez potrebe za prepoznavanje glomaznih slika. Može uzeti u obzir što je na zaslonu i zadatke koji se izvode u pozadini.

Prema istraživačkom radu, Appleovi veći ReALM modeli značajno su nadmašili GPT-4 unatoč tome što su imali manje parametara.

Zamislite da pregledavate web stranicu i pronađete tvrtku koju želite nazvati. Uz ReALM, možete reći Siri da "nazove ovu tvrtku", a Siri će moći "vidjeti" telefonski broj i izravno pokrenuti poziv.

Ovo je samo jedan primjer kako ReALM-ovo razumijevanje informacija na ekranu može poboljšati korisničko iskustvo. Integracijom ReALM-a u buduća ažuriranja Siri, Apple bi mogao stvoriti besprijekornije korisničko iskustvo bez upotrebe ruku. Apple također radi na MM1, koji može smanjiti potrebu za višestrukim upitima za postizanje željenog rezultata, Te AI manipulator slika,

Istraživački rad također detaljno opisuje mjerila u kojima je ReALM nadmašio prethodne modele na različitim skupovima podataka, uključujući konverzacijske, sintetičke i neviđene konverzacijske skupove podataka. Naime, ReALM je bio konkurentan s GPT-4 na zadacima koji uključuju informacije na ekranu, iako je GPT-4 dobio pristup snimkama zaslona dok se ReALM oslanjao isključivo na tekstualno kodiranje. Gledano na X.

U istraživačkom radu Appleovi su istraživači predstavili ReALM.

To je novi AI sustav koji može razumjeti zadatke na zaslonu, kontekst razgovora i pozadinske procese.

Istraživači su rekli da je 'znatno nadmašio' GPT-4.

Pročitajte više: https://t.co/5YY5E0kbsk pic.twitter.com/6M8kQiVnKo
— Rowan Cheung (@rowancheung) Travnja 3, 2024

Također istražuje prednosti ReALM-ovih različitih veličina modela. Iako svi modeli imaju bolje rezultate s više parametara, poboljšanje je najvažnije za obradu informacija na zaslonu, što ukazuje na složenost ovog zadatka.

Pri ocjenjivanju izvedbe na potpuno novim, neviđenim domenama, i ReALM i GPT-4 pokazali su slične rezultate. Međutim, ReALM je nadmašio GPT-4 kada je riječ o upitima specifičnim za domenu zbog finog podešavanja na zahtjeve korisnika. To omogućuje ReALM-u da shvati nijanse korisničkih namjera i odgovori u skladu s tim.

Sve u svemu, istraživanje pokazuje kako ReALM koristi LLM za referentnu rezoluciju. ReALM može razumjeti zaslon korisnika i njihove zahtjeve pretvaranjem entiteta na ekranu u tekst na prirodnom jeziku, čak i dok ostaje učinkovit za aplikacije na uređaju.

Iako ReALM učinkovito kodira položaj entiteta na ekranu, istraživači kažu da možda neće uhvatiti svaki detalj za zamršene korisničke upite koji zahtijevaju složeno razumijevanje prostornih odnosa.

Devesh Beri

Tehnički novinar

Ovo su stvari koje me motiviraju - stvaranje informativnog i korisnog sadržaja, bavljenje mojom strašću prema motosportu i glazbi, sudjelovanje u ekspedicijama, održavanje zdravog načina života i provođenje vremena sa svojom ljupkom mačkom Tacom.

Ostavi odgovor