Model Apple ReALM AI dokáže „vidět“ a chápat kontext obrazovky; „podstatně překonal“ GPT-4

Domů » Novinky

2 min. číst

Publikované dne 3. dubna 2024

by Devesh Beri

publikováno dne 3. dubna 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Klíčové poznámky

Apple ReALM rozumí tomu, co je na vaší obrazovce, a podle toho reaguje na vaše požadavky.
ReALM překonal GPT-4 v různých úkolech, přestože měl méně parametrů.
ReALM vyniká v porozumění záměru uživatele pro dotazy specifické pro doménu.

Výzkumníci společnosti Apple odhalili nový systém umělé inteligence nazvaný ReALM, který dokáže porozumět tomu, co je na vaší obrazovce, a odpovídajícím způsobem reagovat na vaše požadavky. Tento průlom přichází po Applu minulý měsíc získala DarwinAI.

ReALM toho dosahuje převodem informací na vaší obrazovce na text, což mu umožňuje fungovat na zařízeních bez nutnosti rozpoznávání objemných obrázků. Může zvážit, co je na obrazovce a úkoly běžící na pozadí.

Podle výzkumného dokumentu větší modely ReALM společnosti Apple výrazně překonaly GPT-4, přestože měly méně parametrů.

Představte si, že prohlížíte webovou stránku a najdete firmu, do které byste rádi zavolali. S ReALM můžete Siri říct, aby „zavolala do této firmy“ a Siri by mohla „vidět“ telefonní číslo a přímo zahájit hovor.

Toto je jen jeden příklad toho, jak může ReALM porozumění informacím na obrazovce zlepšit uživatelskou zkušenost. Začleněním ReALM do budoucích aktualizací Siri by Apple mohl vytvořit hladší a hands-free uživatelský zážitek. Apple také náhodou pracuje na MM1, který může snížit potřebu více výzev k získání požadovaného výsledkuA AI obrazový manipulátor,

Výzkumný dokument také podrobně popisuje benchmarky, kde ReALM překonal předchozí modely na různých souborech dat, včetně konverzačních, syntetických a neviditelných konverzačních datových sad. Je pozoruhodné, že ReALM si vedl konkurenceschopně s GPT-4 v úkolech zahrnujících informace na obrazovce, i když GPT-4 měl přístup ke snímkům obrazovky, zatímco ReALM se spoléhal pouze na textové kódování. Viděno na X.

Ve výzkumném dokumentu představili výzkumníci společnosti Apple ReALM.

Je to nový systém umělé inteligence, který dokáže porozumět úkolům na obrazovce, kontextu konverzace a procesům na pozadí.

Výzkumníci uvedli, že „podstatně překonal“ GPT-4.

Čtěte více: https://t.co/5YY5E0kbsk pic.twitter.com/6M8kQiVnKo
— Rowan Cheung (@rowancheung) 3. dubna 2024

Zkoumá také výhody různých velikostí modelů ReALM. Zatímco všechny modely fungují lépe s více parametry, vylepšení je nejsmysluplnější pro zpracování informací na obrazovce, což naznačuje složitost tohoto úkolu.

Při hodnocení výkonu na zcela nových, neviditelných doménách, ReALM i GPT-4 vykazovaly podobné výsledky. ReALM však překonal GPT-4, pokud jde o dotazy specifické pro doménu, protože byl doladěn na požadavky uživatelů. To umožňuje ReALM pochopit nuance záměru uživatele a odpovídajícím způsobem reagovat.

Celkově výzkum ukazuje, jak ReALM používá LLM pro referenční rozlišení. ReALM dokáže porozumět obrazovce uživatele a jeho požadavkům tím, že převede entity na obrazovce na text v přirozeném jazyce, i když zůstane efektivní pro aplikace na zařízení.

Zatímco ReALM efektivně kóduje pozici entit na obrazovce, výzkumníci říkají, že nemusí zachytit každý detail pro složité uživatelské dotazy vyžadující komplexní pochopení prostorových vztahů.

Devesh Beri

Technický novinář

To jsou věci, které mě motivují – vytvářet informativní a užitečný obsah, věnovat se své vášni pro motoristický sport a hudbu, účastnit se expedic, udržovat zdravý životní styl a trávit čas se svou rozkošnou kočkou Taco.

Napsat komentář