Model Apple ReALM AI dokáže „vidět“ a chápat kontext obrazovky; „podstatně překonal“ GPT-4

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Klíčové poznámky

  • Apple ReALM rozumí tomu, co je na vaší obrazovce, a podle toho reaguje na vaše požadavky.
  • ReALM překonal GPT-4 v různých úkolech, přestože měl méně parametrů.
  • ReALM vyniká v porozumění záměru uživatele pro dotazy specifické pro doménu.
jablko

Výzkumníci společnosti Apple odhalili nový systém umělé inteligence nazvaný ReALM, který dokáže porozumět tomu, co je na vaší obrazovce, a odpovídajícím způsobem reagovat na vaše požadavky. Tento průlom přichází po Applu minulý měsíc získala DarwinAI.

ReALM toho dosahuje převodem informací na vaší obrazovce na text, což mu umožňuje fungovat na zařízeních bez nutnosti rozpoznávání objemných obrázků. Může zvážit, co je na obrazovce a úkoly běžící na pozadí.

Podle výzkumného dokumentu větší modely ReALM společnosti Apple výrazně překonaly GPT-4, přestože měly méně parametrů.

Představte si, že prohlížíte webovou stránku a najdete firmu, do které byste rádi zavolali. S ReALM můžete Siri říct, aby „zavolala do této firmy“ a Siri by mohla „vidět“ telefonní číslo a přímo zahájit hovor.

Toto je jen jeden příklad toho, jak může ReALM porozumění informacím na obrazovce zlepšit uživatelskou zkušenost. Začleněním ReALM do budoucích aktualizací Siri by Apple mohl vytvořit hladší a hands-free uživatelský zážitek. Apple také náhodou pracuje na MM1, který může snížit potřebu více výzev k získání požadovaného výsledkuA AI obrazový manipulátor,

Výzkumný dokument také podrobně popisuje benchmarky, kde ReALM překonal předchozí modely na různých souborech dat, včetně konverzačních, syntetických a neviditelných konverzačních datových sad. Je pozoruhodné, že ReALM si vedl konkurenceschopně s GPT-4 v úkolech zahrnujících informace na obrazovce, i když GPT-4 měl přístup ke snímkům obrazovky, zatímco ReALM se spoléhal pouze na textové kódování. Viděno na X.

Zkoumá také výhody různých velikostí modelů ReALM. Zatímco všechny modely fungují lépe s více parametry, vylepšení je nejsmysluplnější pro zpracování informací na obrazovce, což naznačuje složitost tohoto úkolu.

Při hodnocení výkonu na zcela nových, neviditelných doménách, ReALM i GPT-4 vykazovaly podobné výsledky. ReALM však překonal GPT-4, pokud jde o dotazy specifické pro doménu, protože byl doladěn na požadavky uživatelů. To umožňuje ReALM pochopit nuance záměru uživatele a odpovídajícím způsobem reagovat.

Celkově výzkum ukazuje, jak ReALM používá LLM pro referenční rozlišení. ReALM dokáže porozumět obrazovce uživatele a jeho požadavkům tím, že převede entity na obrazovce na text v přirozeném jazyce, i když zůstane efektivní pro aplikace na zařízení.

Zatímco ReALM efektivně kóduje pozici entit na obrazovce, výzkumníci říkají, že nemusí zachytit každý detail pro složité uživatelské dotazy vyžadující komplexní pochopení prostorových vztahů. 

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *