Apple'ın ReALM AI modeli ekran bağlamını 'görebilir' ve anlayabilir; GPT-4'ten 'önemli ölçüde daha iyi performans gösterdi'

Okuma zamanı simgesi 2 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Önemli notlar

  • Apple'ın ReALM'i ekranınızdakileri anlar ve isteklerinize buna göre yanıt verir.
  • ReALM, daha az parametreye sahip olmasına rağmen çeşitli görevlerde GPT-4'ten daha iyi performans gösterdi.
  • ReALM, alana özel sorgular için kullanıcının amacını anlama konusunda üstündür.
Apple

Apple araştırmacıları, ekranınızdakileri anlayabilen ve isteklerinize buna göre yanıt verebilen, ReALM adı verilen yeni bir yapay zeka sistemini tanıttı. Bu atılım Apple'dan sonra geliyor Geçen ay DarwinAI'yi satın aldı.

ReALM bunu, ekranınızdaki bilgileri metne dönüştürerek, büyük görüntü tanıma gerektirmeden cihazlarda çalışmasına olanak tanıyarak başarır. Ekranda olanları ve arka planda çalışan görevleri dikkate alabilir.

Bir araştırma makalesine göre Apple'ın daha büyük ReALM modelleri, daha az parametreye sahip olmasına rağmen GPT-4'ü önemli ölçüde geride bıraktı.

Bir web sayfasına göz attığınızı ve aramak istediğiniz bir işletmeyi bulduğunuzu hayal edin. ReALM ile Siri'ye "bu işletmeyi aramasını" söyleyebilirsiniz ve Siri telefon numarasını "görebilir" ve aramayı doğrudan başlatabilir.

Bu, ReALM'in ekrandaki bilgileri anlayışının kullanıcı deneyimini nasıl geliştirebileceğinin yalnızca bir örneğidir. Apple, ReALM'i gelecekteki Siri güncellemelerine entegre ederek daha kusursuz ve eller serbest bir kullanıcı deneyimi yaratabilir. Apple aynı zamanda MM1 üzerinde de çalışıyor. İstenilen sonucu elde etmek için birden fazla istem ihtiyacını azaltabilirVe bir AI görüntü manipülatörü,

Araştırma makalesi ayrıca ReALM'in konuşmalı, sentetik ve görünmeyen konuşmalı veri kümeleri de dahil olmak üzere çeşitli veri kümelerinde önceki modellerden daha iyi performans gösterdiği karşılaştırmaları da ayrıntılarıyla anlatıyor. Özellikle, ReALM, ekran bilgileri içeren görevlerde GPT-4 ile rekabetçi bir performans sergiledi; buna rağmen GPT-4'e ekran görüntülerine erişim izni verilmişken ReALM yalnızca metin kodlamasına dayanıyordu. Görüldü X.

Aynı zamanda ReALM'in farklı model boyutlarının faydalarını da araştırıyor. Tüm modeller daha fazla parametreyle daha iyi performans gösterirken, iyileştirme en çok ekrandaki bilgilerin işlenmesinde anlamlıdır ve bu da bu görevin karmaşıklığını akla getirir.

Tamamen yeni, görünmeyen alanlardaki performans değerlendirilirken hem ReALM hem de GPT-4 benzer sonuçlar gösterdi. Ancak ReALM, kullanıcı isteklerine göre ince ayar yapılması nedeniyle alana özel sorgular söz konusu olduğunda GPT-4'ten daha iyi performans gösterdi. Bu, ReALM'in kullanıcı niyetinin nüanslarını kavramasına ve buna göre yanıt vermesine olanak tanır.

Genel olarak araştırma, ReALM'in referans çözümleme için LLM'leri nasıl kullandığını gösteriyor. ReALM, cihaz içi uygulamalar için verimli kalsa bile, ekrandaki varlıkları doğal dil metnine dönüştürerek kullanıcının ekranını ve isteklerini anlayabilir.

ReALM, ekrandaki varlıkların konumunu etkili bir şekilde kodlasa da araştırmacılar, mekansal ilişkilerin karmaşık bir şekilde anlaşılmasını gerektiren karmaşık kullanıcı sorguları için her ayrıntıyı yakalayamayabileceğini söylüyor. 

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *