Apple'ın ReALM AI modeli ekran bağlamını 'görebilir' ve anlayabilir; GPT-4'ten 'önemli ölçüde daha iyi performans gösterdi'

Ana Sayfa » Haberler

2 dk. okuman

Yayınlandı 3 Nisan 2024

by Deveş Beri

yayınlandı 3 Nisan 2024

Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz.

Önemli notlar

Apple'ın ReALM'i ekranınızdakileri anlar ve isteklerinize buna göre yanıt verir.
ReALM, daha az parametreye sahip olmasına rağmen çeşitli görevlerde GPT-4'ten daha iyi performans gösterdi.
ReALM, alana özel sorgular için kullanıcının amacını anlama konusunda üstündür.

Apple araştırmacıları, ekranınızdakileri anlayabilen ve isteklerinize buna göre yanıt verebilen, ReALM adı verilen yeni bir yapay zeka sistemini tanıttı. Bu atılım Apple'dan sonra geliyor Geçen ay DarwinAI'yi satın aldı.

ReALM bunu, ekranınızdaki bilgileri metne dönüştürerek, büyük görüntü tanıma gerektirmeden cihazlarda çalışmasına olanak tanıyarak başarır. Ekranda olanları ve arka planda çalışan görevleri dikkate alabilir.

Bir araştırma makalesine göre Apple'ın daha büyük ReALM modelleri, daha az parametreye sahip olmasına rağmen GPT-4'ü önemli ölçüde geride bıraktı.

Bir web sayfasına göz attığınızı ve aramak istediğiniz bir işletmeyi bulduğunuzu hayal edin. ReALM ile Siri'ye "bu işletmeyi aramasını" söyleyebilirsiniz ve Siri telefon numarasını "görebilir" ve aramayı doğrudan başlatabilir.

Bu, ReALM'in ekrandaki bilgileri anlayışının kullanıcı deneyimini nasıl geliştirebileceğinin yalnızca bir örneğidir. Apple, ReALM'i gelecekteki Siri güncellemelerine entegre ederek daha kusursuz ve eller serbest bir kullanıcı deneyimi yaratabilir. Apple aynı zamanda MM1 üzerinde de çalışıyor. İstenilen sonucu elde etmek için birden fazla istem ihtiyacını azaltabilirVe bir AI görüntü manipülatörü,

Araştırma makalesi ayrıca ReALM'in konuşmalı, sentetik ve görünmeyen konuşmalı veri kümeleri de dahil olmak üzere çeşitli veri kümelerinde önceki modellerden daha iyi performans gösterdiği karşılaştırmaları da ayrıntılarıyla anlatıyor. Özellikle, ReALM, ekran bilgileri içeren görevlerde GPT-4 ile rekabetçi bir performans sergiledi; buna rağmen GPT-4'e ekran görüntülerine erişim izni verilmişken ReALM yalnızca metin kodlamasına dayanıyordu. Görüldü X.

Bir araştırma makalesinde Apple araştırmacıları ReALM'i tanıttı.

Ekrandaki görevleri, konuşma içeriğini ve arka plan süreçlerini anlayabilen yeni bir yapay zeka sistemidir.

Araştırmacılar bunun GPT-4'ten 'önemli ölçüde daha iyi performans gösterdiğini' söyledi.

Daha fazla oku: https://t.co/5YY5E0kbsk pic.twitter.com/6M8kQiVnKo
— Rowan Cheung (@rowancheung) 3 Nisan 2024

Aynı zamanda ReALM'in farklı model boyutlarının faydalarını da araştırıyor. Tüm modeller daha fazla parametreyle daha iyi performans gösterirken, iyileştirme en çok ekrandaki bilgilerin işlenmesinde anlamlıdır ve bu da bu görevin karmaşıklığını akla getirir.

Tamamen yeni, görünmeyen alanlardaki performans değerlendirilirken hem ReALM hem de GPT-4 benzer sonuçlar gösterdi. Ancak ReALM, kullanıcı isteklerine göre ince ayar yapılması nedeniyle alana özel sorgular söz konusu olduğunda GPT-4'ten daha iyi performans gösterdi. Bu, ReALM'in kullanıcı niyetinin nüanslarını kavramasına ve buna göre yanıt vermesine olanak tanır.

Genel olarak araştırma, ReALM'in referans çözümleme için LLM'leri nasıl kullandığını gösteriyor. ReALM, cihaz içi uygulamalar için verimli kalsa bile, ekrandaki varlıkları doğal dil metnine dönüştürerek kullanıcının ekranını ve isteklerini anlayabilir.

ReALM, ekrandaki varlıkların konumunu etkili bir şekilde kodlasa da araştırmacılar, mekansal ilişkilerin karmaşık bir şekilde anlaşılmasını gerektiren karmaşık kullanıcı sorguları için her ayrıntıyı yakalayamayabileceğini söylüyor.

Deveş Beri

Teknoloji Gazetecisi

Bunlar beni motive eden şeyler: bilgilendirici ve faydalı içerikler oluşturmak, motor sporları ve müzik tutkumun peşinden gitmek, keşif gezilerine katılmak, sağlıklı bir yaşam tarzı sürdürmek ve sevimli kedim Taco ile vakit geçirmek.

Yorum bırak