Το μοντέλο ReALM AI της Apple μπορεί να «βλέπει» και να κατανοεί το περιβάλλον της οθόνης. Το GPT-4 είχε «σημαντικά καλύτερες επιδόσεις».

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

Βασικές σημειώσεις

  • Το ReALM της Apple κατανοεί τι υπάρχει στην οθόνη σας και ανταποκρίνεται ανάλογα στα αιτήματά σας.
  • Το ReALM ξεπέρασε το GPT-4 σε διάφορες εργασίες παρά το γεγονός ότι είχε λιγότερες παραμέτρους.
  • Το ReALM υπερέχει στην κατανόηση της πρόθεσης του χρήστη για ερωτήματα για συγκεκριμένο τομέα.
Apple

Οι ερευνητές της Apple παρουσίασαν ένα νέο σύστημα τεχνητής νοημοσύνης που ονομάζεται ReALM που μπορεί να κατανοήσει τι υπάρχει στην οθόνη σας και να ανταποκριθεί στα αιτήματά σας ανάλογα. Αυτή η ανακάλυψη έρχεται μετά την Apple απέκτησε την DarwinAI τον περασμένο μήνα.

Το ReALM το επιτυγχάνει μετατρέποντας τις πληροφορίες στην οθόνη σας σε κείμενο, επιτρέποντάς της να λειτουργεί σε συσκευές χωρίς να απαιτείται ογκώδης αναγνώριση εικόνας. Μπορεί να εξετάσει τι υπάρχει στην οθόνη και τις εργασίες που εκτελούνται στο παρασκήνιο.

Σύμφωνα με μια ερευνητική εργασία, τα μεγαλύτερα μοντέλα ReALM της Apple ξεπέρασαν σημαντικά το GPT-4 παρά το γεγονός ότι είχαν λιγότερες παραμέτρους.

Φανταστείτε ότι περιηγείστε σε μια ιστοσελίδα και βρίσκετε μια επιχείρηση που θα θέλατε να καλέσετε. Με το ReALM, θα μπορούσατε να πείτε στη Siri να "καλέσει αυτήν την επιχείρηση" και η Siri θα μπορούσε να "δει" τον αριθμό τηλεφώνου και να πραγματοποιήσει απευθείας την κλήση.

Αυτό είναι μόνο ένα παράδειγμα του τρόπου με τον οποίο η κατανόηση των πληροφοριών επί της οθόνης από την ReALM μπορεί να βελτιώσει την εμπειρία του χρήστη. Με την ενσωμάτωση του ReALM στις μελλοντικές ενημερώσεις του Siri, η Apple θα μπορούσε να δημιουργήσει μια πιο απρόσκοπτη και hands-free εμπειρία χρήστη. Η Apple τυγχάνει επίσης να εργάζεται στο MM1, το οποίο μπορεί να μειώσει την ανάγκη για πολλαπλές προτροπές για να έχετε το επιθυμητό αποτέλεσμα, Και ένα Χειριστής εικόνας AI,

Το ερευνητικό έγγραφο περιγράφει επίσης σημεία αναφοράς όπου το ReALM ξεπέρασε τα προηγούμενα μοντέλα σε διάφορα σύνολα δεδομένων, συμπεριλαμβανομένων των συνόλων δεδομένων συνομιλίας, συνθετικών και μη ορατών. Συγκεκριμένα, το ReALM απέδωσε ανταγωνιστικά με το GPT-4 σε εργασίες που αφορούσαν πληροφορίες στην οθόνη, παρόλο που το GPT-4 είχε πρόσβαση σε στιγμιότυπα οθόνης ενώ το ReALM βασιζόταν αποκλειστικά στην κωδικοποίηση κειμένου. Βλέπεται στις X.

Διερευνά επίσης τα πλεονεκτήματα των διαφορετικών μεγεθών μοντέλων της ReALM. Ενώ όλα τα μοντέλα αποδίδουν καλύτερα με περισσότερες παραμέτρους, η βελτίωση είναι πιο σημαντική για την επεξεργασία πληροφοριών στην οθόνη, υποδηλώνοντας την πολυπλοκότητα αυτής της εργασίας.

Κατά την αξιολόγηση της απόδοσης σε εντελώς νέους, μη εμφανείς τομείς, τόσο το ReALM όσο και το GPT-4 έδειξαν παρόμοια αποτελέσματα. Ωστόσο, το ReALM ξεπέρασε τις επιδόσεις του GPT-4 όταν επρόκειτο για ερωτήματα για συγκεκριμένο τομέα, λόγω του μικροσυντονισμού στα αιτήματα των χρηστών. Αυτό επιτρέπει στο ReALM να κατανοήσει τις αποχρώσεις της πρόθεσης του χρήστη και να ανταποκριθεί ανάλογα.

Συνολικά, η έρευνα δείχνει πώς το ReALM χρησιμοποιεί LLM για ανάλυση αναφοράς. Το ReALM μπορεί να κατανοήσει την οθόνη του χρήστη και τα αιτήματά του μετατρέποντας οντότητες στην οθόνη σε κείμενο φυσικής γλώσσας, ακόμη και αν παραμένει αποτελεσματικό για εφαρμογές στη συσκευή.

Ενώ το ReALM κωδικοποιεί αποτελεσματικά τη θέση των οντοτήτων στην οθόνη, οι ερευνητές λένε ότι μπορεί να μην καταγράφει κάθε λεπτομέρεια για περίπλοκα ερωτήματα των χρηστών που απαιτούν πολύπλοκη κατανόηση των χωρικών σχέσεων. 

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *