Το Claude 3 Opus ξεπερνά το GPT-4 του OpenAI στη σημαντική κατάταξη chatbot

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

Βασικές σημειώσεις

  • Το Claude 3 Opus κέρδισε το GPT-4 του OpenAI και έγινε το νούμερο ένα στην κατάταξη της Arena.
  • Το Claude 3 Opus έχει Elo Score 1253, λίγο περισσότερο από το GPT-4.
  • Τα αποτελέσματα βασίζονται στο πόσο ικανοποιημένοι ήταν οι χρήστες με τα αποτελέσματα πολλών μοντέλων τεχνητής νοημοσύνης.

Ανθρωπικός ανακοίνωσε η οικογένεια μοντέλων Claude 3 νωρίτερα αυτόν τον μήνα, υποστηρίζοντας ότι μπορεί να ξεπεράσει το GPT-4 του OpenAI. Η εταιρεία έδειξε διάφορες μετρήσεις απόδοσης του μοντέλου και τις συνέκρινε με αυτές των ανταγωνιστικών chatbot για να καταλήξει σε αυτό το συμπέρασμα. Τώρα, η υπεροχή του Claude 3 αντανακλά και στον πίνακα κατάταξης της Arena.

Το Claude 3 Opus κερδίζει το GPT-4 για να γίνει το νούμερο ένα

Το Claude 3 Opus βρίσκεται στην κορυφή της κατάταξης LYMSYS Chatbot Arena για να ωθήσει το μοντέλο GPT-4 στη δεύτερη θέση. Το Claude 3 Opus κέρδισε βαθμολογία Elo 1253, λίγο περισσότερο από το 1251 του GPT-4. Είναι το ίδιο σκορ που κρίνει πόσο επιδέξιοι είναι οι σκακιστές. Αλλά σε αυτή την περίπτωση, οι βαθμολογίες αναφοράς κρίνουν διάφορα μοντέλα AI, όχι σκακιστές.

Ωστόσο, το LYMSYS Chatbot Arena δεν είναι τέλειο. Τα αποτελέσματα συγκριτικής αξιολόγησης που δείχνει βασίζονται στην ψήφο των πολιτών. Ως εκ τούτου, οι βαθμολογίες ενημερώθηκαν μετά από 70 χιλιάδες νέες ψήφους. Επομένως, θεωρητικά, μια καλύτερη βαθμολογία θα πρέπει να δείχνει ότι η συνολική απόδοση του μοντέλου AI ήταν καλύτερη. Αλλά πολλές φορές, το πόσο καλή είναι η έξοδος εξαρτάται από το ποιος την βλέπει. Οι χρήστες παραπονούνται επίσης ότι το GPT-4 δεν φορτώνεται σωστά στο Chatbot Arena (μέσω Ο οδηγός του Τομ). Παρόλα αυτά, το OpenAI κατείχε την πρώτη θέση όλα αυτά τα χρόνια έως ότου εκδιώχθηκε από το Claude 3 Opus πριν από λίγες ώρες.

Ενώ μια ενημερωμένη κατάταξη του Arena πιθανότατα θα προκαλέσει περισσότερο ενδιαφέρον για τα μοντέλα AI της Anthropic, το OpenAI έχει σχέδια να κυκλοφορήσει το GPT-5 αυτό το καλοκαίρι, το οποίο λέγεται ότι είναι «υλικά καλύτερο». Εάν αυτό αποδειχτεί, το OpenAI είναι πιθανό να ανακτήσει την πρώτη του θέση στον πίνακα κατάταξης του Arena.

Περισσότερα για τα θέματα: Ανθρωπικός, Claude 3 Opus, GPT-4

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *