קלוד 3 אופוס מנצח את ה-GPT-4 של OpenAI בדירוג הצ'אטבוטים החשוב

סמל זמן קריאה 2 דקות לקרוא


קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו. סמל טיפים

קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד

הערות עיקריות

  • קלוד 3 אופוס ניצח את ה-GPT-4 של OpenAI והפך למקום הראשון בדירוג הארנה.
  • לקלוד 3 אופוס יש ציון Elo של 1253, מעט יותר מ-GPT-4.
  • התוצאות מבוססות על מידת שביעות הרצון של המשתמשים מהתפוקות של מספר דגמי AI.

אנתרופי הכריז על משפחת דגמי קלוד 3 מוקדם יותר החודש, בטענה שהוא יכול לעלות על ה-GPT-4 של OpenAI. החברה הציגה מדדי ביצועים שונים של המודל והשוותה אותם לאלו של צ'אטבוטים יריבים כדי להסיק את המסקנה הזו. כעת, העליונות של קלוד 3 משתקפת גם בטבלת ההישגים של ארנה.

קלוד 3 אופוס ניצח את GPT-4 כדי להפוך למספר אחד

קלוד 3 אופוס עמד בראש דירוג LYMSYS Chatbot Arena כדי לדחוף את דגם ה-GPT-4 למקום השני. קלוד 3 אופוס זכה לציון Elo של 1253, קצת יותר מ-1251 של GPT-4. זה אותו ניקוד ששופט עד כמה שחקני שחמט מיומנים. אבל במקרה זה, ציוני ההשוואה שופטים דגמי AI שונים, לא שחקני שחמט.

עם זאת, LYMSYS Chatbot Arena אינו מושלם. תוצאות ההשוואה שהיא מציגה מבוססות על הצבעות של אנשים. לפיכך, הציונים עודכנו לאחר 70 אלף הצבעות חדשות. לכן, בתיאוריה, ציון טוב יותר אמור להצביע על כך שהתפוקה הכוללת של מודל הבינה המלאכותית הייתה טובה יותר. אבל הרבה מהזמן, כמה טוב הפלט תלוי במי שצופה בה. משתמשים גם מתלוננים ש-GPT-4 לא נטען כראוי ב-Chatbot Arena (via המדריך של טום). למרות זאת, OpenAI החזיקה בתפקיד הראשון כל השנים עד שהודחה על ידי קלוד 3 אופוס לפני כמה שעות.

בעוד שדירוג ארנה מעודכן יגרום עניין רב יותר בדגמי הבינה המלאכותית של אנתרופיק, ל-OpenAI יש תוכניות להשיק את GPT-5 בקיץ הקרוב, שנאמר "טוב יותר מבחינה מהותית". אם זה יתברר, OpenAI עשויה להחזיר את מיקומה העליון בטבלת המובילים של ארנה.

עוד על הנושאים: אנתרופי, קלוד 3 אופוס, GPT-4