קלוד 3 אופוס מנצח את ה-GPT-4 של OpenAI בדירוג הצ'אטבוטים החשוב

עמוד הבית » חֲדָשׁוֹת

סמל זמן קריאה 2 דקות לקרוא

סמל לוח השנה פורסם ב במרץ 28, 2024

by Rahul

פורסם ב במרץ 28, 2024

קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו.

הערות עיקריות

קלוד 3 אופוס ניצח את ה-GPT-4 של OpenAI והפך למקום הראשון בדירוג הארנה.
לקלוד 3 אופוס יש ציון Elo של 1253, מעט יותר מ-GPT-4.
התוצאות מבוססות על מידת שביעות הרצון של המשתמשים מהתפוקות של מספר דגמי AI.

אנתרופי הכריז על משפחת דגמי קלוד 3 מוקדם יותר החודש, בטענה שהוא יכול לעלות על ה-GPT-4 של OpenAI. החברה הציגה מדדי ביצועים שונים של המודל והשוותה אותם לאלו של צ'אטבוטים יריבים כדי להסיק את המסקנה הזו. כעת, העליונות של קלוד 3 משתקפת גם בטבלת ההישגים של ארנה.

קלוד 3 אופוס ניצח את GPT-4 כדי להפוך למספר אחד

קלוד 3 אופוס עמד בראש דירוג LYMSYS Chatbot Arena כדי לדחוף את דגם ה-GPT-4 למקום השני. קלוד 3 אופוס זכה לציון Elo של 1253, קצת יותר מ-1251 של GPT-4. זה אותו ניקוד ששופט עד כמה שחקני שחמט מיומנים. אבל במקרה זה, ציוני ההשוואה שופטים דגמי AI שונים, לא שחקני שחמט.

[עדכון זירה]

70K+ הצבעות חדשות בארנה?? נמצאים בפנים!

Claude-3 Haiku הרשים את כולם, אפילו הגיע לרמת GPT-4 לפי העדפת המשתמש שלנו! אין דומה למהירות, היכולות ואורך ההקשר שלו בשוק?

מזל טוב @AnthropicAI על ההשקה המדהימה של קלוד-3!

יותר מרגש… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) במרץ 26, 2024

עם זאת, LYMSYS Chatbot Arena אינו מושלם. תוצאות ההשוואה שהיא מציגה מבוססות על הצבעות של אנשים. לפיכך, הציונים עודכנו לאחר 70 אלף הצבעות חדשות. לכן, בתיאוריה, ציון טוב יותר אמור להצביע על כך שהתפוקה הכוללת של מודל הבינה המלאכותית הייתה טובה יותר. אבל הרבה מהזמן, כמה טוב הפלט תלוי במי שצופה בה. משתמשים גם מתלוננים ש-GPT-4 לא נטען כראוי ב-Chatbot Arena (via המדריך של טום). למרות זאת, OpenAI החזיקה בתפקיד הראשון כל השנים עד שהודחה על ידי קלוד 3 אופוס לפני כמה שעות.

בעוד שדירוג ארנה מעודכן יגרום עניין רב יותר בדגמי הבינה המלאכותית של אנתרופיק, ל-OpenAI יש תוכניות להשיק את GPT-5 בקיץ הקרוב, שנאמר "טוב יותר מבחינה מהותית". אם זה יתברר, OpenAI עשויה להחזיר את מיקומה העליון בטבלת המובילים של ארנה.

עוד על הנושאים: אנתרופי, קלוד 3 אופוס, GPT-4

Rahul

עיתונאי טק

Rahul הוא עיתונאי טכנולוגי, עם ניסיון של שנים בסיקור תוכנות, בעיקר Windows ואנדרואיד. הוא גם אוהב לחלוק את דעותיה בנושאים טכנולוגיים מגוונים.