האם קלוד 3 באמת טוב יותר מ-GPT-4? ההשוואה של Promptbase אומרת אחרת

מבחנים ראש בראש מראים ש-GPT-4 Turbo חוצה את קלוד 3 בכל הקטגוריות.

סמל זמן קריאה 2 דקות לקרוא


קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו. סמל טיפים

קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד

הערות עיקריות

  • Anthropic השיקה לאחרונה את קלוד 3, שנחשף לביצועים טובים יותר מ-GPT-4 ו-Google Gemini 1.0 Ultra.
  • ציוני אמת מידה שפורסמו מצביעים על כך שקלוד 3 אופוס מצטיין בתחומים שונים בהשוואה למקביליו.
  • עם זאת, ניתוח נוסף מצביע על כך ש-GPT-4 Turbo עולה על קלוד 3 בהשוואות ישירות, מה שמרמז על הטיות פוטנציאליות בתוצאות המדווחות.

לאנתרופי יש בדיוק השיקה את קלוד 3 לפני זמן לא רב, דגם הבינה המלאכותית שלו, שנאמר שהוא מסוגל לנצח את ה-GPT-4 של OpenAI ו-Google Gemini 1.0 Ultra. הוא מגיע עם שלוש גרסאות: קלוד 3 הייקו, סונטה ואופוס, כולם לשימושים שונים.

בה הודעה ראשונית, חברת AI אומרת שקלוד 3 עדיף במעט על שני הדגמים הללו שהושקו לאחרונה. 

לפי ציוני ההשוואה שפורסמו, קלוד 3 אופוס טוב יותר בידע ברמת תואר ראשון (MMLU), חשיבה ברמת תואר שני (GPQA), מתמטיקה ופתרון בעיות במתמטיקה בבית הספר היסודי, מתמטיקה רב לשונית, קידוד, חשיבה על פני טקסט ועוד אחרים. מאשר GPT-4 ו-Gemini 1.0 Ultra ו-Pro.

עם זאת, זה לא לגמרי מצייר את התמונה כולה בכנות. ציון ההשוואה שפורסם בהכרזה (במיוחד עבור GPT-4) נלקח ככל הנראה מ-GPT-4 בגרסת השחרור ממרץ 2023 בשנה שעברה (קרדיט לחובבי AI @TolgaBilge_ ב-X)

כלי המנתח ביצועים (בנצ'מרק Analyzer) הנקרא Promptbase מראה ש-GPT-4 Turbo אכן ניצח את קלוד 3 בכל המבחנים שהם יכלו להשוות אותם ישירות. מבחנים אלה מכסים דברים כמו מיומנויות מתמטיקה בסיסיות (GSM8K & MATH), כתיבת קוד (HumanEval), חשיבה על טקסט (DROP) ושילוב של אתגרים אחרים.

בזמן ההכרזה על התוצאות שלהם, אנתרופיק גם מוזכר בהערת שוליים שהמהנדסים שלהם הצליחו לשפר עוד יותר את הביצועים של GPT-4T על ידי כוונון עדין במיוחד עבור הבדיקות. זה מצביע על כך שהתוצאות המדווחות לא משקפות את היכולות האמיתיות של מודל הבסיס.

אאוץ.