האם קלוד 3 באמת טוב יותר מ-GPT-4? ההשוואה של Promptbase אומרת אחרת

מבחנים ראש בראש מראים ש-GPT-4 Turbo חוצה את קלוד 3 בכל הקטגוריות.

עמוד הבית » חֲדָשׁוֹת

2 דקות לקרוא

פורסם ב במרץ 6, 2024

by רפלי גילנג

פורסם ב במרץ 6, 2024

קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו.

הערות עיקריות

Anthropic השיקה לאחרונה את קלוד 3, שנחשף לביצועים טובים יותר מ-GPT-4 ו-Google Gemini 1.0 Ultra.
ציוני אמת מידה שפורסמו מצביעים על כך שקלוד 3 אופוס מצטיין בתחומים שונים בהשוואה למקביליו.
עם זאת, ניתוח נוסף מצביע על כך ש-GPT-4 Turbo עולה על קלוד 3 בהשוואות ישירות, מה שמרמז על הטיות פוטנציאליות בתוצאות המדווחות.

לאנתרופי יש בדיוק השיקה את קלוד 3 לפני זמן לא רב, דגם הבינה המלאכותית שלו, שנאמר שהוא מסוגל לנצח את ה-GPT-4 של OpenAI ו-Google Gemini 1.0 Ultra. הוא מגיע עם שלוש גרסאות: קלוד 3 הייקו, סונטה ואופוס, כולם לשימושים שונים.

בה הודעה ראשונית, חברת AI אומרת שקלוד 3 עדיף במעט על שני הדגמים הללו שהושקו לאחרונה.

לפי ציוני ההשוואה שפורסמו, קלוד 3 אופוס טוב יותר בידע ברמת תואר ראשון (MMLU), חשיבה ברמת תואר שני (GPQA), מתמטיקה ופתרון בעיות במתמטיקה בבית הספר היסודי, מתמטיקה רב לשונית, קידוד, חשיבה על פני טקסט ועוד אחרים. מאשר GPT-4 ו-Gemini 1.0 Ultra ו-Pro.

עם זאת, זה לא לגמרי מצייר את התמונה כולה בכנות. ציון ההשוואה שפורסם בהכרזה (במיוחד עבור GPT-4) נלקח ככל הנראה מ-GPT-4 בגרסת השחרור ממרץ 2023 בשנה שעברה (קרדיט לחובבי AI @TolgaBilge_ ב-X)

כלי המנתח ביצועים (בנצ'מרק Analyzer) הנקרא Promptbase מראה ש-GPT-4 Turbo אכן ניצח את קלוד 3 בכל המבחנים שהם יכלו להשוות אותם ישירות. מבחנים אלה מכסים דברים כמו מיומנויות מתמטיקה בסיסיות (GSM8K & MATH), כתיבת קוד (HumanEval), חשיבה על טקסט (DROP) ושילוב של אתגרים אחרים.

בזמן ההכרזה על התוצאות שלהם, אנתרופיק גם מוזכר בהערת שוליים שהמהנדסים שלהם הצליחו לשפר עוד יותר את הביצועים של GPT-4T על ידי כוונון עדין במיוחד עבור הבדיקות. זה מצביע על כך שהתוצאות המדווחות לא משקפות את היכולות האמיתיות של מודל הבסיס.

אאוץ.

רפלי גילנג

כתב טכנולוגיה

רפלי הוא כתב בעל ניסיון עיתונאי של שנים, החל מטכנולוגיה, עסקים, חברתי ותרבות. כרגע מדווח על חדשות על מוצרים הקשורים למיקרוסופט, טכנולוגיה ובינה מלאכותית ב-Windows Report ו-MSPowerUser. יש לך טיפ? שלח את זה ל [מוגן בדוא"ל].