דגם ה-Llama-3 400B הקרוב של Meta עשוי לנצח את GPT-4 Turbo ואת קלוד 3 Opus

זה לא חורג מהם, אבל יש לזה פוטנציאל

עמוד הבית » חֲדָשׁוֹת

סמל זמן קריאה 2 דקות לקרוא

סמל לוח השנה פורסם ב אפריל 19, 2024

by רפלי גילנג

פורסם ב אפריל 19, 2024

קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו.

הערות עיקריות

Meta חושפת את Llama-3, הדגם החזק ביותר שלה עם 700B פרמטרים
Lama-3 מראה פוטנציאל לשיפור למרות היותו בשלב האימונים
מספרים אחרונים מצביעים על כך שהוא קרוב לקלוד 3 אופוס ו-GPT-4 טורבו במדדים

Meta אמורה להשיק את דגם ה-AI החזק ביותר שלה, ה- לאמה-3 עם 400B פרמטרים. ב הודעה ביום חמישי, מודל הקוד הפתוח יפעיל בקרוב את הכלי Meta AI עוזר שיגיע לוואטסאפ ולאינסטגרם.

אבל האמת היא שיש הרבה דגמי AI חזקים בשוק כרגע. GPT-4 טורבו עם חלון הקשר של 128k מ-OpenAI קיים כבר די הרבה זמן, וקלוד 3 אופוס מ-Anthropic הוא עכשיו זמין ב- Amazon Bedrock.

אז איך המודלים האלה משתווים זה לזה, בהתבסס על כמה אמות מידה? הנה השוואה של האופן שבו הדגמים החזקים הללו נבדקו במספר אפשרויות. הנתונים הללו לקוחים מ מידע זמין לציבור ושל מטא הודעה.

בנצ 'מרק	לאמה 3 400B	קלוד 3 אופוס	GPT-4 טורבו	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

כפי שאתה יכול לראות, Llama-3 400B אכן נופל מעט במדדים אלה, עם ציון 86.1 ב-MMLU, 48 ב-GPQA, 84.1 ב-HumanEval ו-57.8 ב-MATH.

אבל בהתחשב בעובדה שהוא עדיין בשלב ההכשרה, ישנה אפשרות טובה לשיפורים גדולים לאחר פריסה מלאה. ולגבי מודל קוד פתוח, זה הרבה מעבר למרשים.

MMLU בודק עד כמה מודלים מבינים נושאים שונים מבלי ללמד אותם ישירות, מכסים מגוון רחב של נושאים. GPQA, לעומת זאת, ממיין מודלים על מידת ההצלחה שלהם בביולוגיה, פיזיקה וכימיה, בעוד HumanEval מתמקדת באופן שבו הם מקודדים.

רפלי גילנג

כתב טכנולוגיה

רפלי הוא כתב בעל ניסיון עיתונאי של שנים, החל מטכנולוגיה, עסקים, חברתי ותרבות. כרגע מדווח על חדשות על מוצרים הקשורים למיקרוסופט, טכנולוגיה ובינה מלאכותית ב-Windows Report ו-MSPowerUser. יש לך טיפ? שלח את זה ל [מוגן בדוא"ל].

השאירו תגובה