דגם ה-Llama-3 400B הקרוב של Meta עשוי לנצח את GPT-4 Turbo ואת קלוד 3 Opus
זה לא חורג מהם, אבל יש לזה פוטנציאל
2 דקות לקרוא
פורסם ב
קרא את דף הגילויים שלנו כדי לגלות כיצד תוכל לעזור ל-MSPoweruser לקיים את צוות העריכה קראו עוד
הערות עיקריות
- Meta חושפת את Llama-3, הדגם החזק ביותר שלה עם 700B פרמטרים
- Lama-3 מראה פוטנציאל לשיפור למרות היותו בשלב האימונים
- מספרים אחרונים מצביעים על כך שהוא קרוב לקלוד 3 אופוס ו-GPT-4 טורבו במדדים
Meta אמורה להשיק את דגם ה-AI החזק ביותר שלה, ה- לאמה-3 עם 400B פרמטרים. ב הודעה ביום חמישי, מודל הקוד הפתוח יפעיל בקרוב את הכלי Meta AI עוזר שיגיע לוואטסאפ ולאינסטגרם.
אבל האמת היא שיש הרבה דגמי AI חזקים בשוק כרגע. GPT-4 טורבו עם חלון הקשר של 128k מ-OpenAI קיים כבר די הרבה זמן, וקלוד 3 אופוס מ-Anthropic הוא עכשיו זמין ב- Amazon Bedrock.
אז איך המודלים האלה משתווים זה לזה, בהתבסס על כמה אמות מידה? הנה השוואה של האופן שבו הדגמים החזקים הללו נבדקו במספר אפשרויות. הנתונים הללו לקוחים מ מידע זמין לציבור ושל מטא הודעה.
בנצ 'מרק | לאמה 3 400B | קלוד 3 אופוס | GPT-4 טורבו | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
כפי שאתה יכול לראות, Llama-3 400B אכן נופל מעט במדדים אלה, עם ציון 86.1 ב-MMLU, 48 ב-GPQA, 84.1 ב-HumanEval ו-57.8 ב-MATH.
אבל בהתחשב בעובדה שהוא עדיין בשלב ההכשרה, ישנה אפשרות טובה לשיפורים גדולים לאחר פריסה מלאה. ולגבי מודל קוד פתוח, זה הרבה מעבר למרשים.
MMLU בודק עד כמה מודלים מבינים נושאים שונים מבלי ללמד אותם ישירות, מכסים מגוון רחב של נושאים. GPQA, לעומת זאת, ממיין מודלים על מידת ההצלחה שלהם בביולוגיה, פיזיקה וכימיה, בעוד HumanEval מתמקדת באופן שבו הם מקודדים.
פורום משתמשים
0 הודעות