مدل آینده متا Llama-3 400B به طور بالقوه می تواند GPT-4 Turbo و Claude 3 Opus را شکست دهد.
از آنها فراتر نمی رود، اما پتانسیل دارد
2 دقیقه خواندن
منتشر شده در
صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب
یادداشت های کلیدی
- متا از Llama-3، در عین حال قدرتمندترین مدل خود با پارامترهای 700B، رونمایی کرد
- لاما-3 علیرغم اینکه در مرحله تمرینی است، پتانسیل پیشرفت را نشان می دهد
- اعداد اخیر نشان می دهد که در بنچمارک ها به Claude 3 Opus و GPT-4 Turbo نزدیک است.
متا قرار است قدرتمندترین و در عین حال قدرتمندترین مدل هوش مصنوعی خود را به بازار عرضه کند لاما-3 با پارامترهای 400B در آن خبر در روز پنجشنبه، مدل منبع باز به زودی ابزار دستیار هوش مصنوعی متا را که در واتس اپ و اینستاگرام ارائه می شود، راه اندازی می کند.
اما حقیقت این است که در حال حاضر مدل های هوش مصنوعی قدرتمند زیادی در بازار وجود دارد. GPT-4 توربو با یک پنجره زمینه 128k از OpenAI مدت زیادی است که وجود دارد و Claude 3 Opus از Anthropic هم اکنون در دسترس در آمازون بستر.
بنابراین، این مدل ها بر اساس چندین معیار چگونه با یکدیگر مقایسه می شوند؟ در اینجا مقایسه ای از نحوه آزمایش این مدل های قدرتمند در چندین گزینه ارائه شده است. این ارقام برگرفته از اطلاعات در دسترس عموم و متا خبر.
محک | لاما 3 400B | کلود 3 اپوس | GPT-4 توربو | جمینی اولترا 1.0 | جمینی پرو 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
ریاضی | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
همانطور که می بینید، Llama-3 400B واقعاً در این معیارها کمی کوتاه است و در MMLU امتیاز 86.1، در GPQA 48، در HumanEval 84.1 و در ریاضی 57.8 کسب کرده است.
اما، با توجه به اینکه هنوز در مرحله آموزش است، پس از استقرار کامل، امکان خوبی برای پیشرفت های بزرگ وجود دارد. و برای یک مدل منبع باز، این بسیار فراتر از چشمگیر است.
MMLU آزمایش میکند که مدلها تا چه حد موضوعات مختلف را بدون آموزش مستقیم، درک میکنند و طیف وسیعی از موضوعات را پوشش میدهند. از سوی دیگر، GPQA مدلها را در مورد عملکرد آنها در زیستشناسی، فیزیک و شیمی مرتب میکند، در حالی که HumanEval بر نحوه کدنویسی آنها تمرکز میکند.