مدل آینده متا Llama-3 400B به طور بالقوه می تواند GPT-4 Turbo و Claude 3 Opus را شکست دهد.

از آنها فراتر نمی رود، اما پتانسیل دارد

نماد زمان خواندن 2 دقیقه خواندن


خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم. نماد راهنمای ابزار

صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب

یادداشت های کلیدی

  • متا از Llama-3، در عین حال قدرتمندترین مدل خود با پارامترهای 700B، رونمایی کرد
  • لاما-3 علیرغم اینکه در مرحله تمرینی است، پتانسیل پیشرفت را نشان می دهد
  • اعداد اخیر نشان می دهد که در بنچمارک ها به Claude 3 Opus و GPT-4 Turbo نزدیک است.

متا قرار است قدرتمندترین و در عین حال قدرتمندترین مدل هوش مصنوعی خود را به بازار عرضه کند لاما-3 با پارامترهای 400B در آن خبر در روز پنجشنبه، مدل منبع باز به زودی ابزار دستیار هوش مصنوعی متا را که در واتس اپ و اینستاگرام ارائه می شود، راه اندازی می کند. 

اما حقیقت این است که در حال حاضر مدل های هوش مصنوعی قدرتمند زیادی در بازار وجود دارد. GPT-4 توربو با یک پنجره زمینه 128k از OpenAI مدت زیادی است که وجود دارد و Claude 3 Opus از Anthropic هم اکنون در دسترس در آمازون بستر.

بنابراین، این مدل ها بر اساس چندین معیار چگونه با یکدیگر مقایسه می شوند؟ در اینجا مقایسه ای از نحوه آزمایش این مدل های قدرتمند در چندین گزینه ارائه شده است. این ارقام برگرفته از اطلاعات در دسترس عموم و متا خبر.

محکلاما 3 400Bکلود 3 اپوسGPT-4 توربوجمینی اولترا 1.0جمینی پرو 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
ریاضی57.860.172.253.258.5

همانطور که می بینید، Llama-3 400B واقعاً در این معیارها کمی کوتاه است و در MMLU امتیاز 86.1، در GPQA 48، در HumanEval 84.1 و در ریاضی 57.8 کسب کرده است. 

اما، با توجه به اینکه هنوز در مرحله آموزش است، پس از استقرار کامل، امکان خوبی برای پیشرفت های بزرگ وجود دارد. و برای یک مدل منبع باز، این بسیار فراتر از چشمگیر است. 

MMLU آزمایش می‌کند که مدل‌ها تا چه حد موضوعات مختلف را بدون آموزش مستقیم، درک می‌کنند و طیف وسیعی از موضوعات را پوشش می‌دهند. از سوی دیگر، GPQA مدل‌ها را در مورد عملکرد آنها در زیست‌شناسی، فیزیک و شیمی مرتب می‌کند، در حالی که HumanEval بر نحوه کدنویسی آنها تمرکز می‌کند. 

پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند *