مدل آینده متا Llama-3 400B به طور بالقوه می تواند GPT-4 Turbo و Claude 3 Opus را شکست دهد.

از آنها فراتر نمی رود، اما پتانسیل دارد

صفحه اصلی » رسانه

نماد زمان خواندن 2 دقیقه خواندن

نماد تقویم منتشر شده در آوریل 19، 2024

by رافلی گیلان

منتشر شده در آوریل 19، 2024

خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم.

یادداشت های کلیدی

متا از Llama-3، در عین حال قدرتمندترین مدل خود با پارامترهای 700B، رونمایی کرد
لاما-3 علیرغم اینکه در مرحله تمرینی است، پتانسیل پیشرفت را نشان می دهد
اعداد اخیر نشان می دهد که در بنچمارک ها به Claude 3 Opus و GPT-4 Turbo نزدیک است.

متا قرار است قدرتمندترین و در عین حال قدرتمندترین مدل هوش مصنوعی خود را به بازار عرضه کند لاما-3 با پارامترهای 400B در آن خبر در روز پنجشنبه، مدل منبع باز به زودی ابزار دستیار هوش مصنوعی متا را که در واتس اپ و اینستاگرام ارائه می شود، راه اندازی می کند.

اما حقیقت این است که در حال حاضر مدل های هوش مصنوعی قدرتمند زیادی در بازار وجود دارد. GPT-4 توربو با یک پنجره زمینه 128k از OpenAI مدت زیادی است که وجود دارد و Claude 3 Opus از Anthropic هم اکنون در دسترس در آمازون بستر.

بنابراین، این مدل ها بر اساس چندین معیار چگونه با یکدیگر مقایسه می شوند؟ در اینجا مقایسه ای از نحوه آزمایش این مدل های قدرتمند در چندین گزینه ارائه شده است. این ارقام برگرفته از اطلاعات در دسترس عموم و متا خبر.

محک	لاما 3 400B	کلود 3 اپوس	GPT-4 توربو	جمینی اولترا 1.0	جمینی پرو 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
ریاضی	57.8	60.1	72.2	53.2	58.5

همانطور که می بینید، Llama-3 400B واقعاً در این معیارها کمی کوتاه است و در MMLU امتیاز 86.1، در GPQA 48، در HumanEval 84.1 و در ریاضی 57.8 کسب کرده است.

اما، با توجه به اینکه هنوز در مرحله آموزش است، پس از استقرار کامل، امکان خوبی برای پیشرفت های بزرگ وجود دارد. و برای یک مدل منبع باز، این بسیار فراتر از چشمگیر است.

MMLU آزمایش می‌کند که مدل‌ها تا چه حد موضوعات مختلف را بدون آموزش مستقیم، درک می‌کنند و طیف وسیعی از موضوعات را پوشش می‌دهند. از سوی دیگر، GPQA مدل‌ها را در مورد عملکرد آنها در زیست‌شناسی، فیزیک و شیمی مرتب می‌کند، در حالی که HumanEval بر نحوه کدنویسی آنها تمرکز می‌کند.

رافلی گیلان

گزارشگر فنی

رافلی خبرنگاری با سال ها تجربه روزنامه نگاری از فناوری، تجارت، اجتماعی و فرهنگی است. در حال حاضر اخبار مربوط به محصولات، فناوری و هوش مصنوعی مایکروسافت را در گزارش Windows و MSPowerUser گزارش می‌کند. نکته ای دارید؟ این را بفرست به [ایمیل محافظت شده].

پاسخ دهید