مایکروسافت خانواده مدل های Phi-3 را معرفی می کند که عملکرد بهتری نسبت به سایر مدل های هم رده خود دارند

نماد زمان خواندن 2 دقیقه خواندن

نماد تقویم منتشر شده در آوریل 23، 2024

منتشر شده در آوریل 23، 2024

خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم.

در دسامبر 2023، مایکروسافت منتشر شد فی-2 مدلی با 2.7 میلیارد پارامتر که عملکردی پیشرفته را در بین مدل های زبان پایه با کمتر از 13 میلیارد پارامتر ارائه می دهد. در چهار ماه گذشته، چندین مدل دیگر که عرضه شدند عملکرد بهتری نسبت به Phi-2 داشتند. اخیراً متا خانواده مدل‌های Llama-3 را منتشر کرد که عملکرد بهتری نسبت به مدل‌های منبع باز منتشر شده قبلی داشت.

شب گذشته، مایکروسافت ریسرچ از طریق خانواده مدل های Phi-3 را معرفی کرد یک گزارش فنی. سه مدل در خانواده Phi-3 وجود دارد:

phi-3-mini (3.8B)
phi-3-small (7B)
phi-3-medium (14B)

Phi-3-mini با مدل زبان 3.8 میلیارد پارامتری بر روی 3.3 تریلیون توکن آموزش داده شده است. طبق بنچمارک‌ها، Phi-3-mini از Mixtral 8x7B و GPT-3.5 عبور می‌کند. مایکروسافت ادعا می‌کند که این مدل به اندازه‌ای کوچک است که می‌توان آن را روی گوشی نصب کرد. مایکروسافت از نسخه بزرگ‌شده مجموعه داده استفاده کرد که برای phi-2 استفاده می‌شد، که از داده‌های وب به شدت فیلتر شده و داده‌های مصنوعی تشکیل شده بود. طبق نتایج بنچمارک مایکروسافت در مقاله فنی، phi-3-small و phi-3-medium به ترتیب به امتیاز MMLU چشمگیر 75.3 و 78.2 دست می یابند.

از نظر قابلیت‌های LLM، در حالی که مدل Phi-3-mini به سطحی مشابه از درک زبان و توانایی استدلال مانند مدل‌های بسیار بزرگ‌تر دست می‌یابد، هنوز اساساً به دلیل اندازه آن برای کارهای خاص محدود است. این مدل به سادگی ظرفیت ذخیره دانش واقعی گسترده را ندارد، که به عنوان مثال، با عملکرد پایین در TriviaQA قابل مشاهده است. با این حال، ما معتقدیم که این ضعف را می توان با تقویت با یک موتور جستجو برطرف کرد.

پرادیپ ویسواو

کارشناس نرم افزار و خدمات

پرادیپ فارغ التحصیل رشته مهندسی و علوم کامپیوتر است. او همچنین شریک دانشجویی مایکروسافت بود. او در حال حاضر در یک شرکت پیشرو فناوری اطلاعات مشغول به کار است.

پاسخ دهید