Microsoft, yeni yönlendirme tekniklerini kullanarak GPT-4'ün Google Gemini Ultra'yı yenebileceğini kanıtlıyor
2 dk. okuman
Yayınlandı
MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla
Geçen hafta Google açıkladı İkizler burcuşimdiye kadarki en yetenekli ve genel modeli. Google Gemini modeli, birçok önde gelen kıyaslamada en gelişmiş performansı sunar. Google, en yetenekli Gemini Ultra modelinin performansının, OpenAI GPT-4'ün büyük dil modeli (LLM) araştırma ve geliştirmesinde kullanılan 30 yaygın olarak kullanılan akademik kriterin 32'unda elde ettiği sonuçları aştığını vurguladı.
Spesifik olarak Gemini Ultra, hem dünya bilgisini test etmek için matematik, fizik, tarih, hukuk, tıp ve etik gibi 90 konunun bir kombinasyonunu kullanan MMLU (büyük çoklu görev dil anlayışı) konusunda insan uzmanlarını %57 puanla geride bırakan ilk model oldu. ve problem çözme yetenekleri.
Dün, Microsoft Araştırma ekibi ortaya OpenAI'nin GPT-4 modeli, yeni yönlendirme teknikleri kullanıldığında Google Gemini Ultra'yı yenebilir. Geçen ay Microsoft Research açıkladı Med istemi, GPT-4'ün performansını büyük ölçüde artıran ve MultiMedQA paketinde en gelişmiş sonuçları elde eden çeşitli teşvik edici stratejilerden oluşan bir bileşim. Microsoft artık Medprompt'ta kullanılan yönlendirme tekniklerini genel alanlar için de uyguladı. Microsoft'a göre OpenAI'nin GPT-4 modeli, Medprompt'un değiştirilmiş bir sürümüyle birlikte kullanıldığında, tam MMLU'da şimdiye kadar elde edilen en yüksek puanı elde ediyor. Evet, OpenAI GPT-4, yalnızca yönlendirme tekniklerini kullanarak gelecek Gemini Ultra modelini yenebilir. Bu, GPT-4 gibi halihazırda piyasaya sürülen modellerin tam potansiyeline henüz ulaşmadığımızı gösteriyor.
Aşağıdaki GPT-4 (geliştirilmiş istemler) ve Gemini Ultra modelleri arasındaki kıyaslama karşılaştırmasına göz atın.
kıyaslama | GPT-4 İstemi | GPT-4 Sonuçları | Gemini Ultra Sonuçları |
---|---|---|---|
MMLU | Medprompt+ | İNDİRİM | İNDİRİM |
GSM8K | sıfır atış | İNDİRİM | İNDİRİM |
MATEMATİK | sıfır atış | İNDİRİM | İNDİRİM |
İnsanDeğerlendirmesi | sıfır atış | 87.8% | İNDİRİM |
BÜYÜK-Tezgah-Sert | Birkaç atış + CoT* | İNDİRİM | İNDİRİM |
DAMLA | Sıfır atış + CoT | İNDİRİM | İNDİRİM |
HellaSwag | 10 atış** | İNDİRİM | İNDİRİM |
İlk olarak Microsoft, MMLU'da %4 puana ulaşmak için orijinal Medprompt'u GPT-89.1'e uyguladı. Daha sonra Microsoft, Medprompt'taki birleşik çağrı sayısını beşten 20'ye çıkardı ve bu da puanın %89.56'ya yükselmesine yol açtı. Microsoft daha sonra daha basit bir yönlendirme yöntemi ekleyerek ve hem temel Medprompt stratejisinden hem de basit istemlerden elde edilen çıktıları entegre ederek nihai bir yanıt elde etmek için bir politika formüle ederek Medprompt'u Medprompt+'ya genişletti. Bu, GPT-4'ün %90.10 gibi rekor bir puana ulaşmasını sağladı. Microsoft Araştırma ekibi, Google Gemini ekibinin de MMLU'da rekor puanlara ulaşmak için benzer yönlendirme tekniğini kullandığını belirtti.
Microsoft'un Gemini Ultra'yı yenmek için kullandığı yönlendirme teknikleri hakkında daha fazla bilgi edinebilirsiniz okuyun.