Microsoft membuktikan bahwa GPT-4 dapat mengalahkan Google Gemini Ultra menggunakan teknik prompt baru

2 menit Baca

Ditampilkan di Desember 13, 2023

Diterbitkan di Desember 13, 2023

Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami.

Perbandingan model Gemini-Ultra-vs-GPT-4

Minggu lalu, Google mengumumkan Gemini, modelnya yang paling mumpuni dan umum. Model Google Gemini memberikan kinerja tercanggih di banyak tolok ukur terkemuka. Google menyoroti bahwa performa model Gemini Ultra yang paling mumpuni melebihi hasil OpenAI GPT-4 pada 30 dari 32 tolok ukur akademik yang banyak digunakan dalam penelitian dan pengembangan model bahasa besar (LLM).

Secara khusus, Gemini Ultra menjadi model pertama yang mengungguli pakar manusia dalam MMLU (pemahaman bahasa multitugas masif) dengan skor 90%, yang menggunakan kombinasi 57 mata pelajaran seperti matematika, fisika, sejarah, hukum, kedokteran, dan etika untuk menguji pengetahuan dunia. dan kemampuan memecahkan masalah.

Kemarin, tim Riset Microsoft mengungkapkan bahwa model GPT-4 OpenAI dapat mengalahkan Google Gemini Ultra ketika teknik prompt baru digunakan. Bulan lalu, Microsoft Research mengungkapkan cepat med, komposisi dari beberapa strategi pendorong yang sangat meningkatkan kinerja GPT-4 dan mencapai hasil canggih dalam rangkaian MultiMedQA. Microsoft kini telah menerapkan teknik prompt yang digunakan di Medprompt untuk domain umum juga. Menurut Microsoft, model GPT-4 OpenAI bila digunakan dengan versi Medprompt yang dimodifikasi mencapai skor tertinggi yang pernah dicapai pada MMLU lengkap. Ya, OpenAI GPT-4 dapat mengalahkan model Gemini Ultra yang akan datang hanya dengan menggunakan teknik prompt. Hal ini menunjukkan bahwa kami belum mencapai potensi penuh dari model yang sudah dirilis seperti GPT-4.

Lihatlah perbandingan benchmark antara GPT-4 (permintaan yang ditingkatkan) dan model Gemini Ultra di bawah ini.

patokan	Perintah GPT-4	Hasil GPT-4	Hasil Ultra Gemini
MMLU	medprompt+	90.10%	90.04%
GSM8K	Tembakan nol	95.27%	94.4%
MATH	Tembakan nol	68.42%	53.2%
Evaluasi Manusia	Tembakan nol	87.8%	74.4%
Bangku BESAR-Keras	Beberapa tembakan + CoT*	89.0%	83.6%
DROP	Tembakan nol + CoT	83.7%	82.4%
HellaSwag	10 tembakan**	95.3%	87.8%

Pertama, Microsoft menerapkan Medprompt asli ke GPT-4 untuk mencapai skor 89.1% di MMLU. Kemudian, Microsoft meningkatkan jumlah panggilan gabungan di Medprompt dari lima menjadi 20, yang menghasilkan peningkatan skor sebesar 89.56%. Microsoft kemudian memperluas Medprompt ke Medprompt+ dengan menambahkan metode dorongan yang lebih sederhana dan merumuskan kebijakan untuk mendapatkan jawaban akhir dengan mengintegrasikan keluaran dari strategi dasar Medprompt dan perintah sederhana. Hal ini menyebabkan GPT-4 mencapai rekor skor 90.10%. Tim Riset Microsoft menyebutkan bahwa tim Google Gemini juga menggunakan teknik dorongan serupa untuk mencapai rekor skor di MMLU.

Anda dapat mempelajari lebih lanjut tentang teknik prompt yang digunakan Microsoft untuk mengalahkan Gemini Ultra di sini.

Lebih lanjut tentang topik: Gemini Ultra, GPT-4, microsoft, penelitian microsoft

Pradeep Viswav

Pakar Perangkat Lunak dan Layanan

Pradeep adalah Lulusan Ilmu Komputer dan Teknik. Dia juga merupakan Mitra Mahasiswa Microsoft. Saat ini dia bekerja di sebuah perusahaan IT terkemuka.

Tinggalkan Balasan