Microsoft demuestra que GPT-4 puede vencer a Google Gemini Ultra utilizando nuevas técnicas de indicación

2 minuto. leer

Publicado el 13 de diciembre de 2023

Publicado en 13 de diciembre de 2023

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Comparación-de-modelos Gemini-Ultra-vs-GPT-4

La semana pasada, Google anunció Gemini, su modelo más capaz y general hasta el momento. El modelo Google Gemini ofrece un rendimiento de última generación en muchos puntos de referencia líderes. Google destacó que el rendimiento del modelo Gemini Ultra más capaz supera los resultados de OpenAI GPT-4 en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguajes grandes (LLM).

Específicamente, Gemini Ultra se convirtió en el primer modelo en superar a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea) con una puntuación del 90%, que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar el conocimiento mundial. y habilidades para resolver problemas.

Ayer, el equipo de investigación de Microsoft revelado que el modelo GPT-4 de OpenAI puede vencer a Google Gemini Ultra cuando se utilizan nuevas técnicas de indicación. El mes pasado, Microsoft Research reveló Medprompt, una composición de varias estrategias de estimulación que mejora en gran medida el rendimiento de GPT-4 y logra resultados de última generación en la suite MultiMedQA. Microsoft ahora también ha aplicado las técnicas de solicitud utilizadas en Medprompt para dominios generales. Según Microsoft, el modelo GPT-4 de OpenAI, cuando se utiliza con una versión modificada de Medprompt, logra la puntuación más alta jamás alcanzada en la MMLU completa. Sí, OpenAI GPT-4 puede vencer al próximo modelo Gemini Ultra simplemente usando las técnicas de indicación. Esto demuestra que aún no hemos alcanzado todo el potencial de los modelos ya lanzados como el GPT-4.

Eche un vistazo a la comparación comparativa entre los modelos GPT-4 (indicaciones mejoradas) y Gemini Ultra a continuación.

	Aviso GPT-4	Resultados de GPT-4	Resultados de Géminis Ultra
MMLU	Aviso médico+	90.10%	90.04%
GSM8K	Disparo cero	95.27%	94.4%
MATEMÁTICAS	Disparo cero	68.42%	53.2%
evaluación humana	Disparo cero	87.8%	74.4%
GRANDE-banco-duro	Pocos disparos + CoT*	89.0%	83.6%
DROP	Tiro cero + CoT	83.7%	82.4%
hellaswag	10 disparos**	95.3%	87.8%

Primero, Microsoft aplicó el Medprompt original a GPT-4 para lograr una puntuación del 89.1% en MMLU. Posteriormente, Microsoft aumentó el número de llamadas agrupadas en Medprompt de cinco a 20, lo que llevó a un aumento de puntuación del 89.56%. Posteriormente, Microsoft extendió Medprompt a Medprompt+ agregando un método de solicitud más simple y formulando una política para derivar una respuesta final integrando resultados tanto de la estrategia base de Medprompt como de las indicaciones simples. Esto llevó a GPT-4 a alcanzar una puntuación récord del 90.10%. El equipo de investigación de Microsoft mencionó que el equipo de Google Gemini también estaba utilizando una técnica de indicaciones similar para lograr puntuaciones récord en MMLU.

Puede obtener más información sobre las técnicas de indicación que utilizó Microsoft para vencer a Gemini Ultra. esta página.

Más sobre los temas: Géminis Ultra, GPT-4, microsoft, microsoft research

Pradeep Viswav

Experto en Software y Servicios

Pradeep es un graduado en ingeniería y ciencias de la computación. También fue socio estudiantil de Microsoft. Actualmente trabaja en una empresa líder en TI.

Deje un comentario