Microsoft demuestra que GPT-4 puede vencer a Google Gemini Ultra utilizando nuevas técnicas de indicación

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Comparación-de-modelos Gemini-Ultra-vs-GPT-4

La semana pasada, Google anunció Gemini, su modelo más capaz y general hasta el momento. El modelo Google Gemini ofrece un rendimiento de última generación en muchos puntos de referencia líderes. Google destacó que el rendimiento del modelo Gemini Ultra más capaz supera los resultados de OpenAI GPT-4 en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguajes grandes (LLM).

Específicamente, Gemini Ultra se convirtió en el primer modelo en superar a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea) con una puntuación del 90%, que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar el conocimiento mundial. y habilidades para resolver problemas.

Ayer, el equipo de investigación de Microsoft revelado que el modelo GPT-4 de OpenAI puede vencer a Google Gemini Ultra cuando se utilizan nuevas técnicas de indicación. El mes pasado, Microsoft Research reveló Medprompt, una composición de varias estrategias de estimulación que mejora en gran medida el rendimiento de GPT-4 y logra resultados de última generación en la suite MultiMedQA. Microsoft ahora también ha aplicado las técnicas de solicitud utilizadas en Medprompt para dominios generales. Según Microsoft, el modelo GPT-4 de OpenAI, cuando se utiliza con una versión modificada de Medprompt, logra la puntuación más alta jamás alcanzada en la MMLU completa. Sí, OpenAI GPT-4 puede vencer al próximo modelo Gemini Ultra simplemente usando las técnicas de indicación. Esto demuestra que aún no hemos alcanzado todo el potencial de los modelos ya lanzados como el GPT-4.

Eche un vistazo a la comparación comparativa entre los modelos GPT-4 (indicaciones mejoradas) y Gemini Ultra a continuación.

Aviso GPT-4Resultados de GPT-4Resultados de Géminis Ultra
MMLUAviso médico+90.10%90.04%
GSM8KDisparo cero95.27%94.4%
MATEMÁTICASDisparo cero68.42%53.2%
evaluación humanaDisparo cero87.8%74.4%
GRANDE-banco-duroPocos disparos + CoT*89.0%83.6% 
DROPTiro cero + CoT83.7%82.4%
hellaswag10 disparos**95.3%87.8%

Primero, Microsoft aplicó el Medprompt original a GPT-4 para lograr una puntuación del 89.1% en MMLU. Posteriormente, Microsoft aumentó el número de llamadas agrupadas en Medprompt de cinco a 20, lo que llevó a un aumento de puntuación del 89.56%. Posteriormente, Microsoft extendió Medprompt a Medprompt+ agregando un método de solicitud más simple y formulando una política para derivar una respuesta final integrando resultados tanto de la estrategia base de Medprompt como de las indicaciones simples. Esto llevó a GPT-4 a alcanzar una puntuación récord del 90.10%. El equipo de investigación de Microsoft mencionó que el equipo de Google Gemini también estaba utilizando una técnica de indicaciones similar para lograr puntuaciones récord en MMLU. 

Puede obtener más información sobre las técnicas de indicación que utilizó Microsoft para vencer a Gemini Ultra. esta página.

Más sobre los temas: Géminis Ultra, GPT-4, microsoft, microsoft research

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *