Microsoft prouve que GPT-4 peut battre Google Gemini Ultra en utilisant de nouvelles techniques d'invite

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

Comparaison des modèles Gemini-Ultra-vs-GPT-4

La semaine dernière, Google a annoncé GEMINI, son modèle le plus performant et le plus général à ce jour. Le modèle Google Gemini offre des performances de pointe sur de nombreux tests de référence. Google a souligné que les performances du modèle Gemini Ultra le plus performant dépassent les résultats d'OpenAI GPT-4 sur 30 des 32 références académiques largement utilisées dans la recherche et le développement de grands modèles de langage (LLM).

Plus précisément, Gemini Ultra est devenu le premier modèle à surpasser les experts humains en matière de MMLU (compréhension massive du langage multitâche) avec un score de 90 %, qui utilise une combinaison de 57 matières telles que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique pour tester les connaissances du monde. et capacités de résolution de problèmes.

Hier, l'équipe Microsoft Research révélé que le modèle GPT-4 d'OpenAI peut battre Google Gemini Ultra lorsque de nouvelles techniques d'invite sont utilisées. Le mois dernier, Microsoft Research a révélé Invite médicale, une composition de plusieurs stratégies d'invite qui améliore considérablement les performances de GPT-4 et permet d'obtenir des résultats de pointe dans la suite MultiMedQA. Microsoft a désormais appliqué les techniques d'invite utilisées dans Medprompt également aux domaines généraux. Selon Microsoft, le modèle GPT-4 d'OpenAI, lorsqu'il est utilisé avec une version modifiée de Medprompt, atteint le score le plus élevé jamais obtenu sur le MMLU complet. Oui, OpenAI GPT-4 peut battre le prochain modèle Gemini Ultra en utilisant simplement les techniques d'invite. Cela montre que nous n’avons pas encore atteint tout le potentiel des modèles déjà commercialisés comme le GPT-4.

Jetez un œil à la comparaison de référence entre les modèles GPT-4 (invites améliorées) et Gemini Ultra ci-dessous.

référenceInvite GPT-4Résultats GPT-4Résultats Gémeaux Ultra
MMLUInvite Med+90.10%90.04%
GSM8KCoup zéro95.27%94.4%
MATHCoup zéro68.42%53.2%
HumanEvalCoup zéro87.8%74.4%
BIG-Banc-DurQuelques plans + CoT*89.0%83.6% 
GOUTTETir zéro + CoT83.7%82.4%
HellaSwag10 coups**95.3%87.8%

Tout d’abord, Microsoft a appliqué le Medprompt original à GPT-4 pour atteindre le score de 89.1 % en MMLU. Plus tard, Microsoft a augmenté le nombre d'appels groupés dans Medprompt de cinq à 20, ce qui a conduit à une augmentation du score de 89.56 %. Microsoft a ensuite étendu Medprompt à Medprompt+ en ajoutant une méthode d'invite plus simple et en formulant une politique permettant d'obtenir une réponse finale en intégrant les résultats de la stratégie de base Medprompt et des invites simples. Cela a conduit GPT-4 à atteindre un score record de 90.10 %. L'équipe de recherche Microsoft a mentionné que l'équipe Google Gemini utilisait également une technique d'invite similaire pour obtenir des scores records sur MMLU. 

Vous pouvez en savoir plus sur les techniques d'invite utilisées par Microsoft pour battre Gemini Ultra. ici.

En savoir plus sur les sujets : Gémeaux Ultra, GPT-4, microsoft, recherche Microsoft

Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *