Claude 3 é realmente melhor que GPT-4? O benchmarking do Promptbase diz diferente

Testes frente a frente mostram que o GPT-4 Turbo supera Claude 3 em todas as categorias.

Inicio » Notícias

2 minutos. ler

Atualizado em 15 de julho de 2024

by Rafly Gilang

atualizado em 15 de julho de 2024

Compartilhe este artigo

Melhore este guia

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Notas chave

A Anthropic lançou recentemente o Claude 3, que supera o GPT-4 e o Google Gemini 1.0 Ultra.
As pontuações de benchmark publicadas indicam que Claude 3 Opus se destaca em diversas áreas em comparação com seus equivalentes.
No entanto, análises mais aprofundadas sugerem que o GPT-4 Turbo supera o Claude 3 em comparações diretas, implicando potenciais vieses nos resultados relatados.

A Antrópico acaba de lançou Cláudio 3 não muito tempo atrás, seu modelo de IA seria capaz de vencer o GPT-4 da OpenAI e o Google Gemini 1.0 Ultra. Ele vem com três variantes: Claude 3 Haiku, Sonnet e Opus, todas para usos diferentes.

Na sua anúncio inicial, a empresa de IA afirma que o Claude 3 é ligeiramente superior a estes dois modelos lançados recentemente.

De acordo com as pontuações de referência publicadas, Claude 3 Opus é melhor em conhecimento de nível de graduação (MMLU), raciocínio de pós-graduação (GPQA), matemática do ensino fundamental e resolução de problemas de matemática, matemática multilíngue, codificação, raciocínio sobre texto e outros mais do que GPT-4 e Gemini 1.0 Ultra e Pro.

No entanto, isso não pinta todo o quadro com sinceridade. A pontuação de benchmark publicada no anúncio (especialmente para GPT-4) foi aparentemente retirada do GPT-4 na versão de lançamento de março de 2023 do ano passado (créditos aos entusiastas de IA @TolgaBilge_ no X)

Uma ferramenta que analisa desempenho (analisador de benchmark) chamada Base de prompt mostra que o GPT-4 Turbo realmente venceu Claude 3 em todos os testes em que puderam compará-los diretamente. Esses testes abrangem habilidades matemáticas básicas (GSM8K e MATH), escrita de código (HumanEval), raciocínio sobre texto (DROP) e uma combinação de outros desafios.

Ao anunciar seus resultados, a Anthropic também menciona em uma nota de rodapé que seus engenheiros foram capazes de melhorar ainda mais o desempenho do GPT-4T, ajustando-o especificamente para os testes. Isto sugere que os resultados relatados podem não refletir as verdadeiras capacidades do modelo base.

Ouch.

Rafly Gilang

Repórter Técnico

Rafly é um repórter com anos de experiência jornalística, abrangendo tecnologia, negócios, social e cultura. Atualmente, relata notícias sobre produtos relacionados à Microsoft, tecnologia e IA no MSPowerUser. Tem uma dica? Envie para [email protegido]

Fórum de usuários

Mensagens 0

Ordenar por:

Deixe um comentário