Claude 3 Opus vence GPT-4 da OpenAI em importante ranking de chatbot
2 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
Notas chave
- Claude 3 Opus venceu o GPT-4 da OpenAI para se tornar o número um no ranking da Arena.
- Claude 3 Opus tem uma pontuação Elo de 1253, um pouco mais que GPT-4.
- Os resultados são baseados na satisfação dos usuários com os resultados de vários modelos de IA.
Antrópico anunciou a família de modelos Claude 3 no início deste mês, alegando que pode superar o GPT-4 da OpenAI. A empresa mostrou diversas métricas de desempenho do modelo e as comparou com as de chatbots rivais para chegar a essa conclusão. Agora, a supremacia de Claude 3 também se reflete na tabela de classificação da Arena.
Claude 3 Opus vence GPT-4 para se tornar o número um
Claude 3 Opus liderou o ranking LYMSYS Chatbot Arena para empurrar o modelo GPT-4 para a segunda posição. O Claude 3 Opus obteve uma pontuação Elo de 1253, pouco mais que 1251 do GPT-4. É a mesma pontuação que avalia o quão habilidosos são os jogadores de xadrez. Mas, neste caso, as pontuações de benchmark avaliam vários modelos de IA, não jogadores de xadrez.
No entanto, o LYMSYS Chatbot Arena não é perfeito. Os resultados de benchmarking que mostra baseiam-se na votação das pessoas. Dessa forma, as pontuações foram atualizadas após 70 mil novos votos. Portanto, em teoria, uma pontuação melhor deveria indicar que o resultado geral do modelo de IA foi melhor. Mas, na maioria das vezes, a qualidade do resultado depende de quem o está visualizando. Os usuários também reclamam que o GPT-4 não carrega corretamente no Chatbot Arena (via Guia do Tom). Apesar disso, a OpenAI ocupou a primeira posição todos esses anos até ser destituída pelo Claude 3 Opus há algumas horas.
Embora uma classificação atualizada da Arena provavelmente gere mais interesse nos modelos de IA da Anthropic, a OpenAI tem planos de lançar GPT-5 neste verão, que se diz ser “materialmente melhor”. Se for esse o caso, a OpenAI provavelmente recuperará sua primeira posição na tabela de classificação da Arena.