Claude 3 Opus vence GPT-4 da OpenAI em importante ranking de chatbot

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Notas chave

  • Claude 3 Opus venceu o GPT-4 da OpenAI para se tornar o número um no ranking da Arena.
  • Claude 3 Opus tem uma pontuação Elo de 1253, um pouco mais que GPT-4.
  • Os resultados são baseados na satisfação dos usuários com os resultados de vários modelos de IA.

Antrópico anunciou a família de modelos Claude 3 no início deste mês, alegando que pode superar o GPT-4 da OpenAI. A empresa mostrou diversas métricas de desempenho do modelo e as comparou com as de chatbots rivais para chegar a essa conclusão. Agora, a supremacia de Claude 3 também se reflete na tabela de classificação da Arena.

Claude 3 Opus vence GPT-4 para se tornar o número um

Claude 3 Opus liderou o ranking LYMSYS Chatbot Arena para empurrar o modelo GPT-4 para a segunda posição. O Claude 3 Opus obteve uma pontuação Elo de 1253, pouco mais que 1251 do GPT-4. É a mesma pontuação que avalia o quão habilidosos são os jogadores de xadrez. Mas, neste caso, as pontuações de benchmark avaliam vários modelos de IA, não jogadores de xadrez.

No entanto, o LYMSYS Chatbot Arena não é perfeito. Os resultados de benchmarking que mostra baseiam-se na votação das pessoas. Dessa forma, as pontuações foram atualizadas após 70 mil novos votos. Portanto, em teoria, uma pontuação melhor deveria indicar que o resultado geral do modelo de IA foi melhor. Mas, na maioria das vezes, a qualidade do resultado depende de quem o está visualizando. Os usuários também reclamam que o GPT-4 não carrega corretamente no Chatbot Arena (via Guia do Tom). Apesar disso, a OpenAI ocupou a primeira posição todos esses anos até ser destituída pelo Claude 3 Opus há algumas horas.

Embora uma classificação atualizada da Arena provavelmente gere mais interesse nos modelos de IA da Anthropic, a OpenAI tem planos de lançar GPT-5 neste verão, que se diz ser “materialmente melhor”. Se for esse o caso, a OpenAI provavelmente recuperará sua primeira posição na tabela de classificação da Arena.

Mais sobre os tópicos: Antrópico, Cláudio 3 Opus, GPT-4

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *