Claude 3 Opus vence GPT-4 da OpenAI em importante ranking de chatbot

Ícone de tempo de leitura 2 minutos. ler

Ícone do calendário Publicado em 28 de março de 2024

publicado em 28 de março de 2024

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Notas chave

Claude 3 Opus venceu o GPT-4 da OpenAI para se tornar o número um no ranking da Arena.
Claude 3 Opus tem uma pontuação Elo de 1253, um pouco mais que GPT-4.
Os resultados são baseados na satisfação dos usuários com os resultados de vários modelos de IA.

Antrópico anunciou a família de modelos Claude 3 no início deste mês, alegando que pode superar o GPT-4 da OpenAI. A empresa mostrou diversas métricas de desempenho do modelo e as comparou com as de chatbots rivais para chegar a essa conclusão. Agora, a supremacia de Claude 3 também se reflete na tabela de classificação da Arena.

Claude 3 Opus vence GPT-4 para se tornar o número um

Claude 3 Opus liderou o ranking LYMSYS Chatbot Arena para empurrar o modelo GPT-4 para a segunda posição. O Claude 3 Opus obteve uma pontuação Elo de 1253, pouco mais que 1251 do GPT-4. É a mesma pontuação que avalia o quão habilidosos são os jogadores de xadrez. Mas, neste caso, as pontuações de benchmark avaliam vários modelos de IA, não jogadores de xadrez.

[Atualização da Arena]

Mais de 70 mil novos votos na Arena?? estão dentro!

Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado?

Parabéns @AnthropicAI no incrível lançamento do Claude-3!

Mais emocionante… pic.twitter.com/p1Guuf0B3K
-lmsys.org (@lmsysorg) 26 de março de 2024

No entanto, o LYMSYS Chatbot Arena não é perfeito. Os resultados de benchmarking que mostra baseiam-se na votação das pessoas. Dessa forma, as pontuações foram atualizadas após 70 mil novos votos. Portanto, em teoria, uma pontuação melhor deveria indicar que o resultado geral do modelo de IA foi melhor. Mas, na maioria das vezes, a qualidade do resultado depende de quem o está visualizando. Os usuários também reclamam que o GPT-4 não carrega corretamente no Chatbot Arena (via Guia do Tom). Apesar disso, a OpenAI ocupou a primeira posição todos esses anos até ser destituída pelo Claude 3 Opus há algumas horas.

Embora uma classificação atualizada da Arena provavelmente gere mais interesse nos modelos de IA da Anthropic, a OpenAI tem planos de lançar GPT-5 neste verão, que se diz ser “materialmente melhor”. Se for esse o caso, a OpenAI provavelmente recuperará sua primeira posição na tabela de classificação da Arena.

Mais sobre os tópicos: Antrópico, Cláudio 3 Opus, GPT-4

Rahul

Jornalista de Tecnologia

Rahul é jornalista de tecnologia, com anos de experiência na cobertura de software, principalmente Windows e Android. Ele também adora compartilhar suas opiniões sobre diversos tópicos de tecnologia.

Claude 3 Opus vence GPT-4 para se tornar o número um

Deixe um comentário