O próximo modelo Llama-3 400B da Meta poderia potencialmente vencer o GPT-4 Turbo e Claude 3 Opus

Não os excede, mas tem um potencial

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Notas chave

  • Meta revela Llama-3, seu modelo mais poderoso com parâmetros de 700B
  • Llama-3 mostra potencial de melhoria apesar de estar em fase de treinamento
  • Números recentes sugerem que está próximo de Claude 3 Opus e GPT-4 Turbo em benchmarks
Meta empresa

Meta está pronta para lançar seu modelo de IA mais poderoso, o Lhama-3 com parâmetros 400B. Em seu anúncio na quinta-feira, o modelo de código aberto em breve alimentará a ferramenta assistente Meta AI que chegará ao WhatsApp e ao Instagram. 

Mas a verdade é que existem muitos modelos de IA poderosos no mercado neste momento. Turbo GPT-4 com uma janela de contexto de 128k da OpenAI já existe há algum tempo, e Claude 3 Opus da Anthropic é já está disponível no Amazon Bedrock.

Então, como esses modelos se comparam entre si, com base em vários benchmarks? Aqui está uma comparação de como esses modelos poderosos foram testados em diversas opções. Esses números são retirados informações disponíveis publicamente e Metas anúncio.

referênciaLhama 3 400BCláudio 3 OpusTurbo GPT-4Gêmeos Ultra 1.0Gêmeos Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
Avaliação Humana84.184.987.674.471.9
MATEMÁTICA57.860.172.253.258.5

Como você pode ver, o Llama-3 400B na verdade fica um pouco aquém nesses benchmarks, pontuando 86.1 em MMLU, 48 em GPQA, 84.1 em HumanEval e 57.8 em MATH. 

Mas, como ainda está em fase de treinamento, há boas possibilidades de grandes melhorias quando estiver totalmente implantado. E para um modelo de código aberto, isso é muito mais do que impressionante. 

O MMLU testa até que ponto os modelos compreendem diferentes assuntos sem ensiná-los diretamente, cobrindo uma ampla gama de tópicos. O GPQA, por outro lado, classifica os modelos de acordo com seu desempenho em biologia, física e química, enquanto o HumanEval se concentra em como eles codificam. 

Fórum de usuários

Mensagens 0