O próximo modelo Llama-3 400B da Meta poderia potencialmente vencer o GPT-4 Turbo e Claude 3 Opus
Não os excede, mas tem um potencial
2 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
Notas chave
- Meta revela Llama-3, seu modelo mais poderoso com parâmetros de 700B
- Llama-3 mostra potencial de melhoria apesar de estar em fase de treinamento
- Números recentes sugerem que está próximo de Claude 3 Opus e GPT-4 Turbo em benchmarks
Meta está pronta para lançar seu modelo de IA mais poderoso, o Lhama-3 com parâmetros 400B. Em seu anúncio na quinta-feira, o modelo de código aberto em breve alimentará a ferramenta assistente Meta AI que chegará ao WhatsApp e ao Instagram.
Mas a verdade é que existem muitos modelos de IA poderosos no mercado neste momento. Turbo GPT-4 com uma janela de contexto de 128k da OpenAI já existe há algum tempo, e Claude 3 Opus da Anthropic é já está disponível no Amazon Bedrock.
Então, como esses modelos se comparam entre si, com base em vários benchmarks? Aqui está uma comparação de como esses modelos poderosos foram testados em diversas opções. Esses números são retirados informações disponíveis publicamente e Metas anúncio.
referência | Lhama 3 400B | Cláudio 3 Opus | Turbo GPT-4 | Gêmeos Ultra 1.0 | Gêmeos Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
Avaliação Humana | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMÁTICA | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Como você pode ver, o Llama-3 400B na verdade fica um pouco aquém nesses benchmarks, pontuando 86.1 em MMLU, 48 em GPQA, 84.1 em HumanEval e 57.8 em MATH.
Mas, como ainda está em fase de treinamento, há boas possibilidades de grandes melhorias quando estiver totalmente implantado. E para um modelo de código aberto, isso é muito mais do que impressionante.
O MMLU testa até que ponto os modelos compreendem diferentes assuntos sem ensiná-los diretamente, cobrindo uma ampla gama de tópicos. O GPQA, por outro lado, classifica os modelos de acordo com seu desempenho em biologia, física e química, enquanto o HumanEval se concentra em como eles codificam.
Fórum de usuários
Mensagens 0