O próximo modelo Llama-3 400B da Meta poderia potencialmente vencer o GPT-4 Turbo e Claude 3 Opus

Não os excede, mas tem um potencial

Ícone de tempo de leitura 2 minutos. ler

Ícone do calendário Publicado em 19 de abril de 2024

publicado em 19 de abril de 2024

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Notas chave

Meta revela Llama-3, seu modelo mais poderoso com parâmetros de 700B
Llama-3 mostra potencial de melhoria apesar de estar em fase de treinamento
Números recentes sugerem que está próximo de Claude 3 Opus e GPT-4 Turbo em benchmarks

Meta está pronta para lançar seu modelo de IA mais poderoso, o Lhama-3 com parâmetros 400B. Em seu anúncio na quinta-feira, o modelo de código aberto em breve alimentará a ferramenta assistente Meta AI que chegará ao WhatsApp e ao Instagram.

Mas a verdade é que existem muitos modelos de IA poderosos no mercado neste momento. Turbo GPT-4 com uma janela de contexto de 128k da OpenAI já existe há algum tempo, e Claude 3 Opus da Anthropic é já está disponível no Amazon Bedrock.

Então, como esses modelos se comparam entre si, com base em vários benchmarks? Aqui está uma comparação de como esses modelos poderosos foram testados em diversas opções. Esses números são retirados informações disponíveis publicamente e Metas anúncio.

referência	Lhama 3 400B	Cláudio 3 Opus	Turbo GPT-4	Gêmeos Ultra 1.0	Gêmeos Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
Avaliação Humana	84.1	84.9	87.6	74.4	71.9
MATEMÁTICA	57.8	60.1	72.2	53.2	58.5

Como você pode ver, o Llama-3 400B na verdade fica um pouco aquém nesses benchmarks, pontuando 86.1 em MMLU, 48 em GPQA, 84.1 em HumanEval e 57.8 em MATH.

Mas, como ainda está em fase de treinamento, há boas possibilidades de grandes melhorias quando estiver totalmente implantado. E para um modelo de código aberto, isso é muito mais do que impressionante.

O MMLU testa até que ponto os modelos compreendem diferentes assuntos sem ensiná-los diretamente, cobrindo uma ampla gama de tópicos. O GPQA, por outro lado, classifica os modelos de acordo com seu desempenho em biologia, física e química, enquanto o HumanEval se concentra em como eles codificam.

Rafly Gilang

Repórter Técnico

Rafly é um repórter com anos de experiência jornalística, abrangendo áreas de tecnologia, negócios, social e cultura. Atualmente reportando notícias sobre produtos, tecnologia e IA relacionados à Microsoft no Windows Report e MSPowerUser. Tem uma dica? Envie para [email protegido].

Deixe um comentário