Como o modelo de código aberto OpenELM da Apple se compara ao Phi-3 da Microsoft, em termos de parâmetros?

Coincidência?

Ícone de tempo de leitura 2 minutos. ler

Ícone do calendário Publicado em 24 de abril de 2024

publicado em 24 de abril de 2024

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Notas chave

A Apple lançou o OpenELM no HuggingFace com oito variantes.
Cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões.
O modelo Phi-3 da Microsoft, por outro lado, inclui versões com 3.8 bilhões, 7 bilhões e 14 bilhões de parâmetros.

Pouco depois da Microsoft lançar o Família Phi-3, um conjunto de modelos pequenos e de código aberto projetados para uso mais leve, a Apple juntou-se ao trem. Os fabricantes do iPhone lançaram (discretamente) o OpenELM, seu mais recente modelo de IA de código aberto.

OpenELM, abreviação de Open-source Efficient Language Models, vem em oito variantes, cada uma pré-treinado e sintonizado com instrução recebe quatro. Pesquisadores da Apple dito que o modelo usa uma estratégia de escalonamento em camadas para distribuir eficientemente os parâmetros dentro de cada camada do modelo do transformador, e você pode usar esses modelos em Abraçando o Rosto.

“Por exemplo, com um orçamento de parâmetros de aproximadamente um bilhão de parâmetros, o OpenELM apresenta uma melhoria de 2.36% na precisão em comparação com o OLMo, ao mesmo tempo que requer 2x menos tokens de pré-treinamento”, diz a documentação.

Quanto aos tamanhos, cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões. E embora nem sempre seja o melhor padrão de medição, os parâmetros nos modelos de IA são sempre o ponto de partida para compará-los.

Francamente, o OpenELM não é tão impressionante (em termos de parâmetros) quanto outros modelos de código aberto: lhama 3, que alimenta o Meta AI, vem com uma contagem máxima de parâmetros de 70 bilhões, e a Mixtral, apoiada pela Microsoft, lançou seu Modelo 8x22B com parâmetros 176B.

Phi-3-mini, a menor versão do modelo Phi-3 da Microsoft, tem 3.8 bilhões de parâmetros e foi treinou por uma semana usando GPUs H100 da Nvidia. Em comparação, a versão média possui 14 bilhões de parâmetros e a versão pequena possui 7 bilhões de parâmetros.

Rafly Gilang

Repórter Técnico

Rafly é um repórter com anos de experiência jornalística, abrangendo áreas de tecnologia, negócios, social e cultura. Atualmente reportando notícias sobre produtos, tecnologia e IA relacionados à Microsoft no Windows Report e MSPowerUser. Tem uma dica? Envie para [email protegido].