Como o modelo de código aberto OpenELM da Apple se compara ao Phi-3 da Microsoft, em termos de parâmetros?
Coincidência?
2 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
Notas chave
- A Apple lançou o OpenELM no HuggingFace com oito variantes.
- Cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões.
- O modelo Phi-3 da Microsoft, por outro lado, inclui versões com 3.8 bilhões, 7 bilhões e 14 bilhões de parâmetros.
Pouco depois da Microsoft lançar o Família Phi-3, um conjunto de modelos pequenos e de código aberto projetados para uso mais leve, a Apple juntou-se ao trem. Os fabricantes do iPhone lançaram (discretamente) o OpenELM, seu mais recente modelo de IA de código aberto.
OpenELM, abreviação de Open-source Efficient Language Models, vem em oito variantes, cada uma pré-treinado e sintonizado com instrução recebe quatro. Pesquisadores da Apple dito que o modelo usa uma estratégia de escalonamento em camadas para distribuir eficientemente os parâmetros dentro de cada camada do modelo do transformador, e você pode usar esses modelos em Abraçando o Rosto.
“Por exemplo, com um orçamento de parâmetros de aproximadamente um bilhão de parâmetros, o OpenELM apresenta uma melhoria de 2.36% na precisão em comparação com o OLMo, ao mesmo tempo que requer 2x menos tokens de pré-treinamento”, diz a documentação.
Quanto aos tamanhos, cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões. E embora nem sempre seja o melhor padrão de medição, os parâmetros nos modelos de IA são sempre o ponto de partida para compará-los.
Francamente, o OpenELM não é tão impressionante (em termos de parâmetros) quanto outros modelos de código aberto: lhama 3, que alimenta o Meta AI, vem com uma contagem máxima de parâmetros de 70 bilhões, e a Mixtral, apoiada pela Microsoft, lançou seu Modelo 8x22B com parâmetros 176B.
Phi-3-mini, a menor versão do modelo Phi-3 da Microsoft, tem 3.8 bilhões de parâmetros e foi treinou por uma semana usando GPUs H100 da Nvidia. Em comparação, a versão média possui 14 bilhões de parâmetros e a versão pequena possui 7 bilhões de parâmetros.