Como o modelo de código aberto OpenELM da Apple se compara ao Phi-3 da Microsoft, em termos de parâmetros?

Coincidência?

Ícone de tempo de leitura 2 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Notas chave

  • A Apple lançou o OpenELM no HuggingFace com oito variantes.
  • Cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões.
  • O modelo Phi-3 da Microsoft, por outro lado, inclui versões com 3.8 bilhões, 7 bilhões e 14 bilhões de parâmetros.
Apple

Pouco depois da Microsoft lançar o Família Phi-3, um conjunto de modelos pequenos e de código aberto projetados para uso mais leve, a Apple juntou-se ao trem. Os fabricantes do iPhone lançaram (discretamente) o OpenELM, seu mais recente modelo de IA de código aberto. 

OpenELM, abreviação de Open-source Efficient Language Models, vem em oito variantes, cada uma pré-treinado e sintonizado com instrução recebe quatro. Pesquisadores da Apple dito que o modelo usa uma estratégia de escalonamento em camadas para distribuir eficientemente os parâmetros dentro de cada camada do modelo do transformador, e você pode usar esses modelos em Abraçando o Rosto.

“Por exemplo, com um orçamento de parâmetros de aproximadamente um bilhão de parâmetros, o OpenELM apresenta uma melhoria de 2.36% na precisão em comparação com o OLMo, ao mesmo tempo que requer 2x menos tokens de pré-treinamento”, diz a documentação.

Quanto aos tamanhos, cada modelo vem com parâmetros diferentes: 270 milhões, 450 milhões, 1.1 bilhão e 3 bilhões. E embora nem sempre seja o melhor padrão de medição, os parâmetros nos modelos de IA são sempre o ponto de partida para compará-los.

Francamente, o OpenELM não é tão impressionante (em termos de parâmetros) quanto outros modelos de código aberto: lhama 3, que alimenta o Meta AI, vem com uma contagem máxima de parâmetros de 70 bilhões, e a Mixtral, apoiada pela Microsoft, lançou seu Modelo 8x22B com parâmetros 176B.

Phi-3-mini, a menor versão do modelo Phi-3 da Microsoft, tem 3.8 bilhões de parâmetros e foi treinou por uma semana usando GPUs H100 da Nvidia. Em comparação, a versão média possui 14 bilhões de parâmetros e a versão pequena possui 7 bilhões de parâmetros.