Microsoft apresenta família de modelos Phi-3 que superam outros modelos de sua classe

Ícone de tempo de leitura 2 minutos. ler

Ícone do calendário Publicado em 23 de abril de 2024

publicado em 23 de abril de 2024

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

Em dezembro de 2023, a Microsoft lançou Phi-2 modelo com 2.7 bilhões de parâmetros que proporcionou desempenho de última geração entre modelos de linguagem base com menos de 13 bilhões de parâmetros. Nos últimos quatro meses, vários outros modelos lançados superaram o Phi-2. Recentemente, a Meta lançou a família de modelos Llama-3 que superou todos os modelos de código aberto lançados anteriormente.

Ontem à noite, a Microsoft Research anunciou a família de modelos Phi-3 via um relatório técnico. Existem três modelos na família Phi-3:

phi-3-mini (3.8B)
phi-3-pequeno (7B)
phi-3-médio (14B)

O phi-3-mini com um modelo de linguagem de 3.8 bilhões de parâmetros é treinado em 3.3 trilhões de tokens. De acordo com benchmarks, o phi-3-mini supera Mixtral 8x7B e GPT-3.5. A Microsoft afirma que este modelo é pequeno o suficiente para ser implantado em um telefone. A Microsoft usou uma versão ampliada do conjunto de dados usado para phi-2, composto de dados da web altamente filtrados e dados sintéticos. De acordo com os resultados de benchmark da Microsoft no documento técnico, phi-3-small e phi-3-medium alcançam uma pontuação MMLU impressionante de 75.3 e 78.2, respectivamente.

Em termos de capacidades LLM, embora o modelo Phi-3-mini atinja um nível semelhante de compreensão da linguagem e capacidade de raciocínio aos de modelos muito maiores, ainda é fundamentalmente limitado pelo seu tamanho para determinadas tarefas. O modelo simplesmente não tem capacidade de armazenar amplo conhecimento factual, o que pode ser observado, por exemplo, no baixo desempenho do TriviaQA. No entanto, acreditamos que esta fraqueza pode ser resolvida através do aumento com um motor de busca.

Pradeep Viswav

Especialista em Software e Serviços

Pradeep é graduado em Ciência da Computação e Engenharia. Ele também foi um parceiro estudantil da Microsoft. Atualmente, ele trabalha em uma empresa líder de TI.