Microsoft annonce Phi-3-vision, un nouveau SLM multimodal pour les scénarios d'IA sur appareil

Icône de temps de lecture 1 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale Plus d'informations

Notes clés

  • Phi-3-vision est un modèle de paramètres 4.2B qui prend en charge les tâches de raisonnement visuel général et le raisonnement sous forme de diagramme/graphique/tableau.

Lors de la Build 2024, Microsoft aujourd'hui étendu sa famille Phi-3 de petits modèles de langage d'IA avec la nouvelle vision Phi-3. Phi-3-vision est un modèle de paramètres 4.2B qui prend en charge les tâches de raisonnement visuel général et le raisonnement sous forme de diagramme/graphique/tableau. Le modèle peut prendre à la fois des images et du texte en entrée, et générer des réponses textuelles.

Microsoft a également annoncé aujourd'hui la disponibilité générale de Phi-3-mini dans l'offre Models-as-a Service (MaaS) d'Azure AI. Modèles Phi-3 prennent de l’ampleur car ils sont rentables et optimisés pour les scénarios d’IA sur appareil, en périphérie, d’inférence hors ligne et liés à la latence.

En plus des nouvelles concernant les modèles Phi-3, Microsoft a annoncé de nouvelles fonctionnalités dans les API pour permettre des expériences multimodales. Azure AI Speech propose désormais des analyses vocales et une traduction universelle. Azure AI Search est désormais doté d'un stockage considérablement accru et d'une taille d'index vectoriel jusqu'à 12 fois supérieure, sans frais supplémentaires, pour permettre de grandes charges de travail RAG à grande échelle.

Forum des utilisateurs

Messages 0