Microsoft anuncia Phi-3-vision, un nuevo SLM multimodal para escenarios de IA en dispositivos

Icono de tiempo de lectura 1 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Más información

Notas clave

  • Phi-3-vision es un modelo de parámetros 4.2B que admite tareas de razonamiento visual general y razonamiento de cuadros/gráficos/tablas.

En Build 2024, Microsoft hoy expandido su familia Phi-3 de modelos de lenguaje pequeño de IA con el nuevo Phi-3-vision. Phi-3-vision es un modelo de parámetros 4.2B que admite tareas de razonamiento visual general y razonamiento de cuadros/gráficos/tablas. El modelo puede tomar tanto imágenes como texto como entrada y generar respuestas de texto.

Microsoft también anunció hoy la disponibilidad general de Phi-3-mini en la oferta de Modelos como Servicio (MaaS) de Azure AI. Modelos Phi-3 están ganando impulso porque son rentables y están optimizados para escenarios de IA en el dispositivo, en el borde, fuera de línea y con latencia.

Además de las noticias sobre los modelos Phi-3, Microsoft anunció nuevas funciones en las API para permitir experiencias multimodales. Azure AI Speech ahora tiene análisis de voz y traducción universal. Azure AI Search ahora viene con un almacenamiento significativamente mayor y un aumento de hasta 12 veces en el tamaño del índice vectorial sin costo adicional para permitir grandes cargas de trabajo RAG a escala.

Foro de usuarios

mensajes de 0