Microsoft анонсирует Phi-3-vision, новый мультимодальный SLM для сценариев искусственного интеллекта на устройствах

Значок времени чтения 1 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Phi-3-vision — это модель параметров 4.2B, которая поддерживает общие задачи визуального рассуждения и рассуждения в виде диаграмм, графиков и таблиц.

На выставке Build 2024 Microsoft сегодня расширенный семейство малых языковых моделей искусственного интеллекта Phi-3 с новым видением Phi-3. Phi-3-vision — это модель параметров 4.2B, которая поддерживает общие задачи визуального рассуждения и рассуждения в виде диаграмм, графиков и таблиц. Модель может принимать как изображения, так и текст в качестве входных данных, а также выводить текстовые ответы.

Сегодня Microsoft также объявила о доступности Phi-3-mini в предложении Azure AI «Модели как услуга» (MaaS). Модели Фи-3 набирают обороты, поскольку они экономически эффективны и оптимизированы для сценариев искусственного интеллекта на устройстве, на периферии, в автономном режиме и с ограниченной задержкой.

В дополнение к новостям о моделях Phi-3 Microsoft анонсировала новые функции API, обеспечивающие мультимодальное взаимодействие. Azure AI Speech теперь имеет речевую аналитику и универсальный перевод. Azure AI Search теперь имеет значительно увеличенное хранилище и до 12-кратного увеличения размера векторного индекса без дополнительных затрат, что позволяет выполнять большие рабочие нагрузки RAG в масштабе.

Подробнее о темах: Microsoft, Фи-3-видение