Il nuovo LLM di Apple: MM1 potrebbe ridurre la necessità di più richieste per ottenere il risultato desiderato

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Note chiave

  • MM1 di Apple è un nuovo modello di intelligenza artificiale che si allena su dati di testo e immagini, potenzialmente alimentando Siri 2.0.
  • MM1 utilizza un approccio multimodale per ottenere prestazioni migliori e ridurre la necessità di più prompt.
  • L'architettura unica di MM1 e il modello MoE ne consentono l'esecuzione su dispositivi come iPhone.
Edificio della Mela

Apple è stata relativamente silenziosa riguardo al suo lavoro nei modelli linguistici di grandi dimensioni (LLM), ma un nuovo documento di ricerca suggerisce che stanno recuperando rapidamente terreno. MM1 è un nuovo metodo per addestrare modelli di intelligenza artificiale che combinano dati di testo e immagini, che potrebbe accelerare l'addestramento e ridurre la necessità di più istruzioni per ottenere il risultato desiderato. Questo avviene giorni dopo Apple ha acquisito DarwinAI.

Cos'è MM1?

MM1 è una famiglia di modelli IA, di cui il più grande raggiunge i 30 miliardi di parametri (più piccolo di alcuni concorrenti ma comunque potente). I parametri si riferiscono ai valori numerici che il modello utilizza per apprendere e rappresentare il mondo. Un numero maggiore di parametri indica generalmente un modello più complesso in grado di gestire una gamma più ampia di attività e produrre risultati più sfumati.

Si concentra sull'apprendimento multimodale, il che significa che può elaborare e comprendere sia testo che immagini. Questo potrebbe rappresentare un grande passo avanti per Siri, consentendogli di comprendere meglio le tue richieste e rispondere con informazioni più pertinenti. Lo scorso mese, Apple ha introdotto anche un manipolatore di immagini AI.

I ricercatori dietro MM1 sostengono che la combinazione di diversi tipi di dati di addestramento porta a prestazioni migliori. MM1 utilizza a mix di didascalie di immagini, dati di solo testo e risposte visive alle domande per addestrare il modello. Ciò consente a MM1 di eseguire attività come sottotitoli di immagini, risposte visive a domande e comprensione del linguaggio naturale.

MM1 utilizza un'architettura unica con codificatori con risoluzione delle immagini più elevata e un approccio diverso al pre-addestramento e all'etichettatura dei dati. Utilizza inoltre un modello di combinazione di esperti (MoE) per espandersi mantenendo bassi i requisiti di elaborazione, il che significa che potrebbe potenzialmente essere eseguito su dispositivi come iPhone e laptop.

Il documento di ricerca non menziona esplicitamente Siri, ma l'attenzione all'efficienza, ai suggerimenti minimi e alle capacità multimodali suggerisce la direzione di Apple per il futuro di Siri. In precedenza, a Il leaker ha suggerito una Siri più intelligente con le offerte di abbonamento GenAI.

Con Apple porta altri LLM come Gemini su iPhone, sembra che Apple stia adottando un approccio su più fronti ai progressi dell'intelligenza artificiale.

Più qui.

Forum degli utenti

0 messaggi