Apple's nieuwe LLM: MM1 zou de noodzaak voor meerdere prompts om het gewenste resultaat te krijgen kunnen verminderen

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Belangrijkste opmerkingen

  • Apple's MM1 is een nieuw AI-model dat traint op tekst- en afbeeldingsgegevens en mogelijk Siri 2.0 aanstuurt.
  • MM1 gebruikt een multimodale aanpak om betere prestaties te bereiken en de behoefte aan meerdere prompts te verminderen.
  • Dankzij de unieke architectuur en het MoE-model van MM1 kan het op apparaten zoals iPhones worden uitgevoerd.
Apple

Apple is relatief stil geweest over zijn werk op het gebied van grote taalmodellen (LLM's), maar uit een nieuw onderzoeksartikel blijkt dat ze snel bezig zijn met een inhaalslag. MM1 is een nieuwe methode voor het trainen van AI-modellen die tekst- en afbeeldingsgegevens combineren, waardoor de training kan worden versneld en de noodzaak voor meerdere prompts om het gewenste resultaat te krijgen, kan worden verminderd. Dit komt dagen later Apple heeft DarwinAI overgenomen.

Wat is MM1?

MM1 is een familie van AI-modellen, waarvan de grootste 30 miljard parameters bereikt (kleiner dan sommige concurrenten, maar nog steeds krachtig). Parameters verwijzen naar de numerieke waarden die het model gebruikt om de wereld te leren en weer te geven. Een groter aantal parameters duidt doorgaans op een complexer model dat een breder scala aan taken aankan en meer genuanceerde resultaten produceert.

Het richt zich op multimodaal leren, wat betekent dat het zowel tekst als afbeeldingen kan verwerken en begrijpen. Dit zou een grote stap voorwaarts kunnen zijn voor Siri, waardoor het uw verzoeken beter kan begrijpen en kan reageren met relevantere informatie. Vorige maand, Apple heeft ook een AI-beeldmanipulator geïntroduceerd.

De onderzoekers achter MM1 stellen dat het combineren van verschillende soorten trainingsdata tot betere prestaties leidt. MM1 gebruikt een mix van afbeeldingsbijschriften, alleen tekstgegevens en visuele vraagbeantwoording om het model te trainen. Hierdoor kan MM1 taken uitvoeren zoals het ondertitelen van afbeeldingen, het visueel beantwoorden van vragen en het begrijpen van natuurlijke taal.

MM1 maakt gebruik van een unieke architectuur met encoders met een hogere beeldresolutie en een andere benadering van het vooraf trainen en labelen van gegevens. Het maakt ook gebruik van een Mix-of-Experts (MoE)-model om op te schalen terwijl de verwerkingsvereisten laag blijven, wat betekent dat het mogelijk zou kunnen werken op apparaten zoals iPhones en laptops.

Het onderzoekspaper vermeldt Siri niet expliciet, maar de nadruk op efficiëntie, minimale aansporingen en multimodale mogelijkheden duidt op de richting die Apple kiest voor de toekomst van Siri. Eerder, een Leaker stelde een slimmere Siri voor met GenAI-abonnementsaanbiedingen.

met Apple brengt andere LLM's zoals Gemini naar de iPhonelijkt het erop dat Apple een veelzijdige benadering hanteert van de vooruitgang op het gebied van AI.

Meer hier.