A Microsoft számos új funkciót jelent be az Azure AI-ban, beleértve a szövegfelolvasó avatárt

3 perc olvas

Publikálva November 15, 2023

közzétették November 15, 2023

Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol.

Az Azure AI-szolgáltatások lehetővé teszik a fejlesztők számára, hogy mesterséges intelligencia-alkalmazásokat hozzanak létre kész, előre beépített és testreszabható API-kkal és modellekkel. Az Azure AI-szolgáltatások közé tartozik a Vision szolgáltatás, a beszédszolgáltatás, a fordító szolgáltatás és még sok más. Az Ignite 2023 rendezvényen a Microsoft a mai napon számos új funkciót jelentett be az Azure AI-ban, beleértve a szövegfelolvasó avatárt, a személyes neurális hangot, az új, továbbfejlesztett gépi fordítási módot és még sok mást. A részleteket lent találja.

Egy új feladat-optimalizálás összefoglaló képesség az Azure AI nyelvben, amelyet nagy nyelvi modellek (GPT-3.5-Turbo, GPT-4, Z-Code++ és egyebek) hajtanak végre.
Egy új gépi fordítási modell képes egyik nyelvről a másikra fordítani anélkül, hogy közvetítőként angolra fordítaná. Ezenkívül az ügyféladatok felhasználásával testreszabható, hogy a fordítások jobban igazodjanak az iparág kontextusához.
Elnevezett entitás felismerés, a dokumentumok lefordítása és konténerekben történő összefoglalása lehetővé teszi a szigorú adattartási követelményeket támasztó kormányzati szervek és iparágak, például a pénzügyi szolgáltatások és az egészségügy számára, hogy mesterséges intelligencia-szolgáltatásokat futtassanak saját infrastruktúrájukon.
Személyes hang, egy új egyedi neurális hangfunkció, amely lehetővé teszi a vállalkozások számára, hogy egyéni neurális hangokat hozzanak létre felhasználóik számára 60 másodperces hangmintával. A személyes hang az korlátozott hozzáférésű funkció.
Szövegfelolvasó avatar, egy új szövegfelolvasó képesség, amely valósághű fakszimile-t készít egy beszélő személyről a bemeneti szöveg és egy valós beszélő videoadatai alapján. Mind az előre elkészített, mind az egyéni avatarok előnézetben vannak, azonban az egyéni avatar korlátozott hozzáférésű funkció.

Az Azure AI Vision szolgáltatás a következő frissítéseket kapja:

Élénkítő funkcionalitás és a Vision SDK: A Liveness funkció segít megelőzni az arcfelismeréssel kapcsolatos hamisításokat, és megfelel az ISO 30107-3 PAD Level 2 követelményeinek. A Vision SDK for Face lehetővé teszi a fejlesztők számára, hogy könnyedén hozzáadják az arcfelismerést és életszerűséget a mobilalkalmazásokhoz. Mindkét funkció előnézetben van.
Képelemzés 4.0: Ez az API élvonalbeli képelemzési modelleket vezet be, amelyek magukban foglalják a képfeliratozást, az OCR-t, az objektumészlelést és még sok mást, és mindez egyetlen, szinkron API-végponton keresztül érhető el. A továbbfejlesztett OCR-modell megnövelt pontossággal büszkélkedhet mind a gépelt, mind a kézzel írt szövegek esetében. Képelemzés 4.0 általánosan elérhető.
Florence alapítvány modell: Ez a továbbfejlesztett funkció, amelyet több milliárd szöveg-képpárral képeztek ki, és az Azure AI Vision költséghatékony, gyártásra kész számítógépes látási szolgáltatásaként integrálták, ez a továbbfejlesztett funkció lehetővé teszi a fejlesztők számára, hogy élvonalbeli, piacra kész, felelősségteljes számítógépes látási alkalmazásokat hozzanak létre a különböző iparágakban. Firenze alapozó modell általánosan elérhető.

Végül az Azure AI Services új frissítései minden eddiginél egyszerűbbé teszik a videókból való betekintést. Mostantól az Azure AI segítségével szöveges összefoglalót kaphat a videótartalomról. Ezenkívül most már kereshet is konkrét témákat, pillanatokat vagy részleteket a kiterjedt videókban, természetes nyelvet használva. A részleteket lent találja.

Videó-szöveg összefoglaló: A felhasználók kibonthatják a videótartalom lényegét, és tömör és informatív szöveges összefoglalókat készíthetnek. A fejlett algoritmus a videókat koherens fejezetekre szegmentálja, vizuális, hang- és szöveges jelzéseket felhasználva olyan szakaszokat hozva létre, amelyek könnyen elhelyezhetők a nagy nyelvi modell (LLM) prompt ablakokban. Minden szakasz alapvető tartalmat tartalmaz, beleértve az átiratokat, hangeseményeket és vizuális elemeket. Ideális videó-összefoglalók, képzési anyagok készítéséhez vagy tudásmegosztáshoz.
Hatékony videótartalom keresés: A felhasználók a videótartalmat kereshető formátummá alakíthatják át az LLM-ek és a Video Indexer insights segítségével. Azáltal, hogy a videós betekintést LLM-barát promptokká alakítja, a főbb kiemelések elérhetők a hatékony keresés érdekében. A jelenetek szegmentálása, a hangesemények és a vizuális részletek tovább javítják a tartalommegosztást, lehetővé téve a felhasználók számára, hogy gyorsan megtalálják az adott témákat, pillanatokat vagy részleteket a kiterjedt videókon belül.

Bővebben a témákról: Azure AI, microsoft, szöveg-beszéd avatar