Microsoft najavljuje nekoliko novih značajki u Azure AI uključujući avatar za pretvaranje teksta u govor

3 min. čitati

Objavljeno na Studenog 15, 2023

objavljeno Studenog 15, 2023

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Azure AI usluge omogućuju programerima stvaranje AI aplikacija s gotovim i unaprijed izgrađenim i prilagodljivim API-jima i modelima. Azure AI usluge uključuju uslugu vida, uslugu govora, uslugu prevoditelja i više. Na Ignite 2023, Microsoft je danas najavio nekoliko novih značajki u Azure AI uključujući avatar za pretvaranje teksta u govor, osobni neuralni glas, novi poboljšani način strojnog prevođenja i više. Detalje potražite u nastavku.

Nova optimizacija zadataka sposobnost sažimanja u Azure AI jeziku, pokretan velikim jezičnim modelima (GPT-3.5-Turbo, GPT-4, Z-Code++ i više).
Nova model strojnog prevođenja sposobni prevesti s jednog jezika na drugi bez prevođenja na engleski kao posrednika. Osim toga, može se prilagoditi korištenjem podataka o korisnicima kako bi se prijevodi bolje uskladili s kontekstom industrije.
Prepoznavanje imenovanog entiteta, prevođenje dokumenata i sažimanje u spremnicima omogućit će vladinim agencijama i industrijama, kao što su financijske usluge i zdravstvo, sa strogim zahtjevima rezidentnosti podataka da pokrenu usluge umjetne inteligencije na vlastitoj infrastrukturi.
Osobni glas, nova prilagođena neuralna glasovna značajka koja će omogućiti tvrtkama stvaranje prilagođenih neuralnih glasova sa 60 sekundi audio uzoraka za svoje korisnike. Osobni glas je značajka ograničenog pristupa.
Avatar za pretvaranje teksta u govor, nova mogućnost pretvaranja teksta u govor koja će generirati realističan faksimil osobe koja govori na temelju ulaznog teksta i video podataka stvarne osobe koja govori. I unaprijed izrađeni i prilagođeni avatari sada su u pretpregledu, međutim, prilagođeni avatar značajka je ograničenog pristupa.

Usluga Azure AI Vision dobiva sljedeća ažuriranja:

Funkcionalnost živosti i Vision SDK: Funkcionalnost živosti pomoći će u sprječavanju lažnih napada prepoznavanja lica i usklađena je s ISO 30107-3 PAD razine 2. Vision SDK za lice omogućit će programerima da jednostavno dodaju prepoznavanje lica i živost mobilnim aplikacijama. Obje značajke su u pretpregledu.
Analiza slike 4.0: Ovaj API uvodi vrhunske modele analize slike, koji obuhvaćaju opise slika, OCR, otkrivanje objekata i više, a sve je dostupno putem jedne, sinkrone krajnje točke API-ja. Značajno je da se poboljšani OCR model može pohvaliti poboljšanom preciznošću za tipkani i rukom pisani tekst na slikama. Analiza slike 4.0 općenito je dostupan.
Model temelja u Firenci: Uvježbana s milijardama parova teksta i slike i integrirana kao isplativa usluga računalnog vida spremna za proizvodnju u Azure AI Vision, ova poboljšana značajka omogućuje razvojnim programerima stvaranje najsuvremenijih, odgovornih aplikacija računalnog vida spremnih za tržište u raznim industrijama. Model temelja u Firenci općenito je dostupan.

Konačno, nova ažuriranja u Azure AI uslugama učinit će proces izvlačenja uvida iz videozapisa lakšim nego ikada. Sada možete koristiti Azure AI za dobivanje tekstualnog sažetka video sadržaja. Također, sada možete pretraživati određene teme, trenutke ili detalje unutar opsežnih videozapisa koristeći prirodni jezik. Detalje potražite u nastavku.

Sažetak videozapisa u tekst: Korisnici će moći izdvojiti bit video sadržaja i generirati sažete i informativne tekstualne sažetke. Napredni algoritam segmentira videozapise u koherentna poglavlja, iskorištavajući vizualne, audio i tekstualne znakove za stvaranje odjeljaka koji se lako mogu smjestiti u prozore s uputama velikog jezičnog modela (LLM). Svaki odjeljak sadrži osnovni sadržaj, uključujući transkripte, audio događaje i vizualne elemente. Ovo je idealno za izradu video sažetaka, materijala za obuku ili dijeljenje znanja.
Učinkovito pretraživanje video sadržaja: Korisnici će moći transformirati video sadržaj u format koji se može pretraživati pomoću LLM-a i uvida Video Indexera. Pretvaranjem video uvida u upite prilagođene LLM-u, glavni detalji su dostupni za učinkovito pretraživanje. Segmentacija scene, audio događaji i vizualni detalji dodatno poboljšavaju podjelu sadržaja, omogućujući korisnicima da brzo lociraju određene teme, trenutke ili detalje unutar opsežnih videozapisa.

Više o temama: Azurni AI, Microsoft, avatar pretvaranja teksta u govor