Microsoft oznamuje niekoľko nových funkcií v Azure AI vrátane avatara prevodu textu na reč

3 min. čítať

Publikované dňa Novembra 15, 2023

publikované dňa Novembra 15, 2023

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Služby Azure AI umožňujú vývojárom vytvárať aplikácie AI s vopred pripravenými a vopred vytvorenými a prispôsobiteľnými API a modelmi. Služby Azure AI zahŕňajú službu Vision, službu reči, službu prekladateľa a ďalšie. Na Ignite 2023 dnes Microsoft oznámil niekoľko nových funkcií v Azure AI vrátane avatara prevodu textu na reč, osobného neurónového hlasu, nového vylepšeného režimu strojového prekladu a ďalších. Podrobnosti nájdete nižšie.

Nový optimalizácia úloh schopnosť sumarizácie v jazyku Azure AI Language, ktorý využíva veľké jazykové modely (GPT-3.5-Turbo, GPT-4, Z-Code++ a ďalšie).
Nový model strojového prekladu schopný prekladať z jedného jazyka do druhého bez prekladu do angličtiny ako sprostredkovateľ. Okrem toho sa dá prispôsobiť pomocou údajov o zákazníkoch, aby sa preklady lepšie prispôsobili kontextu odvetvia.
Rozpoznanie pomenovanej entity, preklad dokumentov a sumarizácia v kontajneroch umožní vládnym agentúram a priemyselným odvetviam, ako sú finančné služby a zdravotníctvo, s prísnymi požiadavkami na rezidenciu údajov prevádzkovať služby AI na vlastnej infraštruktúre.
Osobný hlas, nová vlastná funkcia neurónového hlasu, ktorá umožní podnikom vytvárať vlastné neurónové hlasy so 60 sekundovými zvukovými ukážkami pre svojich používateľov. Osobný hlas je funkcia obmedzeného prístupu.
Avatar prevodu textu na reč, nová schopnosť prevodu textu na reč, ktorá vytvorí realistickú faksimile hovoriacej osoby na základe vstupného textu a obrazových údajov skutočne hovoriacej osoby. Vopred zostavený aj vlastný avatar sú teraz v ukážke, avšak vlastný avatar je funkcia s obmedzeným prístupom.

Služba Azure AI Vision dostáva nasledujúce aktualizácie:

Funkčnosť živosti a Vision SDK: Funkcia živosti pomôže predchádzať útokom spoofingu pri rozpoznávaní tváre a je v súlade s normou ISO 30107-3 PAD Level 2. Vision SDK for Face umožní vývojárom jednoducho pridať rozpoznávanie tváre a živosť do mobilných aplikácií. Obe funkcie sú v ukážke.
Analýza obrázkov 4.0: Toto rozhranie API predstavuje špičkové modely analýzy obrazu, ktoré zahŕňajú popisovanie obrázkov, OCR, detekciu objektov a ďalšie, všetko dostupné prostredníctvom jediného synchrónneho koncového bodu API. Je pozoruhodné, že vylepšený model OCR sa môže pochváliť vylepšenou presnosťou písaného aj ručne písaného textu v obrázkoch. Analýza obrazu 4.0 je všeobecne dostupný.
Model nadácie Florence: Táto vylepšená funkcia, trénovaná s miliardami párov text-obrázok a integrovaná ako nákladovo efektívne služby počítačového videnia pripravené na výrobu v Azure AI Vision, umožňuje vývojárom vytvárať špičkové, na trh pripravené a zodpovedné aplikácie počítačového videnia v rôznych odvetviach. Model nadácie Florence je všeobecne dostupný.

Napokon, nové aktualizácie v službách Azure AI uľahčia proces získavania prehľadov z videí ako kedykoľvek predtým. Teraz môžete použiť Azure AI na získanie textového súhrnu obsahu videa. Teraz môžete tiež hľadať konkrétne témy, momenty alebo podrobnosti v rámci rozsiahlych videí s použitím prirodzeného jazyka. Podrobnosti nájdete nižšie.

Zhrnutie videa do textu: Používatelia budú môcť extrahovať podstatu video obsahu a vytvárať stručné a informatívne textové zhrnutia. Pokročilý algoritmus rozdeľuje videá do koherentných kapitol, pričom využíva vizuálne, zvukové a textové podnety na vytváranie sekcií, ktoré sa dajú ľahko umiestniť do okna s výzvou pre veľký jazykový model (LLM). Každá sekcia obsahuje základný obsah vrátane prepisov, zvukových udalostí a vizuálnych prvkov. To je ideálne na vytváranie videorekapitulácií, školiacich materiálov alebo zdieľanie vedomostí.
Efektívne vyhľadávanie videoobsahu: Používatelia budú môcť transformovať video obsah do vyhľadávateľného formátu pomocou LLM a poznatkov Video Indexer. Prevedením prehľadov videa na výzvy vhodné pre LLM sú hlavné najdôležitejšie body dostupné pre efektívne vyhľadávanie. Segmentácia scén, zvukové udalosti a vizuálne detaily ešte viac vylepšujú rozdelenie obsahu, čo používateľom umožňuje rýchlo nájsť konkrétne témy, momenty alebo detaily v rozsiahlych videách.

Viac o témach: Azure AI, microsoft, avatar prevodu textu na reč

Pradeep Viswav

Expert na softvér a služby

Pradeep je absolventom informatiky a inžinierstva. Bol tiež študentským partnerom spoločnosti Microsoft. V súčasnosti pracuje v poprednej IT spoločnosti.