Microsoft oznamuje niekoľko nových funkcií v Azure AI vrátane avatara prevodu textu na reč

Ikona času čítania 3 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Microsoft Azure AI Voice

Služby Azure AI umožňujú vývojárom vytvárať aplikácie AI s vopred pripravenými a vopred vytvorenými a prispôsobiteľnými API a modelmi. Služby Azure AI zahŕňajú službu Vision, službu reči, službu prekladateľa a ďalšie. Na Ignite 2023 dnes Microsoft oznámil niekoľko nových funkcií v Azure AI vrátane avatara prevodu textu na reč, osobného neurónového hlasu, nového vylepšeného režimu strojového prekladu a ďalších. Podrobnosti nájdete nižšie.

  • Nový optimalizácia úloh schopnosť sumarizácie v jazyku Azure AI Language, ktorý využíva veľké jazykové modely (GPT-3.5-Turbo, GPT-4, Z-Code++ a ďalšie).
  • Nový model strojového prekladu schopný prekladať z jedného jazyka do druhého bez prekladu do angličtiny ako sprostredkovateľ. Okrem toho sa dá prispôsobiť pomocou údajov o zákazníkoch, aby sa preklady lepšie prispôsobili kontextu odvetvia.
  • Rozpoznanie pomenovanej entity, preklad dokumentov a sumarizácia v kontajneroch umožní vládnym agentúram a priemyselným odvetviam, ako sú finančné služby a zdravotníctvo, s prísnymi požiadavkami na rezidenciu údajov prevádzkovať služby AI na vlastnej infraštruktúre.
  • Osobný hlas, nová vlastná funkcia neurónového hlasu, ktorá umožní podnikom vytvárať vlastné neurónové hlasy so 60 sekundovými zvukovými ukážkami pre svojich používateľov. Osobný hlas je funkcia obmedzeného prístupu
  • Avatar prevodu textu na reč, nová schopnosť prevodu textu na reč, ktorá vytvorí realistickú faksimile hovoriacej osoby na základe vstupného textu a obrazových údajov skutočne hovoriacej osoby. Vopred zostavený aj vlastný avatar sú teraz v ukážke, avšak vlastný avatar je funkcia s obmedzeným prístupom. 

Služba Azure AI Vision dostáva nasledujúce aktualizácie:

  • Funkčnosť živosti a Vision SDK: Funkcia živosti pomôže predchádzať útokom spoofingu pri rozpoznávaní tváre a je v súlade s normou ISO 30107-3 PAD Level 2. Vision SDK for Face umožní vývojárom jednoducho pridať rozpoznávanie tváre a živosť do mobilných aplikácií. Obe funkcie sú v ukážke. 
  • Analýza obrázkov 4.0: Toto rozhranie API predstavuje špičkové modely analýzy obrazu, ktoré zahŕňajú popisovanie obrázkov, OCR, detekciu objektov a ďalšie, všetko dostupné prostredníctvom jediného synchrónneho koncového bodu API. Je pozoruhodné, že vylepšený model OCR sa môže pochváliť vylepšenou presnosťou písaného aj ručne písaného textu v obrázkoch. Analýza obrazu 4.0 je všeobecne dostupný. 
  • Model nadácie Florence: Táto vylepšená funkcia, trénovaná s miliardami párov text-obrázok a integrovaná ako nákladovo efektívne služby počítačového videnia pripravené na výrobu v Azure AI Vision, umožňuje vývojárom vytvárať špičkové, na trh pripravené a zodpovedné aplikácie počítačového videnia v rôznych odvetviach. Model nadácie Florence je všeobecne dostupný.

Napokon, nové aktualizácie v službách Azure AI uľahčia proces získavania prehľadov z videí ako kedykoľvek predtým. Teraz môžete použiť Azure AI na získanie textového súhrnu obsahu videa. Teraz môžete tiež hľadať konkrétne témy, momenty alebo podrobnosti v rámci rozsiahlych videí s použitím prirodzeného jazyka. Podrobnosti nájdete nižšie.

  • Zhrnutie videa do textu: Používatelia budú môcť extrahovať podstatu video obsahu a vytvárať stručné a informatívne textové zhrnutia. Pokročilý algoritmus rozdeľuje videá do koherentných kapitol, pričom využíva vizuálne, zvukové a textové podnety na vytváranie sekcií, ktoré sa dajú ľahko umiestniť do okna s výzvou pre veľký jazykový model (LLM). Každá sekcia obsahuje základný obsah vrátane prepisov, zvukových udalostí a vizuálnych prvkov. To je ideálne na vytváranie videorekapitulácií, školiacich materiálov alebo zdieľanie vedomostí.
  • Efektívne vyhľadávanie videoobsahu: Používatelia budú môcť transformovať video obsah do vyhľadávateľného formátu pomocou LLM a poznatkov Video Indexer. Prevedením prehľadov videa na výzvy vhodné pre LLM sú hlavné najdôležitejšie body dostupné pre efektívne vyhľadávanie. Segmentácia scén, zvukové udalosti a vizuálne detaily ešte viac vylepšujú rozdelenie obsahu, čo používateľom umožňuje rýchlo nájsť konkrétne témy, momenty alebo detaily v rozsiahlych videách.

Viac o témach: Azure AI, microsoft, avatar prevodu textu na reč