Microsoft oznamuje několik nových funkcí v Azure AI včetně avatara převodu textu na řeč

Ikona času čtení 3 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Microsoft Azure AI Voice

Služby Azure AI umožňují vývojářům vytvářet aplikace AI s předem připravenými a předpřipravenými a přizpůsobitelnými rozhraními API a modely. Služby Azure AI zahrnují službu Vision, službu řeči, službu překladatele a další. Na Ignite 2023 dnes Microsoft oznámil několik nových funkcí v Azure AI, včetně avatara pro převod textu na řeč, osobního neurálního hlasu, nového vylepšeného režimu strojového překladu a dalších. Podrobnosti naleznete níže.

  • Nový optimalizace úkolu schopnost sumarizace v jazyce Azure AI Language využívající velké jazykové modely (GPT-3.5-Turbo, GPT-4, Z-Code++ a další).
  • Nový model strojového překladu schopný překládat z jednoho jazyka do druhého bez překládání do angličtiny jako zprostředkovatel. Navíc jej lze přizpůsobit pomocí zákaznických dat, aby překlady lépe odpovídaly kontextu odvětví.
  • Rozpoznání pojmenované entity, překlad dokumentů a sumarizace v kontejnerech umožní vládním agenturám a průmyslovým odvětvím, jako jsou finanční služby a zdravotnictví, s přísnými požadavky na rezidenci dat provozovat služby AI na jejich vlastní infrastruktuře.
  • Osobní hlas, nová vlastní funkce neurálního hlasu, která podnikům umožní vytvářet vlastní neurální hlasy s 60 sekundami zvukových vzorků pro jejich uživatele. Osobní hlas je funkce omezeného přístupu
  • Avatar převodu textu na řeč, nová schopnost převodu textu na řeč, která vytvoří realistické faksimile mluvící osoby na základě vstupního textu a obrazových dat skutečné mluvící osoby. Jak předpřipravený, tak vlastní avatar jsou nyní v náhledu, ale vlastní avatar má omezený přístup. 

Služba Azure AI Vision získává následující aktualizace:

  • Funkčnost živosti  a  Vision SDK: Funkce živosti pomůže předcházet útokům falšování pomocí rozpoznávání obličeje a odpovídá normě ISO 30107-3 PAD Level 2. Vision SDK for Face umožní vývojářům snadno přidat rozpoznávání obličeje a živost do mobilních aplikací. Obě funkce jsou v náhledu. 
  • Analýza obrazu 4.0: Toto rozhraní API představuje špičkové modely analýzy obrazu, které zahrnují popisování obrázků, OCR, detekci objektů a další, vše dostupné prostřednictvím jediného synchronního koncového bodu API. Je pozoruhodné, že vylepšený model OCR se může pochlubit vylepšenou přesností pro psaný i ručně psaný text v obrázcích. Analýza obrazu 4.0 je obecně dostupný. 
  • Model nadace Florence: Tato vylepšená funkce, trénovaná s miliardami párů text-obrázek a integrovaná jako nákladově efektivní služby počítačového vidění připravené k produkci v Azure AI Vision, umožňuje vývojářům vytvářet špičkové, na trh připravené a odpovědné aplikace počítačového vidění v různých odvětvích. Model nadace Florence je obecně dostupný.

A konečně, nové aktualizace v Azure AI Services usnadní proces extrahování statistik z videí než kdy předtím. Nyní můžete pomocí Azure AI získat textový souhrn obsahu videa. Nyní můžete také hledat konkrétní témata, momenty nebo podrobnosti v rozsáhlých videích využívajících přirozený jazyk. Podrobnosti naleznete níže.

  • Shrnutí videa k textu: Uživatelé budou moci extrahovat podstatu obsahu videa a vytvářet stručné a informativní textové souhrny. Pokročilý algoritmus rozděluje videa do souvislých kapitol a využívá vizuální, zvukové a textové podněty k vytvoření sekcí, které lze snadno vložit do oken s příkazy velkých jazykových modelů (LLM). Každá sekce obsahuje základní obsah, včetně přepisů, zvukových událostí a vizuálních prvků. To je ideální pro vytváření video rekapitulací, školicích materiálů nebo sdílení znalostí.
  • Efektivní vyhledávání videoobsahu: Uživatelé budou moci transformovat video obsah do formátu s možností vyhledávání pomocí LLM a poznatků Video Indexer. Převedením náhledů videa na výzvy vhodné pro LLM jsou hlavní body dostupné pro efektivní vyhledávání. Segmentace scén, zvukové události a vizuální detaily dále vylepšují rozdělení obsahu a umožňují uživatelům rychle najít konkrétní témata, momenty nebo detaily v rozsáhlých videích.

Více o tématech: Azure AI, microsoft, avatar převodu textu na řeč