Microsoft oznamuje několik nových funkcí v Azure AI včetně avatara převodu textu na řeč

3 min. číst

Publikované dne Listopadu 15, 2023

publikováno dne Listopadu 15, 2023

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

Služby Azure AI umožňují vývojářům vytvářet aplikace AI s předem připravenými a předpřipravenými a přizpůsobitelnými rozhraními API a modely. Služby Azure AI zahrnují službu Vision, službu řeči, službu překladatele a další. Na Ignite 2023 dnes Microsoft oznámil několik nových funkcí v Azure AI, včetně avatara pro převod textu na řeč, osobního neurálního hlasu, nového vylepšeného režimu strojového překladu a dalších. Podrobnosti naleznete níže.

Nový optimalizace úkolu schopnost sumarizace v jazyce Azure AI Language využívající velké jazykové modely (GPT-3.5-Turbo, GPT-4, Z-Code++ a další).
Nový model strojového překladu schopný překládat z jednoho jazyka do druhého bez překládání do angličtiny jako zprostředkovatel. Navíc jej lze přizpůsobit pomocí zákaznických dat, aby překlady lépe odpovídaly kontextu odvětví.
Rozpoznání pojmenované entity, překlad dokumentů a sumarizace v kontejnerech umožní vládním agenturám a průmyslovým odvětvím, jako jsou finanční služby a zdravotnictví, s přísnými požadavky na rezidenci dat provozovat služby AI na jejich vlastní infrastruktuře.
Osobní hlas, nová vlastní funkce neurálního hlasu, která podnikům umožní vytvářet vlastní neurální hlasy s 60 sekundami zvukových vzorků pro jejich uživatele. Osobní hlas je funkce omezeného přístupu.
Avatar převodu textu na řeč, nová schopnost převodu textu na řeč, která vytvoří realistické faksimile mluvící osoby na základě vstupního textu a obrazových dat skutečné mluvící osoby. Jak předpřipravený, tak vlastní avatar jsou nyní v náhledu, ale vlastní avatar má omezený přístup.

Služba Azure AI Vision získává následující aktualizace:

Funkčnost živosti a Vision SDK: Funkce živosti pomůže předcházet útokům falšování pomocí rozpoznávání obličeje a odpovídá normě ISO 30107-3 PAD Level 2. Vision SDK for Face umožní vývojářům snadno přidat rozpoznávání obličeje a živost do mobilních aplikací. Obě funkce jsou v náhledu.
Analýza obrazu 4.0: Toto rozhraní API představuje špičkové modely analýzy obrazu, které zahrnují popisování obrázků, OCR, detekci objektů a další, vše dostupné prostřednictvím jediného synchronního koncového bodu API. Je pozoruhodné, že vylepšený model OCR se může pochlubit vylepšenou přesností pro psaný i ručně psaný text v obrázcích. Analýza obrazu 4.0 je obecně dostupný.
Model nadace Florence: Tato vylepšená funkce, trénovaná s miliardami párů text-obrázek a integrovaná jako nákladově efektivní služby počítačového vidění připravené k produkci v Azure AI Vision, umožňuje vývojářům vytvářet špičkové, na trh připravené a odpovědné aplikace počítačového vidění v různých odvětvích. Model nadace Florence je obecně dostupný.

A konečně, nové aktualizace v Azure AI Services usnadní proces extrahování statistik z videí než kdy předtím. Nyní můžete pomocí Azure AI získat textový souhrn obsahu videa. Nyní můžete také hledat konkrétní témata, momenty nebo podrobnosti v rozsáhlých videích využívajících přirozený jazyk. Podrobnosti naleznete níže.

Shrnutí videa k textu: Uživatelé budou moci extrahovat podstatu obsahu videa a vytvářet stručné a informativní textové souhrny. Pokročilý algoritmus rozděluje videa do souvislých kapitol a využívá vizuální, zvukové a textové podněty k vytvoření sekcí, které lze snadno vložit do oken s příkazy velkých jazykových modelů (LLM). Každá sekce obsahuje základní obsah, včetně přepisů, zvukových událostí a vizuálních prvků. To je ideální pro vytváření video rekapitulací, školicích materiálů nebo sdílení znalostí.
Efektivní vyhledávání videoobsahu: Uživatelé budou moci transformovat video obsah do formátu s možností vyhledávání pomocí LLM a poznatků Video Indexer. Převedením náhledů videa na výzvy vhodné pro LLM jsou hlavní body dostupné pro efektivní vyhledávání. Segmentace scén, zvukové události a vizuální detaily dále vylepšují rozdělení obsahu a umožňují uživatelům rychle najít konkrétní témata, momenty nebo detaily v rozsáhlých videích.

Více o tématech: Azure AI, microsoft, avatar převodu textu na řeč

Pradeep Viswav

Expert na software a služby

Pradeep je absolventem informatiky a inženýrství. Byl také studentským partnerem společnosti Microsoft. V současné době pracuje v přední IT společnosti.