Microsoft anunță câteva funcții noi în Azure AI, inclusiv avatarul text-to-speech

Pictograma timp de citire 3 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

Microsoft Azure AI Voice

Serviciile Azure AI permit dezvoltatorilor să creeze aplicații AI cu API-uri și modele prefabricate și personalizabile. Serviciile Azure AI includ serviciul Vision, serviciul de vorbire, serviciul de traducător și multe altele. La Ignite 2023, Microsoft a anunțat astăzi câteva funcții noi în Azure AI, inclusiv avatarul text-to-speech, vocea neuronală personală, noul mod îmbunătățit de traducere automată și multe altele. Găsiți detaliile mai jos.

  • O nouă optimizarea sarcinilor capacitatea de rezumare în Azure AI Language, alimentat de modele de limbaj mari (GPT-3.5-Turbo, GPT-4, Z-Code++ și multe altele).
  • O nouă model de traducere automată capabil să traducă dintr-o limbă în alta fără a traduce în engleză ca intermediar. În plus, poate fi personalizat folosind datele clienților pentru a alinia mai bine traducerile la contextul industriei.
  • Recunoașterea entității denumite, traducerea documentelor și rezumarea în containere vor permite agențiilor și industriilor guvernamentale, cum ar fi serviciile financiare și asistența medicală, cu cerințe stricte de rezidență a datelor, să ruleze servicii AI pe propria infrastructură.
  • Vocea personală, o nouă funcție de voce neuronală personalizată care va permite companiilor să creeze voci neuronale personalizate cu 60 de secunde de mostre audio pentru utilizatorii lor. Vocea personală este o caracteristică de acces limitat
  • Avatar de text în vorbire, o nouă capacitate de transformare a textului în vorbire care va genera un facsimil realist al unei persoane care vorbește pe baza textului de intrare și a datelor video ale unei persoane reale care vorbește. Atât avatarurile preconstruite, cât și cele personalizate sunt acum în previzualizare, totuși, avatarul personalizat este o caracteristică cu acces limitat. 

Serviciul Azure AI Vision primește următoarele actualizări:

  • Funcționalitatea Liveness și Vision SDK: Funcționalitatea Liveness va ajuta la prevenirea atacurilor de falsificare a recunoașterii feței și este conformă cu ISO 30107-3 PAD Nivelul 2. Vision SDK pentru Face le va permite dezvoltatorilor să adauge cu ușurință recunoașterea feței și vivacitatea aplicațiilor mobile. Ambele caracteristici sunt în previzualizare. 
  • Analiza imaginii 4.0: Acest API introduce modele de analiză a imaginilor de ultimă oră, care cuprind subtitrărea imaginilor, OCR, detectarea obiectelor și multe altele, toate accesibile printr-un singur punct final API sincron. În special, modelul OCR îmbunătățit se mândrește cu o precizie îmbunătățită atât pentru textul dactilografiat, cât și pentru textul scris de mână din imagini. Analiza imaginii 4.0 este disponibil în general. 
  • Modelul fundației Florence: Antrenată cu miliarde de perechi text-imagine și integrată ca servicii de viziune computerizată rentabile și pregătite pentru producție în Azure AI Vision, această caracteristică îmbunătățită permite dezvoltatorilor să creeze aplicații de viziune computerizată de ultimă oră, pregătite pentru piață și responsabile în diverse industrii. Model de fundație Florence este disponibil în general.

În cele din urmă, noile actualizări din Azure AI Services vor face procesul de extragere a informațiilor din videoclipuri mai ușor ca niciodată. Acum puteți utiliza Azure AI pentru a obține un rezumat text al unui conținut video. De asemenea, puteți căuta acum să căutați subiecte, momente sau detalii specifice în videoclipuri extinse folosind limbaj natural. Găsiți detaliile mai jos.

  • Rezumat video în text: Utilizatorii vor putea extrage esența conținutului video și vor putea genera rezumate text concise și informative. Algoritmul avansat segmentează videoclipurile în capitole coerente, valorificând indicii vizuale, audio și text pentru a crea secțiuni care sunt ușor de acomodat în ferestrele de solicitare a modelului de limbă mare (LLM). Fiecare secțiune conține conținut esențial, inclusiv transcrieri, evenimente audio și elemente vizuale. Acest lucru este ideal pentru crearea de rezumate video, materiale de instruire sau schimb de cunoștințe.
  • Căutare eficientă de conținut video: Utilizatorii vor putea transforma conținutul video într-un format care poate fi căutat folosind LLM-uri și informațiile Video Indexer. Prin conversia informațiilor video în solicitări prietenoase cu LLM, principalele evidențieri sunt accesibile pentru o căutare eficientă. Segmentarea scenei, evenimentele audio și detaliile vizuale îmbunătățesc și mai mult diviziunea conținutului, permițând utilizatorilor să localizeze rapid subiecte, momente sau detalii specifice în videoclipuri extinse.

Mai multe despre subiecte: Azure AI, microsoft, avatar text-to-speech