Microsoft annuncia diverse nuove funzionalità in Azure AI, incluso l'avatar con sintesi vocale

Icona del tempo di lettura 3 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Voce AI di Microsoft Azure

I servizi di intelligenza artificiale di Azure consentono agli sviluppatori di creare applicazioni di intelligenza artificiale con API e modelli pronti all'uso, predefiniti e personalizzabili. I servizi AI di Azure includono il servizio Vision, il servizio Voce, il servizio Traduttore e altro ancora. All'Ignite 2023, Microsoft ha annunciato oggi diverse nuove funzionalità di Azure AI, tra cui avatar di sintesi vocale, voce neurale personale, nuova modalità di traduzione automatica migliorata e altro ancora. Trovi i dettagli qui sotto.

  • Una nuova ottimizzazione dei compiti capacità di riepilogo in Azure AI Language, basato su modelli linguistici di grandi dimensioni (GPT-3.5-Turbo, GPT-4, Z-Code++ e altro).
  • Una nuova modello di traduzione automatica capace di tradurre da una lingua all'altra senza tradurre in inglese come intermediario. Inoltre, può essere personalizzato utilizzando i dati dei clienti per allineare meglio le traduzioni al contesto del settore.
  • Riconoscimento dell'entità denominata, la traduzione dei documenti e il riepilogo in contenitori consentiranno alle agenzie governative e alle industrie, come i servizi finanziari e l'assistenza sanitaria, con severi requisiti di residenza dei dati, di eseguire servizi di intelligenza artificiale sulla propria infrastruttura.
  • Voce personale, una nuova funzionalità vocale neurale personalizzata che consentirà alle aziende di creare voci neurali personalizzate con 60 secondi di campioni audio per i propri utenti. La voce personale lo è una funzionalità ad accesso limitato
  • Avatar con sintesi vocale, una nuova funzionalità di sintesi vocale che genererà un facsimile realistico di una persona che parla sulla base del testo immesso e dei dati video di una persona reale che parla. Sia gli avatar predefiniti che quelli personalizzati sono ora in anteprima, tuttavia, l'avatar personalizzato è una funzionalità ad accesso limitato. 

Il servizio Azure AI Vision riceverà i seguenti aggiornamenti:

  • Funzionalità di vivacità ed SDK di visione: La funzionalità Liveness aiuterà a prevenire attacchi di spoofing del riconoscimento facciale ed è conforme allo standard ISO 30107-3 PAD Livello 2. Vision SDK for Face consentirà agli sviluppatori di aggiungere facilmente il riconoscimento facciale e la vivacità alle applicazioni mobili. Entrambe le funzionalità sono in anteprima. 
  • Analisi delle immagini 4.0: Questa API introduce modelli di analisi delle immagini all'avanguardia, che comprendono didascalie delle immagini, OCR, rilevamento di oggetti e altro ancora, tutti accessibili tramite un unico endpoint API sincrono. In particolare, il modello OCR migliorato vanta una maggiore precisione sia per il testo digitato che per quello scritto a mano nelle immagini. Analisi delle immagini 4.0 è generalmente disponibile. 
  • Modello Fondazione Firenze: Addestrata con miliardi di coppie testo-immagine e integrata come servizi di visione artificiale convenienti e pronti per la produzione in Azure AI Vision, questa funzionalità migliorata consente agli sviluppatori di creare applicazioni di visione artificiale responsabili, all'avanguardia e pronte per il mercato in vari settori. Modello di fondazione di Firenze è generalmente disponibile.

Infine, i nuovi aggiornamenti di Azure AI Services renderanno il processo di estrazione di insight dai video più semplice che mai. Ora puoi usare Azure AI per ottenere un riepilogo testuale di un contenuto video. Inoltre, puoi cercare ora cerca argomenti, momenti o dettagli specifici all'interno di video estesi utilizzando il linguaggio naturale. Trovi i dettagli qui sotto.

  • Riepilogo da video a testo: Gli utenti saranno in grado di estrarre l'essenza dei contenuti video e generare riassunti testuali concisi e informativi. L'algoritmo avanzato segmenta i video in capitoli coerenti, sfruttando segnali visivi, audio e di testo per creare sezioni facilmente ospitabili in finestre di prompt LLM (Language Model) di grandi dimensioni. Ogni sezione contiene contenuti essenziali, comprese trascrizioni, eventi audio ed elementi visivi. Questo è l'ideale per creare riassunti video, materiali di formazione o condivisione di conoscenze.
  • Ricerca efficiente di contenuti video: Gli utenti saranno in grado di trasformare i contenuti video in un formato ricercabile utilizzando LLM e gli approfondimenti di Video Indexer. Convertendo gli approfondimenti video in suggerimenti compatibili con LLM, i punti salienti principali sono accessibili per una ricerca efficace. La segmentazione delle scene, gli eventi audio e i dettagli visivi migliorano ulteriormente la divisione dei contenuti, consentendo agli utenti di individuare rapidamente argomenti, momenti o dettagli specifici all'interno di video estesi.

Maggiori informazioni sugli argomenti: IA di Azure, microsoft, avatar di sintesi vocale