Microsoft kündigt mehrere neue Funktionen in Azure AI an, darunter den Text-to-Speech-Avatar

3 Minute. lesen

Veröffentlicht am 15. November 2023

Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen.

Mit Azure AI Services können Entwickler KI-Anwendungen mit sofort einsatzbereiten und vorgefertigten und anpassbaren APIs und Modellen erstellen. Zu den Azure AI Services gehören der Vision-Dienst, der Speech-Dienst, der Übersetzer-Dienst und mehr. Auf der Ignite 2023 kündigte Microsoft heute mehrere neue Funktionen in Azure AI an, darunter Text-to-Speech-Avatar, persönliche neuronale Stimme, einen neuen verbesserten maschinellen Übersetzungsmodus und mehr. Die Details finden Sie weiter unten.

Neue Aufgabenoptimierung Zusammenfassungsfähigkeit in Azure AI Language, unterstützt durch große Sprachmodelle (GPT-3.5-Turbo, GPT-4, Z-Code++ und mehr).
Neue maschinelles Übersetzungsmodell in der Lage, von einer Sprache in eine andere zu übersetzen, ohne als Vermittler auf Englisch zu übersetzen. Darüber hinaus kann es anhand von Kundendaten angepasst werden, um Übersetzungen besser an den Branchenkontext anzupassen.
Erkennung benannter EntitätenDurch die Übersetzung und Zusammenfassung von Dokumenten in Containern können Regierungsbehörden und Branchen wie Finanzdienstleistungen und Gesundheitswesen mit strengen Anforderungen an die Datenresidenz KI-Dienste auf ihrer eigenen Infrastruktur ausführen.
Persönliche Stimme, eine neue benutzerdefinierte neuronale Sprachfunktion, die es Unternehmen ermöglicht, benutzerdefinierte neuronale Stimmen mit 60 Sekunden Audiobeispielen für ihre Benutzer zu erstellen. Persönliche Stimme ist eine eingeschränkte Zugriffsfunktion.
Text-zu-Sprache-Avatar, eine neue Text-to-Speech-Funktion, die ein realistisches Faksimile einer sprechenden Person basierend auf eingegebenen Text- und Videodaten einer real sprechenden Person generiert. Sowohl vorgefertigte als auch benutzerdefinierte Avatare befinden sich jetzt in der Vorschau. Bei benutzerdefinierten Avataren handelt es sich jedoch um eine Funktion mit eingeschränktem Zugriff.

Der Azure AI Vision-Dienst erhält die folgenden Updates:

Liveness-Funktionalität und Vision-SDK: Die Funktion „Liveness“ trägt dazu bei, Spoofing-Angriffe durch Gesichtserkennung zu verhindern und entspricht ISO 30107-3 PAD Level 2. Mit dem Vision SDK für Face können Entwickler problemlos Gesichtserkennung und Lebendigkeit in mobile Anwendungen integrieren. Beide Funktionen befinden sich in der Vorschau.
Bildanalyse 4.0: Diese API führt hochmoderne Bildanalysemodelle ein, die Bildunterschriften, OCR, Objekterkennung und mehr umfassen und alle über einen einzigen, synchronen API-Endpunkt zugänglich sind. Das verbesserte OCR-Modell bietet insbesondere eine verbesserte Genauigkeit sowohl für getippten als auch für handgeschriebenen Text in Bildern. Bildanalyse 4.0 ist allgemein verfügbar.
Gründungsmodell Florenz: Diese verbesserte Funktion wird mit Milliarden von Text-Bild-Paaren trainiert und als kostengünstige, produktionsbereite Computer-Vision-Dienste in Azure AI Vision integriert. Sie ermöglicht es Entwicklern, hochmoderne, marktreife und verantwortungsvolle Computer-Vision-Anwendungen für verschiedene Branchen zu erstellen. Gründungsmodell von Florenz ist allgemein verfügbar.

Schließlich werden die neuen Updates in Azure AI Services den Prozess der Gewinnung von Erkenntnissen aus Videos einfacher denn je machen. Sie können jetzt Azure AI verwenden, um eine Textzusammenfassung eines Videoinhalts abzurufen. Außerdem können Sie jetzt nach suchen spezifische Themen, Momente oder Details in umfangreichen Videos in natürlicher Sprache. Die Details finden Sie weiter unten.

Video-zu-Text-Zusammenfassung: Benutzer werden in der Lage sein, das Wesentliche aus Videoinhalten zu extrahieren und prägnante und informative Textzusammenfassungen zu erstellen. Der fortschrittliche Algorithmus segmentiert Videos in zusammenhängende Kapitel und nutzt visuelle, akustische und Texthinweise, um Abschnitte zu erstellen, die problemlos in Eingabeaufforderungsfenster des großen Sprachmodells (LLM) integriert werden können. Jeder Abschnitt enthält wesentliche Inhalte, einschließlich Transkripte, Audioereignisse und visuelle Elemente. Dies ist ideal für die Erstellung von Videorückblicken, Schulungsmaterialien oder den Wissensaustausch.
Effiziente Suche nach Videoinhalten: Mithilfe der Erkenntnisse von LLMs und Video Indexer können Benutzer Videoinhalte in ein durchsuchbares Format umwandeln. Durch die Umwandlung von Videoeinblicken in LLM-freundliche Eingabeaufforderungen sind die wichtigsten Highlights für eine effektive Suche zugänglich. Szenensegmentierung, Audioereignisse und visuelle Details verbessern die Inhaltsaufteilung weiter und ermöglichen es Benutzern, bestimmte Themen, Momente oder Details in umfangreichen Videos schnell zu finden.

Mehr zu den Themen: Azurblaue KI, Microsoft, Text-to-Speech-Avatar

Pradeep Viswav

Experte für Software und Services

Pradeep ist Absolvent der Informatik und Ingenieurwissenschaften. Er war außerdem Microsoft Student Partner. Derzeit arbeitet er in einem führenden IT-Unternehmen.