Η Microsoft ανακοινώνει πολλές νέες δυνατότητες στο Azure AI, συμπεριλαμβανομένου του avatar μετατροπής κειμένου σε ομιλία

Εικονίδιο ώρας ανάγνωσης 3 λεπτό. ανάγνωση

Εικονίδιο ημερολογίου Δημοσιεύθηκε στις Νοέμβριος 15, 2023

Δημοσιεύθηκε στις Νοέμβριος 15, 2023

Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας.

Οι υπηρεσίες τεχνητής νοημοσύνης Azure επιτρέπουν στους προγραμματιστές να δημιουργούν εφαρμογές τεχνητής νοημοσύνης με εξαρχής και προκατασκευασμένα και προσαρμόσιμα API και μοντέλα. Οι υπηρεσίες Azure AI περιλαμβάνουν την υπηρεσία Vision, την υπηρεσία ομιλίας, την υπηρεσία μεταφραστή και άλλα. Στο Ignite 2023, η Microsoft ανακοίνωσε σήμερα αρκετές νέες δυνατότητες στο Azure AI, όπως avatar μετατροπής κειμένου σε ομιλία, προσωπική νευρική φωνή, νέα βελτιωμένη λειτουργία μηχανικής μετάφρασης και πολλά άλλα. Βρείτε τις λεπτομέρειες παρακάτω.

Μία νέα βελτιστοποίηση εργασιών ικανότητα σύνοψης σε Azure AI Language, που υποστηρίζεται από μοντέλα μεγάλων γλωσσών (GPT-3.5-Turbo, GPT-4, Z-Code++ και άλλα).
Μία νέα μοντέλο μηχανικής μετάφρασης μπορεί να μεταφράζει από τη μια γλώσσα στην άλλη χωρίς να μεταφράζει στα αγγλικά ως ενδιάμεσος. Επιπλέον, μπορεί να προσαρμοστεί χρησιμοποιώντας δεδομένα πελατών για την καλύτερη ευθυγράμμιση των μεταφράσεων στο πλαίσιο του κλάδου.
Αναγνωρισμένη οντότητα, η μετάφραση εγγράφων και η σύνοψη σε κοντέινερ θα επιτρέψουν σε κυβερνητικούς φορείς και βιομηχανίες, όπως οι χρηματοοικονομικές υπηρεσίες και η υγειονομική περίθαλψη, με αυστηρές απαιτήσεις διαμονής δεδομένων να εκτελούν υπηρεσίες τεχνητής νοημοσύνης στη δική τους υποδομή.
Προσωπική φωνή, μια νέα προσαρμοσμένη λειτουργία νευρωνικής φωνής που θα επιτρέπει στις επιχειρήσεις να δημιουργούν προσαρμοσμένες νευρικές φωνές με δείγματα ήχου 60 δευτερολέπτων για τους χρήστες τους. Η προσωπική φωνή είναι μια δυνατότητα περιορισμένης πρόσβασης.
Άβαταρ μετατροπής κειμένου σε ομιλία, μια νέα δυνατότητα μετατροπής κειμένου σε ομιλία που θα δημιουργήσει ένα ρεαλιστικό φαξ ενός ατόμου που μιλάει με βάση τα δεδομένα κειμένου και βίντεο ενός πραγματικού ατόμου που μιλάει. Τόσο τα προκατασκευασμένα όσο και τα προσαρμοσμένα avatar βρίσκονται τώρα σε προεπισκόπηση, ωστόσο, το προσαρμοσμένο avatar είναι μια δυνατότητα περιορισμένης πρόσβασης.

Η υπηρεσία Azure AI Vision λαμβάνει τις ακόλουθες ενημερώσεις:

Λειτουργικότητα Liveness και Vision SDK: Η λειτουργικότητα Liveness θα βοηθήσει στην αποτροπή επιθέσεων πλαστογράφησης αναγνώρισης προσώπου και συμμορφώνεται με το ISO 30107-3 PAD Επίπεδο 2. Το Vision SDK for Face θα επιτρέψει στους προγραμματιστές να προσθέτουν εύκολα αναγνώριση προσώπου και ζωντάνια σε εφαρμογές για κινητές συσκευές. Και τα δύο χαρακτηριστικά βρίσκονται σε προεπισκόπηση.
Ανάλυση εικόνας 4.0: Αυτό το API εισάγει μοντέλα ανάλυσης εικόνας αιχμής, που περιλαμβάνουν λεζάντες εικόνας, OCR, ανίχνευση αντικειμένων και άλλα, όλα προσβάσιμα μέσω ενός ενιαίου, σύγχρονου τερματικού API. Συγκεκριμένα, το βελτιωμένο μοντέλο OCR διαθέτει βελτιωμένη ακρίβεια τόσο για το δακτυλογραφημένο όσο και για το χειρόγραφο κείμενο σε εικόνες. Ανάλυση εικόνας 4.0 είναι γενικά διαθέσιμο.
Μοντέλο ιδρύματος της Φλωρεντίας: Εκπαιδευμένο με δισεκατομμύρια ζεύγη κειμένου-εικόνας και ενσωματωμένες ως οικονομικά αποδοτικές, έτοιμες για παραγωγή υπηρεσίες όρασης υπολογιστή στο Azure AI Vision, αυτή η βελτιωμένη δυνατότητα επιτρέπει στους προγραμματιστές να δημιουργούν προηγμένες, έτοιμες για την αγορά, υπεύθυνες εφαρμογές όρασης υπολογιστών σε διάφορους κλάδους. Μοντέλο ιδρύματος της Φλωρεντίας είναι γενικά διαθέσιμο.

Τέλος, οι νέες ενημερώσεις στο Azure AI Services θα κάνουν τη διαδικασία εξαγωγής πληροφοριών από βίντεο πιο εύκολη από ποτέ. Τώρα μπορείτε να χρησιμοποιήσετε το Azure AI για να λάβετε μια σύνοψη κειμένου ενός περιεχομένου βίντεο. Επίσης, μπορείτε να κάνετε αναζήτηση τώρα για συγκεκριμένα θέματα, στιγμές ή λεπτομέρειες σε εκτενή βίντεο που χρησιμοποιούν φυσική γλώσσα. Βρείτε τις λεπτομέρειες παρακάτω.

Σύνοψη βίντεο σε κείμενο: Οι χρήστες θα μπορούν να εξάγουν την ουσία του περιεχομένου βίντεο και να δημιουργούν συνοπτικές και ενημερωτικές περιλήψεις κειμένων. Ο προηγμένος αλγόριθμος τμηματοποιεί τα βίντεο σε συνεκτικά κεφάλαια, αξιοποιώντας οπτικές, ηχητικές και κειμενικές ενδείξεις για να δημιουργήσει ενότητες που προσαρμόζονται εύκολα σε μεγάλα γλωσσικά μοντέλα (LLM). Κάθε ενότητα περιέχει ουσιαστικό περιεχόμενο, συμπεριλαμβανομένων μεταγραφών, ηχητικών εκδηλώσεων και οπτικών στοιχείων. Αυτό είναι ιδανικό για τη δημιουργία ανακεφαλαιώσεων βίντεο, εκπαιδευτικού υλικού ή ανταλλαγής γνώσεων.
Αποτελεσματική αναζήτηση περιεχομένου βίντεο: Οι χρήστες θα μπορούν να μετατρέψουν το περιεχόμενο βίντεο σε μορφή με δυνατότητα αναζήτησης χρησιμοποιώντας τα LLM και τις πληροφορίες του Video Indexer. Με τη μετατροπή των πληροφοριών βίντεο σε μηνύματα φιλικά προς το LLM, τα κύρια σημεία είναι προσβάσιμα για αποτελεσματική αναζήτηση. Η τμηματοποίηση σκηνών, τα ηχητικά συμβάντα και οι οπτικές λεπτομέρειες ενισχύουν περαιτέρω τη διαίρεση περιεχομένου, επιτρέποντας στους χρήστες να εντοπίζουν γρήγορα συγκεκριμένα θέματα, στιγμές ή λεπτομέρειες σε εκτεταμένα βίντεο.

Περισσότερα για τα θέματα: Azure AI, microsoft, avatar μετατροπής κειμένου σε ομιλία

Pradeep Viswav

Ειδικός Λογισμικού και Υπηρεσιών

Ο Pradeep είναι Πτυχιούχος Επιστήμης Υπολογιστών και Μηχανικών Υπολογιστών. Ήταν επίσης φοιτητής της Microsoft. Αυτή τη στιγμή εργάζεται σε κορυφαία εταιρεία πληροφορικής.

Αφήστε μια απάντηση