Microsoft, metinden konuşmaya avatar da dahil olmak üzere Azure AI'daki birçok yeni özelliği duyurdu

3 dk. okuman

Yayınlandı 15 Kasım 2023

yayınlandı 15 Kasım 2023

Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz.

Azure AI hizmetleri, geliştiricilerin kullanıma hazır, önceden oluşturulmuş ve özelleştirilebilir API'ler ve modellerle AI uygulamaları oluşturmasına olanak tanır. Azure AI Hizmetleri; Görme hizmetini, Konuşma hizmetini, Çevirmen hizmetini ve daha fazlasını içerir. Microsoft bugün Ignite 2023'te Azure AI'daki metinden konuşmaya avatar, kişisel sinir sesi, yeni geliştirilmiş makine çevirisi modu ve daha fazlasını içeren birçok yeni özelliği duyurdu. Ayrıntıları aşağıda bulabilirsiniz.

A new görev optimizasyonu özetleme yeteneği Azure AI Dilinde, büyük dil modelleri (GPT-3.5-Turbo, GPT-4, Z-Code++ ve daha fazlası) tarafından desteklenmektedir.
A new makine çeviri modeli İngilizce aracı olarak çeviri yapmadan bir dilden diğerine çeviri yapabilme yeteneğine sahip. Ayrıca, çevirilerin sektörün bağlamına daha iyi uyum sağlaması için müşteri verileri kullanılarak özelleştirilebilir.
Adlandırılmış varlık tanımaKonteynerlerdeki belge çevirisi ve özetleme, finansal hizmetler ve sağlık hizmetleri gibi katı veri yerleşimi gerekliliklerine sahip devlet kurumlarının ve sektörlerinin yapay zeka hizmetlerini kendi altyapılarında çalıştırmasına olanak tanıyacak.
Kişisel sesİşletmelerin, kullanıcıları için 60 saniyelik ses örnekleriyle özel sinir sesleri oluşturmasına olanak tanıyan yeni bir özel sinir sesi özelliği. Kişisel ses sınırlı erişim özelliği.
Metinden konuşmaya avatar, konuşan gerçek bir kişinin giriş metnine ve video verilerine dayanarak konuşan bir kişinin gerçekçi bir kopyasını oluşturacak yeni bir metinden konuşmaya özelliği. Hem önceden oluşturulmuş hem de özel avatarlar artık önizlemededir, ancak özel avatar sınırlı erişim özelliğidir.

Azure AI Vision hizmeti aşağıdaki güncelleştirmeleri alıyor:

Canlılık işlevselliği ve Vizyon SDK'sı: Canlılık işlevselliği, yüz tanıma sahtekarlığı saldırılarını önlemeye yardımcı olacak ve ISO 30107-3 PAD Seviye 2 ile uyumlu olacaktır. Vision SDK for Face, geliştiricilerin mobil uygulamalara kolayca yüz tanıma ve canlılık eklemesine olanak tanıyacaktır. Her iki özellik de önizleme aşamasındadır.
Görüntü Analizi 4.0: Bu API, görüntü altyazısı, OCR, nesne algılama ve daha fazlasını kapsayan, hepsine tek, senkronize bir API uç noktası aracılığıyla erişilebilen son teknoloji Görüntü Analizi modellerini sunar. Özellikle, geliştirilmiş OCR modeli, görüntülerdeki hem daktiloyla hem de elle yazılan metinler için gelişmiş doğruluk sunar. Görüntü Analizi 4.0 genel olarak mevcuttur.
Floransa temel modeli: Milyarlarca metin görüntüsü çiftiyle eğitilen ve Azure AI Vision'da uygun maliyetli, üretime hazır bilgisayarlı görüntü hizmetleri olarak entegre edilen bu gelişmiş özellik, geliştiricilerin çeşitli sektörlerde son teknoloji, pazara hazır, sorumlu bilgisayarlı görüntü uygulamaları oluşturmasına olanak tanır. Floransa temel modeli genel olarak mevcuttur.

Son olarak Azure AI Hizmetlerindeki yeni güncellemeler, videolardan içgörü çıkarma sürecini her zamankinden daha kolay hale getirecek. Artık bir video içeriğinin metin özetini almak için Azure AI'yı kullanabilirsiniz. Ayrıca, şimdi arama yapabilirsiniz Doğal dil kullanılarak kapsamlı videolardaki belirli konular, anlar veya ayrıntılar. Ayrıntıları aşağıda bulabilirsiniz.

Videodan metne özet: Kullanıcılar video içeriğinin özünü çıkarabilecek ve kısa ve bilgilendirici metin özetleri oluşturabilecek. Gelişmiş algoritma, büyük dil modeli (LLM) bilgi istemi pencerelerine kolayca yerleştirilebilen bölümler oluşturmak için görsel, işitsel ve metin ipuçlarından yararlanarak videoları tutarlı bölümlere ayırır. Her bölüm, transkriptler, sesli etkinlikler ve görsel öğeler dahil olmak üzere temel içeriği içerir. Bu, video özetleri, eğitim materyalleri veya bilgi paylaşımı oluşturmak için idealdir.
Verimli Video İçeriği Arama: Kullanıcılar, LLM'leri ve Video Indexer'ın öngörülerini kullanarak video içeriğini aranabilir bir formata dönüştürebilecek. Video öngörülerini LLM dostu istemlere dönüştürerek, etkili arama için ana öne çıkanlara erişilebilir. Sahne segmentasyonu, ses olayları ve görsel ayrıntılar içerik bölümünü daha da geliştirerek kullanıcıların kapsamlı videolardaki belirli konuları, anları veya ayrıntıları hızlı bir şekilde bulmasına olanak tanır.

Konular hakkında daha fazla bilgi: Azure yapay zekası, microsoft, metinden konuşmaya avatar

Pradeep Viswav'ı

Yazılım ve Hizmet Uzmanı

Pradeep Bilgisayar Bilimi ve Mühendisliği mezunudur. Aynı zamanda Microsoft Öğrenci Ortağıydı. Şu anda önde gelen bir bilişim şirketinde çalışmaktadır.