微軟宣布 Azure AI 的多項新功能，包括文字轉語音頭像

閱讀時間圖標 3分鐘讀

日曆圖標發表於 2023 年 11 月 15 日

發表於 2023 年 11 月 15 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

Azure AI 服務讓開發人員可以使用開箱即用、預先建置和可自訂的 API 和模型來建立 AI 應用程式。 Azure AI服務包括視覺服務、語音服務、翻譯服務等。在 Ignite 2023 大會上，微軟今天宣布了 Azure AI 的多項新功能，包括文字轉語音頭像、個人神經語音、新改進的機器翻譯模式等。尋找下面的詳細資訊。

新 任務優化總結能力 Azure AI 語言，由大型語言模型（GPT-3.5-Turbo、GPT-4、Z-Code++ 等）提供支援。
新 機器翻譯模型 能夠從一種語言翻譯成另一種語言，而無需作為中介進行英語翻譯。此外，還可以使用客戶資料進行客製化，以更好地使翻譯與行業背景保持一致。
命名實體識別容器中的文件翻譯和摘要將允許具有嚴格資料駐留要求的政府機構和產業（例如金融服務和醫療保健）在自己的基礎設施上運行人工智慧服務。
個人聲音，一種新的自訂神經語音功能，使企業能夠為其用戶創建具有 60 秒音訊樣本的自訂神經語音。個人心聲是限制存取功能.
文字轉語音頭像，一種新的文字轉語音功能，將根據輸入的文字和真人說話的視訊資料產生真實的人說話傳真。預建頭像和自訂頭像現在都處於預覽狀態，但是自訂頭像是一項有限的存取功能。

Azure AI Vision 服務正在進行以下更新：

活躍度功能 和 視覺SDK： 活躍度功能將有助於防止人臉辨識欺騙攻擊，並符合 ISO 30107-3 PAD Level 2 標準。Vision SDK for Face 將使開發人員能夠輕鬆地將人臉辨識和活躍度新增至行動應用程式。這兩個功能均處於預覽狀態。
影像分析4.0： 該 API 引入了尖端的圖像分析模型，包括圖像字幕、OCR、物件檢測等，所有這些都可以透過單一同步 API 端點進行存取。值得注意的是，增強的 OCR 模型提高了圖像中鍵入和手寫文字的準確性。影像分析4.0 一般是可用的。
佛羅倫斯基金會模型： 這項改進的功能經過數十億個文字圖像對的訓練，並集成為Azure AI Vision 中經濟高效、可立即投入生產的電腦視覺服務，使開發人員能夠在各個行業創建尖端、面向市場、負責任的電腦視覺應用程式。佛羅倫斯基金會模型一般是可用的。

最後，Azure AI 服務的新更新將使從影片中提取見解的過程變得比以往更容易。現在可以使用 Azure AI 取得視訊內容的文字摘要。另外，您現在可以搜尋搜尋使用自然語言的大量影片中的特定主題、時刻或細節。尋找下面的詳細資訊。

影片轉文字摘要: 用戶將能夠提取影片內容的精髓，並產生簡潔且內容豐富的文字摘要。先進的演算法將影片分割成連貫的章節，利用視覺、音訊和文字提示來創建易於容納在大型語言模型 (LLM) 提示視窗中的部分。每個部分都包含重要內容，包括文字記錄、音訊事件和視覺元素。這非常適合創建影片回顧、培訓材料或知識共享。
高效率的影片內容搜尋： 用戶將能夠使用法學碩士和視訊索引器的見解將視訊內容轉換為可搜尋的格式。透過將視頻見解轉換為法學碩士友好的提示，可以訪問主要亮點以進行有效搜索。場景分割、音訊事件和視覺細節進一步增強了內容劃分，使用戶能夠在大量影片中快速定位特定主題、時刻或細節。

有關主題的更多資訊：蔚藍人工智能, 微軟, 文字轉語音頭像

普拉迪普·維斯瓦夫

軟體和服務專家

Pradeep 是電腦科學與工程專業的畢業生。他還是微軟的學生夥伴。他目前在一家領先的 IT 公司工作。

發表評論